WO2014109321A1 - Transmission device, transmission method, receiving device, and receiving method - Google Patents

Transmission device, transmission method, receiving device, and receiving method Download PDF

Info

Publication number
WO2014109321A1
WO2014109321A1 PCT/JP2014/050092 JP2014050092W WO2014109321A1 WO 2014109321 A1 WO2014109321 A1 WO 2014109321A1 JP 2014050092 W JP2014050092 W JP 2014050092W WO 2014109321 A1 WO2014109321 A1 WO 2014109321A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
image data
eye image
data stream
Prior art date
Application number
PCT/JP2014/050092
Other languages
French (fr)
Japanese (ja)
Inventor
山岸 靖明
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2014109321A1 publication Critical patent/WO2014109321A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals

Definitions

  • the present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and in particular, according to a request from the reception side, transmits a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image.
  • the present invention relates to a transmitting device and the like.
  • FIG. 52 shows the relationship between the display position of the left and right images of an object (object) on the screen and the playback position of the stereoscopic image in stereoscopic image display using binocular parallax.
  • the right and left line of sight intersects in front of the screen surface.
  • the position is in front of the screen surface.
  • DPa represents a horizontal disparity vector related to the object A.
  • the right and left lines of sight intersect on the screen surface. It becomes on the surface.
  • the left image Lc is shifted to the left side and the right image Rc is shifted to the right side, the right and left lines of sight intersect at the back of the screen surface.
  • the playback position is behind the screen.
  • DPc represents a horizontal disparity vector related to the object C.
  • IPTV Internet Protocol Television
  • IPTV Internet Protocol Television
  • VoD Video on Demand
  • HTTP Hypertext Transfer Protocol
  • DASH Dynamic Adaptive Streaming Over HTTP
  • MPD Media Presentation Description
  • url address of chunked media data described therein.
  • the media data in this case is media data such as audio (Audio) / video (Video) / subtitle (Subtitle).
  • a viewer in stereoscopic image display, a viewer usually perceives the perspective of a stereoscopic image using binocular parallax.
  • Superimposition information superimposed on an image such as subtitles
  • subtitles when subtitles are superimposed (overlaid) on an image, viewers may feel a sense of inconsistency in perspective unless they are displayed in front of the closest object (object) in the perspective. .
  • the parallax information is meaningful information in the receiving apparatus that can display a stereoscopic image.
  • this disparity information is unnecessary. In this 2D-compatible receiving apparatus, it is necessary to take some measures so that transmission of the parallax information does not hinder normal reception processing.
  • TTML Timed Text Markup Language
  • the disparity information storage method applied to the 3D subtitle is not defined. This is a problem when TTML is applied to DASH-based IPTV streaming.
  • the purpose of the present technology is to enable a legacy 2D-compatible receiving apparatus to obtain superimposition information data satisfactorily.
  • an object of the present technology is to enable a 3D-compatible receiving apparatus to efficiently and accurately acquire parallax information corresponding to superimposition information data.
  • An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image
  • a superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data
  • a parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
  • a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information
  • a data transmission unit for transmitting the private data stream.
  • the image data output unit outputs left eye image data and right eye image data constituting a stereoscopic image.
  • the superimposition information data output unit outputs the superimposition information data to be superimposed on the image based on the left eye image data and the right eye image data.
  • the superimposition information is information such as subtitles, graphics, and text superimposed on the image.
  • the disparity information output unit outputs disparity information for giving disparity by shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data.
  • the data transmission unit transmits a video data stream including image data, and includes a first private data stream including superimposition information data, or superimposition information data and disparity information A second private data stream is transmitted.
  • the data transmission unit may have a distribution server and distribute each data stream to the receiving side through the network.
  • a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream, and a metafile transmission that transmits the metafile to the receiver via the network in response to a request from the receiver
  • each data stream may be an MPEG-DASH based data stream
  • the metafile may be an MPD file
  • the network may be a CDN.
  • the first identification information is added to the first metafile corresponding to the first private data stream, and the first identification is added to the second metafile corresponding to the second private data stream.
  • Second identification information different from the information may be added.
  • the first identification information corresponding to the first private data stream and the second identification information corresponding to the second private data stream may have a unique relationship.
  • the first metafile is further added with first type information indicating the first type
  • the second metafile has a second type different from the first type.
  • the second type information indicating that the information is present may be further added.
  • first language information indicating a predetermined language is further added to the first metafile
  • second language information indicating a non-language is further added to the second metafile. May be.
  • the first private data stream or the second private data stream is transmitted in response to a request from the receiving side. Therefore, the legacy 2D-compatible receiving device on the receiving side can obtain only the superimposition information data by sending the first private data stream. In addition, the 3D-compatible receiving device can efficiently and accurately acquire the parallax information corresponding to the superimposition information data by having the second private data stream sent.
  • a request is made to the transmission side, and a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, and superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data are transmitted.
  • a second private data stream including parallax information for shifting the superimposition information to be superposed on the first private data stream or the superimposition information data and the left eye image data and the right eye image data to add the parallax.
  • a data receiver for receiving the private data stream; A first decoding unit for decoding the video stream; And a second decoding unit that decodes the first private data stream or the second private data stream.
  • a request to the transmission side is made by the data receiving unit, and the video data stream is received, and the first private data stream or the second private data stream is received.
  • the video data stream includes left eye image data and right eye image data constituting a stereoscopic image.
  • the first private data stream includes superimposition information data to be superimposed on an image based on left-eye image data and right-eye image data.
  • the second private data stream includes disparity information for shifting the superimposition information to give parallax.
  • the data receiving unit may receive each data stream from the distribution server on the transmission side through the network.
  • a metafile receiving unit that receives a metafile having information for acquiring each data stream is further provided, and the data receiving unit makes a request to the transmitting side based on the metafile. Good.
  • each data stream may be an MPEG-DASH-based data stream
  • the metafile may be an MPD file
  • the network may be a CDN.
  • the video data stream is decoded by the first decoding unit. Further, the first private data stream or the second private data stream is decoded by the second decoding unit.
  • the data receiving unit receives the first private data stream
  • data of superimposition information is acquired.
  • the data reception unit receives the second private data stream
  • the superimposition information data and the disparity information are acquired.
  • the legacy 2D-compatible receiving device on the receiving side can obtain only the superimposition information data by sending the first private data stream.
  • the 3D-compatible receiving device can efficiently and accurately acquire the parallax information corresponding to the superimposition information data by having the second private data stream sent.
  • An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image
  • a superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data
  • a parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax
  • the video data stream including the image data is transmitted, and a data transmission unit that transmits the data of the superimposition information and the private data stream including the disparity information,
  • the first identification information is added to the data of the superimposition information
  • the second identification information different from the first identification information is added to the parallax information.
  • the image data output unit outputs left eye image data and right eye image data constituting a stereoscopic image.
  • the superimposition information data output unit outputs the superimposition information data to be superimposed on the image based on the left eye image data and the right eye image data.
  • the superimposition information is information such as subtitles, graphics, and text superimposed on the image.
  • the disparity information output unit outputs disparity information for giving disparity by shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data.
  • the data transmission unit transmits a video data stream including image data and a private data stream including superimposition information data and disparity information in response to a request from the reception side.
  • the first identification information is added to the superimposition information data
  • the second identification information different from the first identification information is added to the parallax information.
  • the data transmission unit may have a distribution server and distribute each data stream to the receiving side through the network.
  • a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream, and a metafile transmission that transmits the metafile to the receiver via the network in response to a request from the receiver And a unit.
  • the private data stream includes the superimposition information data and the disparity information, and identification information is added to them. Therefore, in the legacy 2D-compatible receiving device on the receiving side, it is possible to skip parallax information based on the identification information and obtain only the superimposition information data satisfactorily. That is, it is possible to prevent the transmission of disparity information from interfering with the reception process of the legacy 2D-compatible receiving device. In addition, the 3D-compatible receiving apparatus can efficiently and appropriately acquire the parallax information corresponding to the superimposition information data from the private data stream.
  • a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data, and A data receiving unit that receives a private data stream including disparity information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data;
  • a first decoding unit for decoding the video data stream;
  • a second decoding unit for decoding the private data stream, In the private data stream, first identification information is added to the superimposition information data, and second identification information different from the first identification information is added to the parallax information,
  • the second decoding unit acquires the superimposition information data or the superimposition information data and the disparity information from the private data stream based on the first identification information and the second identification information.
  • a request to the transmission side is made by the data receiving unit, and a video data stream and a private data stream are received.
  • the video data stream includes left eye image data and right eye image data constituting a stereoscopic image.
  • the private data stream is given parallax by shifting the superimposition information data superimposed on the image based on the left eye image data and the right eye image data and the superimposition information superimposed on the image based on the left eye image data and the right eye image data. Parallax information is included.
  • the data receiving unit further includes a metafile receiving unit that receives each data stream from the distribution server of the transmission side through the network and receives a metafile having information for acquiring each data stream, and receives the data
  • the unit may make a request to the transmission side based on the metafile.
  • the video data stream is decoded by the first decoding unit.
  • the private data stream is decoded by the second decoding unit.
  • the first identification information is added to the superimposition information data
  • the second identification information different from the first identification information is added to the parallax information.
  • the superimposition information data, or the superimposition information data and the disparity information are acquired from the private data stream based on the identification information.
  • the private data stream includes the superimposition information data and the disparity information, and identification information is added to them. Therefore, in the legacy 2D-compatible receiving device on the receiving side, it is possible to skip parallax information based on the identification information and obtain only the superimposition information data satisfactorily. That is, it is possible to prevent the transmission of disparity information from interfering with the reception process of the legacy 2D-compatible receiving device. In addition, the 3D-compatible receiving apparatus can efficiently and appropriately acquire the parallax information corresponding to the superimposition information data from the private data stream.
  • a legacy 2D-compatible receiving apparatus can acquire superimposition information data satisfactorily, and a 3D-compatible receiving apparatus efficiently and accurately acquires the parallax information corresponding to the superimposition information data. Can do.
  • FIG. 10 is a diagram illustrating an example of updating disparity information using an interval period (Interval period), in which the interval period is fixed and the period is equal to the update period.
  • Interval period an interval period
  • FIG. 10 is a diagram illustrating an example of updating disparity information using an interval period (Interval ⁇ period) and illustrating an example of updating disparity information when the interval period is a short period. It is a figure which shows the structural example of a subtitle data stream. It is a figure which shows the example of an update of parallax information in the case of transmitting a TTML-DSS segment sequentially. It is a figure which shows the example of an update of the disparity information (disparity) represented by the multiple of the interval period (ID: Interval
  • ID Interval
  • FIG. 6 is a diagram illustrating an example of a parallax information curve of a page. It is a figure which shows what kind of structure the parallax information of a page and each region is sent. It is a figure which shows an example of the TTML-DSS document corresponding to the data structure of the parallax information of a page and each region.
  • stereoscopic image display using binocular parallax it is a figure for demonstrating the relationship between the display position of the left-right image of the object on a screen, and the reproduction
  • FIG. 1 shows a configuration example of a stream distribution system 10 as an embodiment.
  • the stream distribution system 10 is an MPEG-DASH based stream distribution system.
  • N IPTV clients 13-1, 13-2,..., 13 -N are connected to a DASH segment streamer 11 and a DASH MPD server 12 via a CDN (Content Delivery Network) 14.
  • CDN Content Delivery Network
  • the DASH segment streamer 11 generates a DASH specification stream segment (hereinafter referred to as “DASH segment”) based on media data (video data, audio data, caption data, etc.) of predetermined content, and HTTP from the IPTV client. Send segments on demand.
  • DASH segment streamer 11 is a web server.
  • the DASH segment streamer 11 generates a DASH segment of the video data stream based on the left eye image data and the right eye image data constituting the stereoscopic image.
  • the DASH segment streamer 11 generates a DASH segment of a video data stream having a plurality of rates as a DASH segment of the video data stream.
  • the DASH segment streamer 11 responds to a request for a segment of a predetermined stream sent from the IPTV client 13 (13-1, 13-2,..., 13-N) via the CDN 14, and the stream is streamed. Are sent to the requesting IPTV client 13 via the CDN 14.
  • the IPTV client 13 refers to the rate value described in the MPD (Media Presentation Description) file, and selects the stream with the optimum rate according to the state of the network environment where the client is placed. Make a request.
  • the DASH MPD server 12 is a server that generates an MPD file for acquiring a DASH segment generated in the DASH segment streamer 11.
  • the MPD file is generated based on the content metadata from the content management server (not shown in FIG. 1) and the segment address (url) generated in the DASH segment streamer 11.
  • each attribute is described using an element called “Representation” for each stream such as video and audio.
  • representations are described by dividing the representation.
  • the IPTV client 13 can select an optimum stream according to the state of the network environment where the IPTV client 13 is located as described above with reference to the rate value.
  • MPD file has a hierarchical structure as shown in FIG.
  • information such as the compression method, encoding speed, image size, and language of the moving image stored in the DASH segment streamer 11 is hierarchically described in the XML format.
  • This MPD file has a structure such as period, adaptation set, representation, segment info (SegmentInfo), initialization segment (Initialization Segment), and media segment (Media Segment). It is included hierarchically.
  • the structure of the period has information on the program (a set of synchronized video and audio data). Further, the adaptation set structure included in the period structure groups the stream selection range (representation group). In addition, the representation structure included in the adaptation set structure has information such as the encoding speed of the moving image and audio, and the audio size of the moving image.
  • the segment info structure included in the representation structure has information related to video and audio segments.
  • the initialization segment structure included in the segment info structure has initialization information such as a data compression method.
  • the media segment structure included in the segment info structure has information such as an address for acquiring a moving image or audio segment.
  • FIG. 3 shows an example of each structure included in the MPD file described above side by side on the time axis.
  • the MPD file includes two periods, and each period includes two segments.
  • each period includes two adaptation sets, and each adaptation set includes two representations related to streams of the same content with different stream attributes.
  • FIG. 4 shows an example of the relationship between the structures arranged hierarchically in the MPD file described above.
  • a media presentation Media Presentation
  • a media presentation includes a plurality of periods (Periods) separated by time intervals. For example, the first period starts from 0 seconds, the next period starts from 100 seconds, and so on.
  • the plurality of representations include a group of representations related to video data streams having the same content with different stream attributes, for example, rates, grouped by the above-described adaptation set (AdaptationSet).
  • AdaptationSet adaptation set
  • the representation includes segment info (SegmentInfo).
  • SegmentInfo As shown in FIG. 4D, the initialization segment (Initialization ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ Segment) and a plurality of media segments (Media) in which information for each segment (Segment) in which the period is further divided are described. Segment) exists. In the media segment, there is information on an address (url) for actually acquiring segment data such as video and audio.
  • stream switching can be freely performed between a plurality of representations grouped in the adaptation set. This makes it possible to select an optimal rate stream according to the state of the network environment where the IPTV client is placed, and to enable continuous video distribution.
  • FIG. 5 shows an example of the relationship between a period, a representation, and a segment.
  • the MPD file includes two periods, and each period includes two segments.
  • each period includes a plurality of representations related to the same media content.
  • FIG. 6 shows an example of a flow from generation of content to a DASH segment or DASH MPD file.
  • Content is sent from the content management server 15 to the DASH segment streamer 11.
  • the DASH segment streamer 11 generates a DASH segment for each data stream based on video data, audio data, and the like that constitute the content.
  • the DASH segment streamer 11 sends the DASH segment address (url) information of the generated data stream to the DASH MPD server 12.
  • the content management server 15 sends the metadata of the content to the DASH MPD server 12.
  • the DASH MPD server 12 generates a DASH MPD file based on the address information of the DASH segment of each data stream and the content metadata.
  • FIG. 7 shows a configuration example of the IPTV client 13 (13-1 to 13-N).
  • the IPTV client 13 includes a streaming data control unit 131, an HTTP access unit 132, and a moving image playback unit 133.
  • the streaming data control unit 131 acquires an MPD file from the DASH MPD server 12 and analyzes the content.
  • the HTTP access unit 132 requests the DASH segment streamer 11 for a moving image or audio segment used for moving image reproduction.
  • a stream having the optimum image size and encoding speed is selected. For example, in a first stage, a segment of a stream having a low encoding rate (rate) is requested, and when a communication condition is good, a segment of a stream having a high encoding rate (rate) is requested.
  • the HTTP access unit 132 sends the received video or audio segment to the video playback unit 133.
  • the moving image reproduction unit 133 performs decoding processing on each segment sent from the HTTP access unit 132 to obtain one moving image content, and reproduces the moving image and the sound.
  • the processing of each unit of the IPTV client 13 is performed by software, for example.
  • FIG. 8 shows a general DASH-based stream distribution system. Both the DASH MPD file and the DASH segment are distributed via a CDN (Content Delivery Network) 14.
  • the CDN 14 has a configuration in which a plurality of cache servers (DASH cache servers) are arranged in a network.
  • the cache server receives an HTTP request for acquiring an MPD file from the IPTV client 13. If the cache server is in the local MPD cache, it returns an HTTP response to the IPTV client 13. If the cache server is not in the local MPD cache, the cache server transfers the request to the DASHSMPD server 12 or a higher-level cache server. The cache server receives the HTTP response in which the MPD file is stored, transfers the HTTP response to the IPTV client 13, and performs a cache process.
  • the cache server receives an HTTP request for acquiring a DASH segment from the IPTV client 13. If the cache server is in the local segment cache, it returns it to the IPTV client 13 as an HTTP response. If the cache server is not in the local segment cache, the request is transferred to the DASH segment streamer 11 or a higher-level cache server. The cache server receives the HTTP response in which the DASH segment is stored, transfers the HTTP response to the IPTV client 13, and performs cache processing.
  • the DASH segment delivered to the IPTV client 13-1 that originally issued the HTTP request is temporarily cached in the path cache server, and the subsequent HTTP request from the other IPTV client 13-2 is received. Is delivered its cached DASH segment. Therefore, it is possible to improve the delivery efficiency of HTTP streaming for the majority of IPTV clients.
  • the CDN 14 has a predetermined number of cache management servers in addition to a plurality of cache servers.
  • the cache management server creates a cache control policy based on an index relating to the cache of the DASH segment of each video data stream included in the MPD file, and distributes the cache control policy to each cache server.
  • Each cache server performs caching processing of the DASH segment of each video data stream based on this cache control policy.
  • FIG. 9 shows the stream distribution system 10 shown in FIG. 1 in another form.
  • the stream distribution system 10 includes a broadcasting station 100, a set top box (STB) 200, and a television receiver (TV) 300.
  • the broadcasting station 100 includes a DASH segment streamer 11 and a DASH server 12 in the stream distribution system 10 of FIG.
  • the set top box 200 and the television receiver 300 constitute the IPTV client 13 (13-1 to 13-N) in the stream distribution system 10 of FIG.
  • the set top box 200 and the television receiver 300 are connected by a digital interface, for example, HDMI (High Definition Multimedia Interface).
  • the set top box 200 and the television receiver 300 are connected using an HDMI cable 400.
  • the set top box 200 is provided with an HDMI terminal 202.
  • the television receiver 300 is provided with an HDMI terminal 302.
  • One end of the HDMI cable 400 is connected to the HDMI terminal 202 of the set top box 200, and the other end of the HDMI cable 400 is connected to the HDMI terminal 302 of the television receiver 300.
  • the broadcasting station 100 transmits the Fragmented MP4 stream to the set top box STB 200 via a CDN (Content Delivery Network) 14 (see FIG. 1).
  • the broadcast station 100 includes a transmission data generation unit 110 that generates a Fragmented MP4 stream.
  • This Fragmented MP4 stream includes image data, audio data, superimposition information data, disparity information, and the like.
  • the image data is stereoscopic image data of a predetermined transmission method including left eye image data and right eye image data constituting a stereoscopic image.
  • the stereoscopic image data has a predetermined transmission format.
  • the superimposition information is generally subtitles, graphics information, text information, etc., but in this embodiment is a subtitle (caption).
  • FIG. 10 shows a configuration example of the transmission data generation unit 110 in the broadcast station 100.
  • the transmission data generation unit 110 transmits disparity information (disparity vector) with a data structure that can be easily linked to the DVB (Digital Video Broadcasting) method, which is one of existing broadcasting standards.
  • the transmission data generation unit 110 includes a data extraction unit 111, a video encoder 112, and an audio encoder 113. Further, the transmission data generation unit 110 includes a subtitle generation unit 114, a disparity information creation unit 115, a subtitle processing unit 116, a subtitle encoder 118, and a multiplexer 119.
  • a data recording medium 111a is detachably attached to the data extraction unit 111, for example.
  • audio data and parallax information are recorded in association with left-eye image data and right-eye image data constituting a stereoscopic image.
  • the data extraction unit 111 extracts and outputs image data, audio data, parallax information, and the like from the data recording medium 111a.
  • the data recording medium 111a is a disk-shaped recording medium, a semiconductor memory, or the like.
  • the left eye image data and right eye image data extracted from the data extraction unit 111 are transmitted as stereoscopic image data (3D image data) of a predetermined transmission method.
  • stereoscopic image data 3D image data
  • An example of a transmission method of stereoscopic image data will be described. Here, the following first to third transmission methods are listed, but other transmission methods may be used.
  • the image data of the left eye (L) and the right eye (R) is image data of a predetermined resolution, for example, 1920 * 1080 pixel format. Let's take an example.
  • the first transmission method is a top-and-bottom (Top & Bottom) method.
  • the data of each line of the left eye image data is transmitted, and the vertical direction
  • the latter half of the system is a method for transmitting data of each line of right eye image data.
  • the vertical resolution is halved with respect to the original signal.
  • the second transmission method is a side-by-side (Side By Side) method.
  • pixel data of the left eye image data is transmitted, and in the second half in the horizontal direction.
  • the pixel data of the right eye image data is transmitted.
  • the pixel data in the horizontal direction is thinned out to 1/2.
  • the horizontal resolution is halved with respect to the original signal.
  • the third transmission method is a frame-sequential method or an L / R-no interleaving method, as shown in FIG. 12 (c).
  • eye image data is sequentially switched for each frame and transmitted.
  • This method includes a full frame method or a service compatible method for a conventional 2D format.
  • the disparity information recorded in the data recording medium 111a is, for example, a disparity vector for each pixel (pixel) constituting the image.
  • a detection example of a disparity vector will be described.
  • the parallax vector of the right eye image with respect to the left eye image will be described.
  • the left eye image is a detection image
  • the right eye image is a reference image.
  • the disparity vectors at the positions (xi, yi) and (xj, yj) are detected.
  • a case where a disparity vector at the position of (xi, yi) is detected will be described as an example.
  • a 4 * 4, 8 * 8, or 16 * 16 pixel block (parallax detection block) Bi is set in the left eye image with the pixel at the position (xi, yi) at the upper left. Then, a pixel block matching the pixel block Bi is searched in the right eye image.
  • a search range centered on the position of (xi, yi) is set in the right eye image, and each pixel in the search range is sequentially set as a pixel of interest, for example, 4 * 4, similar to the pixel block Bi described above , 8 * 8 or 16 * 16 comparison blocks are sequentially set.
  • the sum of the absolute differences for each corresponding pixel is obtained.
  • the pixel block Bi when the pixel value of the pixel block Bi is L (x, y) and the pixel value of the comparison block is R (x, y), the pixel block Bi, a certain comparison block, The sum of absolute differences between the two is represented by ⁇
  • the disparity vector at the position (xi, yi) is detected as (xi′ ⁇ xi, yi′ ⁇ yi).
  • the left eye image has the pixel at the position (xj, yj) at the upper left, for example, 4 * 4, 8 * 8, or 16 *.
  • Sixteen pixel blocks Bj are set and detected in the same process.
  • the video encoder 112 converts the left eye image data and right eye image data extracted from the data extraction unit 111 into stereoscopic image data of a predetermined transmission method. Then, the video encoder 112 performs encoding such as MPEG4-AVC, MPEG2, or VC-1 on the stereoscopic image data to generate a video data stream (video elementary stream).
  • the audio encoder 113 performs encoding such as AC3 or AAC on the audio data extracted from the data extraction unit 111 to generate an audio data stream (audio elementary stream).
  • the subtitle generation unit 114 generates subtitle data that is DVB (Digital Video Broadcasting) subtitle data. This subtitle data is subtitle data for a two-dimensional image.
  • the subtitle generation unit 114 constitutes a superimposition information data output unit.
  • the disparity information creating unit 115 performs a downsizing process on the disparity vector (horizontal disparity vector) for each pixel (pixel) extracted from the data extracting unit 111 or for a plurality of pixels. As shown, disparity information for each layer is generated.
  • the disparity information does not necessarily have to be generated by the disparity information creating unit 115, and a configuration in which the disparity information is supplied separately from the outside is also possible.
  • FIG. 15 shows an example of data in the relative depth direction given as the luminance value of each pixel (pixel).
  • the data in the relative depth direction can be handled as a disparity vector for each pixel by a predetermined conversion.
  • the luminance value of the person portion is high. This means that the value of the parallax vector of the person portion is large, and therefore, in stereoscopic image display, this means that the person portion is perceived as being raised.
  • the luminance value of the background portion is low. This means that the value of the parallax vector in the background portion is small, and therefore, in stereoscopic image display, this means that the background portion is perceived as a sunken state.
  • FIG. 16 shows an example of a disparity vector for each block.
  • the block corresponds to an upper layer of pixels (picture elements) located at the lowermost layer.
  • This block is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction.
  • the disparity vector of each block is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all pixels (pixels) existing in the block.
  • the disparity vector of each block is indicated by an arrow, and the length of the arrow corresponds to the magnitude of the disparity vector.
  • FIG. 17 shows an example of the downsizing process performed by the parallax information creating unit 115.
  • the disparity information creating unit 115 obtains a signed disparity vector for each block using the disparity vector for each pixel (pixel).
  • a block corresponds to an upper layer of pixels located at the lowest layer, and is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction.
  • the disparity vector of each block for example, the disparity vector having the smallest negative value or the smallest absolute value is selected from the disparity vectors of all the pixels (pixels) present in the block. It is obtained by.
  • the disparity information creating unit 115 obtains a disparity vector for each group (Group Of Block) using the disparity vector for each block, as shown in FIG. A group is an upper layer of a block, and is obtained by grouping a plurality of adjacent blocks together.
  • each group is composed of four blocks bounded by a broken line frame.
  • the disparity vector of each group is obtained, for example, by selecting the disparity vector having the smallest value or the negative value having the largest absolute value from the disparity vectors of all the blocks in the group.
  • the disparity information creating unit 115 obtains a disparity vector for each partition (Partition) using the disparity vector for each group as shown in FIG.
  • the partition is an upper layer of the group and is obtained by grouping a plurality of adjacent groups together.
  • each partition is configured by two groups bounded by a broken line frame.
  • the disparity vector of each partition is obtained, for example, by selecting the disparity vector having the smallest negative value or the smallest absolute value from the disparity vectors of all the groups in the partition.
  • the disparity information creating unit 115 obtains a disparity vector of the entire picture (entire image) located in the highest layer using the disparity vector for each partition, as shown in FIG.
  • the entire picture includes four partitions that are bounded by a broken line frame.
  • the disparity vector for the entire picture is obtained, for example, by selecting the disparity vector having the smallest negative value or the smallest absolute value from the disparity vectors of all partitions included in the entire picture.
  • the disparity information creating unit 115 performs the downsizing process on the disparity vector for each pixel (pixel) located in the lowest layer, and the disparity vectors of the respective regions in each layer of the block, group, partition, and entire picture Can be requested.
  • the downsizing process shown in FIG. 17 finally, in addition to the pixel (pixel) layer, four layers of disparity vectors of blocks, groups, partitions, and pictures are obtained.
  • the number of hierarchies, how to cut areas in each hierarchy, and the number of areas are not limited to this.
  • the subtitle processing unit 116 can define the region of the subregion in the region based on the subtitle data generated by the subtitle generating unit 114. Further, the subtitle processing unit 116 sets parallax information for shift adjustment of the display position of the superimposition information in the left eye image and the right eye image based on the parallax information created by the parallax information creating unit 115. This disparity information can be set for each subregion or region, or for each page.
  • FIG. 18 (a) shows an example of a region defined on the screen and subregions defined in this region in the subtitle data.
  • two sub-regions “SubRegion 1” and “SubRegion 2” are defined in region 0 (Region 0) where “Region_Starting Position” is R0.
  • the horizontal position (Horizontal Position) x of “SubRegion 1” is SR1
  • the horizontal position (Horizontal Position) x of “SubRegion 2” is SR2.
  • the disparity information “disparity 1” is set for the subregion “SubRegion 1”
  • the disparity information “disparity 2” is set for the subregion “SubRegion 2”.
  • FIG. 18B shows a shift adjustment example in the sub-region region in the left eye image based on the parallax information.
  • Disparity information “disparity 1” is set for the subregion “SubRegion 1”. Therefore, for the subregion “SubRegionReg1”, shift adjustment is performed so that the horizontal position (HorizontalxPosition) x becomes SR1 ⁇ disparity 1.
  • disparity information “disparity 2” is set for the subregion “SubRegion 2”. Therefore, with respect to the subregion “SubRegion 2”, the shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR2-disparity 2.
  • FIG. 18C illustrates an example of shift adjustment in the sub-region region in the right eye image based on disparity information.
  • Disparity information “disparity 1” is set for the subregion “SubRegion 1”. Therefore, with respect to the subregion “SubRegion 1”, shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR1 + disparity 1 in the opposite direction to the above left-eye image.
  • disparity information “disparity 2” is set for the subregion “SubRegion 2”. Therefore, with respect to the subregion “SubRegion 2”, the shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR2 + disparity ⁇ ⁇ 2 in the opposite direction to the left eye image.
  • the subtitle processing unit 116 outputs display control information such as region information and disparity information of the above-described subregion region together with the subtitle data generated by the subtitle generation unit 114.
  • disparity information can be set in units of subregions as described above, or in units of regions or pages.
  • the subtitle data is a segment of a TTML (Timed Text Markup Language) document (XML format).
  • TTML is a markup language that can specify text display timing, display position (layout), display timing, and the like.
  • a segment of TTML-DSS Display control information such as the above-described parallax information is inserted into the TTML-DSS segment as an XML document based on the TTML format.
  • the subtitle encoder 118 generates a subtitle data stream (private data stream) including TTML segments of TTML and TTML-DSS.
  • the multiplexer 119 converts each data stream from the video encoder 112, the audio encoder 113, and the subtitle encoder 118 into a file, and generates a Fragmented MP4 stream as a file.
  • This Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream.
  • FIG. 19 shows a configuration example of the subtitle data stream included in the Fragmented MP4 stream.
  • an adaptation set / representation element is described in MPD.
  • An ID attribute (AdaptationSet / @ id) is defined for each adaptation set element.
  • the ID attribute of the adaptation set element corresponding to the first subtitle data stream including only the TTML segment and the ID attribute of the adaptation set element corresponding to the second subtitle data stream including the TTML-DSS segment in addition to the TTML segment It will be different. Thereby, it is indicated that the first subtitle data stream and the second subtitle data stream are separate services, and identification thereof is possible.
  • the value of the ID attribute of the adaptation set element corresponding to the second subtitle data stream is a predetermined value determined in advance as the value of the ID attribute of the adaptation set element corresponding to the first subtitle data stream. It is the added value.
  • the first subtitle data stream and the second subtitle data stream are linked on the ID attribute of the adaptation set element.
  • the operation of the transmission data generation unit 110 shown in FIG. 10 will be briefly described.
  • the left eye image data and right eye image data extracted from the data extraction unit 111 are supplied to the video encoder 112.
  • the left eye image data and the right eye image data are converted into stereoscopic image data of a predetermined transmission method (see FIGS. 12A to 12C).
  • the video encoder 112 performs encoding such as MPEG4-AVC, MPEG2, VC-1 on the stereoscopic image data, and generates a video data stream including the encoded video data. This video data stream is supplied to the multiplexer 119.
  • the audio data extracted by the data extraction unit 111 is supplied to the audio encoder 113.
  • the audio data is encoded such as MPEG-2MPEGAudio AAC or MPEG-4 AAC, and an audio data stream including the encoded audio data is generated. This audio data stream is supplied to the multiplexer 119.
  • the subtitle generator 114 generates subtitle data for a two-dimensional image. This subtitle data is supplied to the disparity information creating unit 115 and the subtitle processing unit 116.
  • the disparity vector for each pixel (pixel) extracted from the data extracting unit 111 is supplied to the disparity information creating unit 115.
  • the disparity information creating unit 115 downsizing processing is performed on disparity vectors for each pixel or for a plurality of pixels, and disparity information (disparity) of each layer is created. This disparity information is supplied to the subtitle processing unit 116.
  • the subtitle processing unit 116 based on the subtitle data generated by the subtitle generation unit 114, for example, a subregion region is defined in the region.
  • the subtitle processing unit 116 sets disparity information for shift adjustment of the display position of the superimposition information in the left eye image and the right eye image based on the disparity information created by the disparity information creating unit 115.
  • the disparity information is set for each subregion, each region, or each page.
  • the subtitle data and display control information output from the subtitle processing unit 116 are supplied to the subtitle encoder 118.
  • the display control information includes area information of the sub-region area, parallax information, and the like.
  • the subtitle encoder 118 generates a subtitle data stream (private data stream) including TTML segments of TTML and TTML-DSS.
  • each data stream from the video encoder 112, the audio encoder 113, and the subtitle encoder 118 is supplied to the multiplexer 119.
  • each data stream is converted into a file, and a Fragmented MP4 stream as a file is generated.
  • This Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream (private data stream).
  • FIG. 20 shows a configuration example of a Fragmented MP4 stream.
  • Each FragmentedMP4 stream includes FragmentedMP4 obtained by packetizing the elementary stream.
  • illustration of portions related to video and audio is omitted.
  • a FragmentedMP4 stream of the first subtitle data stream including only the TTML segment and a FragmentedMP4 stream of the second subtitle data stream including the TTML-DSS segment in addition to the TTML segment are shown.
  • the ID attribute of the adaptation set element corresponding to each stream is different from each other and can be identified.
  • Each Fragmented MP4 stream has an adaptation set / representation element described in MPD corresponding to each Fragmented MP4 stream.
  • Segments (Segment) listed (associated) under the representation element refer to the columns of stypsbox, sidx box, and fragmentedMP4 (moof and mdat) shown in the figure.
  • a program unit is defined as a group of a plurality of adaptation sets.
  • subtitlingType is introduced as one of information related to the subtitle data stream, and can be arranged as an adaptation set element attribute such as “AdaptationSet / @ subtitlingType”.
  • FIG. 21 shows an example in which the original DASH-MPD schema is extended to introduce a subtitling type.
  • the subtitling type (subtitling_type) corresponding to the first subtitle data stream is a value indicating a 2D subtitle, for example, “0x14” or “0x24” (see “component_type” in FIG. 22).
  • the ISO (International Organization for Standardization) language code corresponding to the subtitle data stream is a lang attribute (in the example shown, AdaptationSet / @ lang) that is an attribute of the adaptation set element to indicate the language of the subtitle (caption). In the illustrated example, “eng” indicating English is set.
  • subtitling type (subtitling_type) corresponding to the second subtitle data stream is a value indicating a 3D subtitle, for example, “0x15” or “0x25” (“component_type” in FIG. 22). reference).
  • the ISO language code corresponding to the second subtitle data stream is set to “zxx” indicating a non-language, for example.
  • the ISO language code corresponding to the second subtitle data stream is set to “zxx” indicating a non-language, for example.
  • FIG. 23 shows an excerpt of the ISO language code (ISO 639-2 Code) list.
  • FIG. 24A shows a configuration example of an adaptation set corresponding to the first subtitle data stream.
  • This example is a language service example of English “eng”.
  • “AdaptationSet / @ id” is set to “A1”.
  • FIG. 24B shows a configuration example of an adaptation set corresponding to the second subtitle data stream.
  • “AdaptationSet / @ id” is set to “A2”.
  • FIG. 25 and 26 show an example of updating disparity information using an interval period (Interval period).
  • FIG. 25 shows a case where the interval period (Interval period) is fixed and the period is equal to the update period. That is, each update period of AB, BC, CD,... Consists of one interval period.
  • FIG. 26 is a general example and shows an example of updating disparity information when the interval period (Interval period) is a short period (for example, a frame period may be used).
  • the number of interval periods is M, N, P, Q, and R in each update period.
  • “A” indicates the start frame (start point) of the caption display period
  • “B” to “F” indicate subsequent update frames (update point).
  • the receiving side When sending disparity information that is sequentially updated within the caption display period to the receiving side (such as the set top box 200), the receiving side performs an interpolation process on the disparity information for each updating period, for example, an arbitrary frame interval, for example, It is possible to generate and use disparity information at intervals of one frame.
  • FIG. 27 shows a configuration example of the subtitle data stream.
  • FIG. 27A illustrates an example in which a plurality of pieces of disparity information sequentially updated in the caption display period are included in one TTML-DSS segment and transmitted. This TTML-DSS segment exists only in the second subtitle data stream for 3D, and does not exist in the first subtitle data stream for 2D.
  • the time information is generated from the information of the moof header of Fragmented MP4.
  • Control information such as subtitle strings to be displayed in the subtitle display period after the start of the PTS and their display timing and style are stored in one TTML file and stored in mdat of FragmentedMP4.
  • Each TTML segment is collectively transmitted before the start of the caption display period.
  • a plurality of pieces of disparity information that are sequentially updated in the caption display period are divided into a plurality of TTML files, and each piece of the plurality of pieces of disparity information that is sequentially updated is included in one TTML-DSS segment. Box 200, etc.).
  • a TTML-DSS segment is inserted into the subtitle data stream at every update timing.
  • FIG. 27B shows a configuration example of the subtitle data stream in that case.
  • control information such as a subtitle column and a style displayed from one PTS timing to the next PTS timing is stored in one TTML file.
  • the moof header includes parameters for generating time information PTSn, PTSn + 1,... At that timing, and TTML segments of TTML and TTML-DSS are transmitted by mdat.
  • FIG. 28 illustrates an example of disparity information update in the case where TTML-DSS segments are sequentially transmitted as illustrated in FIG. 27B.
  • “A” indicates the start frame (start point) of the caption display period
  • “B” to “F” indicate subsequent update frames (update point).
  • the reception side can perform the same processing as described above. is there. That is, in this case as well, on the receiving side, it is possible to generate and use disparity information at an arbitrary frame interval, for example, one frame interval, by performing an interpolation process on the disparity information for each update period.
  • FIG. 29 shows an example of updating disparity information (disparity) similar to FIG. 26 described above.
  • the update frame interval is represented by a multiple of an interval period (ID: Interval Duration) as a unit period.
  • ID Interval Duration
  • the update frame interval "Division Period 1" is represented by "ID * M”
  • the update frame interval "Division Period 2” is represented by "ID * N”
  • the following update frame intervals are similarly represented.
  • the update frame interval is not fixed, and the update frame interval is set according to the disparity information curve.
  • the start frame (start time) T1_0 of the caption display period is calculated from the parameter of the moof header of FragmentedMP4 including this disparity information. Stamp). Then, on the receiving side, each update time of the disparity information is obtained based on information on interval periods (information on unit periods) that is information on each update frame interval and information on the number of the interval periods.
  • each update time is sequentially obtained from the start frame (start time) T1_0 of the caption display period based on the following equation (1).
  • “interval_count” indicates the number of interval periods, and is a value corresponding to M, N, P, Q, R, and S in FIG.
  • interpolation processing is performed on disparity information that is sequentially updated within the caption display period, and disparity information at an arbitrary frame interval, for example, one frame interval within the caption display period. Generated and used.
  • the interpolation process is not a linear interpolation process but an interpolation process with a low-pass filter (LPF) process in the time direction (frame direction), so that the time direction of the disparity information at a predetermined frame interval after the interpolation process is performed.
  • LPF low-pass filter
  • a broken line a in FIG. 29 shows an example of LPF output.
  • FIG. 30 shows a display example of subtitles as subtitles.
  • the page region (Area for Page_default) includes two regions (Region 1 and Region 2) as subtitle display regions.
  • a region includes one or more subregions.
  • the region includes one subregion, and the region region and the subregion region are equal.
  • FIG. 31 shows a case where each region includes disparity information and disparity information in units of pages as disparity information (Disparity) sequentially updated in the caption display period in the TTML-DSS segment.
  • An example of the parallax information curve of the page is shown.
  • the parallax information curve of the page is configured to take the minimum value of the parallax information curves of the two regions.
  • region 1 there are seven pieces of disparity information of T1_0 which is a start time and T1_1, T1_2, T1_3,..., T1_6 which are subsequent update times.
  • region 2 there are eight pieces of disparity information of T2_0 which is a start time and T2_1, T2_2, T2_3,..., T2_7 which are update times thereafter.
  • the page there are seven pieces of disparity information, that is, T0_0 that is a start time and T0_1, T0_2, T0_3,.
  • FIG. 32 shows in what data structure the disparity information of the page and each region shown in FIG. 31 is sent.
  • FIG. 33 shows an example of a TTML-DSS document corresponding to the data structure.
  • the data structure shown in FIG. 31 will be described.
  • the elements / attributes of the corresponding TTML-DSS document are shown.
  • the correspondence between the data structure of FIG. 32 and the TTML-DSS document shown in FIG. 33 is indicated by a number in the circle.
  • page_default_disparity [ ⁇ pageDefaultDisparityShift], which is a fixed value of disparity information, is arranged.
  • disparity information sequentially updated in the caption display period
  • intervalCount [ ⁇ intervalCount] indicating the number of interval periods corresponding to the start time and each subsequent update time
  • disparity_page_update [ ⁇ disparityShiftUpdateIntegerPart] is arranged sequentially.
  • the start time “interval_count” is set to “0”.
  • region 1 region 1
  • region_disparity_integer_part [ ⁇ subregionDisparityShiftIntegerPart]
  • subregion_disparity_fractional_part ⁇ subregionDisparityShiftFractionPart
  • subregion_disparity_integer_part indicates an integer part of disparity information
  • subregion_disparity_fractional_part indicates a decimal part of disparity information
  • disparity_count indicating the number of interval periods corresponding to the start time and each subsequent update time
  • “disparity_region_update_integer_part” [ ⁇ disparityShiftUpdateIntegerPart] indicating disparity information
  • “Disparity_region_update_fractional_part” [ ⁇ disparityShiftUpdateFractionPart] is sequentially arranged.
  • “disparity_region_update_integer_part” indicates an integer part of disparity information
  • “disparity_region_update_fractional_part” indicates a decimal part of disparity information.
  • the start time “interval_count” is set to “0”.
  • Region 2 (subregion 2) is the same as region 1 described above, and “subregion_disparity_integer_part” and “subregion_disparity_fractional_part”, which are fixed values of disparity information, are arranged.
  • “interval_count” indicating the number of interval periods corresponding to the start time and each subsequent update time
  • “disparity_region_update_integer_part” and “disparity_region_update_fractional_part” indicating disparity information are arranged sequentially.
  • the value of [ ⁇ DU.set/@dur] corresponding to the interval period “interval_duration” is “D”.
  • this value designates an interval period (Interval Duration) (see FIG. 29) as a unit period in units of 90 KHz.
  • this value is a value obtained by measuring the interval period (Interval Duration) with a 90 KHz clock in a 24-bit length.
  • the reason why the PTS calculated from the parameter of the fragment header of FragmentedMP4 is 33 bits long is 24 bits long for the following reason. That is, a time exceeding 24 hours can be expressed with a 33-bit length, but this interval period (Interval Duration) within the caption display period is an unnecessary length.
  • this interval period (Interval Duration) within the caption display period is an unnecessary length.
  • 24 bits the data size can be reduced and compact transmission can be performed. Further, 24 bits are 8 ⁇ 3 bits, and byte alignment is easy.
  • the TTML-DSS document includes information on tts: origin and tts: extent by the number of subregions.
  • the first value of tts: origin indicates the leftmost pixel position of the subregion.
  • the first value of tts: extent indicates the subregion extent in pixels.
  • FIG. 34 shows a TTML schema defined by W3C.
  • the parts of Q1 and Q2 are extended from the TTML specification of W3C.
  • FIG. 37 shows a schema definition (ttaf1-dfxp-du-attribs.xsd) newly added for extending the Q1 portion.
  • FIG. 38 shows a schema definition (ttaf1-dfxp-du.xsd) newly added for extending the Q2 portion.
  • FIG. 39 shows a broadcast reception concept when the set-top box 200 and the television receiver 300 are 3D-compatible devices.
  • the sub-region “SR 00” is defined in the region “Region 0”, and the disparity information “Disparity 1” is set.
  • the region “Region 0” and the sub-region “SR 00” are the same region.
  • a video data stream, a subtitle data stream (second subtitle data stream), and the like are transmitted from the broadcasting station 100 to the receiving side.
  • the set top box 200 requests the broadcast station 100 to transmit a subtitle data stream (second subtitle data stream) including a TTML-DSS segment based on the MPD file.
  • the set top box 200 reads the data of each TTML segment constituting the subtitle data from the second subtitle data stream and reads and uses the data of the TTML-DSS segment including display control information such as disparity information.
  • the set top box 200 recognizes the adaptation set element corresponding to the second subtitle data stream in the MPD file based on the ID attribute or the like, and transmits the second subtitle data stream to the broadcasting station 100. Request appropriately.
  • the set-top box 200 can further increase the recognition degree of being an adaptation set element corresponding to the second subtitle data stream by using the subtitle type information and the language information.
  • the set top box 200 generates region display data for displaying the subtitle based on the subtitle data. Then, the set-top box 200 obtains output stereoscopic image data by superimposing the region display data on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data.
  • the set top box 200 shifts and adjusts the position of the display data superimposed on each based on the parallax information.
  • the set-top box 200 corresponds to the transmission format of stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, or format method in which each view has a full screen size). The superimposition position, size, etc. are changed as appropriate.
  • the set-top box 200 transmits the output stereoscopic image data obtained as described above to the 3D-compatible television receiver 300 through, for example, an HDMI digital interface.
  • the television receiver 300 performs 3D signal processing on the stereoscopic image data sent from the set-top box 200, and generates left-eye image data and right-eye image data on which subtitles are superimposed. Then, the television receiver 300 displays binocular parallax images (a left-eye image and a right-eye image) for allowing the user to recognize a stereoscopic image on a display panel such as an LCD.
  • the television receiver 300 requests the broadcast station 100 to transmit a subtitle data stream (second subtitle data stream) including a TTML-DSS segment based on the MPD file.
  • the television receiver 300 reads the data of each TTML segment constituting the subtitle data from the second subtitle data stream, and reads and uses the data of the TTML-DSS segment including display control information such as disparity information.
  • the television receiver 300 recognizes the adaptation set element corresponding to the second subtitle data stream in the MPD file based on the ID attribute or the like, and notifies the broadcasting station 100 of the adaptation set element. , Appropriately request transmission of the second subtitle data stream.
  • the television receiver 300 can increase the recognition degree of the adaptation set element corresponding to the second subtitle data stream by using the subtitle type information and the language information together with the ID attribute.
  • the television receiver 300 generates region display data for displaying the subtitle based on the subtitle data. Then, the television receiver 300 superimposes the region display data on the left-eye image data and the right-eye image data obtained by performing processing according to the transmission format on the stereoscopic image data, and the subtitle is superimposed on the left. Data of an eye image and a right eye image is generated. Then, the television receiver 300 displays binocular parallax images (a left-eye image and a right-eye image) for allowing the user to recognize a stereoscopic image on a display panel such as an LCD.
  • FIG. 40 shows a broadcast reception concept when the set-top box 200 and the television receiver 300 are legacy 2D-compatible devices. Also in this case, in the broadcasting station 100, the subregion “SR 00” is defined in the region “Region 0”, and the disparity information “Disparity 1” is set. In response to a request from the receiving side, a video data stream, a subtitle data stream (first subtitle data stream), and the like are transmitted from the broadcasting station 100 to the receiving side.
  • the set top box 200 requests the broadcast station 100 to transmit a subtitle data stream (first subtitle data stream) including only the TTML segment based on the MPD file.
  • the set top box 200 reads and uses data of each TTML segment constituting the subtitle data from the first subtitle data stream.
  • the set top box 200 recognizes the adaptation set element corresponding to the first subtitle data stream based on the ID attribute or the like in the MPD file, and transmits the first subtitle data stream to the broadcasting station 100. Request appropriately.
  • the set top box 200 can further increase the degree of recognition that it is an adaptation set element corresponding to the first subtitle data stream by using the subtitle type information and language information.
  • the set top box 200 generates region display data for displaying the subtitle based on the subtitle data. Then, the set-top box 200 obtains output two-dimensional image data by superimposing the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format.
  • the set top box 200 transmits the output two-dimensional image data obtained as described above to the television receiver 300 through, for example, an HDMI digital interface.
  • the television receiver 300 displays a two-dimensional image based on the two-dimensional image data sent from the set top box 200.
  • the television receiver 300 requests the broadcast station 100 to transmit a subtitle data stream including only the TTML segment (first subtitle data stream) based on the MPD file.
  • the television receiver 300 reads and uses the data of each TTML segment constituting the subtitle data from the first subtitle data stream.
  • the television receiver 300 recognizes the adaptation set element corresponding to the first subtitle data stream in the MPD file based on the ID attribute or the like, and notifies the broadcasting station 100 of the adaptation set element. , Appropriately request transmission of the first subtitle data stream.
  • the television receiver 300 can increase the recognition degree of the adaptation set element corresponding to the first subtitle data stream by using the subtitle type information and the language information together with the ID attribute.
  • the television receiver 300 generates region display data for displaying the subtitle based on the subtitle data. Then, the television receiver 300 obtains output two-dimensional image data by superimposing the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format. Then, the television receiver 300 displays a two-dimensional image based on the two-dimensional image data.
  • FIG. 41 shows a broadcast reception concept when the above-described receiver (set top box 200, television receiver 300) is a legacy 2D compatible device (2D2Receiver) and a 3D compatible device (3D Receiver). Yes.
  • the transmission method of stereoscopic image data (3D image data) is a side-by-side (Side By Side) method.
  • 3D mode 3D mode
  • 2D mode 2D mode
  • the 2D mode (2D mode) is selected by the user, in the 3D-compatible device (3D mode), for example, based on the segment URL added to each TTML segment from the received second subtitle data stream.
  • the segment URL constitutes identification information for identifying the TTML segment and the TTML-DSS segment.
  • FIG. 42 also shows other broadcast reception concepts when the above-described receiver (set top box 200, television receiver 300) is a legacy 2D-compatible device (2D Receiver) and when it is a 3D-compatible device (3D Receiver).
  • stereoscopic image data (3D image data) is H.264.
  • An example of transmission using the H.264 / MVC (Multi-view-Video Coding) scheme is shown.
  • the left eye image data is transmitted as base view image data
  • the right eye image data is transmitted as non-base view image data.
  • the operations of the legacy 2D-compatible device (2D Receiver) and the 3D-compatible device (3D Receiver) in this case are the same as the example shown in FIG.
  • the 10 transmits the first subtitle data stream or the second subtitle data stream as a subtitle data stream (FragmentedMP4 stream) in response to a request from the receiving side.
  • the first subtitle data stream includes only each TTML segment constituting the subtitle data.
  • the second subtitle data stream includes a TTML-DSS segment including display control information such as disparity information together with each TTML segment constituting the subtitle data.
  • the legacy 2D-compatible receiving device on the receiving side can obtain only the subtitle data satisfactorily by sending the first subtitle data stream.
  • the 3D-compatible receiving apparatus can efficiently and appropriately acquire the disparity information corresponding to the subtitle data by receiving the second subtitle data stream.
  • an ID attribute is defined as an attribute of the adaptation set (AdaptationSet) element described in the MPD corresponding to each subtitle data stream, and further, a subtitling type attribute and a language attribute are defined. Therefore, the receiving side 2D-compatible receiving device or 3D-compatible receiving device can appropriately recognize the adaptation set element necessary for itself based on these attributes, and the transmitting side can transmit an appropriate subtitle data stream. Can request.
  • the transmission data generation unit 110 illustrated in FIG. 10 can transmit a TTML-DSS segment including disparity information that is sequentially updated in the subtitle display period, the display positions of the left eye subtitle and the right eye subtitle are dynamically controlled. it can.
  • the parallax provided between the left eye subtitle and the right eye subtitle can be dynamically changed in conjunction with the change in the image content.
  • the disparity information of the frame for each update frame interval is not the offset value from the previous disparity information but the disparity information itself. Therefore, even if an error occurs in the interpolation process on the receiving side, it is possible to recover from the error within a certain delay time.
  • the set-top box 200 makes a request to the broadcasting station 100 and receives a Fragmented MP4 stream from the broadcasting station 100.
  • This Fragmented MP4 stream includes stereoscopic image data and audio data including left eye image data and right eye image data.
  • the Fragmented MP4 stream also includes subtitle data for displaying a subtitle (caption).
  • the received Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream (private data stream).
  • the subtitle data stream is a first subtitle data stream including only each TTML segment constituting the subtitle data.
  • the subtitle data stream includes second TTML-DSS segments including display control information such as disparity information together with each TTML segment constituting the subtitle data. It becomes a stream.
  • the set top box 200 has a bit stream processing unit 201.
  • the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream.
  • the bit stream processing unit 201 uses the stereoscopic image data and the subtitle data (including display control information) to superimpose the subtitles on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion, respectively.
  • Output stereoscopic image data is generated (see FIG. 39).
  • parallax can be given between the subtitle (left eye subtitle) superimposed on the left eye image and the subtitle (right eye subtitle) superimposed on the right eye image.
  • the display control information sent from the broadcast station 100 includes disparity information, and disparity can be given between the left eye subtitle and the right eye subtitle based on the disparity information. .
  • disparity can be given between the left eye subtitle and the right eye subtitle based on the disparity information.
  • the set-top box 200 When determining that the set-top box 200 is a 3D service, the set-top box 200 acquires data of each TTML segment constituting the subtitle data from the second subtitle data stream, and receives data of the TTMLDSSS segment including display control information such as disparity information. get. Then, the set top box 200 uses the subtitle data and the disparity information to perform processing (superimposition processing) for pasting the subtitle to the background image as described above. When disparity information cannot be acquired, the bit stream processing unit 201 performs processing (superimposition processing) for pasting a subtitle (caption) to a background image according to the logic of the receiver.
  • a 3D format such as “1: 1: stereo_video_format_type: 2011”
  • FIG. 43A shows a display example of a subtitle (caption) on an image.
  • captions are superimposed on an image composed of a background and a foreground object.
  • FIG. 43B shows the perspective of the background, the foreground object, and the subtitle, and indicates that the subtitle is recognized at the forefront.
  • FIG. 44 (a) shows a display example of subtitles (captions) on the same image as FIG. 43 (a).
  • FIG. 44B shows a left-eye caption LGI superimposed on the left-eye image and a right-eye caption RGI superimposed on the right-eye image.
  • FIG. 44 (c) shows that a parallax is given between the left-eye caption LGI and the right-eye caption RGI because the caption is recognized most forward.
  • the bit stream processing unit 201 extracts stereoscopic image data, audio data, subtitle data (a bit map that does not include display control information) from the Fragmented MP4 stream. Pattern data). Then, the bit stream processing unit 201 uses the stereoscopic image data and the subtitle data to generate 2D image data on which the subtitle (caption) is superimposed (see FIG. 40).
  • FIG. 45 shows a configuration example of the set top box 200.
  • the set-top box 200 includes a bit stream processing unit 201, an HDMI terminal 202, a network interface 204, a video signal processing circuit 205, an HDMI transmission unit 206, and an audio signal processing circuit 207.
  • the set-top box 200 includes a CPU 211, a flash ROM 212, a DRAM 213, an internal bus 214, a remote control receiver (RC receiver) 215, and a remote control transmitter (RC transmitter) 216. Yes.
  • the network interface 204 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. Based on this Fragmented MP4 stream, the bit stream processing unit 201 outputs image data and audio data on which the subtitle is superimposed.
  • bit stream data bit stream data
  • the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream. Then, the bit stream processing unit 201 generates output stereoscopic image data in which subtitles are respectively superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion constituting the stereoscopic image data (see FIG. 39). ).
  • the bit stream processing unit 201 gives disparity between the subtitle (left eye subtitle) to be superimposed on the left eye image and the subtitle (right eye subtitle) to be superimposed on the right eye image based on the disparity information. That is, the bit stream processing unit 201 generates region display data for displaying a subtitle, based on the subtitle data. Then, the bit stream processing unit 201 superimposes the region display data on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data, and obtains output stereoscopic image data. . At this time, the bit stream processing unit 201 shifts and adjusts the position of the display data to be superimposed on each based on the disparity information.
  • the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (not including display control information).
  • the bit stream processing unit 201 uses the stereoscopic image data and the subtitle data to generate two-dimensional image data on which the subtitle is superimposed (see FIG. 40).
  • the bit stream processing unit 201 generates region display data for displaying a subtitle based on the subtitle data. Then, the bit stream processing unit 201 superimposes the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format to obtain output two-dimensional image data. .
  • the video signal processing circuit 205 performs image quality adjustment processing on the image data obtained by the bit stream processing unit 201 as necessary, and supplies the processed image data to the HDMI transmission unit 206.
  • the audio signal processing circuit 207 performs sound quality adjustment processing or the like on the audio data output from the bit stream processing unit 201 as necessary, and supplies the processed audio data to the HDMI transmission unit 206.
  • the HDMI transmitting unit 206 transmits, for example, uncompressed image data and audio data from the HDMI terminal 202 by communication conforming to HDMI. In this case, since transmission is performed using an HDMI TMDS channel, image data and audio data are packed and output from the HDMI transmission unit 206 to the HDMI terminal 202.
  • the CPU 211 controls the operation of each part of the set top box 200.
  • the flash ROM 212 stores control software and data.
  • the DRAM 213 constitutes a work area for the CPU 211.
  • the CPU 211 develops software and data read from the flash ROM 212 on the DRAM 213 to activate the software, and controls each part of the set top box 200.
  • the RC receiver 215 receives the remote control signal (remote control code) transmitted from the RC transmitter 216 and supplies it to the CPU 211.
  • the CPU 211 controls each part of the set top box 200 based on the remote control code.
  • the CPU 211, flash ROM 212 and DRAM 213 are connected to the internal bus 214.
  • the network interface 204 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel.
  • This Fragmented MP4 stream is supplied to the bit stream processing unit 201.
  • the bit stream processing unit 201 obtains image data and audio data on which subtitles are superimposed. In this case, output image data is generated as follows.
  • the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream.
  • the bit stream processing unit 201 generates output stereoscopic image data in which subtitles are superimposed on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data.
  • parallax is given between the left-eye subtitle superimposed on the left-eye image and the right-eye subtitle superimposed on the right-eye image.
  • the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (not including display control information). In the bit stream processing unit 201, two-dimensional image data on which the subtitle is superimposed is generated using the stereoscopic image data and the subtitle data.
  • the output image data obtained by the bit stream processing unit 201 is supplied to the video signal processing circuit 205.
  • image quality adjustment processing or the like is performed on the output image data as necessary.
  • the processed image data output from the video signal processing circuit 205 is supplied to the HDMI transmission unit 206.
  • the audio data obtained by the bit stream processing unit 201 is supplied to the audio signal processing circuit 207.
  • the audio signal processing circuit 207 performs processing such as sound quality adjustment processing on the audio data as necessary.
  • the processed audio data output from the audio signal processing circuit 207 is supplied to the HDMI transmission unit 206.
  • the image data and audio data supplied to the HDMI transmission unit 206 are transmitted from the HDMI terminal 202 to the HDMI cable 400 through the HDMI TMDS channel.
  • FIG. 46 shows a configuration example of the bit stream processing unit 201 when the set top box 200 is a 3D-compatible device (3D STB).
  • the bit stream processing unit 201 has a configuration corresponding to the transmission data generation unit 110 shown in FIG.
  • the bit stream processing unit 201 includes a demultiplexer 221, a video decoder 222, and an audio decoder 229.
  • the bit stream processing unit 201 includes an encoded data buffer 223, a subtitle decoder 224, a pixel buffer 225, a disparity information interpolation unit 226, a position control unit 227, and a video superimposing unit 228.
  • the encoded data buffer 223 constitutes a decode buffer.
  • the demultiplexer 221 extracts the video data stream and audio data stream packets from the Fragmented MP4 stream, and sends them to each decoder for decoding. Further, the demultiplexer 221 further extracts a subtitle data stream (second subtitle data stream) and temporarily stores it in the encoded data buffer 223.
  • the video decoder 222 performs processing opposite to that of the video encoder 112 of the transmission data generation unit 110 described above. That is, the video decoder 222 reconstructs a video data stream from the video packets extracted by the demultiplexer 221 and performs decoding processing to obtain stereoscopic image data including left eye image data and right eye image data.
  • the transmission format of the stereoscopic image data is, for example, a side-by-side method, a top-and-bottom method, a frame-sequential method, or a video transmission format method in which each view occupies a full screen size.
  • the subtitle decoder 224 performs processing opposite to that of the subtitle encoder 125 of the transmission data generation unit 110 described above. That is, the subtitle decoder 224 performs a decoding process on the subtitle data stream stored in the encoded data buffer 223 to acquire data of the following segments. That is, the subtitle decoder 224 obtains data of each TTML segment constituting the subtitle data from the subtitle data stream and obtains data of a TTML-DSS segment including display control information such as disparity information.
  • the subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle, based on the data of each TTML segment constituting the subtitle data and the region information of the subregion.
  • region display data bitmap data
  • a transparent color is assigned to an area in the region that is not surrounded by the sub-region.
  • the pixel buffer 225 temporarily stores this display data.
  • the video superimposing unit 228 obtains output stereoscopic image data Vout.
  • the video superimposing unit 228 is stored in the pixel buffer 225 in the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222, respectively.
  • Superimpose display data In this case, the video superimposing unit 228 appropriately superimposes the position, size, etc. depending on the transmission method of the stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, MVC method, etc.). Make changes.
  • the video superimposing unit 228 outputs the output stereoscopic image data Vout to the outside of the bit stream processing unit 201.
  • the parallax information interpolation unit 226 sends the parallax information obtained by the subtitle decoder 224 to the position control unit 227.
  • the disparity information interpolation unit 226 performs interpolation processing on the disparity information as necessary, and sends the information to the position control unit 227.
  • the position control unit 227 shifts and adjusts the position of the display data superimposed on each frame based on the parallax information (see FIG. 39). In this case, the position control unit 227 displays display data (caption pattern data) superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion in opposite directions based on the disparity information. The shift is adjusted as described above to give parallax.
  • the display control information includes disparity information that is commonly used within the caption display period. Further, the display control information may further include disparity information that is sequentially updated within the caption display period. As described above, the disparity information that is sequentially updated within the caption display period is composed of the disparity information of the first frame in the caption display period and the disparity information of the frame at each subsequent update frame interval.
  • the position control unit 227 uses the disparity information that is commonly used in the caption display period as it is. On the other hand, regarding the disparity information sequentially updated within the caption display period, the position control unit 227 uses information that has been subjected to interpolation processing as necessary by the disparity information interpolation unit 226. For example, the disparity information interpolation unit 226 generates disparity information at an arbitrary frame interval within the caption display period, for example, one frame interval.
  • the disparity information interpolation unit 226 performs not the linear interpolation process as the interpolation process but, for example, an interpolation process with a low-pass filter (LPF) process in the time direction (frame direction). Thereby, the change in the time direction (frame direction) of the disparity information at the predetermined frame interval after the interpolation processing becomes gentle.
  • LPF low-pass filter
  • the audio decoder 229 performs a process reverse to that of the audio encoder 113 of the transmission data generation unit 110 described above. That is, the audio decoder 229 reconstructs an audio elementary stream from the audio packet extracted by the demultiplexer 221 and performs a decoding process to obtain output audio data Aout. The audio decoder 229 outputs the output audio data Aout to the outside of the bit stream processing unit 201.
  • the operation of the bit stream processing unit 201 shown in FIG. 46 will be briefly described.
  • the Fragmented MP4 stream received by the network interface 204 (see FIG. 45) is supplied to the demultiplexer 221.
  • a video data stream and an audio data stream are extracted from the Fragmented MP4 stream and supplied to each decoder.
  • a subtitle data stream (second subtitle data stream) is extracted from the Fragmented MP4 stream and temporarily stored in the encoded data buffer 223.
  • the video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221 to obtain stereoscopic image data including left eye image data and right eye image data.
  • the stereoscopic image data is supplied to the video superimposing unit 228.
  • the subtitle data stream is read from the encoded data buffer 223 and decoded.
  • the subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle based on the data of each TTML segment constituting the subtitle data and the region information of the subregion. This display data is temporarily stored in the pixel buffer 225.
  • display data stored in the pixel buffer 225 is respectively stored in the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222.
  • the superimposition position, the size, and the like are appropriately changed according to the transmission method of the stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, MVC method, etc.).
  • the output stereoscopic image data Vout obtained by the video superimposing unit 228 is output to the outside of the bit stream processing unit 201.
  • the disparity information obtained by the subtitle decoder 224 is sent to the position control unit 227 through the disparity information interpolation unit 226.
  • interpolation processing is performed as necessary. For example, with respect to disparity information at several frame intervals that are sequentially updated within the caption display period, the disparity information interpolation unit 226 performs interpolation processing as necessary, and disparity information at an arbitrary frame interval, for example, one frame interval is obtained. Generated.
  • the audio decoder 229 the audio elementary stream extracted by the demultiplexer 221 is decoded, and the audio data Aout corresponding to the display stereoscopic image data Vout is obtained.
  • the audio data Aout is output to the outside of the bit stream processing unit 201.
  • FIG. 47 shows a configuration example of the bit stream processing unit 201 when the set top box 200 is a 2D-compatible device (2D STB).
  • 2D STB 2D-compatible device
  • the video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221, and includes a stereoscopic image including left-eye image data and right-eye image data. Get image data.
  • the video decoder 222 obtains stereoscopic image data, and then extracts left-eye image data or right-eye image data, and performs scaling processing or the like as necessary. To obtain 2D image data.
  • the subtitle decoder 224 reads the subtitle data stream (second subtitle data stream) from the encoded data buffer 223 and decodes it. Thereby, the subtitle decoder 224 acquires data of each TTML segment constituting the subtitle data and also acquires data of a TTML-DSS segment including display control information such as disparity information.
  • the subtitle decoder 224 reads and decodes the subtile data stream (first subtitle data stream). Thereby, the subtitle decoder 224 acquires only data of each TTML segment constituting the subtitle data. Then, the subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle based on the data of each TTML segment, and temporarily stores it in the pixel buffer 225.
  • region display data bitmap data
  • the video superimposing unit 228 obtains the output stereoscopic image data Vout and outputs it to the outside of the bit stream processing unit 201.
  • the display data accumulated in the pixel buffer 225 is superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222, respectively.
  • the output stereoscopic image data Vout is obtained.
  • the position control unit 227 shifts the display data so as to be in opposite directions based on the parallax information, and the right eye displayed in the left eye subtitle and the right eye image displayed in the left eye image. Parallax is given to the subtitle.
  • the video superimposing unit 228 superimposes the display data accumulated in the pixel buffer 225 on the two-dimensional image data obtained by the video decoder 222, and outputs it. Two-dimensional image data Vout is obtained. Then, the video superimposing unit 228 outputs the output two-dimensional image data Vout to the outside of the bit stream processing unit 201.
  • the operation of the 2D bitstream processing unit 201 shown in FIG. 47 will be briefly described.
  • the operation of the audio system is the same as that of the 3D bit stream processing unit 201 shown in FIG.
  • the Fragmented MP4 stream received by the network interface 204 (see FIG. 45) is supplied to the demultiplexer 221.
  • a video data stream and an audio data stream are extracted from the Fragmented MP4 stream and supplied to each decoder.
  • a subtitle data stream (first subtitle data stream) is extracted from the Fragmented MP4 stream and temporarily stored in the encoded data buffer 223.
  • the video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221 to obtain stereoscopic image data including left eye image data and right eye image data.
  • left-eye image data or right-eye image data is further cut out from the stereoscopic image data, and subjected to scaling processing or the like as necessary to obtain two-dimensional image data.
  • the two-dimensional image data is supplied to the video superimposing unit 228.
  • the subtitle data stream is read from the encoded data buffer 223 and decoded. Then, in the subtitle decoder 224, region display data (bitmap data) for displaying the subtitle is generated based on the data of each TTML segment. This display data is temporarily stored in the pixel buffer 225.
  • the video superimposing unit 228 superimposes subtitle display data (bitmap data) accumulated in the pixel buffer 225 on the two-dimensional image data obtained by the video decoder 222, and obtains output two-dimensional image data Vout. .
  • the output two-dimensional image data Vout is output to the outside of the bit stream processing unit 201.
  • a request is made to the transmission side in the set top box 200, and the first subtitle data stream or the second subtitle data stream is received as the subtitle data stream (FragmentedMP4 stream). That is, when the set-top box 200 is a legacy 2D-compatible receiving device, the set-top box 200 can receive the first subtitle data stream including only each TTML segment constituting the subtitle data, and obtains only the subtitle data satisfactorily. it can.
  • the second subtitle data includes a TTML-DSS segment including display control information such as disparity information together with each TTML segment constituting the subtitle data. Stream can be received. Therefore, the set top box 200 can efficiently and accurately acquire the paratitle information corresponding to the subtitle data.
  • the second subtitle data stream received by the network interface 204 includes display control information in addition to stereoscopic image data and subtitle data. included.
  • This display control information includes display control information (subregion region information, parallax information, and the like). Therefore, parallax can be given to the display position of the left-eye subtitle and the right-eye subtitle, and in the display of the subtitle (caption), the consistency of perspective with each object in the image can be maintained in an optimal state. It becomes.
  • the display control information acquired by the subtitle decoder 224 of the 3D-compatible bitstream processing unit 201 includes disparity information that is sequentially updated within the caption display period.
  • the display positions of the left eye subtitle and the right eye subtitle can be dynamically controlled.
  • the parallax provided between the left eye subtitle and the right eye subtitle can be dynamically changed in conjunction with the change of the image content.
  • the disparity information sequentially updated within the caption display period (a predetermined number of frame periods) by the disparity information interpolation unit 226 of the 3D bitstream processing unit 201 (see FIG. 46) is set. Interpolation processing is performed on disparity information of a plurality of frames constituting the frame. In this case, even when disparity information is transmitted from the transmission side every update frame interval, the disparity provided between the left eye subtitle and the right eye subtitle is controlled at a fine interval, for example, for each frame. Is possible.
  • the interpolation processing in the disparity information interpolation unit 226 of the 3D bitstream processing unit 201 involves, for example, low-pass filter processing in the time direction (frame direction). You can also Therefore, even when disparity information is transmitted from the transmission side every update frame interval, the change in the time direction of the disparity information after the interpolation process can be gently performed, and is provided between the left eye subtitle and the right eye subtitle. It is possible to suppress a sense of incongruity due to discontinuity in the disparity transitions at every update frame interval.
  • the bit stream processing unit 201 has the same configuration and operation as the 3D-compatible bit stream processing unit 201 (see FIG. 46) described above.
  • the bitstream processing unit 201 When the 2D display mode is selected, the bitstream processing unit 201 has substantially the same configuration and operation as the 2D-compatible bitstream processing unit 201 (see FIG. 47) described above. In this case, the bit stream processing unit 201 reads only the data of each TTML segment constituting the subtitle data from the received second subtitle data stream, for example, based on the segment URL added to each TTML segment. Use.
  • the television receiver 300 receives stereoscopic image data sent from the set-top box 200 via the HDMI cable 400.
  • the television receiver 300 includes a 3D signal processing unit 301.
  • the 3D signal processing unit 301 performs processing (decoding processing) corresponding to the transmission format on the stereoscopic image data to generate left-eye image data and right-eye image data.
  • FIG. 48 illustrates a configuration example of the television receiver 300.
  • the television receiver 300 includes a 3D signal processing unit 301, an HDMI terminal 302, an HDMI receiving unit 303, a network interface 305, and a bit stream processing unit 306.
  • the television receiver 300 includes a video / graphic processing circuit 307, a panel drive circuit 308, a display panel 309, an audio signal processing circuit 310, an audio amplification circuit 311, and a speaker 312.
  • the television receiver 300 includes a CPU 321, a flash ROM 322, a DRAM 323, an internal bus 324, a remote control receiver (RC receiver) 325, and a remote control transmitter (RC transmitter) 326. Yes.
  • the network interface 305 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. Based on this Fragmented MP4 stream, the bit stream processing unit 306 outputs image data and audio data on which the subtitle is superimposed.
  • bit stream data bit stream data
  • the bit stream processing unit 306 is not described in detail, but has the same configuration as the 3D-compatible bit stream processing unit 201 (see FIG. 46) of the set-top box 200 described above, for example.
  • the bit stream processing unit 306 combines the display data of the left eye subtitle and the right eye subtitle with the stereoscopic image data, and generates and outputs output stereoscopic image data on which the subtitle is superimposed.
  • bit stream processing unit 306 performs scaling processing, for example, when the transmission format of the stereoscopic image data is a side-by-side method or a top-and-bottom method, and performs full-resolution left-eye image data and Outputs right eye image data.
  • the bit stream processing unit 306 outputs audio data corresponding to the image data.
  • the HDMI receiving unit 303 receives uncompressed image data and audio data supplied to the HDMI terminal 302 via the HDMI cable 400 by communication conforming to HDMI.
  • the HDMI receiving unit 303 has a version of, for example, HDMI 1.4a, and can handle stereoscopic image data.
  • the 3D signal processing unit 301 performs a decoding process on the stereoscopic image data received by the HDMI receiving unit 303 to generate full-resolution left-eye image data and right-eye image data.
  • the 3D signal processing unit 301 performs a decoding process corresponding to the TMDS transmission data format. Note that the 3D signal processing unit 301 does nothing with the full-resolution left-eye image data and right-eye image data obtained by the bit stream processing unit 306.
  • the video / graphic processing circuit 307 generates image data for displaying a stereoscopic image based on the left eye image data and right eye image data generated by the 3D signal processing unit 301.
  • the video / graphic processing circuit 307 performs image quality adjustment processing on the image data as necessary.
  • the video / graphic processing circuit 307 synthesizes superimposition information data such as a menu and a program guide with the image data as necessary.
  • the panel drive circuit 308 drives the display panel 309 based on the image data output from the video / graphic processing circuit 307.
  • the display panel 309 includes, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL display (organic electroluminescence display), and the like.
  • the audio signal processing circuit 310 performs necessary processing such as D / A conversion on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306.
  • the audio amplification circuit 311 amplifies the audio signal output from the audio signal processing circuit 310 and supplies the amplified audio signal to the speaker 312.
  • the CPU 321 controls the operation of each unit of the television receiver 300.
  • the flash ROM 322 stores control software and data.
  • the DRAM 323 constitutes a work area for the CPU 321.
  • the CPU 321 develops software and data read from the flash ROM 322 on the DRAM 323 to activate the software, and controls each unit of the television receiver 300.
  • the RC receiver 325 receives the remote control signal (remote control code) transmitted from the RC transmitter 326 and supplies it to the CPU 321.
  • the CPU 321 controls each part of the television receiver 300 based on the remote control code.
  • the CPU 321, flash ROM 322, and DRAM 323 are connected to the internal bus 324.
  • the HDMI receiving unit 303 receives stereoscopic image data and audio data transmitted from the set top box 200 connected to the HDMI terminal 302 via the HDMI cable 400.
  • the stereoscopic image data received by the HDMI receiving unit 303 is supplied to the 3D signal processing unit 301.
  • the audio data received by the HDMI receiving unit 303 is supplied to the audio signal processing circuit 310.
  • the network interface 305 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. This Fragmented MP4 stream is supplied to the bit stream processing unit 306.
  • the bit stream processing unit 306 obtains output stereoscopic image data and audio data on which a subtitle is superimposed based on a video data stream, an audio data stream, and a subtitle data stream.
  • the display data of the left eye subtitle and the right eye subtitle is combined with the stereoscopic image data, and output stereoscopic image data (full resolution left eye image data and right eye image data) on which the subtitle is superimposed is generated.
  • the output stereoscopic image data is supplied to the video / graphic processing circuit 307 through the 3D signal processing unit 301.
  • the stereoscopic image data received by the HDMI receiving unit 303 is decoded, and full-resolution left-eye image data and right-eye image data are generated.
  • the left eye image data and right eye image data are supplied to the video / graphic processing circuit 307.
  • image data for displaying a stereoscopic image is generated based on the left eye image data and the right eye image data, and image quality adjustment processing, OSD (on-screen display) is performed as necessary.
  • OSD on-screen display
  • the image data obtained by the video / graphic processing circuit 307 is supplied to the panel drive circuit 308. Therefore, a stereoscopic image is displayed on the display panel 309.
  • the left eye image based on the left eye image data and the right eye image based on the right eye image data are alternately displayed on the display panel 309 in a time division manner.
  • the viewer can see only the left eye image with the left eye and the right eye with the shutter glasses by alternately opening the left eye shutter and the right eye shutter in synchronization with the display on the display panel 309. Only the right eye image can be seen, and a stereoscopic image can be perceived.
  • the audio data obtained by the bit stream processing unit 306 is supplied to the audio signal processing circuit 310.
  • necessary processing such as D / A conversion is performed on the audio data received by the HDMI receiving unit 303 or the audio data obtained by the bit stream processing unit 306.
  • the audio data is amplified by the audio amplification circuit 311 and then supplied to the speaker 312. Therefore, sound corresponding to the display image on the display panel 309 is output from the speaker 312.
  • FIG. 48 shows the 3D-compatible television receiver 300 as described above. Although detailed description is omitted, the legacy 2D-compatible television receiver has almost the same configuration. However, in the case of a legacy 2D-compatible television receiver, the bit stream processing unit 306 has the same configuration and operation as the 2D-compatible bit stream processing unit 201 shown in FIG. 47 described above. Further, in the case of a legacy 2D-compatible television receiver, the 3D signal processing unit 301 is not necessary.
  • bit stream processing unit 306 has the same configuration and operation as described above.
  • the bit stream processing unit 306 has substantially the same configuration and operation as the 2D-compatible bit stream processing unit 201 (see FIG. 47) described above. In this case, the bit stream processing unit 306 reads only the data of each TTML segment constituting the subtitle data from the received second subtitle data stream, for example, based on the segment URL added to each TTML segment. Use.
  • FIG. 49 shows a configuration example of the subtitle data stream included in the Fragmented MP4 stream.
  • an adaptation set / representation element is described in MPD.
  • An ID attribute (AdaptationSet / @ id) is defined for each adaptation set element.
  • the ID attribute value of the adaptation set element corresponding to the second 2D subtitle data stream is obtained by adding a predetermined value to the ID attribute value of the adaptation set element corresponding to the first 2D subtitle data stream. Value.
  • the first and second 2D subtitle data streams are linked on the ID attribute of the adaptation set element.
  • the ID attribute value of the adaptation set element corresponding to the second 3D subtitle data stream is obtained by adding a predetermined value to the ID attribute value of the adaptation set element corresponding to the first 3D subtitle data stream. Value.
  • the first and second 3D subtitle data streams are linked on the ID attribute of the adaptation set element.
  • FIG. 50 shows a configuration example of a Fragmented MP4 stream.
  • Each FragmentedMP4 stream includes FragmentedMP4 obtained by packetizing the elementary stream.
  • illustration of portions related to video and audio is omitted.
  • the Fragmented MP4 stream of the first and second 2D subtitle data streams including only the TTML segment is shown.
  • the Fragmented MP4 stream of the first and second 3D subtitle data streams including the TTML-DSS segment in addition to the TTML segment is shown.
  • the ID attribute of the adaptation set element corresponding to each stream is different from each other and can be identified as described above with reference to FIG.
  • Each Fragmented MP4 stream has an adaptation set / representation element described in MPD corresponding to each Fragmented MP4 stream.
  • Segments (Segment) listed (associated) under the representation element refer to the columns of stypsbox, sidx box, and fragmentedMP4 (moof and mdat) shown in the figure.
  • a program unit is defined as a group of a plurality of adaptation sets.
  • the subtitling type (subtitlingType) is introduced as one of the information related to the subtitle data stream, and “AdaptationSet / @ subtitlingTyp” is arranged as an attribute of the adaptation set element.
  • the subtitling type (subtitling_type) corresponding to the first and second 2D subtitle data streams (FragmentedMP4 streams) is a value indicating a 2D subtitle, for example, “0x14” or “0x24” ((FIG. 22
  • the subtitling type (subtitling_type) corresponding to the first and second 3D subtitle data stream (FragmentedMP4 stream) is a value indicating a 3D subtitle, for example, “0x15” or “0x25”. (See “component_type” in FIG. 22).
  • a lang attribute which is an attribute of the adaptation set element is set so as to indicate the language of the subtitle (caption).
  • the lang attribute corresponding to the first 2D subtitle data stream is set to “eng” indicating English.
  • the lang attribute corresponding to the second 2D subtitle data stream is set to “ger” indicating German.
  • the ISO language code corresponding to the first and second 3D subtitle data streams is set to, for example, “zxx” indicating a non-language.
  • any of the language codes included in the space “qaa” to “qrz” of the ISO language code or the language code “mis” or “und” may be used as the ISO language code indicating non-language. Possible (see FIG. 23). It is also conceivable to set the ISO language code corresponding to the first and second 3D subtitle data streams so as to indicate the language of the subtitle (caption) as in the first and second 2D subtitle data streams.
  • a 2D subtitle data stream including only a TTML segment is received as a subtitle data stream based on the MPD file, and data of each TTML segment is received from this stream.
  • a 2D subtitle data stream including only a TTML segment is received as a subtitle data stream based on the MPD file, and data of each TTML segment is received from this stream.
  • the receiving side is a 2D-compatible device
  • only the data of each TTML segment constituting the subtitle data is read and used from the 3D subtitle data stream, for example, based on the segment URL added to each TTML segment.
  • the stream distribution system 10 includes the broadcasting station 100, the set-top box 200, and the television receiver 300 (see FIG. 9).
  • the television receiver 300 includes a bit stream processing unit 306 that functions in the same manner as the bit stream processing unit 201 in the set top box 200, as shown in FIG. Therefore, as shown in FIG. 51, a stream distribution system 10A including a broadcasting station 100 and a television receiver 300 is also conceivable.
  • the set-top box 200 and the television receiver 300 are connected via an HDMI digital interface.
  • the present technology can be similarly applied.
  • the information that handles the subtitle (caption) is shown as the superimposition information.
  • other information such as superimposition information such as graphics information and text information is encoded so that what is divided into the basic stream and the additional stream is output in association with it.
  • the present technology can be applied similarly.
  • this technique can also take the following structures.
  • an image data output unit that outputs left-eye image data and right-eye image data constituting a stereoscopic image
  • a superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data
  • a parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax
  • a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information
  • a data transmission unit for transmitting the private data stream.
  • the data transmission unit A distribution server, The transmission device according to (1), wherein each of the data streams is distributed to a reception side through a network. (3) a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream; The transmission device according to (2), further including: a metafile transmission unit that transmits the metafile to the reception side through the network in response to a request from the reception side. (4) First identification information is added to the first metafile corresponding to the first private data stream, and the first metafile corresponding to the second private data stream is set to the first metafile. The transmission apparatus according to (3), wherein second identification information different from the identification information is added.
  • Each data stream is an MPEG-DASH based data stream
  • the metafile is an MPD file
  • the transmission device according to any one of (3) to (7), wherein the network is a CDN.
  • an image data output step for outputting left eye image data and right eye image data constituting a stereoscopic image
  • a superimposition information data output step for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data
  • a disparity information output step for outputting disparity information for shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data to give disparity
  • a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information
  • a receiving apparatus comprising: a second decoding unit that decodes the first private data stream or the second private data stream.
  • the data receiving unit The receiving device according to (10), wherein each data stream is received from a distribution server included in the transmitting side through a network. (12) a metafile receiving unit that receives a metafile having information for acquiring each data stream; The receiving device according to (11), wherein the data receiving unit makes the request to the transmitting side based on the metafile. (13) The first identification information is added to the first metafile corresponding to the first private data stream, and the first metafile corresponding to the second private data stream is set to the first metafile. The receiving apparatus according to (12), wherein second identification information different from the identification information is added.
  • Each of the data streams is an MPEG-DASH based data stream
  • the metafile is an MPD file
  • the receiving apparatus according to (12) or (13), wherein the network is a CDN.
  • a request is made to the transmission side, and a video stream including left-eye image data and right-eye image data constituting a stereoscopic image, and superposition superimposed on an image based on the left-eye image data and the right-eye image data Disparity information for giving disparity by shifting the first private data stream including information data, or the superimposition information data and the superimposition information superimposed on the image by the left eye image data and the right eye image data.
  • a data receiving step for receiving a second private data stream comprising: A first decoding step for decoding the video data stream; And a second decoding step of decoding the first private data stream or the second private data stream.
  • an image data output unit that outputs left-eye image data and right-eye image data constituting a stereoscopic image
  • a superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data
  • a parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax
  • the video data stream including the image data is transmitted, and a data transmission unit that transmits the data of the superimposition information and the private data stream including the disparity information,
  • first identification information is added to the data of the superimposition information
  • second identification information different from the first identification information is added
  • the data transmission unit A distribution server, The transmission device according to (16), wherein each of the data streams is distributed to a reception side through a network.
  • a metafile generating unit that generates a metafile having information for the receiving side to acquire each of the data streams;
  • a data receiver that receives the data and the private data stream including disparity information for shifting the superimposition information to be superimposed on the image by the left eye image data and the right eye image data,
  • the second decoding unit acquires the superimposition information data or the superimposition information data and the disparity information from the private data stream based on the first identification information and the second identification information.
  • the data reception unit receives the data streams from the distribution server on the transmission side through the network, A metafile receiving unit for receiving a metafile having information for acquiring each data stream;
  • the receiving device according to (19), wherein the data receiving unit makes the request to the transmitting side based on the metafile.
  • an adaptation set element corresponding to each MPEG-DASH-based 2D and 3D subtitle data stream can be identified by an ID attribute in the MPD file, and a 2D subtitle data stream or 3D subtitle data is received on the receiving side. This means that the stream can be selectively received (see FIGS. 19 and 20).
  • Stream distribution system 11 DASH segment streamer 12: DASHMPD server 13-1 to 13-N: IPTV client 14: CDN DESCRIPTION OF SYMBOLS 15 ... Content management server 100 ... Broadcasting station 111 ... Data extraction part 112 ... Video encoder 113 ... Audio encoder 114 ... Subtitle generation part 115 ... Disparity information preparation part 116 ... Subtitle processing unit 118 ... Subtitle encoder 119 ... Multiplexer 131 ... Streaming data control unit 132 ... HTTP access unit 133 ... Movie playback unit 200 ... Set top box (STB) DESCRIPTION OF SYMBOLS 201 ... Bit stream processing part 202 ... HDMI terminal 204 ... Network interface 205 ...
  • Video signal processing circuit 206 ... HDMI transmission part 207 ... Audio signal processing circuit 211 ... CPU 215: Remote control receiver 216: Remote control transmitter 221 ... Demultiplexer 222 ... Video decoder 223 ... Encoded data buffer 224 ... Subtitle decoder 225 ... Pixel buffer 226 .... Parallax information interpolation unit 227 ... Position control unit 228 ... Video superimposition unit 229 ... Audio decoder 300 ... Television receiver (TV) 301 ... 3D signal processing unit 302 ... HDMI terminal 303 ... HDMI receiving unit 305 ... network interface 306 ... bit stream processing unit 307 ... video / graphic processing circuit 308 ... panel drive Circuit 309 ... Display panel 310 ... Audio signal processing circuit 311 ... Audio amplification circuit 312 ... Speaker 400 ... HDMI cable

Abstract

An objective of the present invention is to allow a legacy 2-D receiving device to desirably acquire superposition information data. Another objective of the present invention is to allow a 3-D receiving device to efficiently and appropriately carry out an acquisition of the superposition information data and disparity information corresponding thereto. According to a request from a receiving side, a video data stream is transmitted which includes left-eye image data and right-eye image data which configure a stereoscopic image, together with a first private data stream which includes subtitles and other superposition information data or a second private data stream which includes the superposition information data and disparity information being transmitted.

Description

送信装置、送信方法、受信装置および受信方法Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
 本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、受信側からの要求に応じて、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームなどを送信する送信装置等に関する。 The present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and in particular, according to a request from the reception side, transmits a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image. The present invention relates to a transmitting device and the like.
 従来、立体画像データのテレビ放送電波を用いた伝送方式について提案されている(例えば、特許文献1参照)。この伝送方式では、左眼用画像データおよび右眼用画像データを持つ立体画像データが送信され、両眼視差を利用した立体画像表示が行われる。 Conventionally, there has been proposed a transmission method using a television broadcast radio wave of stereoscopic image data (see, for example, Patent Document 1). In this transmission method, stereoscopic image data having left-eye image data and right-eye image data is transmitted, and stereoscopic image display using binocular parallax is performed.
 図52は、両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクト(物体)の左右像の表示位置と、その立体像の再生位置との関係を示している。例えば、スクリーン上に図示のように左像Laが右側に右像Raが左側にずれて表示されているオブジェクトAに関しては、左右の視線がスクリーン面より手前で交差するため、その立体像の再生位置はスクリーン面より手前となる。DPaは、オブジェクトAに関する水平方向の視差ベクトルを表している。 FIG. 52 shows the relationship between the display position of the left and right images of an object (object) on the screen and the playback position of the stereoscopic image in stereoscopic image display using binocular parallax. For example, with respect to the object A in which the left image La is displayed on the right side and the right image Ra is shifted to the left side as shown in the figure on the screen, the right and left line of sight intersects in front of the screen surface. The position is in front of the screen surface. DPa represents a horizontal disparity vector related to the object A.
 また、例えば、スクリーン上に図示のように左像Lbおよび右像Rbが同一位置に表示されているオブジェクトBに関しては、左右の視線がスクリーン面で交差するため、その立体像の再生位置はスクリーン面上となる。さらに、例えば、スクリーン上に図示のように左像Lcが左側に右像Rcが右側にずれて表示されているオブジェクトCに関しては、左右の視線がスクリーン面より奥で交差するため、その立体像の再生位置はスクリーン面より奥となる。DPcは、オブジェクトCに関する水平方向の視差ベクトルを表している。 Further, for example, with respect to the object B in which the left image Lb and the right image Rb are displayed at the same position as shown in the figure on the screen, the right and left lines of sight intersect on the screen surface. It becomes on the surface. Further, for example, with respect to the object C displayed on the screen as shown in the figure, the left image Lc is shifted to the left side and the right image Rc is shifted to the right side, the right and left lines of sight intersect at the back of the screen surface. The playback position is behind the screen. DPc represents a horizontal disparity vector related to the object C.
 また、従来、インターネット等のネットワークを利用したIPTV(Internet Protocol Television)配信システムが提案されている(例えば、特許文献2参照)。近時、IPTV等のインターネットストリーミングにおける標準化が行われている。例えば、HTTP(Hypertext Transfer Protocol)ストリーミングによるVoD((Video on Demand)ストリーミングや、ライブストリーミングに適用される方式の標準化が行われている。 Also, conventionally, an IPTV (Internet Protocol Television) distribution system using a network such as the Internet has been proposed (see, for example, Patent Document 2). Recently, standardization in Internet streaming such as IPTV has been performed. For example, standardization of a method applied to VoD (Video on Demand) streaming by HTTP (Hypertext Transfer Protocol) streaming and live streaming is being performed.
 特に、ISO/IEC/MPEGで標準化が行われているDASH(Dynamic Adaptive Streaming over HTTP)が注目されている。DASHでは、クライアント端末は、MPD(Media Presentation Description)と呼ばれるメタファイルと、そこに記述されるチャンク化されたメディアデータのアドレス(url)をもとに、ストリーミングデータを取得して再生する。この場合のメディアデータは、オーディオ(Audio)/ビデオ(Video)/サブタイトル(Subtitle)等のメディアデータである。 In particular, DASH (Dynamic Adaptive Streaming Over HTTP) that is standardized by ISO / IEC / MPEG is attracting attention. In DASH, a client terminal acquires and plays streaming data based on a metafile called MPD (Media Presentation Description) and an address (url) of chunked media data described therein. The media data in this case is media data such as audio (Audio) / video (Video) / subtitle (Subtitle).
特開2005-6114号公報Japanese Patent Laid-Open No. 2005-6114 特開2011-193058号公報JP 2011-193058 A
 上述したように、立体画像表示において、視聴者は、両眼視差を利用して、立体画像の遠近感を知覚することが普通である。画像に重畳される重畳情報、例えば字幕等に関しても、2次元空間的のみならず、3次元の奥行き感としても、立体画像表示と連動してレンダリングされることが期待される。例えば、画像に字幕を重畳(オーバーレイ)表示する場合、遠近感でいうところの最も近い画像内の物体(オブジェクト)よりも手前に表示されないと、視聴者は、遠近感の矛盾を感じる場合がある。 As described above, in stereoscopic image display, a viewer usually perceives the perspective of a stereoscopic image using binocular parallax. Superimposition information superimposed on an image, such as subtitles, is expected to be rendered in conjunction with stereoscopic image display not only in a two-dimensional space but also in a three-dimensional sense of depth. For example, when subtitles are superimposed (overlaid) on an image, viewers may feel a sense of inconsistency in perspective unless they are displayed in front of the closest object (object) in the perspective. .
 そこで、重畳情報のデータと共に、左眼画像および右眼画像の間の視差情報を送信し、受信側で、左眼重畳情報および右眼重畳情報との間に視差を付与することが考えられる。このように立体画像を表示し得る受信装置において視差情報は有意義な情報である。一方、レガシーの2D(二次元)対応の受信装置において、この視差情報は不要なものである。この2D対応の受信装置において、この視差情報の送信が正常な受信処理の妨げとなることがないように何らかの施策を講ずる必要がある。 Therefore, it is conceivable to transmit the parallax information between the left eye image and the right eye image together with the superimposition information data, and to give the parallax between the left eye superimposition information and the right eye superimposition information on the receiving side. In this manner, the parallax information is meaningful information in the receiving apparatus that can display a stereoscopic image. On the other hand, in a legacy 2D (two-dimensional) compatible receiving apparatus, this disparity information is unnecessary. In this 2D-compatible receiving apparatus, it is necessary to take some measures so that transmission of the parallax information does not hinder normal reception processing.
 なお、TTML(Timed Text Markup Language)をライブ放送や地上波のIPブロードバンド再送信に適用する要求がある。このTTMLにおいて3Dサブタイトルに適用するディスパリティ情報の格納方法は規定されていない。これは、DASHベースのIPTVストリーミングにTTMLを適用する際の課題となる。 There is a request to apply TTML (Timed Text Markup Language) to live broadcasting and terrestrial IP broadband retransmission. In this TTML, the disparity information storage method applied to the 3D subtitle is not defined. This is a problem when TTML is applied to DASH-based IPTV streaming.
 本技術の目的は、レガシーの2D対応の受信装置が重畳情報のデータを良好に取得可能とすることにある。また、本技術の目的は、3D対応の受信装置が重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行い得るようにすることにある。 The purpose of the present technology is to enable a legacy 2D-compatible receiving apparatus to obtain superimposition information data satisfactorily. In addition, an object of the present technology is to enable a 3D-compatible receiving apparatus to efficiently and accurately acquire parallax information corresponding to superimposition information data.
 本技術の概念は、
 立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
 受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記視差情報を含む第2のプライベートデータストリームを送信するデータ送信部とを備える
 送信装置にある。
The concept of this technology is
An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image;
A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
In response to a request from the receiving side, a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information And a data transmission unit for transmitting the private data stream.
 本技術において、画像データ出力部により、立体画像を構成する左眼画像データおよび右眼画像データが出力される。重畳情報データ出力部により、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報のデータが出力される。ここで、重畳情報は、画像に重畳される字幕、グラフィクス、テキストなどの情報である。視差情報出力部により、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報が出力される。 In the present technology, the image data output unit outputs left eye image data and right eye image data constituting a stereoscopic image. The superimposition information data output unit outputs the superimposition information data to be superimposed on the image based on the left eye image data and the right eye image data. Here, the superimposition information is information such as subtitles, graphics, and text superimposed on the image. The disparity information output unit outputs disparity information for giving disparity by shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data.
 データ送信部により、受信側からの要求に応じて、画像データを含むビデオデータストリームが送信されると共に、重畳情報のデータを含む第1のプライベートデータストリーム、または重畳情報のデータおよび視差情報を含む第2のプライベートデータストリームが送信される。 In response to a request from the receiving side, the data transmission unit transmits a video data stream including image data, and includes a first private data stream including superimposition information data, or superimposition information data and disparity information A second private data stream is transmitted.
 例えば、データ送信部は、配信サーバを有し、各データストリームを、ネットワークを通じて受信側に配信する、ようにされてもよい。この場合、受信側が各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、受信側からの要求に応じて、メタファイルを、ネットワークを通じて受信側に送信するメタファイル送信部とをさらに備える、ようにされてもよい。例えば、各データストリームはMPEG-DASHベースのデータストリームであり、メタファイルはMPDファイルであり、ネットワークはCDNである、ようにされてもよい。 For example, the data transmission unit may have a distribution server and distribute each data stream to the receiving side through the network. In this case, a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream, and a metafile transmission that transmits the metafile to the receiver via the network in response to a request from the receiver And a unit. For example, each data stream may be an MPEG-DASH based data stream, the metafile may be an MPD file, and the network may be a CDN.
 そして、この場合、第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、第2のプライベートデータストリームに対応した第2のメタファイルには第1の識別情報とは異なる第2の識別情報が付加される、ようにされてもよい。この場合、第1のプライベートデータストリームに対応した第1の識別情報と第2のプライベートデータストリームに対応した第2の識別情報とは固有の関係を持つ、ようにされてもよい。 In this case, the first identification information is added to the first metafile corresponding to the first private data stream, and the first identification is added to the second metafile corresponding to the second private data stream. Second identification information different from the information may be added. In this case, the first identification information corresponding to the first private data stream and the second identification information corresponding to the second private data stream may have a unique relationship.
 また、この場合、第1のメタファイルには第1のタイプであることを示す第1のタイプ情報がさらに付加され、第2のメタファイルには第1のタイプとは異なる第2のタイプであることを示す第2のタイプ情報がさらに付加される、ようにされてもよい。また、この場合、第1のメタファイルには所定の言語を示す第1の言語情報がさらに付加され、第2のメタファイルには非言語を示す第2の言語情報がさらに付加される、ようにされてもよい。 In this case, the first metafile is further added with first type information indicating the first type, and the second metafile has a second type different from the first type. The second type information indicating that the information is present may be further added. In this case, first language information indicating a predetermined language is further added to the first metafile, and second language information indicating a non-language is further added to the second metafile. May be.
 このように本技術においては、受信側からの要求に応じて、第1のプライベートデータストリームまたは第2のプライベートデータストリームを送信するものである。そのため、受信側のレガシーの2D対応の受信装置では、第1のプライベートデータストリームを送ってもらうことで、重畳情報のデータのみを良好に取得することが可能となる。また、3D対応の受信装置は、第2のプライベートデータストリームを送ってもらうことで、重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行うことが可能となる。 Thus, in the present technology, the first private data stream or the second private data stream is transmitted in response to a request from the receiving side. Therefore, the legacy 2D-compatible receiving device on the receiving side can obtain only the superimposition information data by sending the first private data stream. In addition, the 3D-compatible receiving device can efficiently and accurately acquire the parallax information corresponding to the superimposition information data by having the second private data stream sent.
 また、本技術の他の概念は、
 送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含む第2のプライベートデータストリームを受信するデータ受信部と、
 上記ビデオストリームをデコードする第1のデコード部と、
 上記第1のプライベートデータストリームまたは上記第2のプライベートデータストリームをデコードする第2のデコード部とを備える
 受信装置にある。
Other concepts of this technology are
A request is made to the transmission side, and a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, and superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data are transmitted. A second private data stream including parallax information for shifting the superimposition information to be superposed on the first private data stream or the superimposition information data and the left eye image data and the right eye image data to add the parallax. A data receiver for receiving the private data stream;
A first decoding unit for decoding the video stream;
And a second decoding unit that decodes the first private data stream or the second private data stream.
 本技術において、データ受信部により、送信側への要求が行われて、ビデオデータストリームを受信すると共に、第1のプライベートデータストリームまたは第2のプライベートデータストリームが受信される。ビデオデータストリームには、立体画像を構成する左眼画像データおよび右眼画像データが含まれている。第1のプライベートデータストリームには、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報のデータが含まれている。第2のプライベートデータストリームには、この重畳情報のデータの他に、この重畳情報をシフトさせて視差を付与するための視差情報が含まれている。 In the present technology, a request to the transmission side is made by the data receiving unit, and the video data stream is received, and the first private data stream or the second private data stream is received. The video data stream includes left eye image data and right eye image data constituting a stereoscopic image. The first private data stream includes superimposition information data to be superimposed on an image based on left-eye image data and right-eye image data. In addition to the superimposition information data, the second private data stream includes disparity information for shifting the superimposition information to give parallax.
 例えば、データ受信部は、送信側が有する配信サーバから各データストリームを、ネットワークを通じて受信する、ようにされてもよい。この場合、各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、データ受信部は、メタファイルに基づいて、送信側に要求を行う、ようにされてもよい。 For example, the data receiving unit may receive each data stream from the distribution server on the transmission side through the network. In this case, a metafile receiving unit that receives a metafile having information for acquiring each data stream is further provided, and the data receiving unit makes a request to the transmitting side based on the metafile. Good.
 そして、この場合、第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、第2のプライベートデータストリームに対応した第2のメタファイルには第1の識別情報とは異なる第2の識別情報が付加されている、ようにされてもよい。また、この場合、各データストリームはMPEG-DASHベースのデータストリームであり、メタファイルはMPDファイルであり、ネットワークはCDNである、ようにされてもよい。 In this case, the first identification information is added to the first metafile corresponding to the first private data stream, and the first identification is added to the second metafile corresponding to the second private data stream. Second identification information different from the information may be added. In this case, each data stream may be an MPEG-DASH-based data stream, the metafile may be an MPD file, and the network may be a CDN.
 第1のデコード部により、ビデオデータストリームがデコードされる。また、第2のデコード部により、第1のプライベートデータストリームまたは第2のプライベートデータストリームがデコードされる。ここで、データ受信部が第1のプライベートデータストリームを受信する場合には、重畳情報のデータが取得される。また、データ受信部が第2のプライベートデータストリームを受信する場合には、重畳情報のデータおよび視差情報が取得される。 The video data stream is decoded by the first decoding unit. Further, the first private data stream or the second private data stream is decoded by the second decoding unit. Here, when the data receiving unit receives the first private data stream, data of superimposition information is acquired. In addition, when the data reception unit receives the second private data stream, the superimposition information data and the disparity information are acquired.
 このように本技術において、送信側に要求を行って、第1のプライベートデータストリームまたは第2のプライベートデータストリームを受信するものである。そのため、受信側のレガシーの2D対応の受信装置では、第1のプライベートデータストリームを送ってもらうことで、重畳情報のデータのみを良好に取得することが可能となる。また、3D対応の受信装置は、第2のプライベートデータストリームを送ってもらうことで、重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行うことが可能となる。 Thus, in the present technology, a request is made to the transmission side, and the first private data stream or the second private data stream is received. Therefore, the legacy 2D-compatible receiving device on the receiving side can obtain only the superimposition information data by sending the first private data stream. In addition, the 3D-compatible receiving device can efficiently and accurately acquire the parallax information corresponding to the superimposition information data by having the second private data stream sent.
 また、本技術の他の概念は、
 立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
 受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータおよび上記視差情報を含むプライベートデータストリームを送信するデータ送信部とを備え、
 上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加される
 送信装置にある。
Other concepts of this technology are
An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image;
A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
In response to a request from the receiving side, the video data stream including the image data is transmitted, and a data transmission unit that transmits the data of the superimposition information and the private data stream including the disparity information,
In the private data stream, the first identification information is added to the data of the superimposition information, and the second identification information different from the first identification information is added to the parallax information.
 本技術において、画像データ出力部により、立体画像を構成する左眼画像データおよび右眼画像データが出力される。重畳情報データ出力部により、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報のデータが出力される。ここで、重畳情報は、画像に重畳される字幕、グラフィクス、テキストなどの情報である。視差情報出力部により、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報が出力される。 In the present technology, the image data output unit outputs left eye image data and right eye image data constituting a stereoscopic image. The superimposition information data output unit outputs the superimposition information data to be superimposed on the image based on the left eye image data and the right eye image data. Here, the superimposition information is information such as subtitles, graphics, and text superimposed on the image. The disparity information output unit outputs disparity information for giving disparity by shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data.
 データ送信部により、受信側からの要求に応じて、画像データを含むビデオデータストリームが送信されると共に、重畳情報のデータおよび視差情報を含むプライベートデータストリームが送信される。ここで、このプライベートデータストリームにおいて、重畳情報のデータには第1の識別情報が付加され、視差情報には第1の識別情報とは異なる第2の識別情報が付加される。 The data transmission unit transmits a video data stream including image data and a private data stream including superimposition information data and disparity information in response to a request from the reception side. Here, in this private data stream, the first identification information is added to the superimposition information data, and the second identification information different from the first identification information is added to the parallax information.
 例えば、データ送信部は、配信サーバを有し、各データストリームを、ネットワークを通じて受信側に配信する、ようにされてもよい。この場合、受信側が各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、受信側からの要求に応じて、メタファイルを、ネットワークを通じて受信側に送信するメタファイル送信部とをさらに備える、ようにされてもよい。 For example, the data transmission unit may have a distribution server and distribute each data stream to the receiving side through the network. In this case, a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream, and a metafile transmission that transmits the metafile to the receiver via the network in response to a request from the receiver And a unit.
 このように本技術において、プライベートデータストリームに重畳情報のデータおよび視差情報が含まれるが、それらには、識別情報が付加されている。そのため、受信側のレガシーの2D対応の受信装置では、識別情報に基づいて視差情報を読み飛ばし、重畳情報のデータのみを良好に取得することが可能となる。つまり、視差情報の送信がレガシーの2D対応の受信装置の受信処理の妨げとなることを防止できる。また、3D対応の受信装置では、プライベートデータストリームから重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行うことが可能となる。 As described above, in the present technology, the private data stream includes the superimposition information data and the disparity information, and identification information is added to them. Therefore, in the legacy 2D-compatible receiving device on the receiving side, it is possible to skip parallax information based on the identification information and obtain only the superimposition information data satisfactorily. That is, it is possible to prevent the transmission of disparity information from interfering with the reception process of the legacy 2D-compatible receiving device. In addition, the 3D-compatible receiving apparatus can efficiently and appropriately acquire the parallax information corresponding to the superimposition information data from the private data stream.
 また、本技術の他の概念は、
 送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含むプライベートデータストリームとを受信するデータ受信部と、
 上記ビデオデータストリームをデコードする第1のデコード部と、
 上記プライベートデータストリームをデコードする第2のデコード部とを備え、
 上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加されており、
 上記第2のデコード部は、上記第1の識別情報および上記第2の識別情報に基づいて、上記プライベートデータストリームから上記重畳情報のデータ、あるいは上記重畳情報のデータおよび上記視差情報を取得する
 受信装置にある。
Other concepts of this technology are
Making a request to the transmission side, a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data, and A data receiving unit that receives a private data stream including disparity information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data;
A first decoding unit for decoding the video data stream;
A second decoding unit for decoding the private data stream,
In the private data stream, first identification information is added to the superimposition information data, and second identification information different from the first identification information is added to the parallax information,
The second decoding unit acquires the superimposition information data or the superimposition information data and the disparity information from the private data stream based on the first identification information and the second identification information. In the device.
 本技術において、データ受信部により、送信側への要求が行われて、ビデオデータストリームおよびプライベートデータストリームが受信される。ビデオデータストリームには、立体画像を構成する左眼画像データおよび右眼画像データが含まれている。また、プライベートデータストリームには、左眼画像データおよび右眼画像データによる画像に重畳する重畳情報のデータおよび左眼画像データおよび右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報が含まれている。 In this technology, a request to the transmission side is made by the data receiving unit, and a video data stream and a private data stream are received. The video data stream includes left eye image data and right eye image data constituting a stereoscopic image. The private data stream is given parallax by shifting the superimposition information data superimposed on the image based on the left eye image data and the right eye image data and the superimposition information superimposed on the image based on the left eye image data and the right eye image data. Parallax information is included.
 例えば、データ受信部は、送信側が有する配信サーバから上記各データストリームを、ネットワークを通じて受信し、各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、データ受信部は、メタファイルに基づいて、送信側に要求を行う、ようにされてもよい。 For example, the data receiving unit further includes a metafile receiving unit that receives each data stream from the distribution server of the transmission side through the network and receives a metafile having information for acquiring each data stream, and receives the data The unit may make a request to the transmission side based on the metafile.
 第1のデコード部により、ビデオデータストリームがデコードされる。また、第2のデコード部により、プライベートデータストリームがデコードされる。ここで、プライベートデータストリームにおいて、重畳情報のデータには第1の識別情報が付加され、視差情報には第1の識別情報とは異なる第2の識別情報が付加されている。第2のデコード部では、識別情報に基づいて、プライベートデータストリームから重畳情報のデータ、あるいは重畳情報のデータおよび視差情報が取得される。 The video data stream is decoded by the first decoding unit. The private data stream is decoded by the second decoding unit. Here, in the private data stream, the first identification information is added to the superimposition information data, and the second identification information different from the first identification information is added to the parallax information. In the second decoding unit, the superimposition information data, or the superimposition information data and the disparity information are acquired from the private data stream based on the identification information.
 このように本技術において、プライベートデータストリームに重畳情報のデータおよび視差情報が含まれるが、それらには、識別情報が付加されている。そのため、受信側のレガシーの2D対応の受信装置では、識別情報に基づいて視差情報を読み飛ばし、重畳情報のデータのみを良好に取得することが可能となる。つまり、視差情報の送信がレガシーの2D対応の受信装置の受信処理の妨げとなることを防止できる。また、3D対応の受信装置では、プライベートデータストリームから重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行うことが可能となる。 As described above, in the present technology, the private data stream includes the superimposition information data and the disparity information, and identification information is added to them. Therefore, in the legacy 2D-compatible receiving device on the receiving side, it is possible to skip parallax information based on the identification information and obtain only the superimposition information data satisfactorily. That is, it is possible to prevent the transmission of disparity information from interfering with the reception process of the legacy 2D-compatible receiving device. In addition, the 3D-compatible receiving apparatus can efficiently and appropriately acquire the parallax information corresponding to the superimposition information data from the private data stream.
 本技術によれば、レガシーの2D対応の受信装置は重畳情報のデータを良好に取得でき、3D対応の受信装置は重畳情報のデータと共にそれに対応する視差情報の取得を効率よく適確に行うことができる。 According to the present technology, a legacy 2D-compatible receiving apparatus can acquire superimposition information data satisfactorily, and a 3D-compatible receiving apparatus efficiently and accurately acquires the parallax information corresponding to the superimposition information data. Can do.
実施の形態としてのストリーム配信システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the stream delivery system as embodiment. MPDファイルの階層構造を示す図である。It is a figure which shows the hierarchical structure of a MPD file. MPDファイルに含まれる各構造体の一例を時間軸上に並べて示した図である。It is the figure which arranged and showed an example of each structure contained in a MPD file on a time axis. MPDファイルに階層的に配置されている各構造体の関係の一例を示す図である。It is a figure which shows an example of the relationship of each structure arrange | positioned hierarchically in the MPD file. ピリオド(Period)と、リプレゼンテーション(Representation)と、セグメント(Segment)の関係の一例を示す図である。It is a figure which shows an example of the relationship between a period (Period), a representation (Representation), and a segment (Segment). コンテンツからDASHセグメントやDASH MPDファイルを生成するまでのフローの一例を示す図である。It is a figure which shows an example of the flow until it produces | generates a DASH segment and a DASH-MPD file from a content. IPTVクライアントの構成例を示す図である。It is a figure which shows the structural example of an IPTV client. 一般的な、DASHベースのストリーム配信システムの系を示す図である。It is a figure which shows the system of a general DASH-based stream delivery system. ストリーム配信システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of a stream delivery system. 放送局における送信データ生成部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the transmission data generation part in a broadcast station. 1920*1080のピクセルフォーマットの画像データを示す図である。It is a figure which shows the image data of a pixel format of 1920 * 1080. 立体画像データ(3D画像データ)の伝送方式である「Top & Bottom」方式、「Side By Side」方式、「Frame Sequential」方式を説明するための図である。It is a figure for demonstrating the transmission method of stereo image data (3D image data) "Top" & "Bottom" system, "Side" By "Side" system, and "Frame" Sequential "system. 左眼画像に対する右眼画像の視差ベクトルを検出する例を説明するための図である。It is a figure for demonstrating the example which detects the parallax vector of the right eye image with respect to a left eye image. 視差ベクトルをブロックマッチング方式で求めることを説明するための図である。It is a figure for demonstrating calculating | requiring a parallax vector by a block matching system. ピクセル(画素)毎の視差ベクトルの値を各ピクセル(各画素)の輝度値として用いた場合の画像例を示す図である。It is a figure which shows the example of an image at the time of using the value of the parallax vector for every pixel (pixel) as a luminance value of each pixel (each pixel). ブロック(Block)毎の視差ベクトルの一例を示す図である。It is a figure which shows an example of the parallax vector for every block (Block). 送信データ生成部の視差情報作成部で行われるダウンサイジング処理を説明するための図である。It is a figure for demonstrating the downsizing process performed in the parallax information creation part of a transmission data generation part. サブタイトルデータにおいて、画面上に定義されるリージョンと、このリージョン内に定義されるサブリージョンの一例を示す図である。In subtitle data, it is a figure which shows an example of the region defined on a screen, and the subregion defined in this region. FragmentedMP4ストリームが有するサブタイトルデータストリームの構成例を示す図である。It is a figure which shows the structural example of the subtitle data stream which a FragmentedMP4 stream has. FragmentedMP4ストリームの構成例を示す図である。It is a figure which shows the structural example of FragmentedMP4 stream. オリジナルのDASH-MPDスキーマを拡張して、サブタイトリングタイプを導入する例を示す図である。It is a figure which shows the example which expands an original DASH-MPD schema and introduces a subtitling type. 3D用サブタイトルのフォーマットを示す情報(Component_type=0x15,0x25)を説明するための図である。It is a figure for demonstrating the information (Component_type = 0x15, 0x25) which shows the format of the subtitle for 3D. ISO言語コード(ISO 639-2 Code)リストの抜粋を示す図である。It is a figure which shows the excerpt of an ISO language code (ISO-639-2 Code) list. 第1、第2のサブタイトルデータストリームに対応したアダプテーションセットの構成例を示す図である。It is a figure which shows the structural example of the adaptation set corresponding to the 1st, 2nd subtitle data stream. インターバル期間(Interval period)を用いた視差情報の更新例であって、インターバル期間が固定で、しかも、その期間が更新期間と等しい場合を示す図である。FIG. 10 is a diagram illustrating an example of updating disparity information using an interval period (Interval period), in which the interval period is fixed and the period is equal to the update period. インターバル期間(Interval period)を用いた視差情報の更新例であって、インターバル期間を短期間とした場合の視差情報の更新例を示す図である。FIG. 10 is a diagram illustrating an example of updating disparity information using an interval period (Interval 図 period) and illustrating an example of updating disparity information when the interval period is a short period. サブタイトルデータストリームの構成例を示す図である。It is a figure which shows the structural example of a subtitle data stream. TTML-DSSセグメントを順次送信する場合における、視差情報の更新例を示す図である。It is a figure which shows the example of an update of parallax information in the case of transmitting a TTML-DSS segment sequentially. 更新フレーム間隔が単位期間としてのインターバル期間(ID:Interval Duration)の倍数で表される視差情報(disparity)の更新例を示す図である。It is a figure which shows the example of an update of the disparity information (disparity) represented by the multiple of the interval period (ID: Interval | Duration) as an update frame interval as a unit period. ページ領域(Area for Page_default)に字幕表示領域としてのリージョン(Region)が2つ含まれているサブタイトルの表示例を示す図である。It is a figure which shows the example of a display of the subtitle in which the page area | region (Area | for_Page_default) contains two regions (Region) as a caption display area. TTML-DSSのセグメントに、字幕表示期間に順次更新される視差情報(Disparity)として、リージョン単位の視差情報と全てのリージョンを含むページ単位の視差情報の双方が含まれている場合において、各リージョンとページの視差情報カーブの一例を示す図である。Each region in the TTML-DSS segment includes both disparity information in units of regions and disparity information in units of pages including all regions as disparity information (Disparity) that is sequentially updated during the caption display period. FIG. 6 is a diagram illustrating an example of a parallax information curve of a page. ページおよび各リージョンの視差情報がどのような構造で送られるかを示す図である。It is a figure which shows what kind of structure the parallax information of a page and each region is sent. ページおよび各リージョンの視差情報のデータ構造に対応するTTML-DSS文書の一例を示す図である。It is a figure which shows an example of the TTML-DSS document corresponding to the data structure of the parallax information of a page and each region. W3Cで規定されているTTMLのスキーマを示す図である。It is a figure which shows the schema of TTML prescribed | regulated by W3C. 視差情報(Disparity)に関するパラメータを記述するためにW3CのTTML仕様の一部を拡張することを説明するための図である。It is a figure for demonstrating extending a part of W3C TTML specification in order to describe the parameter regarding disparity information (Disparity). 視差情報(Disparity)に関するパラメータを記述するためにW3CのTTML仕様の一部を拡張することを説明するための図である。It is a figure for demonstrating extending a part of W3C TTML specification in order to describe the parameter regarding disparity information (Disparity). W3CのTTML仕様の拡張のために新たに追加したスキーマ定義(ttaf1-dfxp-du-attribs.xsd)を示す図である。It is a figure which shows the schema definition (ttaf1-dfxp-du-attribs.xsd) newly added for the extension of the TTML specification of W3C. W3CのTTML仕様の拡張のために新たに追加したスキーマ定義(ttaf1-dfxp-du.xsd)を示す図である。It is a figure which shows the schema definition (ttaf1-dfxp-du.xsd) newly added for the extension of the TTML specification of W3C. セットトップボックスおよびテレビ受信機が3D対応機器である場合の放送受信概念を示す図である。It is a figure which shows the broadcast reception concept in case a set top box and a television receiver are 3D corresponding | compatible apparatuses. セットトップボックスおよびテレビ受信機がレガシーの2D対応機器である場合の放送受信概念を示す図である。It is a figure which shows the broadcast reception concept in case a set top box and a television receiver are legacy 2D corresponding | compatible apparatuses. 受信機がレガシーの2D対応機器(2D Receiver)である場合および3D対応機器(3D Receiver)である場合の放送受信概念をまとめて示す図である(SBSの場合)。It is a figure which shows collectively the broadcast reception concept in case the receiver is a legacy 2D compatible device (2D 機器 Receiver) and a 3D compatible device (3D Receiver) (in the case of SBS). 受信機がレガシーの2D対応機器(2D Receiver)である場合および3D対応機器(3D Receiver)である場合の放送受信概念をまとめて示す図である(MVCの場合)。It is a figure which shows collectively the broadcast reception concept in case the receiver is a legacy 2D compatible device (2D2Receiver) and a 3D compatible device (3D Receiver) (in the case of MVC). 画像上における字幕(グラフィクス情報)の表示例と、背景、近景オブジェクト、字幕の遠近感を示す図である。It is a figure which shows the example of a subtitle (graphics information) display on an image, and the perspective of a background, a foreground object, and a subtitle. 画像上における字幕の表示例と、字幕を表示するための左眼字幕LGIおよび右眼字幕RGIを示す図である。It is a figure which shows the example of a display of a subtitle on an image, and the left eye subtitle LGI and the right eye subtitle RGI for displaying a subtitle. ストリーム配信システムを構成するセットトップボックスの構成例を示すブロック図である。It is a block diagram which shows the structural example of the set top box which comprises a stream delivery system. セットトップボックスを構成するビットストリーム処理部の構成例(3D対応機器)を示すブロック図である。It is a block diagram which shows the structural example (3D corresponding apparatus) of the bit stream process part which comprises a set top box. セットトップボックスを構成するビットストリーム処理部の他の構成例(2D対応機器)を示すブロック図である。It is a block diagram which shows the other structural example (2D corresponding | compatible apparatus) of the bit stream process part which comprises a set top box. ストリーム配信システムを構成するテレビ受信機の構成例を示すブロック図である。It is a block diagram which shows the structural example of the television receiver which comprises a stream delivery system. FragmentedMP4ストリームが有するサブタイトルデータストリームの構成例を示す図である。It is a figure which shows the structural example of the subtitle data stream which a FragmentedMP4 stream has. FragmentedMP4ストリームの構成例を示す図である。It is a figure which shows the structural example of FragmentedMP4 stream. ストリーム配信システムの他の構成例を示すブロック図である。It is a block diagram which shows the other structural example of a stream delivery system. 両眼視差を利用した立体画像表示において、スクリーン上におけるオブジェクトの左右像の表示位置と、その立体像の再生位置との関係を説明するための図である。In stereoscopic image display using binocular parallax, it is a figure for demonstrating the relationship between the display position of the left-right image of the object on a screen, and the reproduction | regeneration position of the stereoscopic image.
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
Hereinafter, modes for carrying out the invention (hereinafter referred to as “embodiments”) will be described. The description will be given in the following order.
1. Embodiment 2. FIG. Modified example
 <1.実施の形態>
 [ストリーム配信システム]
 図1は、実施の形態としてのストリーム配信システム10の構成例を示している。このストリーム配信システム10は、MPEG-DASHベースのストリーム配信システムである。このストリーム配信システム10は、DASHセグメントストリーマ11およびDASH MPDサーバ12に、N個のIPTVクライアント13-1,13-2,・・・,13-Nが、CDN(Content Delivery Network)14を介して、接続された構成となっている。
<1. Embodiment>
[Stream distribution system]
FIG. 1 shows a configuration example of a stream distribution system 10 as an embodiment. The stream distribution system 10 is an MPEG-DASH based stream distribution system. In this stream distribution system 10, N IPTV clients 13-1, 13-2,..., 13 -N are connected to a DASH segment streamer 11 and a DASH MPD server 12 via a CDN (Content Delivery Network) 14. The connected configuration.
 DASHセグメントストリーマ11は、所定のコンテンツのメディアデータ(ビデオデータ、オーディオデータ、字幕データなど)に基づいて、DASH仕様のストリームセグメント(以下、「DASHセグメント」という)を生成し、IPTVクライアントからのHTTP要求に応じてセグメントを送出する。このDASHセグメントストリーマ11は、ウェブ(Web)サーバである。 The DASH segment streamer 11 generates a DASH specification stream segment (hereinafter referred to as “DASH segment”) based on media data (video data, audio data, caption data, etc.) of predetermined content, and HTTP from the IPTV client. Send segments on demand. The DASH segment streamer 11 is a web server.
 この実施の形態において、DASHセグメントストリーマ11は、立体画像を構成する左眼画像データおよび右眼画像データに基づいて、ビデオデータストリームのDASHセグメントを生成する。DASHセグメントストリーマ11は、ビデオデータストリームのDASHセグメントとして、複数のレートのビデオデータストリームのDASHセグメントを生成する。 In this embodiment, the DASH segment streamer 11 generates a DASH segment of the video data stream based on the left eye image data and the right eye image data constituting the stereoscopic image. The DASH segment streamer 11 generates a DASH segment of a video data stream having a plurality of rates as a DASH segment of the video data stream.
 また、DASHセグメントストリーマ11は、IPTVクライアント13(13-1,13-2,・・・,13-N)からCDN14を介して送られてくる所定ストリームのセグメントの要求に対応して、そのストリームのセグメントを、CDN14を介して、要求元のIPTVクライアント13に送信する。この場合、IPTVクライアント13は、MPD(Media Presentation Description)ファイルに記載されているレートの値を参照して、クライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択して要求を行う。 Further, the DASH segment streamer 11 responds to a request for a segment of a predetermined stream sent from the IPTV client 13 (13-1, 13-2,..., 13-N) via the CDN 14, and the stream is streamed. Are sent to the requesting IPTV client 13 via the CDN 14. In this case, the IPTV client 13 refers to the rate value described in the MPD (Media Presentation Description) file, and selects the stream with the optimum rate according to the state of the network environment where the client is placed. Make a request.
 DASH MPDサーバ12は、DASHセグメントストリーマ11において生成されるDASHセグメントを取得するためのMPDファイルを生成するサーバである。コンテンツマネジメントサーバ(図1には図示せず)からのコンテンツメタデータと、DASHセグメントストリーマ11において生成されたセグメントのアドレス(url)をもとに、MPDファイルを生成する。 The DASH MPD server 12 is a server that generates an MPD file for acquiring a DASH segment generated in the DASH segment streamer 11. The MPD file is generated based on the content metadata from the content management server (not shown in FIG. 1) and the segment address (url) generated in the DASH segment streamer 11.
 MPDのフォーマットでは、ビデオやオーディオなどのそれぞれのストリーム毎にリプレゼンテーション(Representation)という要素を利用して、それぞれの属性が記述される。例えば、MPDファイルには、レートの異なる複数のビデオデータストリーム毎に、リプレゼンテーションを分けてそれぞれのレートが記述される。IPTVクライアント13では、そのレートの値を参考にして、上述したように、IPTVクライアント13の置かれているネットワーク環境の状態に応じて、最適なストリームを選択できる。 In the MPD format, each attribute is described using an element called “Representation” for each stream such as video and audio. For example, in the MPD file, for each of a plurality of video data streams having different rates, representations are described by dividing the representation. The IPTV client 13 can select an optimum stream according to the state of the network environment where the IPTV client 13 is located as described above with reference to the rate value.
 MPDファイルは、図2に示すように、階層構造をとる。このMPDファイルには、DASHセグメントストリーマ11に格納した動画の圧縮方式や符号化速度、画像サイズ、言語などの情報がXML形式で階層的に記述される。このMPDファイルは、ピリオド(Period)、アダプテーションセット(AdaptationSet)、リプレゼンテーション(Representation)、セグメントインフォ(SegmentInfo)、イニシャライゼーション・セグメント(Initialization Segment)、メディア・セグメント(Media Segment)などの構造体が、階層的に含まれている。 MPD file has a hierarchical structure as shown in FIG. In this MPD file, information such as the compression method, encoding speed, image size, and language of the moving image stored in the DASH segment streamer 11 is hierarchically described in the XML format. This MPD file has a structure such as period, adaptation set, representation, segment info (SegmentInfo), initialization segment (Initialization Segment), and media segment (Media Segment). It is included hierarchically.
 ピリオドの構造体は、プログラム(同期を取った1組の動画や音声等のデータ)の情報を持つ。また、ピリオドの構造体に含まれるアダプテーションセットの構造体は、ストリームの選択範囲(リプレゼンテーション群)をグルーピングする。また、アダプテーションセットの構造体に含まれるリプレゼンテーションの構造体は、動画や音声の符号化速度、動画の音声サイズなどの情報を持つ。 The structure of the period has information on the program (a set of synchronized video and audio data). Further, the adaptation set structure included in the period structure groups the stream selection range (representation group). In addition, the representation structure included in the adaptation set structure has information such as the encoding speed of the moving image and audio, and the audio size of the moving image.
 また、リプレゼンテーションの構造体に含まれるセグメントインフォの構造体は、動画や音声のセグメント関連の情報を持つ。また、セグメントインフォの構造体に含まれるイニシャライゼーション・セグメントの構造体は、データ圧縮方式などの初期化情報を持つ。また、セグメントインフォの構造体に含まれるメディア・セグメントの構造体は、動画や音声のセグメントを取得するアドレスなどの情報を持つ。 Also, the segment info structure included in the representation structure has information related to video and audio segments. The initialization segment structure included in the segment info structure has initialization information such as a data compression method. Further, the media segment structure included in the segment info structure has information such as an address for acquiring a moving image or audio segment.
 図3は、上述のMPDファイルに含まれる各構造体の一例を時間軸上に並べて示したものである。この例においては、MPDファイルにピリオドが2個含まれ、各ピリオドにセグメントが2個含まれている。また、この例においては、各ピリオドにアダプテーションセットが2個含まれ、各アダプテーションセットにストリーム属性の異なる同一内容のストリームに係るリプレゼンテーションが2個含まれている。 FIG. 3 shows an example of each structure included in the MPD file described above side by side on the time axis. In this example, the MPD file includes two periods, and each period includes two segments. In this example, each period includes two adaptation sets, and each adaptation set includes two representations related to streams of the same content with different stream attributes.
 図4は、上述のMPDファイルに階層的に配置されている各構造体の関係の一例を示している。図4(a)に示すように、MPDファイル全体としてのメディア・プレゼンテーション(Media Presentation)には、時間間隔で区切られた複数のピリオド(Period)が存在する。例えば、最初のピリオドはスタートが0秒から、次のピリオドはスタートが100秒から、などとなっている。 FIG. 4 shows an example of the relationship between the structures arranged hierarchically in the MPD file described above. As shown in FIG. 4A, a media presentation (Media Presentation) as an entire MPD file includes a plurality of periods (Periods) separated by time intervals. For example, the first period starts from 0 seconds, the next period starts from 100 seconds, and so on.
 図4(b)に示すように、ピリオドには、複数のリプレゼンテーション(Representation)が存在する。この複数のリプレゼンテーションには、上述したアダプテーションセット(AdaptationSet)でグルーピングされる、ストリーム属性、例えばレートの異なる同一内容のビデオデータストリームに係るリプレゼンテーション群が存在する。 As shown in FIG. 4B, there are a plurality of representations in the period. The plurality of representations include a group of representations related to video data streams having the same content with different stream attributes, for example, rates, grouped by the above-described adaptation set (AdaptationSet).
 図4(c)に示すように、リプレゼンテーションには、セグメントインフォ(SegmentInfo)が含まれている。このセグメントインフォには、図4(d)に示すように、イニシャライゼーション・セグメント(Initialization Segment)と、ピリオドをさらに細かく区切ったセグメント(Segment)毎の情報が記述される複数のメディア・セグメント(Media Segment)が存在する。メディア・セグメントには、ビデオやオーディオなどのセグメントデータを実際に取得するためのアドレス(url)の情報等が存在する。 4 (c), the representation includes segment info (SegmentInfo). In this segment info, as shown in FIG. 4D, the initialization segment (Initialization セ グ メ ン ト Segment) and a plurality of media segments (Media) in which information for each segment (Segment) in which the period is further divided are described. Segment) exists. In the media segment, there is information on an address (url) for actually acquiring segment data such as video and audio.
 なお、アダプテーションセットでグルーピングされている複数のリプレゼンテーションの間では、ストリームのスイッチングを自由に行うことができる。これにより、IPTVクライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択でき、途切れのない動画配信が可能となる。 Note that stream switching can be freely performed between a plurality of representations grouped in the adaptation set. This makes it possible to select an optimal rate stream according to the state of the network environment where the IPTV client is placed, and to enable continuous video distribution.
 図5は、ピリオド(Period)と、リプレゼンテーション(Representation)と、セグメント(Segment)の関係の一例を示している。この例においては、MPDファイルにピリオドが2個含まれ、各ピリオドにセグメントが2個含まれている。また、この例においては、各ピリオドに、同一のメディアコンテンツに係る複数のリプレゼンテーションが含まれている。 FIG. 5 shows an example of the relationship between a period, a representation, and a segment. In this example, the MPD file includes two periods, and each period includes two segments. In this example, each period includes a plurality of representations related to the same media content.
 図6は、コンテンツからDASHセグメントやDASH MPDファイルを生成するまでのフローの一例を示している。コンテンツマネジメントサーバ15からDASHセグメントストリーマ11にコンテンツが送付される。DASHセグメントストリーマ11は、そのコンテンツを構成するビデオデータ、オーディオデータ等に基づいて、各データストリームのDASHセグメントを生成する。 FIG. 6 shows an example of a flow from generation of content to a DASH segment or DASH MPD file. Content is sent from the content management server 15 to the DASH segment streamer 11. The DASH segment streamer 11 generates a DASH segment for each data stream based on video data, audio data, and the like that constitute the content.
 また、DASHセグメントストリーマ11は、生成した各データストリームのDASHセグメントのアドレス(url)の情報を、DASH MPDサーバ12に送付する。コンテンツマネジメントサーバ15は、コンテンツのメタデータを、DASH MPDサーバ12に送付する。DASH MPDサーバ12は、各データストリームのDASHセグメントのアドレス情報と、コンテンツのメタデータとに基づいて、DASH MPDファイルを生成する。 Also, the DASH segment streamer 11 sends the DASH segment address (url) information of the generated data stream to the DASH MPD server 12. The content management server 15 sends the metadata of the content to the DASH MPD server 12. The DASH MPD server 12 generates a DASH MPD file based on the address information of the DASH segment of each data stream and the content metadata.
 図7は、IPTVクライアント13(13-1~13-N)の構成例を示している。IPTVクライアント13は、ストリーミングデータ制御部131と、HTTPアクセス部132と、動画再生部133を有している。ストリーミングデータ制御部131は、DASH MPDサーバ12からMPDファイルを取得し、その内容を解析する。 FIG. 7 shows a configuration example of the IPTV client 13 (13-1 to 13-N). The IPTV client 13 includes a streaming data control unit 131, an HTTP access unit 132, and a moving image playback unit 133. The streaming data control unit 131 acquires an MPD file from the DASH MPD server 12 and analyzes the content.
 HTTPアクセス部132は、動画再生に用いる動画や音声のセグメントをDASHセグメントストリーマ11に要求する。この際、IPTVクライアント13の画面サイズや伝送路の状態などを加味して、それに合わせた最適な画像サイズや符号化速度のストリームを選ぶ。例えば、最初の段階では符号化速度(レート)の遅いストリームのセグメントを要求し、通信状況が良好ならば符号化速度(レート)の速いストリームのセグメントを要求するように切り替える。 The HTTP access unit 132 requests the DASH segment streamer 11 for a moving image or audio segment used for moving image reproduction. At this time, considering the screen size of the IPTV client 13 and the state of the transmission path, etc., a stream having the optimum image size and encoding speed is selected. For example, in a first stage, a segment of a stream having a low encoding rate (rate) is requested, and when a communication condition is good, a segment of a stream having a high encoding rate (rate) is requested.
 HTTPアクセス部132は、受け取った動画や音声のセグメントを動画再生部133に送る。動画再生部133は、HTTPアクセス部132から送られてくる各セグメントに復号処理を施して一本の動画コンテンツを得て、動画や音声を再生する。なお、IPTVクライアント13の各部の処理は例えばソフトウェアにより行われる。 The HTTP access unit 132 sends the received video or audio segment to the video playback unit 133. The moving image reproduction unit 133 performs decoding processing on each segment sent from the HTTP access unit 132 to obtain one moving image content, and reproduces the moving image and the sound. The processing of each unit of the IPTV client 13 is performed by software, for example.
 図8は、一般的な、DASHベースのストリーム配信システムの系を示している。DASH MPDファイルも、DASHセグメントも、全てCDN(Content Delivery Network)14を介して配信される。CDN14は、複数のキャッシュサーバ(DASHキャッシュサーバ)がネットワーク配列された構成となっている。 FIG. 8 shows a general DASH-based stream distribution system. Both the DASH MPD file and the DASH segment are distributed via a CDN (Content Delivery Network) 14. The CDN 14 has a configuration in which a plurality of cache servers (DASH cache servers) are arranged in a network.
 キャッシュサーバは、IPTVクライアント13からのMPDファイルの取得のためのHTTPリクエストを受ける。キャッシュサーバは、ローカルMPDキャッシュにあれば、IPTVクライアント13にHTTPレスポンスとして返す。また、キャッシュサーバは、ローカルMPDキャッシュになければ、そのリクエストをDASH MPDサーバ12あるいは上位のキャッシュサーバに転送する。そして、キャッシュサーバは、MPDファイルの格納されたHTTPレスポンスを受け、IPTVクライアント13に転送すると共に、キャッシュ処理を行う。 The cache server receives an HTTP request for acquiring an MPD file from the IPTV client 13. If the cache server is in the local MPD cache, it returns an HTTP response to the IPTV client 13. If the cache server is not in the local MPD cache, the cache server transfers the request to the DASHSMPD server 12 or a higher-level cache server. The cache server receives the HTTP response in which the MPD file is stored, transfers the HTTP response to the IPTV client 13, and performs a cache process.
 また、キャッシュサーバは、IPTVクライアント13からのDASHセグメント取得のHTTPリクエストを受ける。キャッシュサーバは、ローカルセグメントキャッシュにあれば、IPTVクライアント13にHTTPレスポンスとして返す。また、キャッシュサーバは、ローカルセグメントキャッシュになければ、そのリクエストをDASHセグメントストリーマ11あるいは上位のキャッシュサーバに転送する。そして、キャッシュサーバは、DASHセグメントの格納されたHTTPレスポンスを受け、IPTVクライアント13に転送すると共に、キャッシュ処理を行う。 In addition, the cache server receives an HTTP request for acquiring a DASH segment from the IPTV client 13. If the cache server is in the local segment cache, it returns it to the IPTV client 13 as an HTTP response. If the cache server is not in the local segment cache, the request is transferred to the DASH segment streamer 11 or a higher-level cache server. The cache server receives the HTTP response in which the DASH segment is stored, transfers the HTTP response to the IPTV client 13, and performs cache processing.
 CDN14では、最初にHTTPリクエストを発したIPTVクライアント13-1へ配信されるDASHセグメントが、経路のキャッシュサーバで一時的にキャッシュされ、後続の他のIPTVクライアント13-2からのHTTPリクエストに対しては、そのキャッシュされたDASHセグメントが配信される。そのため、大多数のIPTVクライアントに対するHTTPストリーミングの配信効率を向上させることができる。 In the CDN 14, the DASH segment delivered to the IPTV client 13-1 that originally issued the HTTP request is temporarily cached in the path cache server, and the subsequent HTTP request from the other IPTV client 13-2 is received. Is delivered its cached DASH segment. Therefore, it is possible to improve the delivery efficiency of HTTP streaming for the majority of IPTV clients.
 CDN14は、複数のキャッシュサーバの他に、所定個数のキャッシュ管理サーバを有している。このキャッシュ管理サーバは、MPDファイルに含まれる各ビデオデータストリームのDASHセグメントのキャッシュに関する指標に基づいて、キャッシュ制御ポリシーを作成し、各キャッシュサーバに配布する。各キャッシュサーバは、このキャッシュ制御ポリシーに基づいて、各ビデオデータストリームのDASHセグメントのキャッシング処理を行う。 The CDN 14 has a predetermined number of cache management servers in addition to a plurality of cache servers. The cache management server creates a cache control policy based on an index relating to the cache of the DASH segment of each video data stream included in the MPD file, and distributes the cache control policy to each cache server. Each cache server performs caching processing of the DASH segment of each video data stream based on this cache control policy.
 図9は、図1に示すストリーム配信システム10を別の形態で示したものである。このストリーム配信システム10は、放送局100と、セットトップボックス(STB)200と、テレビ受信機(TV)300を有している。放送局100は、図1のストリーム配信システム10におけるDASHセグメントストリーマ11およびDASHサーバ12を備えている。セットトップボックス200およびテレビ受信機300は、図1のストリーム配信システム10におけるIPTVクライアント13(13-1~13-N)を構成する。 FIG. 9 shows the stream distribution system 10 shown in FIG. 1 in another form. The stream distribution system 10 includes a broadcasting station 100, a set top box (STB) 200, and a television receiver (TV) 300. The broadcasting station 100 includes a DASH segment streamer 11 and a DASH server 12 in the stream distribution system 10 of FIG. The set top box 200 and the television receiver 300 constitute the IPTV client 13 (13-1 to 13-N) in the stream distribution system 10 of FIG.
 セットトップボックス200およびテレビ受信機300は、デジタルインタフェース、例えば、HDMI(High Definition Multimedia Interface)で接続されている。セットトップボックス200およびテレビ受信機300は、HDMIケーブル400を用いて接続されている。セットトップボックス200には、HDMI端子202が設けられている。テレビ受信機300には、HDMI端子302が設けられている。HDMIケーブル400の一端はセットトップボックス200のHDMI端子202に接続され、このHDMIケーブル400の他端はテレビ受信機300のHDMI端子302に接続されている。 The set top box 200 and the television receiver 300 are connected by a digital interface, for example, HDMI (High Definition Multimedia Interface). The set top box 200 and the television receiver 300 are connected using an HDMI cable 400. The set top box 200 is provided with an HDMI terminal 202. The television receiver 300 is provided with an HDMI terminal 302. One end of the HDMI cable 400 is connected to the HDMI terminal 202 of the set top box 200, and the other end of the HDMI cable 400 is connected to the HDMI terminal 302 of the television receiver 300.
 [放送局の説明]
 放送局100は、FragmentedMP4ストリームを、CDN(Content Delivery Network)14(図1参照)を介して、セットトップボックスSTB200に、送信する。放送局100は、FragmentedMP4ストリームを生成する送信データ生成部110を備えている。このFragmentedMP4ストリームには、画像データ、音声データ、重畳情報のデータ、視差情報などが含まれる。ここで、画像データは、立体画像を構成する左眼画像データおよび右眼画像データを含む所定の伝送方式の立体画像データである。立体画像データは所定の伝送フォーマットを有する。重畳情報は、一般的には、字幕、グラフィクス情報、テキスト情報などであるが、この実施の形態においてはサブタイトル(字幕)である。
[Description of broadcasting station]
The broadcasting station 100 transmits the Fragmented MP4 stream to the set top box STB 200 via a CDN (Content Delivery Network) 14 (see FIG. 1). The broadcast station 100 includes a transmission data generation unit 110 that generates a Fragmented MP4 stream. This Fragmented MP4 stream includes image data, audio data, superimposition information data, disparity information, and the like. Here, the image data is stereoscopic image data of a predetermined transmission method including left eye image data and right eye image data constituting a stereoscopic image. The stereoscopic image data has a predetermined transmission format. The superimposition information is generally subtitles, graphics information, text information, etc., but in this embodiment is a subtitle (caption).
 「送信データ生成部の構成例」
 図10は、放送局100における送信データ生成部110の構成例を示している。この送信データ生成部110は、既存の放送規格の一つであるDVB(Digital Video Broadcasting)方式に容易に連携できるデータ構造で視差情報(視差ベクトル)を送信する。この送信データ生成部110は、データ取り出し部111と、ビデオエンコーダ112と、オーディオエンコーダ113を有している。また、この送信データ生成部110は、サブタイトル発生部114と、視差情報作成部115と、サブタイトル処理部116と、サブタイトルエンコーダ118と、マルチプレクサ119を有している。
"Configuration example of transmission data generator"
FIG. 10 shows a configuration example of the transmission data generation unit 110 in the broadcast station 100. The transmission data generation unit 110 transmits disparity information (disparity vector) with a data structure that can be easily linked to the DVB (Digital Video Broadcasting) method, which is one of existing broadcasting standards. The transmission data generation unit 110 includes a data extraction unit 111, a video encoder 112, and an audio encoder 113. Further, the transmission data generation unit 110 includes a subtitle generation unit 114, a disparity information creation unit 115, a subtitle processing unit 116, a subtitle encoder 118, and a multiplexer 119.
 データ取り出し部111には、データ記録媒体111aが、例えば、着脱自在に装着される。このデータ記録媒体111aには、立体画像を構成する左眼画像データおよび右眼画像データと共に、音声データ、視差情報が対応付けて記録されている。データ取り出し部111は、データ記録媒体111aから、画像データ、音声データ、視差情報等を取り出して出力する。データ記録媒体111aは、ディスク状記録媒体、半導体メモリ等である。 A data recording medium 111a is detachably attached to the data extraction unit 111, for example. In this data recording medium 111a, audio data and parallax information are recorded in association with left-eye image data and right-eye image data constituting a stereoscopic image. The data extraction unit 111 extracts and outputs image data, audio data, parallax information, and the like from the data recording medium 111a. The data recording medium 111a is a disk-shaped recording medium, a semiconductor memory, or the like.
 データ取り出し部111から取り出される左眼画像データおよび右眼画像データは所定の伝送方式の立体画像データ(3D画像データ)とされて送信される。立体画像データの伝送方式の一例を説明する。ここでは、以下の第1~第3の伝送方式を挙げるが、これら以外の伝送方式であってもよい。また、ここでは、図11に示すように、左眼(L)および右眼(R)の画像データが、それぞれ、決められた解像度、例えば、1920*1080のピクセルフォーマットの画像データである場合を例にとって説明する。 The left eye image data and right eye image data extracted from the data extraction unit 111 are transmitted as stereoscopic image data (3D image data) of a predetermined transmission method. An example of a transmission method of stereoscopic image data will be described. Here, the following first to third transmission methods are listed, but other transmission methods may be used. In addition, here, as shown in FIG. 11, the case where the image data of the left eye (L) and the right eye (R) is image data of a predetermined resolution, for example, 1920 * 1080 pixel format. Let's take an example.
 第1の伝送方式は、トップ・アンド・ボトム(Top & Bottom)方式で、図12(a)に示すように、垂直方向の前半では左眼画像データの各ラインのデータを伝送し、垂直方向の後半では右眼画像データの各ラインのデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データのラインが1/2に間引かれることから原信号に対して垂直解像度は半分となる。 The first transmission method is a top-and-bottom (Top & Bottom) method. As shown in FIG. 12A, in the first half of the vertical direction, the data of each line of the left eye image data is transmitted, and the vertical direction The latter half of the system is a method for transmitting data of each line of right eye image data. In this case, since the lines of the left eye image data and the right eye image data are thinned out to ½, the vertical resolution is halved with respect to the original signal.
 第2の伝送方式は、サイド・バイ・サイド(Side By Side)方式で、図12(b)に示すように、水平方向の前半では左眼画像データのピクセルデータを伝送し、水平方向の後半では右眼画像データのピクセルデータを伝送する方式である。この場合、左眼画像データおよび右眼画像データは、それぞれ、水平方向のピクセルデータが1/2に間引かれる。原信号に対して、水平解像度は半分となる。 The second transmission method is a side-by-side (Side By Side) method. As shown in FIG. 12B, in the first half in the horizontal direction, pixel data of the left eye image data is transmitted, and in the second half in the horizontal direction. Then, the pixel data of the right eye image data is transmitted. In this case, in the left eye image data and the right eye image data, the pixel data in the horizontal direction is thinned out to 1/2. The horizontal resolution is halved with respect to the original signal.
 第3の伝送方式は、フレーム・シーケンシャル(Frame Sequential)方式、あるいは、L/R ノーインターリービング(L/R No interleaving)方式で、図12(c)に示すように、左眼画像データと右眼画像データとをフレーム毎に順次切換えて伝送する方式である。なお、この方式は、フル・フレーム(Full Frame)方式、あるいは従来の2Dフォーマットに対してのサービスコンパチブル(service compatible)方式も含む。 The third transmission method is a frame-sequential method or an L / R-no interleaving method, as shown in FIG. 12 (c). In this method, eye image data is sequentially switched for each frame and transmitted. This method includes a full frame method or a service compatible method for a conventional 2D format.
 また、データ記録媒体111aに記録されている視差情報は、例えば、画像を構成するピクセル(画素)毎の視差ベクトルである。視差ベクトルの検出例について説明する。ここでは、左眼画像に対する右眼画像の視差ベクトルを検出する例について説明する。図13に示すように、左眼画像を検出画像とし、右眼画像を参照画像とする。この例では、(xi,yi)および(xj,yj)の位置における視差ベクトルが検出される。 Further, the disparity information recorded in the data recording medium 111a is, for example, a disparity vector for each pixel (pixel) constituting the image. A detection example of a disparity vector will be described. Here, an example in which the parallax vector of the right eye image with respect to the left eye image is detected will be described. As illustrated in FIG. 13, the left eye image is a detection image, and the right eye image is a reference image. In this example, the disparity vectors at the positions (xi, yi) and (xj, yj) are detected.
 (xi,yi)の位置における視差ベクトルを検出する場合を例にとって説明する。この場合、左眼画像に、(xi,yi)の位置の画素を左上とする、例えば4*4、8*8あるいは16*16の画素ブロック(視差検出ブロック)Biが設定される。そして、右眼画像において、画素ブロックBiとマッチングする画素ブロックが探索される。 A case where a disparity vector at the position of (xi, yi) is detected will be described as an example. In this case, for example, a 4 * 4, 8 * 8, or 16 * 16 pixel block (parallax detection block) Bi is set in the left eye image with the pixel at the position (xi, yi) at the upper left. Then, a pixel block matching the pixel block Bi is searched in the right eye image.
 この場合、右眼画像に、(xi,yi)の位置を中心とする探索範囲が設定され、その探索範囲内の各画素を順次注目画素として、上述の画素ブロックBiと同様の例えば4*4、8*8あるいは16*16の比較ブロックが順次設定されていく。 In this case, a search range centered on the position of (xi, yi) is set in the right eye image, and each pixel in the search range is sequentially set as a pixel of interest, for example, 4 * 4, similar to the pixel block Bi described above , 8 * 8 or 16 * 16 comparison blocks are sequentially set.
 画素ブロックBiと順次設定される比較ブロックとの間で、対応する画素毎の差分絶対値の総和が求められる。ここで、図14に示すように、画素ブロックBiの画素値をL(x,y)とし、比較ブロックの画素値をR(x,y)とするとき、画素ブロックBiと、ある比較ブロックとの間における差分絶対値の総和は、Σ|L(x,y)-R(x,y)|で表される。 Between the pixel block Bi and the comparison blocks that are sequentially set, the sum of the absolute differences for each corresponding pixel is obtained. Here, as shown in FIG. 14, when the pixel value of the pixel block Bi is L (x, y) and the pixel value of the comparison block is R (x, y), the pixel block Bi, a certain comparison block, The sum of absolute differences between the two is represented by Σ | L (x, y) −R (x, y) |.
 右眼画像に設定される探索範囲にn個の画素が含まれているとき、最終的にn個の総和S1~Snが求められ、その中で最小の総和Sminが選択される。そして、この総和Sminが得られた比較ブロックから左上の画素の位置が(xi′,yi′)が得られる。これにより、(xi,yi)の位置における視差ベクトルは、(xi′-xi,yi′-yi)のように検出される。詳細説明は省略するが、(xj,yj)の位置における視差ベクトルについても、左眼画像に、(xj,yj)の位置の画素を左上とする、例えば4*4、8*8あるいは16*16の画素ブロックBjが設定されて、同様の処理過程で検出される。 When n pixels are included in the search range set in the right eye image, n total sums S1 to Sn are finally obtained, and the minimum sum Smin is selected. Then, the position of the upper left pixel (xi ′, yi ′) is obtained from the comparison block from which the sum Smin is obtained. Thus, the disparity vector at the position (xi, yi) is detected as (xi′−xi, yi′−yi). Although detailed description is omitted, for the disparity vector at the position (xj, yj), the left eye image has the pixel at the position (xj, yj) at the upper left, for example, 4 * 4, 8 * 8, or 16 *. Sixteen pixel blocks Bj are set and detected in the same process.
 図10に戻って、ビデオエンコーダ112は、データ取り出し部111から取り出された左眼画像データおよび右眼画像データを所定の伝送方式の立体画像データに変換する。そして、ビデオエンコーダ112は、この立体画像データに対して、MPEG4-AVC、MPEG2、VC-1等の符号化を施し、ビデオデータストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ113は、データ取り出し部111から取り出された音声データに対して、AC3、AAC等の符号化を施し、オーディオデータストリーム(オーディオエレメンタリストリーム)を生成する。 Referring back to FIG. 10, the video encoder 112 converts the left eye image data and right eye image data extracted from the data extraction unit 111 into stereoscopic image data of a predetermined transmission method. Then, the video encoder 112 performs encoding such as MPEG4-AVC, MPEG2, or VC-1 on the stereoscopic image data to generate a video data stream (video elementary stream). The audio encoder 113 performs encoding such as AC3 or AAC on the audio data extracted from the data extraction unit 111 to generate an audio data stream (audio elementary stream).
 サブタイトル発生部114は、DVB(Digital Video Broadcasting)方式の字幕データであるサブタイトルデータを発生する。このサブタイトルデータは、2次元画像用のサブタイトルデータである。このサブタイトル発生部114は、重畳情報データ出力部を構成している。 The subtitle generation unit 114 generates subtitle data that is DVB (Digital Video Broadcasting) subtitle data. This subtitle data is subtitle data for a two-dimensional image. The subtitle generation unit 114 constitutes a superimposition information data output unit.
 視差情報作成部115は、データ取り出し部111から取り出されたピクセル(画素)毎の、あるいは複数のピクセルに対しての視差ベクトル(水平方向視差ベクトル)に対して、ダウンサイジング処理を施し、以下に示すように、各階層の視差情報を生成する。なお、視差情報は必ずしも視差情報作成部115で生成される必要はなく、外部から別途供給される構成も可能である。 The disparity information creating unit 115 performs a downsizing process on the disparity vector (horizontal disparity vector) for each pixel (pixel) extracted from the data extracting unit 111 or for a plurality of pixels. As shown, disparity information for each layer is generated. The disparity information does not necessarily have to be generated by the disparity information creating unit 115, and a configuration in which the disparity information is supplied separately from the outside is also possible.
 図15は、各ピクセル(画素)の輝度値のようにして与えられる相対的な深さ方向のデータの例を示している。ここで、相対的な深さ方向のデータは所定の変換により画素ごとの視差ベクトルとして扱うことが可能となる。この例において、人物部分の輝度値は高くなっている。これは、人物部分の視差ベクトルの値が大きいことを意味し、従って、立体画像表示では、この人物部分が浮き出た状態に知覚されることを意味している。また、この例において、背景部分の輝度値は低くなっている。これは、背景部分の視差ベクトルの値が小さいことを意味し、従って、立体画像表示では、この背景部分が沈んだ状態に知覚されることを意味している。 FIG. 15 shows an example of data in the relative depth direction given as the luminance value of each pixel (pixel). Here, the data in the relative depth direction can be handled as a disparity vector for each pixel by a predetermined conversion. In this example, the luminance value of the person portion is high. This means that the value of the parallax vector of the person portion is large, and therefore, in stereoscopic image display, this means that the person portion is perceived as being raised. In this example, the luminance value of the background portion is low. This means that the value of the parallax vector in the background portion is small, and therefore, in stereoscopic image display, this means that the background portion is perceived as a sunken state.
 図16は、ブロック(Block)毎の視差ベクトルの一例を示している。ブロックは、最下層に位置するピクセル(画素)の上位層に当たる。このブロックは、画像(ピクチャ)領域が、水平方向および垂直方向に所定の大きさで分割されることで構成される。各ブロックの視差ベクトルは、例えば、そのブロック内に存在する全ピクセル(画素)の視差ベクトルから、最も値の大きな視差ベクトルが選択されることで得られる。この例においては、各ブロックの視差ベクトルを矢印で示しており、矢印の長さが視差ベクトルの大きさに対応している。 FIG. 16 shows an example of a disparity vector for each block. The block corresponds to an upper layer of pixels (picture elements) located at the lowermost layer. This block is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction. The disparity vector of each block is obtained, for example, by selecting the disparity vector having the largest value from the disparity vectors of all pixels (pixels) existing in the block. In this example, the disparity vector of each block is indicated by an arrow, and the length of the arrow corresponds to the magnitude of the disparity vector.
 図17は、視差情報作成部115で行われるダウンサイジング処理の一例を示している。最初に、視差情報作成部115は、図17(a)に示すように、ピクセル(画素)毎の視差ベクトルを用いて、ブロック毎の符号付き視差ベクトルを求める。上述したように、ブロックは、最下層に位置するピクセル(画素)の上位層に当たり、画像(ピクチャ)領域が水平方向および垂直方向に所定の大きさで分割されることで構成される。そして、各ブロックの視差ベクトルは、例えば、そのブロック内に存在する全ピクセル(画素)の視差ベクトルから、最も値の小さな、あるいは最も絶対値が大きい負の値をもつ視差ベクトルが選択されることで得られる。 FIG. 17 shows an example of the downsizing process performed by the parallax information creating unit 115. First, as shown in FIG. 17A, the disparity information creating unit 115 obtains a signed disparity vector for each block using the disparity vector for each pixel (pixel). As described above, a block corresponds to an upper layer of pixels located at the lowest layer, and is configured by dividing an image (picture) region into a predetermined size in the horizontal direction and the vertical direction. For the disparity vector of each block, for example, the disparity vector having the smallest negative value or the smallest absolute value is selected from the disparity vectors of all the pixels (pixels) present in the block. It is obtained by.
 次に、視差情報作成部115は、図17(b)に示すように、ブロック毎の視差ベクトルを用いて、グループ(Group Of Block)毎の視差ベクトルを求める。グループは、ブロックの上位層に当たり、複数個の近接するブロックをまとめてグループ化することで得られる。図17(b)の例では、各グループは、破線枠で括られる4個のブロックにより構成されている。そして、各グループの視差ベクトルは、例えば、そのグループ内の全ブロックの視差ベクトルから、最も値の小さな、あるいは最も絶対値が大きい負の値をもつ視差ベクトルが選択されることで得られる。 Next, the disparity information creating unit 115 obtains a disparity vector for each group (Group Of Block) using the disparity vector for each block, as shown in FIG. A group is an upper layer of a block, and is obtained by grouping a plurality of adjacent blocks together. In the example of FIG. 17B, each group is composed of four blocks bounded by a broken line frame. The disparity vector of each group is obtained, for example, by selecting the disparity vector having the smallest value or the negative value having the largest absolute value from the disparity vectors of all the blocks in the group.
 次に、視差情報作成部115は、図17(c)に示すように、グループ毎の視差ベクトルを用いて、パーティション(Partition)毎の視差ベクトルを求める。パーティションは、グループの上位層に当たり、複数個の近接するグループをまとめてグループ化することで得られる。図17(c)の例では、各パーティションは、破線枠で括られる2個のグループにより構成されている。そして、各パーティションの視差ベクトルは、例えば、そのパーティション内の全グループの視差ベクトルから、最も値の小さな、あるいは最も絶対値が大きい負の値をもつ視差ベクトルが選択されることで得られる。 Next, the disparity information creating unit 115 obtains a disparity vector for each partition (Partition) using the disparity vector for each group as shown in FIG. The partition is an upper layer of the group and is obtained by grouping a plurality of adjacent groups together. In the example of FIG. 17C, each partition is configured by two groups bounded by a broken line frame. The disparity vector of each partition is obtained, for example, by selecting the disparity vector having the smallest negative value or the smallest absolute value from the disparity vectors of all the groups in the partition.
 次に、視差情報作成部115は、図17(d)に示すように、パーティション毎の視差ベクトルを用いて、最上位層に位置するピクチャ全体(画像全体)の視差ベクトルを求める。図17(d)の例では、ピクチャ全体には、破線枠で括られる4個のパーティションが含まれている。そして、ピクチャ全体の視差ベクトルは、例えば、ピクチャ全体に含まれる全パーティションの視差ベクトルから、最も値の小さな、あるいは最も絶対値が大きい負の値をもつ視差ベクトルが選択されることで得られる。 Next, the disparity information creating unit 115 obtains a disparity vector of the entire picture (entire image) located in the highest layer using the disparity vector for each partition, as shown in FIG. In the example of FIG. 17D, the entire picture includes four partitions that are bounded by a broken line frame. The disparity vector for the entire picture is obtained, for example, by selecting the disparity vector having the smallest negative value or the smallest absolute value from the disparity vectors of all partitions included in the entire picture.
 このようにして、視差情報作成部115は、最下層に位置するピクセル(画素)毎の視差ベクトルにダウンサイジング処理を施して、ブロック、グループ、パーティション、ピクチャ全体の各階層の各領域の視差ベクトルを求めることができる。なお、図17に示すダウンサイジング処理の一例では、最終的に、ピクセル(画素)の階層の他、ブロック、グループ、パーティション、ピクチャ全体の4階層の視差ベクトルを求めている。しかし、階層数ならびに各階層の領域の切り方や領域の数はこれに限定されるものではない。 In this way, the disparity information creating unit 115 performs the downsizing process on the disparity vector for each pixel (pixel) located in the lowest layer, and the disparity vectors of the respective regions in each layer of the block, group, partition, and entire picture Can be requested. In the example of the downsizing process shown in FIG. 17, finally, in addition to the pixel (pixel) layer, four layers of disparity vectors of blocks, groups, partitions, and pictures are obtained. However, the number of hierarchies, how to cut areas in each hierarchy, and the number of areas are not limited to this.
 図10に戻って、サブタイトル処理部116は、サブタイトル発生部114で発生されたサブタイトルデータに基づいて、リージョン内にサブリージョンの領域を定義できる。また、サブタイトル処理部116は、視差情報作成部115で作成された視差情報に基づいて、左眼画像および右眼画像における重畳情報の表示位置をシフト調整するための視差情報を設定する。この視差情報は、サブリージョンまたはリージョン毎に、あるいはページ毎に設定可能とされている。 Returning to FIG. 10, the subtitle processing unit 116 can define the region of the subregion in the region based on the subtitle data generated by the subtitle generating unit 114. Further, the subtitle processing unit 116 sets parallax information for shift adjustment of the display position of the superimposition information in the left eye image and the right eye image based on the parallax information created by the parallax information creating unit 115. This disparity information can be set for each subregion or region, or for each page.
 図18(a)は、サブタイトルデータにおいて、画面上に定義されるリージョンと、このリージョン内に定義されるサブリージョンの一例を示している。この例では、「Region_Starting Position」がR0であるリージョン0(Region 0)に、「SubRegion 1」、「SubRegion 2」の2つのサブリージョンが定義されている。「SubRegion 1」の水平方向位置(Horizontal Position)xはSR1で、「SubRegion 2」の水平方向位置(Horizontal Position)xはSR2である。そして、この例では、サブリージョン「SubRegion 1」に対して視差情報「disparity 1」が設定され、サブリージョン「SubRegion 2」に対して視差情報「disparity 2」が設定される。 FIG. 18 (a) shows an example of a region defined on the screen and subregions defined in this region in the subtitle data. In this example, two sub-regions “SubRegion 1” and “SubRegion 2” are defined in region 0 (Region 0) where “Region_Starting Position” is R0. The horizontal position (Horizontal Position) x of “SubRegion 1” is SR1, and the horizontal position (Horizontal Position) x of “SubRegion 2” is SR2. In this example, the disparity information “disparity 1” is set for the subregion “SubRegion 1”, and the disparity information “disparity 2” is set for the subregion “SubRegion 2”.
 図18(b)は、視差情報による左眼画像におけるサブリージョン領域内のシフト調整例を示している。サブリージョン「SubRegion 1」に対して視差情報「disparity 1」が設定されている。そのため、サブリージョン「SubRegion 1」に関しては、水平方向位置(Horizontal Position)xがSR1-disparity 1 となるようにシフト調整される。また、サブリージョン「SubRegion 2」に対して視差情報「disparity 2」が設定されている。そのため、サブリージョン「SubRegion 2」に関しては、水平方向位置(Horizontal Position)xがSR2-disparity 2 となるようにシフト調整される。 FIG. 18B shows a shift adjustment example in the sub-region region in the left eye image based on the parallax information. Disparity information “disparity 1” is set for the subregion “SubRegion 1”. Therefore, for the subregion “SubRegionReg1”, shift adjustment is performed so that the horizontal position (HorizontalxPosition) x becomes SR1−disparity 1. Also, disparity information “disparity 2” is set for the subregion “SubRegion 2”. Therefore, with respect to the subregion “SubRegion 2”, the shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR2-disparity 2.
 図18(c)は、視差情報による右眼画像におけるサブリージョン領域内のシフト調整例を示している。サブリージョン「SubRegion 1」に対して視差情報「disparity 1」が設定されている。そのため、サブリージョン「SubRegion 1」に関しては、上述の左眼画像とは逆向きに、水平方向位置(Horizontal Position)xがSR1+disparity 1 となるようにシフト調整される。また、サブリージョン「SubRegion 2」に対して視差情報「disparity 2」が設定されている。そのため、サブリージョン「SubRegion 2」に関しては、上述の左眼画像とは逆向きに、水平方向位置(Horizontal Position)xがSR2+disparity 2 となるようにシフト調整される。 FIG. 18C illustrates an example of shift adjustment in the sub-region region in the right eye image based on disparity information. Disparity information “disparity 1” is set for the subregion “SubRegion 1”. Therefore, with respect to the subregion “SubRegion 1”, shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR1 + disparity 1 in the opposite direction to the above left-eye image. Also, disparity information “disparity 2” is set for the subregion “SubRegion 2”. Therefore, with respect to the subregion “SubRegion 2”, the shift adjustment is performed so that the horizontal position (Horizontal Position) x becomes SR2 + disparity 向 き 2 in the opposite direction to the left eye image.
 サブタイトル処理部116は、サブタイトル発生部114で発生されたサブタイトルデータと共に、上述のサブリージョン領域の領域情報、視差情報などの表示制御情報を出力する。なお、視差情報に関しては、上述したようにサブリージョン単位で設定できる他、リージョン単位、あるいはページ単位でも設定できる。 The subtitle processing unit 116 outputs display control information such as region information and disparity information of the above-described subregion region together with the subtitle data generated by the subtitle generation unit 114. Note that disparity information can be set in units of subregions as described above, or in units of regions or pages.
 サブタイトルデータは、TTML(Timed Text Markup Language)文書(XMLフォーマット)のセグメントとなる。TTMLとは、テキストの表示タイミングと表示位置(レイアウト)、表示のタイミングなどを指定することができるマークアップ言語である。この実施の形態においては、TTML-DSS(Disparity Signaling Segment)のセグメントがさらに定義される。このTTML-DSSのセグメントに、TTMLフォーマットに基づくXML文書として、上述の視差情報などの表示制御情報が挿入される。 The subtitle data is a segment of a TTML (Timed Text Markup Language) document (XML format). TTML is a markup language that can specify text display timing, display position (layout), display timing, and the like. In this embodiment, a segment of TTML-DSS (Disparity Signaling Segment) is further defined. Display control information such as the above-described parallax information is inserted into the TTML-DSS segment as an XML document based on the TTML format.
 図10に戻って、サブタイトルエンコーダ118は、TTML、TTML-DSSの各TTMLセグメントを含むサブタイトルデータストリーム(プライベートデータストリーム)を生成する。マルチプレクサ119は、ビデオエンコーダ112、オーディオエンコーダ113およびサブタイトルエンコーダ118からの各データストリームをファイル化し、ファイルとしてのFragmentedMP4ストリームを生成する。このFragmentedMP4ストリームは、ビデオデータストリーム、オーディオデータストリーム、サブタイトルデータストリームを有するものとなる。 10, the subtitle encoder 118 generates a subtitle data stream (private data stream) including TTML segments of TTML and TTML-DSS. The multiplexer 119 converts each data stream from the video encoder 112, the audio encoder 113, and the subtitle encoder 118 into a file, and generates a Fragmented MP4 stream as a file. This Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream.
 図19は、FragmentedMP4ストリームが有するサブタイトルデータストリームの構成例を示している。このサブタイトルデータストリームに対応して、MPDにアダプテーションセット/リプレゼンテーション(AdaptationSet/Representation)要素が記述されている。そして、このアダプテーションセット要素には各々ID属性(AdaptationSet/@id)が定義される。 FIG. 19 shows a configuration example of the subtitle data stream included in the Fragmented MP4 stream. Corresponding to this subtitle data stream, an adaptation set / representation element is described in MPD. An ID attribute (AdaptationSet / @ id) is defined for each adaptation set element.
 TTMLセグメントのみを含む第1のサブタイトルデータストリームに対応するアダプテーションセット要素のID属性と、TTMLセグメントの他にTTML-DSSセグメントを含む第2のサブタイトルデータストリームに対応するアダプテーションセット要素のID属性とは異なるものとされる。これにより、第1のサブタイトルデータストリームと第2のサブタイトルデータストリームとが別個のサービスであることが示され、その識別が可能となる。 The ID attribute of the adaptation set element corresponding to the first subtitle data stream including only the TTML segment and the ID attribute of the adaptation set element corresponding to the second subtitle data stream including the TTML-DSS segment in addition to the TTML segment It will be different. Thereby, it is indicated that the first subtitle data stream and the second subtitle data stream are separate services, and identification thereof is possible.
 この実施の形態において、第2のサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値は、第1のサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値に予め決定された所定値が加算された値とされる。これにより、第1のサブタイトルデータストリームと第2のサブタイトルデータストリームとが、アダプテーションセット要素のID属性上において、ひも付けされている。 In this embodiment, the value of the ID attribute of the adaptation set element corresponding to the second subtitle data stream is a predetermined value determined in advance as the value of the ID attribute of the adaptation set element corresponding to the first subtitle data stream. It is the added value. Thereby, the first subtitle data stream and the second subtitle data stream are linked on the ID attribute of the adaptation set element.
 図10に示す送信データ生成部110の動作を簡単に説明する。データ取り出し部111から取り出された左眼画像データおよび右眼画像データは、ビデオエンコーダ112に供給される。このビデオエンコーダ112では、左眼画像データおよび右眼画像データが所定の伝送方式の立体画像データに変換される(図12(a)~(c)参照)。そして、ビデオエンコーダ112では、その立体画像データに対してMPEG4-AVC、MPEG2、VC-1等の符号化が施され、符号化ビデオデータを含むビデオデータストリームが生成される。このビデオデータストリームはマルチプレクサ119に供給される。 The operation of the transmission data generation unit 110 shown in FIG. 10 will be briefly described. The left eye image data and right eye image data extracted from the data extraction unit 111 are supplied to the video encoder 112. In the video encoder 112, the left eye image data and the right eye image data are converted into stereoscopic image data of a predetermined transmission method (see FIGS. 12A to 12C). Then, the video encoder 112 performs encoding such as MPEG4-AVC, MPEG2, VC-1 on the stereoscopic image data, and generates a video data stream including the encoded video data. This video data stream is supplied to the multiplexer 119.
 データ取り出し部111で取り出された音声データはオーディオエンコーダ113に供給される。このオーディオエンコーダ113では、音声データに対して、MPEG-2 Audio AAC、あるいは、MPEG-4 AAC等の符号化が施され、符号化オーディオデータを含むオーディオデータストリームが生成される。このオーディオデータストリームはマルチプレクサ119に供給される。 The audio data extracted by the data extraction unit 111 is supplied to the audio encoder 113. In the audio encoder 113, the audio data is encoded such as MPEG-2MPEGAudio AAC or MPEG-4 AAC, and an audio data stream including the encoded audio data is generated. This audio data stream is supplied to the multiplexer 119.
 サブタイトル発生部114では、2次元画像用のサブタイトルデータが発生される。このサブタイトルデータは、視差情報作成部115およびサブタイトル処理部116に供給される。 The subtitle generator 114 generates subtitle data for a two-dimensional image. This subtitle data is supplied to the disparity information creating unit 115 and the subtitle processing unit 116.
 データ取り出し部111から取り出されたピクセル(画素)毎の視差ベクトルは、視差情報作成部115に供給される。この視差情報作成部115では、ピクセル毎の、あるいは複数のピクセルに対しての視差ベクトルに対してダウンサイジング処理が施され、各階層の視差情報(disparity)が作成される。この視差情報は、サブタイトル処理部116に供給される。 The disparity vector for each pixel (pixel) extracted from the data extracting unit 111 is supplied to the disparity information creating unit 115. In the disparity information creating unit 115, downsizing processing is performed on disparity vectors for each pixel or for a plurality of pixels, and disparity information (disparity) of each layer is created. This disparity information is supplied to the subtitle processing unit 116.
 サブタイトル処理部116では、サブタイトル発生部114で発生されたサブタイトルデータに基づいて、例えば、リージョン内にサブリージョンの領域が定義される。また、サブタイトル処理部116では、視差情報作成部115で作成された視差情報に基づいて、左眼画像および右眼画像における重畳情報の表示位置をシフト調整するための視差情報が設定される。この場合、視差情報は、サブリージョンまたはリージョン毎に、あるいはページ毎に設定される。 In the subtitle processing unit 116, based on the subtitle data generated by the subtitle generation unit 114, for example, a subregion region is defined in the region. In addition, the subtitle processing unit 116 sets disparity information for shift adjustment of the display position of the superimposition information in the left eye image and the right eye image based on the disparity information created by the disparity information creating unit 115. In this case, the disparity information is set for each subregion, each region, or each page.
 サブタイトル処理部116から出力されるサブタイトルデータおよび表示制御情報は、サブタイトルエンコーダ118に供給される。表示制御情報には、サブリージョン領域の領域情報、視差情報などが含まれている。サブタイトルエンコーダ118では、TTML、TTML-DSSの各TTMLセグメントを含むサブタイトルデータストリーム(プライベートデータストリーム)が生成される。 The subtitle data and display control information output from the subtitle processing unit 116 are supplied to the subtitle encoder 118. The display control information includes area information of the sub-region area, parallax information, and the like. The subtitle encoder 118 generates a subtitle data stream (private data stream) including TTML segments of TTML and TTML-DSS.
 マルチプレクサ119には、上述したように、ビデオエンコーダ112、オーディオエンコーダ113およびサブタイトルエンコーダ118からの各データストリームが供給される。そして、このマルチプレクサ119では、各データストリームがファイル化され、ファイルとしてのFragmentedMP4ストリームが生成される。このFragmentedMP4ストリームは、ビデオデータストリーム、オーディオデータストリーム、サブタイトルデータストリーム(プライベートデータストリーム)を有するものとなる。 As described above, each data stream from the video encoder 112, the audio encoder 113, and the subtitle encoder 118 is supplied to the multiplexer 119. In the multiplexer 119, each data stream is converted into a file, and a Fragmented MP4 stream as a file is generated. This Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream (private data stream).
 図20は、FragmentedMP4ストリームの構成例を示している。各FragmentedMP4ストリームには、それぞれ、エレメンタリストリームをパケット化して得られたFragmentedMP4が含まれている。なお、この図においては、図面の簡単化のために、ビデオおよびオーディオに関係する部分の図示を省略している。 FIG. 20 shows a configuration example of a Fragmented MP4 stream. Each FragmentedMP4 stream includes FragmentedMP4 obtained by packetizing the elementary stream. In this figure, for the sake of simplification of the drawing, illustration of portions related to video and audio is omitted.
 この構成例では、TTMLセグメントのみを含む第1のサブタイトルデータストリームのFragmentedMP4ストリームと、TTMLセグメントの他にTTML-DSSセグメントを含む第2のサブタイトルデータストリームのFragmentedMP4ストリームが示されている。各ストリームに対応するアダプテーションセット要素のID属性は互いに異なるものとされ、識別可能とされている。 In this configuration example, a FragmentedMP4 stream of the first subtitle data stream including only the TTML segment and a FragmentedMP4 stream of the second subtitle data stream including the TTML-DSS segment in addition to the TTML segment are shown. The ID attribute of the adaptation set element corresponding to each stream is different from each other and can be identified.
 各FragmentedMP4ストリームには、それぞれに対応する、MPDに記述されるアダプテーションセット/リプレゼンテーション(AdaptationSet/Representation)要素がある。そのリプレゼンテーション要素の配下に列挙(関連付け)されるセグメント(Segment)は、図示したstyp box、sidx box、fragmentedMP4(moofとmdat)の列を参照する。プログラムの単位はこのアダプテーションセットが複数まとまったグループとして定義される。 Each Fragmented MP4 stream has an adaptation set / representation element described in MPD corresponding to each Fragmented MP4 stream. Segments (Segment) listed (associated) under the representation element refer to the columns of stypsbox, sidx box, and fragmentedMP4 (moof and mdat) shown in the figure. A program unit is defined as a group of a plurality of adaptation sets.
 MPDのサブタイトルデータストリームに対応するアダプテーションセット/リプレゼンテーション要素には、サブタイトルの言語コード等のサブタイトルデータストリームに関連する情報が記述される。サブタイトルデータストリームに関連する情報の1つに、サブタイトリングタイプ(subtitlingType)を導入し、アダプテーションセット要素の属性として“AdaptationSet/@subtitlingType”のように、配置できるようにする。図21は、オリジナルのDASH-MPDスキーマを拡張して、サブタイトリングタイプを導入する例を示している。 In the adaptation set / representation element corresponding to the MPD subtitle data stream, information related to the subtitle data stream such as a subtitle language code is described. A subtitling type (subtitlingType) is introduced as one of information related to the subtitle data stream, and can be arranged as an adaptation set element attribute such as “AdaptationSet / @ subtitlingType”. FIG. 21 shows an example in which the original DASH-MPD schema is extended to introduce a subtitling type.
 第1のサブタイトルデータストリーム(FragmentedMP4ストリーム)に対応したサブタイトリングタイプ(subtitling_type)は、2D用サブタイトルを示す値、例えば、「0x14」あるいは「0x24」とされる((図22の“component_type”参照)。さらに、このサブタイトルデータストリームに対応したISO(International Organization for Standardization)言語コードは、サブタイトル(字幕)の言語を示すようにアダプテーションセット要素の属性であるlang属性(図示の例ではAdaptationSet/@lang)に設定される。図示の例においては、英語を示す「eng」に設定されている。 The subtitling type (subtitling_type) corresponding to the first subtitle data stream (FragmentedMP4 stream) is a value indicating a 2D subtitle, for example, “0x14” or “0x24” (see “component_type” in FIG. 22). Furthermore, the ISO (International Organization for Standardization) language code corresponding to the subtitle data stream is a lang attribute (in the example shown, AdaptationSet / @ lang) that is an attribute of the adaptation set element to indicate the language of the subtitle (caption). In the illustrated example, “eng” indicating English is set.
 また、第2のサブタイトルデータストリーム(FragmentedMP4ストリーム)に対応したサブタイトリングタイプ(subtitling_type)は、3D用サブタイトルを示す値、例えば、「0x15」あるいは「0x25」とされる(図22の“component_type”参照)。さらに、この第2のサブタイトルデータストリームに対応したISO言語コードは、例えば、非言語を示す「zxx」に設定される。 Also, the subtitling type (subtitling_type) corresponding to the second subtitle data stream (FragmentedMP4 stream) is a value indicating a 3D subtitle, for example, “0x15” or “0x25” (“component_type” in FIG. 22). reference). Furthermore, the ISO language code corresponding to the second subtitle data stream is set to “zxx” indicating a non-language, for example.
 なお、上述では、第2のサブタイトルデータストリームに対応したISO言語コードは、例えば、非言語を示す「zxx」に設定されるように説明した。しかし、第2のサブタイトルデータストリームに対応したISO言語コードを第1のサブタイトルデータストリームに対応したISO言語コードと同じく、サブタイトル(字幕)の言語を示すように設定することも考えられる。 In the above description, the ISO language code corresponding to the second subtitle data stream is set to “zxx” indicating a non-language, for example. However, it may be possible to set the ISO language code corresponding to the second subtitle data stream so as to indicate the language of the subtitle (caption) in the same manner as the ISO language code corresponding to the first subtitle data stream.
 なお、非言語を示すISO言語コードとして、ISO言語コードの「qaa」から「qrz」の空間に含まれる言語コードのいずれか、あるいは、「mis」または「und」の言語コードを使用することも考えられる。なお、参考として、図23に、ISO言語コード(ISO 639-2 Code)リストの抜粋を示す。 As an ISO language code indicating a non-language, one of the language codes included in the space “qaa” to “qrz” of the ISO language code, or the language code “mis” or “und” may be used. Conceivable. For reference, FIG. 23 shows an excerpt of the ISO language code (ISO 639-2 Code) list.
 図24(a)は、第1のサブタイトルデータストリームに対応したアダプテーションセットの構成例を示している。この例は、英語“eng”の言語サービス例である。“AdaptationSet/@id”は“A1”とされている。また、“AdaptationSet/@id=A1”に対応させて、“AdaptationSet/@subtitlingType”は、2D用サブタイトルを示す値とされている。さらに、“AdaptationSet/@id=A1”に対応させて、“AdaptationSet/@lang”は、英語を示す「eng」に設定されている。 FIG. 24A shows a configuration example of an adaptation set corresponding to the first subtitle data stream. This example is a language service example of English “eng”. “AdaptationSet / @ id” is set to “A1”. Further, “AdaptationSet / @ subtitlingType” is a value indicating a 2D subtitle in association with “AdaptationSet / @ id = A1”. Further, “AdaptationSet / @ lang” is set to “eng” indicating English in correspondence with “AdaptationSet / @ id = A1”.
 図24(b)は、第2のサブタイトルデータストリームに対応したアダプテーションセットの構成例を示している。“AdaptationSet/@id”は“A2”とされている。また、“AdaptationSet/@id=A2”に対応させて、“AdaptationSet/@subtitlingType”は、3D用サブタイトルを示す値とされている。さらに、“AdaptationSet/@id=A2”に対応させて、“AdaptationSet/@lang”は、非言語を示す「zxx」に設定されている。 FIG. 24B shows a configuration example of an adaptation set corresponding to the second subtitle data stream. “AdaptationSet / @ id” is set to “A2”. Further, “AdaptationSet / @ subtitlingType” is a value indicating a 3D subtitle in association with “AdaptationSet / @ id = A2”. Further, “AdaptationSet / @ lang” is set to “zxx” indicating a non-language in association with “AdaptationSet / @ id = A2”.
 [視差情報の更新]
 上述したように、サブタイトルデータストリームに含まれるTTML-DSSセグメントにより視差情報が送信される。この視差情報の更新について説明する。
[Update parallax information]
As described above, disparity information is transmitted by the TTML-DSS segment included in the subtitle data stream. The update of the parallax information will be described.
 図25、図26は、インターバル期間(Interval period)を用いた視差情報の更新例を示している。図25は、インターバル期間(Interval period)が固定で、しかも、その期間が更新期間と等しい場合を示している。すなわち、A-B、B-C、C-D、・・・の各更新期間は、1個のインターバル期間からなっている。 25 and 26 show an example of updating disparity information using an interval period (Interval period). FIG. 25 shows a case where the interval period (Interval period) is fixed and the period is equal to the update period. That is, each update period of AB, BC, CD,... Consists of one interval period.
 図26は、一般的なもので、インターバル期間(Interval period)を短期間(例えば、フレーム周期でもよい)とした場合の、視差情報の更新例を示している。この場合、インターバル期間の個数は、各更新期間において、M,N,P,Q,Rとなる。なお、図25、図26において、“A”は字幕表示期間の開始フレーム(開始時点)を示し、“B”~“F”は、その後の更新フレーム(更新時点)を示している。 FIG. 26 is a general example and shows an example of updating disparity information when the interval period (Interval period) is a short period (for example, a frame period may be used). In this case, the number of interval periods is M, N, P, Q, and R in each update period. In FIG. 25 and FIG. 26, “A” indicates the start frame (start point) of the caption display period, and “B” to “F” indicate subsequent update frames (update point).
 字幕表示期間内で順次更新される視差情報を受信側(セットトップボックス200など)に送る場合、受信側においては、更新期間毎の視差情報に補間処理を施すことで、任意のフレーム間隔、例えば、1フレーム間隔の視差情報を生成して使用することが可能である。 When sending disparity information that is sequentially updated within the caption display period to the receiving side (such as the set top box 200), the receiving side performs an interpolation process on the disparity information for each updating period, for example, an arbitrary frame interval, for example, It is possible to generate and use disparity information at intervals of one frame.
 図27は、サブタイトルデータストリームの構成例を示している。図27(a)は、字幕表示期間で順次更新される複数の視差情報を1個のTTML-DSSセグメントに含めて送信する例を示している。なお、このTTML-DSSセグメントは、3D用の第2のサブタイトルデータストリームのみに存在し、2D用の第1のサブタイトルデータストリームには存在しない。 FIG. 27 shows a configuration example of the subtitle data stream. FIG. 27A illustrates an example in which a plurality of pieces of disparity information sequentially updated in the caption display period are included in one TTML-DSS segment and transmitted. This TTML-DSS segment exists only in the second subtitle data stream for 3D, and does not exist in the first subtitle data stream for 2D.
 FragmentedMP4のmoofヘッダの情報により、時間情報(PTS)が生成される。PTSの起点以降の字幕表示期間に表示されるサブタイトル列とそれら各々の表示タイミングならびにスタイル等の制御情報が1つのTTMLファイルに格納され、FragmentedMP4のmdatに格納される。各TTMLセグメントは、字幕表示期間の開始前に一括送信される。 The time information (PTS) is generated from the information of the moof header of Fragmented MP4. Control information such as subtitle strings to be displayed in the subtitle display period after the start of the PTS and their display timing and style are stored in one TTML file and stored in mdat of FragmentedMP4. Each TTML segment is collectively transmitted before the start of the caption display period.
 なお、字幕表示期間で順次更新される複数の視差情報を複数のTTMLファイルに分割して、この順次更新される複数の視差情報をそれぞれ1個のTTML-DSSセグメントに含めて受信側(セットトップボックス200など)に送ることもできる。この場合、サブタイトルデータストリームに、更新を行うタイミング毎にTTML-DSSセグメントが挿入される。 Note that a plurality of pieces of disparity information that are sequentially updated in the caption display period are divided into a plurality of TTML files, and each piece of the plurality of pieces of disparity information that is sequentially updated is included in one TTML-DSS segment. Box 200, etc.). In this case, a TTML-DSS segment is inserted into the subtitle data stream at every update timing.
 図27(b)は、その場合におけるサブタイトルデータストリームの構成例を示している。この場合、最初に、あるPTSのタイミングから次のPTSのタイミングまでに表示されるサブタイトル列とスタイル等の制御情報が1つのTTMLファイルに格納される。その後、更新を行うタイミング毎に、moofヘッダにそのタイミングの時間情報PTSn,PTSn+1,・・・を生成するパラメータが含まれ、mdatによりTTMLやTTML-DSSの各TTMLセグメントが送信される。 FIG. 27B shows a configuration example of the subtitle data stream in that case. In this case, first, control information such as a subtitle column and a style displayed from one PTS timing to the next PTS timing is stored in one TTML file. Thereafter, at each update timing, the moof header includes parameters for generating time information PTSn, PTSn + 1,... At that timing, and TTML segments of TTML and TTML-DSS are transmitted by mdat.
 図28は、上述の図27(b)に示すように、TTML-DSSセグメントを順次送信する場合における、視差情報の更新例を示している。なお、図28において、“A”は字幕表示期間の開始フレーム(開始時点)を示し、“B”~“F”は、その後の更新フレーム(更新時点)を示している。 FIG. 28 illustrates an example of disparity information update in the case where TTML-DSS segments are sequentially transmitted as illustrated in FIG. 27B. In FIG. 28, “A” indicates the start frame (start point) of the caption display period, and “B” to “F” indicate subsequent update frames (update point).
 TTML-DSSセグメントを順次送信して、字幕表示期間内で順次更新される視差情報を受信側(セットトップボックス200など)に送る場合も、受信側においては、上述したと同様の処理が可能である。すなわち、この場合も、受信側においては、更新期間毎の視差情報に補間処理を施すことで、任意のフレーム間隔、例えば、1フレーム間隔の視差情報を生成して使用することが可能である。 Even when the TTML-DSS segment is sequentially transmitted and the disparity information sequentially updated within the caption display period is transmitted to the reception side (such as the set top box 200), the reception side can perform the same processing as described above. is there. That is, in this case as well, on the receiving side, it is possible to generate and use disparity information at an arbitrary frame interval, for example, one frame interval, by performing an interpolation process on the disparity information for each update period.
 図29は、上述の図26と同様の、視差情報(disparity)の更新例を示している。更新フレーム間隔は、単位期間としてのインターバル期間(ID:Interval Duration)の倍数で表される。例えば、更新フレーム間隔「Division Period 1」は“ID*M”で表され、更新フレーム間隔「Division Period 2」は“ID*N”で表され、以下の各更新フレーム間隔も同様に表される。図29に示す視差情報の更新例においては、更新フレーム間隔は固定ではなく、視差情報カーブに応じた更新フレーム間隔の設定が行われている。 FIG. 29 shows an example of updating disparity information (disparity) similar to FIG. 26 described above. The update frame interval is represented by a multiple of an interval period (ID: Interval Duration) as a unit period. For example, the update frame interval "Division Period 1" is represented by "ID * M", the update frame interval "Division Period 2" is represented by "ID * N", and the following update frame intervals are similarly represented. . In the example of updating disparity information shown in FIG. 29, the update frame interval is not fixed, and the update frame interval is set according to the disparity information curve.
 また、この視差情報(disparity)の更新例において、受信側では、字幕表示期間の開始フレーム(開始時刻)T1_0は、この視差情報が含まれるFragmentedMP4のmoofヘッダのパラメータから計算されるPTS(Presentation Time Stamp)で与えられる。そして、受信側では、視差情報の各更新時刻が、各更新フレーム間隔の情報であるインターバル期間の情報(単位期間の情報)およびそのインターバル期間の個数の情報に基づいて求められる。 Also, in this update example of disparity information (disparity), on the receiving side, the start frame (start time) T1_0 of the caption display period is calculated from the parameter of the moof header of FragmentedMP4 including this disparity information. Stamp). Then, on the receiving side, each update time of the disparity information is obtained based on information on interval periods (information on unit periods) that is information on each update frame interval and information on the number of the interval periods.
 この場合、字幕表示期間の開始フレーム(開始時刻)T1_0から、以下の(1)式に基づいて、順次各更新時刻が求められる。この(1)式において、「interval_count」はインターバル期間の個数を示し、図29におけるM,N,P,Q,R,Sに相当する値である。また、この(1)式において、「interval_time」は、図29におけるインターバル期間(ID:Interval Duration)に相当する値である。
  Tm_n = Tm_(n-1) + (interval_time * interval_count)   ・・・(1)
In this case, each update time is sequentially obtained from the start frame (start time) T1_0 of the caption display period based on the following equation (1). In this equation (1), “interval_count” indicates the number of interval periods, and is a value corresponding to M, N, P, Q, R, and S in FIG. In the equation (1), “interval_time” is a value corresponding to an interval period (ID: Interval Duration) in FIG.
Tm_n = Tm_ (n-1) + (interval_time * interval_count) (1)
 例えば、図29に示す更新例においては、この(1)式に基づいて、各更新時刻が以下のように求められる。すなわち、更新時刻T1_1は、開始時刻(T1_0)と、インターバル期間(ID)と、個数(M)が用いられて、「T1_1 = T1_0 + (ID * M) 」のように求められる。また、更新時刻T1_2は、更新時刻(T1_1)と、インターバル期間(ID)と、個数(N)が用いられて、「T1_2 = T1_1 + (ID * N) 」のように求められる。以降の各更新時刻も同様に求められる。 For example, in the update example shown in FIG. 29, each update time is obtained as follows based on the equation (1). That is, the update time T1_1 is obtained as “T1_1 = T1_0 + (ID * M)” using the start time (T1_0), the interval period (ID), and the number (M). Further, the update time T1_2 is obtained as “T1_2 = T1_1 + (ID * N)” using the update time (T1_1), the interval period (ID), and the number (N). Each subsequent update time is obtained in the same manner.
 図29に示す更新例において、受信側では、字幕表示期間内で順次更新される視差情報に関して、補間処理が施され、字幕表示期間内における任意のフレーム間隔、例えば、1フレーム間隔の視差情報が生成されて使用される。例えば、この補間処理として、線形補間処理ではなく、時間方向(フレーム方向)にローパスフィルタ(LPF)処理を伴った補間処理が行われることで、補間処理後の所定フレーム間隔の視差情報の時間方向(フレーム方向)の変化がなだらかとされる。図29の破線aはLPF出力例を示している。 In the update example shown in FIG. 29, on the reception side, interpolation processing is performed on disparity information that is sequentially updated within the caption display period, and disparity information at an arbitrary frame interval, for example, one frame interval within the caption display period. Generated and used. For example, the interpolation process is not a linear interpolation process but an interpolation process with a low-pass filter (LPF) process in the time direction (frame direction), so that the time direction of the disparity information at a predetermined frame interval after the interpolation process is performed. The change in (frame direction) is made gentle. A broken line a in FIG. 29 shows an example of LPF output.
 図30は、字幕としてのサブタイトルの表示例を示している。この表示例においては、ページ領域(Area for Page_default)に、字幕表示領域としてのリージョン(Region)が2つ(リージョン1、リージョン2)含まれている。リージョンには1つまたは複数のサブリージョンが含まれている。ここでは、リージョンに1つのサブリージョンが含まれており、リージョン領域とサブリージョン領域とが等しいものとする。 FIG. 30 shows a display example of subtitles as subtitles. In this display example, the page region (Area for Page_default) includes two regions (Region 1 and Region 2) as subtitle display regions. A region includes one or more subregions. Here, it is assumed that the region includes one subregion, and the region region and the subregion region are equal.
 図31は、TTML-DSSのセグメントに、字幕表示期間に順次更新される視差情報(Disparity)として、リージョン単位の視差情報とページ単位の視差情報の双方が含まれている場合において、各リージョンとページの視差情報カーブの一例を示している。ここで、ページの視差情報カーブは、2つのリージョンの視差情報カーブの最小値を採るような形とされている。 FIG. 31 shows a case where each region includes disparity information and disparity information in units of pages as disparity information (Disparity) sequentially updated in the caption display period in the TTML-DSS segment. An example of the parallax information curve of the page is shown. Here, the parallax information curve of the page is configured to take the minimum value of the parallax information curves of the two regions.
 リージョン1(Region1)に関しては、開始時刻であるT1_0と、その後の更新時刻であるT1_1,T1_2,T1_3,・・・,T1_6の7個の視差情報が存在する。また、リージョン2(Region2)に関しては、開始時刻であるT2_0と、その後の更新時刻であるT2_1,T2_2,T2_3,・・・,T2_7の8個の視差情報が存在する。さらに、ページ(Page_default)に関しては、開始時刻であるT0_0と、その後の更新時刻であるT0_1,T0_2,T0_3,・・・,T0_6の7個の視差情報が存在する。 Regarding region 1 (Region1), there are seven pieces of disparity information of T1_0 which is a start time and T1_1, T1_2, T1_3,..., T1_6 which are subsequent update times. For region 2 (Region2), there are eight pieces of disparity information of T2_0 which is a start time and T2_1, T2_2, T2_3,..., T2_7 which are update times thereafter. Further, regarding the page (Page_default), there are seven pieces of disparity information, that is, T0_0 that is a start time and T0_1, T0_2, T0_3,.
 図32は、図31に示すページおよび各リージョンの視差情報がどのようなデータ構造で送られるかを示している。図33は、そのデータ構造に対応するTTML-DSS文書の一例を示している。以降、図31に示すデータ構造を説明するが、[]内は対応するTTML-DSS文書の要素/属性を示すものとする。また、図32のデータ構造と、図33に示すTTML-DSS文書との対応関係を、図に○内番号で示している。 FIG. 32 shows in what data structure the disparity information of the page and each region shown in FIG. 31 is sent. FIG. 33 shows an example of a TTML-DSS document corresponding to the data structure. Hereinafter, the data structure shown in FIG. 31 will be described. In [], the elements / attributes of the corresponding TTML-DSS document are shown. Also, the correspondence between the data structure of FIG. 32 and the TTML-DSS document shown in FIG. 33 is indicated by a number in the circle.
 最初にページレイヤについて説明する。このページレイヤには、視差情報の固定値である「page_default_disparity」[→pageDefaultDisparityShift]が配置される。そして、字幕表示期間に順次更新される視差情報に関しては、開始時刻とその後の各更新時刻に対応した、インターバル期間の個数を示す「interval_count」[→intervalCount]と、視差情報を示す「disparity_page_update」[→disparityShiftUpdateIntegerPart]が、順次配置される。なお、開始時刻の「interval_count」は“0”とされる。 First, the page layer will be explained. In this page layer, “page_default_disparity” [→ pageDefaultDisparityShift], which is a fixed value of disparity information, is arranged. For the disparity information sequentially updated in the caption display period, “interval_count” [→ intervalCount] indicating the number of interval periods corresponding to the start time and each subsequent update time, and “disparity_page_update” [ → disparityShiftUpdateIntegerPart] is arranged sequentially. The start time “interval_count” is set to “0”.
 次に、リージョンレイヤについて説明する。リージョン1(サブリージョン1)については、視差情報の固定値である「subregion_disparity_integer_part」[→subregionDisparityShiftIntegerPart]および「subregion_disparity_fractional_part」[→subregionDisparityShiftFractionPart]が配置される。ここで、「subregion_disparity_integer_part」は視差情報の整数部分を示し、「subregion_disparity_fractional_part」は視差情報の小数部分を示している。 Next, the region layer will be described. For region 1 (subregion 1), “subregion_disparity_integer_part” [→ subregionDisparityShiftIntegerPart] and “subregion_disparity_fractional_part” [→ subregionDisparityShiftFractionPart], which are fixed values of disparity information, are arranged. Here, “subregion_disparity_integer_part” indicates an integer part of disparity information, and “subregion_disparity_fractional_part” indicates a decimal part of disparity information.
 そして、字幕表示期間に順次更新される視差情報に関しては、開始時刻とその後の各更新時刻に対応した、インターバル期間の個数を示す「interval_count」と、視差情報を示す「disparity_region_update_integer_part」[→disparityShiftUpdateIntegerPart]および「disparity_region_update_fractional_part」[→disparityShiftUpdateFractionPart]が、順次配置される。ここで、「disparity_region_update_integer_part」は視差情報の整数部分を示し、「disparity_region_update_fractional_part」は視差情報の小数部分を示している。なお、開始時刻の「interval_count」は“0”とされる。 For the disparity information sequentially updated in the caption display period, “interval_count” indicating the number of interval periods corresponding to the start time and each subsequent update time, “disparity_region_update_integer_part” [→ disparityShiftUpdateIntegerPart] indicating disparity information, and “Disparity_region_update_fractional_part” [→ disparityShiftUpdateFractionPart] is sequentially arranged. Here, “disparity_region_update_integer_part” indicates an integer part of disparity information, and “disparity_region_update_fractional_part” indicates a decimal part of disparity information. The start time “interval_count” is set to “0”.
 リージョン2(サブリージョン2)については、上述のリージョン1と同様であり、視差情報の固定値である「subregion_disparity_integer_part」および「subregion_disparity_fractional_part」が配置される。そして、字幕表示期間に順次更新される視差情報に関しては、開始時刻とその後の各更新時刻に対応した、インターバル期間の個数を示す「interval_count」と、視差情報を示す「disparity_region_update_integer_part」および「disparity_region_update_fractional_part」が、順次配置される。 Region 2 (subregion 2) is the same as region 1 described above, and “subregion_disparity_integer_part” and “subregion_disparity_fractional_part”, which are fixed values of disparity information, are arranged. For the disparity information sequentially updated in the caption display period, “interval_count” indicating the number of interval periods corresponding to the start time and each subsequent update time, “disparity_region_update_integer_part” and “disparity_region_update_fractional_part” indicating disparity information are Are arranged sequentially.
 なお、図33のTTML-DSS文書の一例では、インターバル期間「interval_duration」に対応する[→DU.set/@dur]の値を“D”としている。例えば、この値は、単位期間としてのインターバル期間(Interval Duration)(図29参照)を90KHz単位で指定したものである。そして、例えば、この値は、このインターバル期間(Interval Duration)を90KHzのクロックで計測した値を24ビット長で表したものとされる。 In the example of the TTML-DSS document in FIG. 33, the value of [→DU.set/@dur] corresponding to the interval period “interval_duration” is “D”. For example, this value designates an interval period (Interval Duration) (see FIG. 29) as a unit period in units of 90 KHz. For example, this value is a value obtained by measuring the interval period (Interval Duration) with a 90 KHz clock in a 24-bit length.
 FragmentedMP4のmoofヘッダのパラメータから計算されるPTSが33ビット長であるのに対して、24ビット長とされているのは、以下の理由からである。すなわち、33ビット長では24時間分を超える時間を表現できるが、字幕表示期間内のこのインターバル期間(Interval Duration)としては不必要な長さである。また、24ビットとすることで、データサイズを縮小でき、コンパクトな伝送を行うことができる。また、24ビットは8×3ビットであり、バイトアラインが容易となる。 The reason why the PTS calculated from the parameter of the fragment header of FragmentedMP4 is 33 bits long is 24 bits long for the following reason. That is, a time exceeding 24 hours can be expressed with a 33-bit length, but this interval period (Interval Duration) within the caption display period is an unnecessary length. In addition, by using 24 bits, the data size can be reduced and compact transmission can be performed. Further, 24 bits are 8 × 3 bits, and byte alignment is easy.
 なお、リージョンは、水平方向に分けられた複数のサブリージョンを持つとき、TTML-DSS文書には、サブリージョンの数の分だけ、tts:origin、tts:extentの情報が含まれる。tts:originの最初の値はサブリージョンの左端のピクセル位置を示す。tts:extentの最初の値はサブリージョンの範囲をピクセル数で示す。 Note that when a region has a plurality of subregions divided in the horizontal direction, the TTML-DSS document includes information on tts: origin and tts: extent by the number of subregions. The first value of tts: origin indicates the leftmost pixel position of the subregion. The first value of tts: extent indicates the subregion extent in pixels.
 図34は、W3Cで規定されているTTMLのスキーマを示している。この実施の形態においては、図35、図36に示すように、視差情報(Disparity)に関するパラメータを記述するために、W3CのTTML仕様からQ1、Q2の部分を拡張した。図37は、Q1部分の拡張のために新たに追加したスキーマ定義(ttaf1-dfxp-du-attribs.xsd)を示している。また、図38は、Q2部分の拡張のために新たに追加したスキーマ定義(ttaf1-dfxp-du.xsd)を示している。 FIG. 34 shows a TTML schema defined by W3C. In this embodiment, as shown in FIGS. 35 and 36, in order to describe parameters related to disparity information (Disparity), the parts of Q1 and Q2 are extended from the TTML specification of W3C. FIG. 37 shows a schema definition (ttaf1-dfxp-du-attribs.xsd) newly added for extending the Q1 portion. FIG. 38 shows a schema definition (ttaf1-dfxp-du.xsd) newly added for extending the Q2 portion.
 [放送受信概念]
 図39は、セットトップボックス200およびテレビ受信機300が3D対応機器である場合の放送受信概念を示している。この場合、放送局100では、リージョン「Region 0」内にサブリージョン「SR 00」が定義され、その視差情報「Disparity 1」が設定される。ここでは、リージョン「Region 0」とサブリージョン「SR 00」とは同じ領域であるとする。受信側からの要求に応じて、放送局100から受信側に、ビデオデータストリーム、サブタイトルデータストリーム(第2のサブタイトルデータストリーム)などが送信される。
[Broadcast reception concept]
FIG. 39 shows a broadcast reception concept when the set-top box 200 and the television receiver 300 are 3D-compatible devices. In this case, in the broadcasting station 100, the sub-region “SR 00” is defined in the region “Region 0”, and the disparity information “Disparity 1” is set. Here, it is assumed that the region “Region 0” and the sub-region “SR 00” are the same region. In response to a request from the receiving side, a video data stream, a subtitle data stream (second subtitle data stream), and the like are transmitted from the broadcasting station 100 to the receiving side.
 最初に、3D対応機器であるセットトップボックス200で受信される場合について説明する。セットトップボックス200は、放送局100に、MPDファイルに基づいて、TTML-DSSセグメントを含むサブタイトルデータストリーム(第2のサブタイトルデータストリーム)の送信を要求する。セットトップボックス200は、この第2のサブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを読み込むと共に、視差情報などの表示制御情報を含むTTML-DSSセグメントのデータを読み込んで用いる。 First, a description will be given of the case of reception by the set-top box 200 that is a 3D-compatible device. The set top box 200 requests the broadcast station 100 to transmit a subtitle data stream (second subtitle data stream) including a TTML-DSS segment based on the MPD file. The set top box 200 reads the data of each TTML segment constituting the subtitle data from the second subtitle data stream and reads and uses the data of the TTML-DSS segment including display control information such as disparity information.
 この場合、セットトップボックス200は、MPDファイルにおいて、ID属性などに基づいて、第2のサブタイトルデータストリームに対応したアダプテーションセット要素を認識し、放送局100に、第2のサブタイトルデータストリームの送信を適切に要求する。なお、セットトップボックス200は、ID属性と共に、さらに、サブタイトルタイプ情報や言語情報により、第2のサブタイトルデータストリームに対応したアダプテーションセット要素であることの認識度を高めることができる。 In this case, the set top box 200 recognizes the adaptation set element corresponding to the second subtitle data stream in the MPD file based on the ID attribute or the like, and transmits the second subtitle data stream to the broadcasting station 100. Request appropriately. In addition to the ID attribute, the set-top box 200 can further increase the recognition degree of being an adaptation set element corresponding to the second subtitle data stream by using the subtitle type information and the language information.
 セットトップボックス200は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、セットトップボックス200は、リージョンの表示データを、立体画像データを構成する左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分にそれぞれ重畳して、出力立体画像データを得る。 The set top box 200 generates region display data for displaying the subtitle based on the subtitle data. Then, the set-top box 200 obtains output stereoscopic image data by superimposing the region display data on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data.
 この際、セットトップボックス200は、視差情報に基づいて、それぞれに重畳される表示データの位置をシフト調整する。なお、セットトップボックス200は、立体画像データの伝送フォーマット(サイド・バイ・サイド方式、トップ・アンド・ボトム方式、フレーム・シーケンシャル方式、あるいは、各ビューがフル画面サイズを有するフォーマット方式)に応じて、適宜、重畳位置、サイズなどの変更を行う。 At this time, the set top box 200 shifts and adjusts the position of the display data superimposed on each based on the parallax information. The set-top box 200 corresponds to the transmission format of stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, or format method in which each view has a full screen size). The superimposition position, size, etc. are changed as appropriate.
 セットトップボックス200は、上述のようにして得られた出力立体画像データを、例えばHDMIのデジタルインタフェースを通じて、3D対応のテレビ受信機300に送信する。テレビ受信機300は、セットトップボックス200から送られてくる立体画像データに3D信号処理を施し、サブタイトルが重畳された左眼画像および右眼画像のデータを生成する。そして、テレビ受信機300は、LCD等の表示パネルに、ユーザに立体画像を認識させるための両眼視差画像(左眼画像および右眼画像)を表示する。 The set-top box 200 transmits the output stereoscopic image data obtained as described above to the 3D-compatible television receiver 300 through, for example, an HDMI digital interface. The television receiver 300 performs 3D signal processing on the stereoscopic image data sent from the set-top box 200, and generates left-eye image data and right-eye image data on which subtitles are superimposed. Then, the television receiver 300 displays binocular parallax images (a left-eye image and a right-eye image) for allowing the user to recognize a stereoscopic image on a display panel such as an LCD.
 次に、3D対応機器であるテレビ受信機300で受信される場合について説明する。テレビ受信機300は、放送局100に、MPDファイルに基づいて、TTML-DSSセグメントを含むサブタイトルデータストリーム(第2のサブタイトルデータストリーム)の送信を要求する。テレビ受信機300は、この第2のサブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを読み込むと共に、視差情報などの表示制御情報を含むTTML-DSSセグメントのデータを読み込んで用いる。 Next, a case where the television receiver 300 that is a 3D compatible device receives the signal will be described. The television receiver 300 requests the broadcast station 100 to transmit a subtitle data stream (second subtitle data stream) including a TTML-DSS segment based on the MPD file. The television receiver 300 reads the data of each TTML segment constituting the subtitle data from the second subtitle data stream, and reads and uses the data of the TTML-DSS segment including display control information such as disparity information.
 この場合、テレビ受信機300は、上述したセットトップボックス200と同様に、MPDファイルにおいて、ID属性などに基づいて、第2のサブタイトルデータストリームに対応したアダプテーションセット要素を認識し、放送局100に、第2のサブタイトルデータストリームの送信を適切に要求する。なお、テレビ受信機300は、ID属性と共に、さらに、サブタイトルタイプ情報や言語情報により、第2のサブタイトルデータストリームに対応したアダプテーションセット要素であることの認識度を高めることができる。 In this case, similarly to the set top box 200 described above, the television receiver 300 recognizes the adaptation set element corresponding to the second subtitle data stream in the MPD file based on the ID attribute or the like, and notifies the broadcasting station 100 of the adaptation set element. , Appropriately request transmission of the second subtitle data stream. Note that the television receiver 300 can increase the recognition degree of the adaptation set element corresponding to the second subtitle data stream by using the subtitle type information and the language information together with the ID attribute.
 テレビ受信機300は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、テレビ受信機300は、リージョンの表示データを、立体画像データに伝送フォーマットに応じた処理をして得られた左眼画像データおよび右眼画像データにそれぞれ重畳し、サブタイトルが重畳された左眼画像および右眼画像のデータを生成する。そして、テレビ受信機300は、LCD等の表示パネルに、ユーザに立体画像を認識させるための両眼視差画像(左眼画像および右眼画像)を表示する。 The television receiver 300 generates region display data for displaying the subtitle based on the subtitle data. Then, the television receiver 300 superimposes the region display data on the left-eye image data and the right-eye image data obtained by performing processing according to the transmission format on the stereoscopic image data, and the subtitle is superimposed on the left. Data of an eye image and a right eye image is generated. Then, the television receiver 300 displays binocular parallax images (a left-eye image and a right-eye image) for allowing the user to recognize a stereoscopic image on a display panel such as an LCD.
 図40は、セットトップボックス200およびテレビ受信機300がレガシーの2D対応機器である場合の放送受信概念を示している。この場合も、放送局100では、リージョン「Region 0」内にサブリージョン「SR 00」が定義され、その視差情報「Disparity 1」が設定される。受信側からの要求に応じて、放送局100から受信側に、ビデオデータストリーム、サブタイトルデータストリーム(第1のサブタイトルデータストリーム)などが送信される。 FIG. 40 shows a broadcast reception concept when the set-top box 200 and the television receiver 300 are legacy 2D-compatible devices. Also in this case, in the broadcasting station 100, the subregion “SR 00” is defined in the region “Region 0”, and the disparity information “Disparity 1” is set. In response to a request from the receiving side, a video data stream, a subtitle data stream (first subtitle data stream), and the like are transmitted from the broadcasting station 100 to the receiving side.
 最初に、レガシーの2D対応機器であるセットトップボックス200で受信される場合について説明する。セットトップボックス200は、放送局100に、MPDファイルに基づいて、TTMLセグメントのみを含むサブタイトルデータストリーム(第1のサブタイトルデータストリーム)の送信を要求する。セットトップボックス200は、この第1のサブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを読み込んで用いる。 First, the case where the signal is received by the set top box 200 which is a legacy 2D-compatible device will be described. The set top box 200 requests the broadcast station 100 to transmit a subtitle data stream (first subtitle data stream) including only the TTML segment based on the MPD file. The set top box 200 reads and uses data of each TTML segment constituting the subtitle data from the first subtitle data stream.
 この場合、セットトップボックス200は、MPDファイルにおいて、ID属性などに基づいて、第1のサブタイトルデータストリームに対応したアダプテーションセット要素を認識し、放送局100に、第1のサブタイトルデータストリームの送信を適切に要求する。なお、セットトップボックス200は、ID属性と共に、さらに、サブタイトルタイプ情報や言語情報により、第1のサブタイトルデータストリームに対応したアダプテーションセット要素であることの認識度を高めることができる。 In this case, the set top box 200 recognizes the adaptation set element corresponding to the first subtitle data stream based on the ID attribute or the like in the MPD file, and transmits the first subtitle data stream to the broadcasting station 100. Request appropriately. In addition to the ID attribute, the set top box 200 can further increase the degree of recognition that it is an adaptation set element corresponding to the first subtitle data stream by using the subtitle type information and language information.
 セットトップボックス200は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、セットトップボックス200は、リージョンの表示データを、立体画像データに対して伝送フォーマットに応じた処理が施されて得られた2次元画像データに重畳して、出力2次元画像データを得る。 The set top box 200 generates region display data for displaying the subtitle based on the subtitle data. Then, the set-top box 200 obtains output two-dimensional image data by superimposing the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format.
 セットトップボックス200は、上述のようにして得られた出力2次元画像データを、例えばHDMIのデジタルインタフェースを通じて、テレビ受信機300に送信する。テレビ受信機300は、セットトップボックス200から送られてくる2次元画像データによる2次元画像を表示する。 The set top box 200 transmits the output two-dimensional image data obtained as described above to the television receiver 300 through, for example, an HDMI digital interface. The television receiver 300 displays a two-dimensional image based on the two-dimensional image data sent from the set top box 200.
 次に、レガシーの2D対応機器であるテレビ受信機300で受信される場合について説明する。テレビ受信機300は、放送局100に、MPDファイルに基づいて、TTMLセグメントのみを含むサブタイトルデータストリーム(第1のサブタイトルデータストリーム)の送信を要求する。テレビ受信機300は、この第1のサブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを読み込んで用いる。 Next, the case where the signal is received by the television receiver 300 which is a legacy 2D compatible device will be described. The television receiver 300 requests the broadcast station 100 to transmit a subtitle data stream including only the TTML segment (first subtitle data stream) based on the MPD file. The television receiver 300 reads and uses the data of each TTML segment constituting the subtitle data from the first subtitle data stream.
 この場合、テレビ受信機300は、上述したセットトップボックス200と同様に、MPDファイルにおいて、ID属性などに基づいて、第1のサブタイトルデータストリームに対応したアダプテーションセット要素を認識し、放送局100に、第1のサブタイトルデータストリームの送信を適切に要求する。なお、テレビ受信機300は、ID属性と共に、さらに、サブタイトルタイプ情報や言語情報により、第1のサブタイトルデータストリームに対応したアダプテーションセット要素であることの認識度を高めることができる。 In this case, similarly to the set top box 200 described above, the television receiver 300 recognizes the adaptation set element corresponding to the first subtitle data stream in the MPD file based on the ID attribute or the like, and notifies the broadcasting station 100 of the adaptation set element. , Appropriately request transmission of the first subtitle data stream. Note that the television receiver 300 can increase the recognition degree of the adaptation set element corresponding to the first subtitle data stream by using the subtitle type information and the language information together with the ID attribute.
 テレビ受信機300は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、テレビ受信機300は、リージョンの表示データを、立体画像データに対して伝送フォーマットに応じた処理が施されて得られた2次元画像データに重畳して、出力2次元画像データを得る。そして、テレビ受信機300は、この2次元画像データによる2次元画像を表示する。 The television receiver 300 generates region display data for displaying the subtitle based on the subtitle data. Then, the television receiver 300 obtains output two-dimensional image data by superimposing the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format. Then, the television receiver 300 displays a two-dimensional image based on the two-dimensional image data.
 図41は、上述した受信機(セットトップボックス200、テレビ受信機300)がレガシーの2D対応機器(2D Receiver)である場合および3D対応機器(3D Receiver)である場合の放送受信概念を示している。なお、この図においては、立体画像データ(3D画像データ)の伝送方式をサイド・バイ・サイド(Side By Side)方式としている。 FIG. 41 shows a broadcast reception concept when the above-described receiver (set top box 200, television receiver 300) is a legacy 2D compatible device (2D2Receiver) and a 3D compatible device (3D Receiver). Yes. In this figure, the transmission method of stereoscopic image data (3D image data) is a side-by-side (Side By Side) method.
 また、3D対応機器(3D Receiver)においては、3Dモード(3D mode)あるいは2Dモード(2D mode)の選択が可能とされている。ユーザにより3Dモード(3D mode)が選択された場合には、上述の図39で説明した通りである。 In 3D compatible devices (3D Receiver), 3D mode (3D mode) or 2D mode (2D mode) can be selected. When the 3D mode (3D mode) is selected by the user, it is as described above with reference to FIG.
 一方、ユーザにより2Dモード(2D mode)が選択された場合、3D対応機器(3D Receiver)においては、受信された第2のサブタイトルデータストリームから、例えば各TTMLセグメントに付加されているセグメントURLに基づいて、サブタイトルデータを構成する各TTMLセグメントのデータのみを読み込んで用いる。その他は、上述の図40で説明した2D対応機器(2D Receiver)の場合と同様となる。この場合、セグメントURLは、TTMLセグメントとTTML-DSSセグメントとを識別する識別情報を構成する。 On the other hand, when the 2D mode (2D mode) is selected by the user, in the 3D-compatible device (3D mode), for example, based on the segment URL added to each TTML segment from the received second subtitle data stream. Thus, only the data of each TTML segment constituting the subtitle data is read and used. Others are the same as those of the 2D-compatible device (2D Receiver) described with reference to FIG. In this case, the segment URL constitutes identification information for identifying the TTML segment and the TTML-DSS segment.
 図42も、上述した受信機(セットトップボックス200、テレビ受信機300)がレガシーの2D対応機器(2D Receiver)である場合および3D対応機器(3D Receiver)である場合の他の放送受信概念を示している。なお、この図においては、立体画像データ(3D画像データ)が、H.264/MVC(Multi-view Video Coding)方式で伝送される例を示している。この場合、例えば、左眼画像データはベースビューの画像データとして送信され、右眼画像データはノンベースビューの画像データとして送信される。詳細説明は書略するが、この場合におけるレガシーの2D対応機器(2D Receiver)および3D対応機器(3D Receiver)の動作は、図41に示す例と同様である。 FIG. 42 also shows other broadcast reception concepts when the above-described receiver (set top box 200, television receiver 300) is a legacy 2D-compatible device (2D Receiver) and when it is a 3D-compatible device (3D Receiver). Show. In this figure, stereoscopic image data (3D image data) is H.264. An example of transmission using the H.264 / MVC (Multi-view-Video Coding) scheme is shown. In this case, for example, the left eye image data is transmitted as base view image data, and the right eye image data is transmitted as non-base view image data. Although detailed description is omitted, the operations of the legacy 2D-compatible device (2D Receiver) and the 3D-compatible device (3D Receiver) in this case are the same as the example shown in FIG.
 図10に示す送信データ生成部110において、受信側からの要求に応じて、サブタイトルデータストリーム(FragmentedMP4ストリーム)として、第1のサブタイトルデータストリーム、または第2のサブタイトルデータストリームを送信する。第1のサブタイトルデータストリームには、サブタイトルデータを構成する各TTMLセグメントのみが含まれる。また、第2のサブタイトルデータストリームには、サブタイトルデータを構成する各TTMLセグメントと共に、視差情報などの表示制御情報を含むTTML-DSSセグメントが含まれる。 10 transmits the first subtitle data stream or the second subtitle data stream as a subtitle data stream (FragmentedMP4 stream) in response to a request from the receiving side. The first subtitle data stream includes only each TTML segment constituting the subtitle data. Further, the second subtitle data stream includes a TTML-DSS segment including display control information such as disparity information together with each TTML segment constituting the subtitle data.
 そのため、受信側のレガシーの2D対応の受信装置では、第1のサブタイトルデータストリームを送ってもらうことで、サブタイトルデータのみを良好に取得することが可能となる。また、3D対応の受信装置は、第2のサブタイトルデータストリームを送ってもらうことで、サブタイトルデータと共にそれに対応する視差情報の取得を効率よく適確に行うことが可能となる。 Therefore, the legacy 2D-compatible receiving device on the receiving side can obtain only the subtitle data satisfactorily by sending the first subtitle data stream. In addition, the 3D-compatible receiving apparatus can efficiently and appropriately acquire the disparity information corresponding to the subtitle data by receiving the second subtitle data stream.
 この場合、各サブタイトルデータストリームに対応してMPDに記述されるアダプテーションセット(AdaptationSet)要素の属性として、ID属性が定義され、さらにサブタイトリングタイプ属性や言語属性なども定義される。そのため、受信側の2D対応の受信装置あるいは3D対応の受信装置は、これらの属性に基づいて、自身に必要なアダプテーションセット要素を適切に認識でき、送信側に、適切なサブタイトルデータストリームの送信を要求できる。 In this case, an ID attribute is defined as an attribute of the adaptation set (AdaptationSet) element described in the MPD corresponding to each subtitle data stream, and further, a subtitling type attribute and a language attribute are defined. Therefore, the receiving side 2D-compatible receiving device or 3D-compatible receiving device can appropriately recognize the adaptation set element necessary for itself based on these attributes, and the transmitting side can transmit an appropriate subtitle data stream. Can request.
 また、図10に示す送信データ生成部110においては、サブタイトル表示期間において順次更新される視差情報を含むTTML-DSSセグメントを送信できるので、左眼サブタイトルおよび右眼サブタイトルの表示位置を動的に制御できる。これにより、受信側においては、左眼サブタイトルおよび右眼サブタイトルの間に付与する視差を画像内容の変化に連動して動的に変化させることが可能となる。この場合、更新フレーム間隔毎のフレームの視差情報は、前回の視差情報からのオフセット値ではなく、視差情報そのものである。そのため、受信側において、補間過程でエラーが生じても、一定遅延時間内にエラーからの復帰が可能になる。 In addition, since the transmission data generation unit 110 illustrated in FIG. 10 can transmit a TTML-DSS segment including disparity information that is sequentially updated in the subtitle display period, the display positions of the left eye subtitle and the right eye subtitle are dynamically controlled. it can. As a result, on the receiving side, the parallax provided between the left eye subtitle and the right eye subtitle can be dynamically changed in conjunction with the change in the image content. In this case, the disparity information of the frame for each update frame interval is not the offset value from the previous disparity information but the disparity information itself. Therefore, even if an error occurs in the interpolation process on the receiving side, it is possible to recover from the error within a certain delay time.
 [セットトップボックスの説明]
 図9に戻って、セットトップボックス200は、放送局100に要求を行って、この放送局100からFragmentedMP4ストリームを受信する。このFragmentedMP4ストリームには、左眼画像データおよび右眼画像データを含む立体画像データ、音声データが含まれている。また、このFragmentedMP4ストリームには、サブタイトル(字幕)を表示するためのサブタイトルデータも含まれている。
[Description of Set Top Box]
Returning to FIG. 9, the set-top box 200 makes a request to the broadcasting station 100 and receives a Fragmented MP4 stream from the broadcasting station 100. This Fragmented MP4 stream includes stereoscopic image data and audio data including left eye image data and right eye image data. The Fragmented MP4 stream also includes subtitle data for displaying a subtitle (caption).
 受信FragmentedMP4ストリームは、ビデオデータストリーム、オーディオデータストリーム、サブタイトルデータストリーム(プライベートデータストリーム)を有している。セットトップボックス200がレガシーの2D対応機器である場合、サブタイトルデータストリームは、サブタイトルデータを構成する各TTMLセグメントのみが含まれる第1のサブタイトルデータストリームとなる。一方、セットトップボックス200が3D対応機器である場合、サブタイトルデータストリームは、サブタイトルデータを構成する各TTMLセグメントと共に、視差情報などの表示制御情報を含むTTML-DSSセグメントが含まれる第2のサブタイトルデータストリームとなる。 The received Fragmented MP4 stream has a video data stream, an audio data stream, and a subtitle data stream (private data stream). When the set top box 200 is a legacy 2D-compatible device, the subtitle data stream is a first subtitle data stream including only each TTML segment constituting the subtitle data. On the other hand, when the set-top box 200 is a 3D-compatible device, the subtitle data stream includes second TTML-DSS segments including display control information such as disparity information together with each TTML segment constituting the subtitle data. It becomes a stream.
 セットトップボックス200は、ビットストリーム処理部201を有している。セットトップボックス200が3D対応機器(3D STB)である場合、ビットストリーム処理部201は、FragmentedMP4ストリームから、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含む)を取得する。 The set top box 200 has a bit stream processing unit 201. When the set-top box 200 is a 3D-compatible device (3D STB), the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream.
 そして、ビットストリーム処理部201は、立体画像データ、サブタイトルデータ(表示制御情報を含む)を用いて、左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分にそれぞれサブタイトルが重畳された出力立体画像データを生成する(図39参照)。この場合、左眼画像に重畳するサブタイトル(左眼サブタイトル)と右眼画像に重畳するサブタイトル(右眼サブタイトル)との間に視差を付与できる。 Then, the bit stream processing unit 201 uses the stereoscopic image data and the subtitle data (including display control information) to superimpose the subtitles on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion, respectively. Output stereoscopic image data is generated (see FIG. 39). In this case, parallax can be given between the subtitle (left eye subtitle) superimposed on the left eye image and the subtitle (right eye subtitle) superimposed on the right eye image.
 例えば、上述したように、放送局100から送られてくる表示制御情報には、視差情報が含まれており、この視差情報に基づいて、左眼サブタイトルおよび右眼サブタイトルの間に視差を付与できる。このように、左眼サブタイトルと右眼サブタイトルとの間に視差が付与されることで、ユーザは、サブタイトル(字幕)を画像の手前に認識可能となる。 For example, as described above, the display control information sent from the broadcast station 100 includes disparity information, and disparity can be given between the left eye subtitle and the right eye subtitle based on the disparity information. . In this manner, by providing parallax between the left eye subtitle and the right eye subtitle, the user can recognize the subtitle (caption) in front of the image.
 セットトップボックス200は、3Dサービスと判断するとき、第2のサブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを取得すると共に、視差情報などの表示制御情報を含むTTMLDSSセグメントのデータを取得する。そして、セットトップボックス200は、サブタイトルデータおよび視差情報を用いて、上述したように背景画像にサブタイトルを貼り付ける処理(重畳処理)を行う。なお、視差情報を取得できないとき、ビットストリーム処理部201は、受信機のロジックに従って、背景画像にサブタイトル(字幕)を貼り付ける処理(重畳処理)を行う。 When determining that the set-top box 200 is a 3D service, the set-top box 200 acquires data of each TTML segment constituting the subtitle data from the second subtitle data stream, and receives data of the TTMLDSSS segment including display control information such as disparity information. get. Then, the set top box 200 uses the subtitle data and the disparity information to perform processing (superimposition processing) for pasting the subtitle to the background image as described above. When disparity information cannot be acquired, the bit stream processing unit 201 performs processing (superimposition processing) for pasting a subtitle (caption) to a background image according to the logic of the receiver.
 セットトップボックス200は、例えば、MPD/AdaptationSet/Role/@schemeIdURI=” urn:mpeg:dash:14496:10:frame_packing_arrangement_type:2011”もしくはMPD/AdaptationSet/Role/@schemeIdURI=” urn:mpeg:dash:13818:1:stereo_video_format_type:2011”等の3Dフォーマットの場合に、3Dサービスであると判断する。 For example, the set top box 200 may be MPD / AdaptationSet / Role / @ schemeIdURI = ”urn: mpeg: dash: 14496: 10: frame_packing_arrangement_type: 2011” or MPD / AdaptationSet / Role / @ schemeIdURI = ”urn: mpeg: dash: 13818 In the case of a 3D format such as “1: 1: stereo_video_format_type: 2011”, it is determined to be a 3D service.
 図43(a)は、画像上におけるサブタイトル(字幕)の表示例を示している。この表示例では、背景と近景オブジェクトとからなる画像上に、字幕が重畳された例である。図43(b)は、背景、近景オブジェクト、字幕の遠近感を示し、字幕が最も手前に認識されることを示している。 FIG. 43A shows a display example of a subtitle (caption) on an image. In this display example, captions are superimposed on an image composed of a background and a foreground object. FIG. 43B shows the perspective of the background, the foreground object, and the subtitle, and indicates that the subtitle is recognized at the forefront.
 図44(a)は、図43(a)と同じ、画像上におけるサブタイトル(字幕)の表示例を示している。図44(b)は、左眼画像に重畳される左眼字幕LGIと、右眼画像に重畳される右眼字幕RGIを示している。図44(c)は、字幕が最も手前に認識されるために、左眼字幕LGIと右眼字幕RGIとの間に視差が与えられることを示している。 FIG. 44 (a) shows a display example of subtitles (captions) on the same image as FIG. 43 (a). FIG. 44B shows a left-eye caption LGI superimposed on the left-eye image and a right-eye caption RGI superimposed on the right-eye image. FIG. 44 (c) shows that a parallax is given between the left-eye caption LGI and the right-eye caption RGI because the caption is recognized most forward.
 また、セットトップボックス200がレガシーの2D対応機器(2D STB)である場合、ビットストリーム処理部201は、FragmentedMP4ストリームから、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含まないビットマップ・パターンデータ)を取得する。そして、ビットストリーム処理部201は、立体画像データ、サブタイトルデータを用いて、サブタイトル(字幕)が重畳された2次元画像データを生成する(図40参照)。 When the set-top box 200 is a legacy 2D-compatible device (2D STB), the bit stream processing unit 201 extracts stereoscopic image data, audio data, subtitle data (a bit map that does not include display control information) from the Fragmented MP4 stream. Pattern data). Then, the bit stream processing unit 201 uses the stereoscopic image data and the subtitle data to generate 2D image data on which the subtitle (caption) is superimposed (see FIG. 40).
 [セットトップボックスの構成例]
 セットトップボックス200の構成例を説明する。図45は、セットトップボックス200の構成例を示している。このセットトップボックス200は、ビットストリーム処理部201と、HDMI端子202と、ネットワークインタフェース204と、映像信号処理回路205と、HDMI送信部206と、音声信号処理回路207を有している。また、このセットトップボックス200は、CPU211と、フラッシュROM212と、DRAM213と、内部バス214と、リモートコントロール受信部(RC受信部)215と、リモートコントロール送信機(RC送信機)216を有している。
[Configuration example of set-top box]
A configuration example of the set top box 200 will be described. FIG. 45 shows a configuration example of the set top box 200. The set-top box 200 includes a bit stream processing unit 201, an HDMI terminal 202, a network interface 204, a video signal processing circuit 205, an HDMI transmission unit 206, and an audio signal processing circuit 207. The set-top box 200 includes a CPU 211, a flash ROM 212, a DRAM 213, an internal bus 214, a remote control receiver (RC receiver) 215, and a remote control transmitter (RC transmitter) 216. Yes.
 ネットワークインタフェース204は、MPDファイルに基づいて、放送局100に要求を行って、ユーザの選択チャネルに対応したFragmentedMP4ストリーム(ビットストリームデータ)を受信する。ビットストリーム処理部201は、このFragmentedMP4ストリームに基づいて、サブタイトルが重畳された画像データおよび音声データを出力する。 The network interface 204 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. Based on this Fragmented MP4 stream, the bit stream processing unit 201 outputs image data and audio data on which the subtitle is superimposed.
 セットトップボックス200が3D対応機器(3D STB)である場合、ビットストリーム処理部201は、FragmentedMP4ストリームから、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含む)を取得する。そして、ビットストリーム処理部201は、立体画像データを構成する左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分にそれぞれサブタイトルが重畳された出力立体画像データを生成する(図39参照)。 When the set top box 200 is a 3D-compatible device (3D STB), the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream. Then, the bit stream processing unit 201 generates output stereoscopic image data in which subtitles are respectively superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion constituting the stereoscopic image data (see FIG. 39). ).
 この際、ビットストリーム処理部201は、視差情報に基づいて、左眼画像に重畳するサブタイトル(左眼サブタイトル)と右眼画像に重畳するサブタイトル(右眼サブタイトル)との間に視差を付与する。すなわち、ビットストリーム処理部201は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、ビットストリーム処理部201は、リージョンの表示データを、立体画像データを構成する左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分にそれぞれ重畳して、出力立体画像データを得る。このとき、ビットストリーム処理部201は、視差情報に基づいて、それぞれに重畳される表示データの位置をシフト調整する。 At this time, the bit stream processing unit 201 gives disparity between the subtitle (left eye subtitle) to be superimposed on the left eye image and the subtitle (right eye subtitle) to be superimposed on the right eye image based on the disparity information. That is, the bit stream processing unit 201 generates region display data for displaying a subtitle, based on the subtitle data. Then, the bit stream processing unit 201 superimposes the region display data on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data, and obtains output stereoscopic image data. . At this time, the bit stream processing unit 201 shifts and adjusts the position of the display data to be superimposed on each based on the disparity information.
 また、セットトップボックス200が2D対応機器(2D STB)である場合、ビットストリーム処理部201は、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含まない)を取得する。ビットストリーム処理部201は、立体画像データ、サブタイトルデータを用いて、サブタイトルが重畳された2次元画像データを生成する(図40参照)。 If the set top box 200 is a 2D-compatible device (2D2STB), the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (not including display control information). The bit stream processing unit 201 uses the stereoscopic image data and the subtitle data to generate two-dimensional image data on which the subtitle is superimposed (see FIG. 40).
 すなわち、ビットストリーム処理部201は、サブタイトルデータに基づいて、サブタイトルを表示するためのリージョンの表示データを生成する。そして、ビットストリーム処理部201は、リージョンの表示データを、立体画像データに対して伝送フォーマットに応じた処理が施されて得られた2次元画像データに重畳して、出力2次元画像データを得る。 That is, the bit stream processing unit 201 generates region display data for displaying a subtitle based on the subtitle data. Then, the bit stream processing unit 201 superimposes the region display data on the two-dimensional image data obtained by processing the stereoscopic image data according to the transmission format to obtain output two-dimensional image data. .
 映像信号処理回路205は、ビットストリーム処理部201で得られた画像データに対して必要に応じて画質調整処理などを行い、処理後の画像データをHDMI送信部206に供給する。音声信号処理回路207は、ビットストリーム処理部201から出力された音声データに対して必要に応じて音質調整処理等を行い、処理後の音声データをHDMI送信部206に供給する。 The video signal processing circuit 205 performs image quality adjustment processing on the image data obtained by the bit stream processing unit 201 as necessary, and supplies the processed image data to the HDMI transmission unit 206. The audio signal processing circuit 207 performs sound quality adjustment processing or the like on the audio data output from the bit stream processing unit 201 as necessary, and supplies the processed audio data to the HDMI transmission unit 206.
 HDMI送信部206は、HDMIに準拠した通信により、例えば、非圧縮の画像データおよび音声データを、HDMI端子202から送出する。この場合、HDMIのTMDSチャネルで送信するため、画像データおよび音声データがパッキングされて、HDMI送信部206からHDMI端子202に出力される。 The HDMI transmitting unit 206 transmits, for example, uncompressed image data and audio data from the HDMI terminal 202 by communication conforming to HDMI. In this case, since transmission is performed using an HDMI TMDS channel, image data and audio data are packed and output from the HDMI transmission unit 206 to the HDMI terminal 202.
 CPU211は、セットトップボックス200の各部の動作を制御する。フラッシュROM212は、制御ソフトウェアの格納およびデータの保管を行う。DRAM213は、CPU211のワークエリアを構成する。CPU211は、フラッシュROM212から読み出したソフトウェアやデータをDRAM213上に展開してソフトウェアを起動させ、セットトップボックス200の各部を制御する。 The CPU 211 controls the operation of each part of the set top box 200. The flash ROM 212 stores control software and data. The DRAM 213 constitutes a work area for the CPU 211. The CPU 211 develops software and data read from the flash ROM 212 on the DRAM 213 to activate the software, and controls each part of the set top box 200.
 RC受信部215は、RC送信機216から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU211に供給する。CPU211は、このリモコンコードに基づいて、セットトップボックス200の各部を制御する。CPU211、フラッシュROM212およびDRAM213は内部バス214に接続されている。 The RC receiver 215 receives the remote control signal (remote control code) transmitted from the RC transmitter 216 and supplies it to the CPU 211. The CPU 211 controls each part of the set top box 200 based on the remote control code. The CPU 211, flash ROM 212 and DRAM 213 are connected to the internal bus 214.
 セットトップボックス200の動作を簡単に説明する。ネットワークインタフェース204では、MPDファイルに基づいて、放送局100に対して要求が行われ、ユーザの選択チャネルに対応したFragmentedMP4ストリーム(ビットストリームデータ)が受信される。このFragmentedMP4ストリームは、ビットストリーム処理部201に供給される。ビットストリーム処理部201では、このFragmentedMP4ストリームに基づいて、サブタイトルが重畳された画像データおよび音声データが得られる。この場合、以下のようにして、出力画像データが生成される。 The operation of the set top box 200 will be briefly described. The network interface 204 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. This Fragmented MP4 stream is supplied to the bit stream processing unit 201. Based on this Fragmented MP4 stream, the bit stream processing unit 201 obtains image data and audio data on which subtitles are superimposed. In this case, output image data is generated as follows.
 セットトップボックス200が3D対応機器(3D STB)である場合、ビットストリーム処理部201では、FragmentedMP4ストリームから、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含む)が取得される。そして、このビットストリーム処理部201では、立体画像データを構成する左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分にそれぞれサブタイトルが重畳された出力立体画像データが生成される。このとき、視差情報に基づいて、左眼画像に重畳する左眼サブタイトルと右眼画像に重畳する右眼サブタイトルとの間に視差が付与される。 When the set top box 200 is a 3D compatible device (3D STB), the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (including display control information) from the Fragmented MP4 stream. The bit stream processing unit 201 generates output stereoscopic image data in which subtitles are superimposed on the left-eye image frame (frame0) portion and the right-eye image frame (frame1) portion constituting the stereoscopic image data. At this time, based on the parallax information, parallax is given between the left-eye subtitle superimposed on the left-eye image and the right-eye subtitle superimposed on the right-eye image.
 また、セットトップボックス200が2D対応機器(2D STB)である場合、ビットストリーム処理部201では、立体画像データ、音声データ、サブタイトルデータ(表示制御情報を含まない)が取得される。そして、このビットストリーム処理部201では、立体画像データ、サブタイトルデータを用いて、サブタイトルが重畳された2次元画像データが生成される。 If the set top box 200 is a 2D-compatible device (2D2STB), the bit stream processing unit 201 acquires stereoscopic image data, audio data, and subtitle data (not including display control information). In the bit stream processing unit 201, two-dimensional image data on which the subtitle is superimposed is generated using the stereoscopic image data and the subtitle data.
 ビットストリーム処理部201で得られた出力画像データは、映像信号処理回路205に供給される。この映像信号処理回路205では、出力画像データに対して、必要に応じて画質調整処理等が施される。この映像信号処理回路205から出力される処理後の画像データは、HDMI送信部206に供給される。 The output image data obtained by the bit stream processing unit 201 is supplied to the video signal processing circuit 205. In the video signal processing circuit 205, image quality adjustment processing or the like is performed on the output image data as necessary. The processed image data output from the video signal processing circuit 205 is supplied to the HDMI transmission unit 206.
 また、ビットストリーム処理部201で得られた音声データは、音声信号処理回路207に供給される。この音声信号処理回路207では、音声データに対して、必要に応じて音質調整処理等の処理が行われる。この音声信号処理回路207から出力される処理後の音声データは、HDMI送信部206に供給される。そして、HDMI送信部206に供給された画像データおよび音声データは、HDMIのTMDSチャネルにより、HDMI端子202からHDMIケーブル400に送出される。 The audio data obtained by the bit stream processing unit 201 is supplied to the audio signal processing circuit 207. The audio signal processing circuit 207 performs processing such as sound quality adjustment processing on the audio data as necessary. The processed audio data output from the audio signal processing circuit 207 is supplied to the HDMI transmission unit 206. The image data and audio data supplied to the HDMI transmission unit 206 are transmitted from the HDMI terminal 202 to the HDMI cable 400 through the HDMI TMDS channel.
 [ビットストリーム処理部の構成例]
 図46は、セットトップボックス200が3D対応機器(3D STB)である場合におけるビットストリーム処理部201の構成例を示している。このビットストリーム処理部201は、上述の図10に示す送信データ生成部110に対応した構成となっている。このビットストリーム処理部201は、デマルチプレクサ221と、ビデオデコーダ222と、オーディオデコーダ229を有している。
[Configuration example of bit stream processing unit]
FIG. 46 shows a configuration example of the bit stream processing unit 201 when the set top box 200 is a 3D-compatible device (3D STB). The bit stream processing unit 201 has a configuration corresponding to the transmission data generation unit 110 shown in FIG. The bit stream processing unit 201 includes a demultiplexer 221, a video decoder 222, and an audio decoder 229.
 また、このビットストリーム処理部201は、符号化データバッファ223と、サブタイトルデコーダ224と、ピクセルバッファ225と、視差情報補間部226と、位置制御部227と、ビデオ重畳部228を有している。ここで、符号化データバッファ223は、デコードバッファを構成している。 The bit stream processing unit 201 includes an encoded data buffer 223, a subtitle decoder 224, a pixel buffer 225, a disparity information interpolation unit 226, a position control unit 227, and a video superimposing unit 228. Here, the encoded data buffer 223 constitutes a decode buffer.
 デマルチプレクサ221は、FragmentedMP4ストリームから、ビデオデータストリーム、オーディオデータストリームのパケットを抽出し、各デコーダに送ってデコードする。また、デマルチプレクサ221は、さらに、サブタイトルデータストリーム(第2のサブタイトルデータストリーム)を抽出して、符号化データバッファ223に一時的に蓄積する。 The demultiplexer 221 extracts the video data stream and audio data stream packets from the Fragmented MP4 stream, and sends them to each decoder for decoding. Further, the demultiplexer 221 further extracts a subtitle data stream (second subtitle data stream) and temporarily stores it in the encoded data buffer 223.
 ビデオデコーダ222は、上述の送信データ生成部110のビデオエンコーダ112とは逆の処理を行う。すなわち、ビデオデコーダ222は、デマルチプレクサ221で抽出されたビデオのパケットからビデオデータストリームを再構成し、復号化処理を行って、左眼画像データおよび右眼画像データを含む立体画像データを得る。この立体画像データの伝送フォーマットは、例えば、サイド・バイ・サイド方式、トップ・アンド・ボトム方式、フレーム・シーケンシャル方式、あるいは各ビューがフル画面サイズを占めるビデオ伝送フォーマットの方式などである。 The video decoder 222 performs processing opposite to that of the video encoder 112 of the transmission data generation unit 110 described above. That is, the video decoder 222 reconstructs a video data stream from the video packets extracted by the demultiplexer 221 and performs decoding processing to obtain stereoscopic image data including left eye image data and right eye image data. The transmission format of the stereoscopic image data is, for example, a side-by-side method, a top-and-bottom method, a frame-sequential method, or a video transmission format method in which each view occupies a full screen size.
 サブタイトルデコーダ224は、上述の送信データ生成部110のサブタイトルエンコーダ125とは逆の処理を行う。すなわち、このサブタイトルデコーダ224は、符号化データバッファ223に蓄積されているサブタイトルデータストリームに復号化処理を行って、以下のセグメントのデータを取得する。すなわち、サブタイトルデコーダ224は、サブタイトルデータストリームから、サブタイトルデータを構成する各TTMLセグメントのデータを取得すると共に、視差情報などの表示制御情報を含むTTML-DSSセグメントのデータを取得する。 The subtitle decoder 224 performs processing opposite to that of the subtitle encoder 125 of the transmission data generation unit 110 described above. That is, the subtitle decoder 224 performs a decoding process on the subtitle data stream stored in the encoded data buffer 223 to acquire data of the following segments. That is, the subtitle decoder 224 obtains data of each TTML segment constituting the subtitle data from the subtitle data stream and obtains data of a TTML-DSS segment including display control information such as disparity information.
 サブタイトルデコーダ224は、サブタイトルデータを構成する各TTMLセグメントのデータおよびサブリージョンの領域情報に基づいて、サブタイトルを表示するためのリージョンの表示データ(ビットマップデータ)を生成する。ここで、リージョン内にあってサブリージョンで囲まれていない領域は、透明色が割り当てられる。ピクセルバッファ225は、この表示データを一時的に蓄積する。 The subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle, based on the data of each TTML segment constituting the subtitle data and the region information of the subregion. Here, a transparent color is assigned to an area in the region that is not surrounded by the sub-region. The pixel buffer 225 temporarily stores this display data.
 ビデオ重畳部228は、出力立体画像データVoutを得る。この場合、ビデオ重畳部228は、ビデオデコーダ222で得られた立体画像データの左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)の部分に、それぞれ、ピクセルバッファ225に蓄積されている表示データを重畳する。この場合、ビデオ重畳部228は、立体画像データの伝送方式(サイド・バイ・サイド方式、トップ・アンド・ボトム方式、フレーム・シーケンシャル方式、MVC方式など)に応じて、適宜、重畳位置、サイズなどの変更を行う。このビデオ重畳部228は、出力立体画像データVoutを、ビットストリーム処理部201の外部に出力する。 The video superimposing unit 228 obtains output stereoscopic image data Vout. In this case, the video superimposing unit 228 is stored in the pixel buffer 225 in the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222, respectively. Superimpose display data. In this case, the video superimposing unit 228 appropriately superimposes the position, size, etc. depending on the transmission method of the stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, MVC method, etc.). Make changes. The video superimposing unit 228 outputs the output stereoscopic image data Vout to the outside of the bit stream processing unit 201.
 視差情報補間部226は、サブタイトルデコーダ224で得られる視差情報を位置制御部227に送る。視差情報補間部226は、視差情報に対して、必要に応じて、補間処理を施して、位置制御部227に送る。位置制御部227は、視差情報に基づいて、それぞれのフレームに重畳される表示データの位置をシフト調整する(図39参照)。この場合、位置制御部227は、左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分に重畳される表示データ(字幕パターンデータ)を、視差情報に基づいて、互いに反対方向となるようにシフト調整して、視差を付与する。 The parallax information interpolation unit 226 sends the parallax information obtained by the subtitle decoder 224 to the position control unit 227. The disparity information interpolation unit 226 performs interpolation processing on the disparity information as necessary, and sends the information to the position control unit 227. The position control unit 227 shifts and adjusts the position of the display data superimposed on each frame based on the parallax information (see FIG. 39). In this case, the position control unit 227 displays display data (caption pattern data) superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion in opposite directions based on the disparity information. The shift is adjusted as described above to give parallax.
 なお、表示制御情報には、字幕表示期間内で共通に使用される視差情報が含まれる。また、この表示制御情報には、さらに、字幕表示期間内で順次更新される視差情報が含まれることもある。この字幕表示期間内で順次更新される視差情報は、上述したように、字幕表示期間の最初のフレームの視差情報と、その後の更新フレーム間隔毎のフレームの視差情報とからなっている。 Note that the display control information includes disparity information that is commonly used within the caption display period. Further, the display control information may further include disparity information that is sequentially updated within the caption display period. As described above, the disparity information that is sequentially updated within the caption display period is composed of the disparity information of the first frame in the caption display period and the disparity information of the frame at each subsequent update frame interval.
 位置制御部227は、字幕表示期間内で共通に使用される視差情報に関しては、そのまま使用する。一方、位置制御部227は、字幕表示期間内で順次更新される視差情報に関しては、視差情報補間部226で必要に応じて補間処理が施されたものを使用する。例えば、視差情報補間部226は、字幕表示期間内における任意のフレーム間隔、例えば、1フレーム間隔の視差情報を生成する。 The position control unit 227 uses the disparity information that is commonly used in the caption display period as it is. On the other hand, regarding the disparity information sequentially updated within the caption display period, the position control unit 227 uses information that has been subjected to interpolation processing as necessary by the disparity information interpolation unit 226. For example, the disparity information interpolation unit 226 generates disparity information at an arbitrary frame interval within the caption display period, for example, one frame interval.
 視差情報補間部226は、この補間処理として、線形補間処理ではなく、例えば、時間方向(フレーム方向)にローパスフィルタ(LPF)処理を伴った補間処理を行う。これにより、補間処理後の所定フレーム間隔の視差情報の時間方向(フレーム方向)の変化がなだらかとなる。 The disparity information interpolation unit 226 performs not the linear interpolation process as the interpolation process but, for example, an interpolation process with a low-pass filter (LPF) process in the time direction (frame direction). Thereby, the change in the time direction (frame direction) of the disparity information at the predetermined frame interval after the interpolation processing becomes gentle.
 また、オーディオデコーダ229は、上述の送信データ生成部110のオーディオエンコーダ113とは逆の処理を行う。すなわち、このオーディオデコーダ229は、デマルチプレクサ221で抽出されたオーディオのパケットからオーディオのエレメンタリストリームを再構成し、復号化処理を行って、出力音声データAoutを得る。このオーディオデコーダ229は、出力音声データAoutを、ビットストリーム処理部201の外部に出力する。 Also, the audio decoder 229 performs a process reverse to that of the audio encoder 113 of the transmission data generation unit 110 described above. That is, the audio decoder 229 reconstructs an audio elementary stream from the audio packet extracted by the demultiplexer 221 and performs a decoding process to obtain output audio data Aout. The audio decoder 229 outputs the output audio data Aout to the outside of the bit stream processing unit 201.
 図46に示すビットストリーム処理部201の動作を簡単に説明する。ネットワークインタフェース204(図45参照)で受信されるFragmentedMP4ストリームは、デマルチプレクサ221に供給される。このデマルチプレクサ221では、FragmentedMP4ストリームから、ビデオデータストリーム、オーディオデータストリームが抽出され、各デコーダに供給される。また、このデマルチプレクサ221では、FragmentedMP4ストリームからサブタイトルデータストリーム(第2のサブタイトルデータストリーム)が抽出され、符号化データバッファ223に一時的に蓄積される。 The operation of the bit stream processing unit 201 shown in FIG. 46 will be briefly described. The Fragmented MP4 stream received by the network interface 204 (see FIG. 45) is supplied to the demultiplexer 221. In the demultiplexer 221, a video data stream and an audio data stream are extracted from the Fragmented MP4 stream and supplied to each decoder. Also, in this demultiplexer 221, a subtitle data stream (second subtitle data stream) is extracted from the Fragmented MP4 stream and temporarily stored in the encoded data buffer 223.
 ビデオデコーダ222では、デマルチプレクサ221で抽出されたビデオデータストリームに対して復号化処理が行われて、左眼画像データおよび右眼画像データを含む立体画像データが得られる。この立体画像データは、ビデオ重畳部228に供給される。 The video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221 to obtain stereoscopic image data including left eye image data and right eye image data. The stereoscopic image data is supplied to the video superimposing unit 228.
 サブタイトルデコーダ224では、符号化データバッファ223からサブタイトルデータストリームが読み出されてデコードされる。そして、サブタイトルデコーダ224では、サブタイトルデータを構成する各TTMLセグメントのデータおよびサブリージョンの領域情報に基づいて、サブタイトルを表示するためのリージョンの表示データ(ビットマップデータ)が生成される。この表示データは、ピクセルバッファ225に一時的に蓄積される。 In the subtitle decoder 224, the subtitle data stream is read from the encoded data buffer 223 and decoded. The subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle based on the data of each TTML segment constituting the subtitle data and the region information of the subregion. This display data is temporarily stored in the pixel buffer 225.
 ビデオ重畳部228では、ビデオデコーダ222で得られた立体画像データの左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)の部分に、それぞれ、ピクセルバッファ225に蓄積されている表示データが重畳される。この場合、立体画像データの伝送方式(サイド・バイ・サイド方式、トップ・アンド・ボトム方式、フレーム・シーケンシャル方式、MVC方式など)に応じて、適宜、重畳位置、サイズなどが変更される。このビデオ重畳部228で得られる出力立体画像データVoutは、ビットストリーム処理部201の外部に出力される。 In the video superimposing unit 228, display data stored in the pixel buffer 225 is respectively stored in the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222. Superimposed. In this case, the superimposition position, the size, and the like are appropriately changed according to the transmission method of the stereoscopic image data (side-by-side method, top-and-bottom method, frame-sequential method, MVC method, etc.). The output stereoscopic image data Vout obtained by the video superimposing unit 228 is output to the outside of the bit stream processing unit 201.
 また、サブタイトルデコーダ224で得られる視差情報は、視差情報補間部226を通じて位置制御部227に送られる。視差情報補間部226では、必要に応じて、補間処理が行われる。例えば、字幕表示期間内で順次更新される数フレーム間隔の視差情報に関しては、視差情報補間部226で必要に応じて補間処理が施され、任意のフレーム間隔、例えば、1フレーム間隔の視差情報が生成される。 Also, the disparity information obtained by the subtitle decoder 224 is sent to the position control unit 227 through the disparity information interpolation unit 226. In the parallax information interpolation unit 226, interpolation processing is performed as necessary. For example, with respect to disparity information at several frame intervals that are sequentially updated within the caption display period, the disparity information interpolation unit 226 performs interpolation processing as necessary, and disparity information at an arbitrary frame interval, for example, one frame interval is obtained. Generated.
 位置制御部227では、ビデオ重畳部228で左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)部分に重畳される表示データ(字幕パターンデータ)を、視差情報に基づいて、互いに反対方向となるようにシフト調整することが行われる。これにより、左眼画像に表示される左眼サブタイトルと右眼画像に表示される右眼サブタイトルとの間に視差が付与される。従って、立体画像の内容に応じた、サブタイトル(字幕)の3D表示が実現される。 In the position control unit 227, the display data (caption pattern data) superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion by the video superimposing unit 228 in directions opposite to each other based on the disparity information. Shift adjustment is performed so that Thereby, parallax is provided between the left eye subtitle displayed in the left eye image and the right eye subtitle displayed in the right eye image. Therefore, 3D display of the subtitle (caption) according to the content of the stereoscopic image is realized.
 また、オーディオデコーダ229では、デマルチプレクサ221で抽出されたオーディオエレメンタリストリームに対して復号化処理が施されて、上述の表示用立体画像データVoutに対応した音声データAoutが得られる。この音声データAoutは、ビットストリーム処理部201の外部に出力される。 Also, in the audio decoder 229, the audio elementary stream extracted by the demultiplexer 221 is decoded, and the audio data Aout corresponding to the display stereoscopic image data Vout is obtained. The audio data Aout is output to the outside of the bit stream processing unit 201.
 図47は、セットトップボックス200が2D対応機器(2D STB)である場合におけるビットストリーム処理部201の構成例を示している。この図47において、図46と対応する部分には、同一符号を付し、その詳細説明は省略する。以下、説明の便宜のため、図46に示すビットストリーム処理部201を3D対応ビットストリーム処理部201と呼び、図47に示すビットストリーム処理部201を2D対応ビットストリーム処理部201と呼ぶこととする。 FIG. 47 shows a configuration example of the bit stream processing unit 201 when the set top box 200 is a 2D-compatible device (2D STB). In FIG. 47, portions corresponding to those in FIG. 46 are denoted by the same reference numerals, and detailed description thereof is omitted. Hereinafter, for convenience of description, the bit stream processing unit 201 illustrated in FIG. 46 is referred to as a 3D-compatible bit stream processing unit 201, and the bit stream processing unit 201 illustrated in FIG. 47 is referred to as a 2D-compatible bit stream processing unit 201. .
 図46に示す3D対応ビットストリーム処理部201において、ビデオデコーダ222は、デマルチプレクサ221で抽出されたビデオデータストリームに対して復号化処理を行って、左眼画像データおよび右眼画像データを含む立体画像データを取得する。それに対して、図47に示す2D対応ビットストリーム処理部201において、ビデオデコーダ222は、立体画像データを取得した後、左眼画像データまたは右眼画像データを切り出し、必要に応じてスケーリング処理等を行って2次元画像データを得る。 In the 3D-compatible bit stream processing unit 201 illustrated in FIG. 46, the video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221, and includes a stereoscopic image including left-eye image data and right-eye image data. Get image data. On the other hand, in the 2D-compatible bit stream processing unit 201 shown in FIG. 47, the video decoder 222 obtains stereoscopic image data, and then extracts left-eye image data or right-eye image data, and performs scaling processing or the like as necessary. To obtain 2D image data.
 また、図46に示す3D対応ビットストリーム処理部201において、サブタイトルデコーダ224では、符号化データバッファ223からサブタイトルデータストリーム(第2のサブタイトルデータストリーム)を読み出してデコードする。これにより、サブタイトルデコーダ224は、サブタイトルデータを構成する各TTMLセグメントのデータを取得すると共に、視差情報などの表示制御情報を含むTTML-DSSセグメントのデータを取得する。 Also, in the 3D-compatible bit stream processing unit 201 shown in FIG. 46, the subtitle decoder 224 reads the subtitle data stream (second subtitle data stream) from the encoded data buffer 223 and decodes it. Thereby, the subtitle decoder 224 acquires data of each TTML segment constituting the subtitle data and also acquires data of a TTML-DSS segment including display control information such as disparity information.
 それに対して、図47に示す2D対応ビットストリーム処理部201において、サブタイトルデコーダ224は、サブタイルデータストリーム(第1のサブタイトルデータストリーム)を読み出してデコードする。これにより、サブタイトルデコーダ224は、サブタイトルデータを構成する各TTMLセグメントのデータのみを取得する。そして、サブタイトルデコーダ224は、この各TTMLセグメントのデータに基づいて、サブタイトルを表示するためのリージョンの表示データ(ビットマップデータ)を生成し、ピクセルバッファ225に一時的に蓄積する。 On the other hand, in the 2D-compatible bit stream processing unit 201 shown in FIG. 47, the subtitle decoder 224 reads and decodes the subtile data stream (first subtitle data stream). Thereby, the subtitle decoder 224 acquires only data of each TTML segment constituting the subtitle data. Then, the subtitle decoder 224 generates region display data (bitmap data) for displaying the subtitle based on the data of each TTML segment, and temporarily stores it in the pixel buffer 225.
 また、図46に示す3D対応ビットストリーム処理部201において、ビデオ重畳部228は、出力立体画像データVoutを得て、ビットストリーム処理部201の外部に出力する。この場合、ビデオデコーダ222で得られた立体画像データの左眼画像フレーム(frame0)部分および右眼画像フレーム(frame1)の部分に、それぞれ、ピクセルバッファ225に蓄積されている表示データを重畳して、出力立体画像データVoutを得る。そして、位置制御部227は、その表示データを、視差情報に基づいて、互いに反対方向となるようにシフト調整し、左眼画像に表示される左眼サブタイトルと右眼画像に表示される右眼サブタイトルとの間に視差を付与する。 46, the video superimposing unit 228 obtains the output stereoscopic image data Vout and outputs it to the outside of the bit stream processing unit 201. In this case, the display data accumulated in the pixel buffer 225 is superimposed on the left eye image frame (frame0) portion and the right eye image frame (frame1) portion of the stereoscopic image data obtained by the video decoder 222, respectively. The output stereoscopic image data Vout is obtained. Then, the position control unit 227 shifts the display data so as to be in opposite directions based on the parallax information, and the right eye displayed in the left eye subtitle and the right eye image displayed in the left eye image. Parallax is given to the subtitle.
 それに対して、図47に示す2D対応ビットストリーム処理部201において、ビデオ重畳部228は、ビデオデコーダ222で得られた2次元画像データにピクセルバッファ225に蓄積されている表示データを重畳し、出力2次元画像データVoutを得る。そして、ビデオ重畳部228は、この出力2次元画像データVoutを、ビットストリーム処理部201の外部に出力する。 On the other hand, in the 2D-compatible bit stream processing unit 201 shown in FIG. 47, the video superimposing unit 228 superimposes the display data accumulated in the pixel buffer 225 on the two-dimensional image data obtained by the video decoder 222, and outputs it. Two-dimensional image data Vout is obtained. Then, the video superimposing unit 228 outputs the output two-dimensional image data Vout to the outside of the bit stream processing unit 201.
 図47に示す2Dビットストリーム処理部201の動作を簡単に説明する。なお、オーディオ系の動作については、図46に示す3Dビットストリーム処理部201と同様であるので省略する。 The operation of the 2D bitstream processing unit 201 shown in FIG. 47 will be briefly described. The operation of the audio system is the same as that of the 3D bit stream processing unit 201 shown in FIG.
 ネットワークインタフェース204(図45参照)で受信されるFragmentedMP4ストリームは、デマルチプレクサ221に供給される。このデマルチプレクサ221では、FragmentedMP4ストリームから、ビデオデータストリーム、オーディオデータストリームが抽出され、各デコーダに供給される。また、このデマルチプレクサ221では、FragmentedMP4ストリームからサブタイトルデータストリーム(第1のサブタイトルデータストリーム)が抽出され、符号化データバッファ223に一時的に蓄積される。 The Fragmented MP4 stream received by the network interface 204 (see FIG. 45) is supplied to the demultiplexer 221. In the demultiplexer 221, a video data stream and an audio data stream are extracted from the Fragmented MP4 stream and supplied to each decoder. Also, in this demultiplexer 221, a subtitle data stream (first subtitle data stream) is extracted from the Fragmented MP4 stream and temporarily stored in the encoded data buffer 223.
 ビデオデコーダ222では、デマルチプレクサ221で抽出されたビデオデータストリームに対して復号化処理が行われて、左眼画像データおよび右眼画像データを含む立体画像データが得られる。そして、ビデオデコーダ222では、さらに、この立体画像データから左眼画像データまたは右眼画像データが切り出され、必要に応じてスケーリング処理等が施されて、2次元画像データが得られる。この2次元画像データは、ビデオ重畳部228に供給される。 The video decoder 222 performs a decoding process on the video data stream extracted by the demultiplexer 221 to obtain stereoscopic image data including left eye image data and right eye image data. In the video decoder 222, left-eye image data or right-eye image data is further cut out from the stereoscopic image data, and subjected to scaling processing or the like as necessary to obtain two-dimensional image data. The two-dimensional image data is supplied to the video superimposing unit 228.
 また、サブタイトルデコーダ224では、符号化データバッファ223からサブタイトルデータストリームが読み出されてデコードされる。そして、サブタイトルデコーダ224では、この各TTMLセグメントのデータに基づいて、サブタイトルを表示するためのリージョンの表示データ(ビットマップデータ)が生成される。この表示データは、ピクセルバッファ225に一時的に蓄積される。 In the subtitle decoder 224, the subtitle data stream is read from the encoded data buffer 223 and decoded. Then, in the subtitle decoder 224, region display data (bitmap data) for displaying the subtitle is generated based on the data of each TTML segment. This display data is temporarily stored in the pixel buffer 225.
 ビデオ重畳部228では、ビデオデコーダ222で得られた2次元画像データに対してピクセルバッファ225に蓄積されているサブタイトルの表示データ(ビットマップデータ)が重畳され、出力2次元画像データVoutが得られる。この出力2次元画像データVoutは、ビットストリーム処理部201の外部に出力される。 The video superimposing unit 228 superimposes subtitle display data (bitmap data) accumulated in the pixel buffer 225 on the two-dimensional image data obtained by the video decoder 222, and obtains output two-dimensional image data Vout. . The output two-dimensional image data Vout is output to the outside of the bit stream processing unit 201.
 図45に示すセットトップボックス200において、送信側に要求を行って、サブタイトルデータストリーム(FragmentedMP4ストリーム)として、第1のサブタイトルデータストリーム、または第2のサブタイトルデータストリームを受信する。すなわち、セットトップボックス200は、レガシーの2D対応の受信装置である場合には、サブタイトルデータを構成する各TTMLセグメントのみが含まれる第1のサブタイトルデータストリームを受信でき、サブタイトルデータのみを良好に取得できる。 45, a request is made to the transmission side in the set top box 200, and the first subtitle data stream or the second subtitle data stream is received as the subtitle data stream (FragmentedMP4 stream). That is, when the set-top box 200 is a legacy 2D-compatible receiving device, the set-top box 200 can receive the first subtitle data stream including only each TTML segment constituting the subtitle data, and obtains only the subtitle data satisfactorily. it can.
 また、セットトップボックス200は、3D対応の受信装置である場合には、サブタイトルデータを構成する各TTMLセグメントと共に、視差情報などの表示制御情報を含むTTML-DSSセグメントが含まれる第2のサブタイトルデータストリームを受信できる。そのため、セットトップボックス200は、サブタイトルデータと共にそれに対応する視差情報の取得を効率よく適確に行うことができる。 Further, when the set-top box 200 is a 3D-compatible receiving device, the second subtitle data includes a TTML-DSS segment including display control information such as disparity information together with each TTML segment constituting the subtitle data. Stream can be received. Therefore, the set top box 200 can efficiently and accurately acquire the paratitle information corresponding to the subtitle data.
 また、図45に示すセットトップボックス200において、3D対応の受信装置である場合、ネットワークインタフェース204で受信される第2のサブタイトルデータストリームは、立体画像データ、サブタイトルデータの他に、表示制御情報も含まれる。この表示制御情報には、表示制御情報(サブリージョンの領域情報、視差情報など)が含まれている。そのため、左眼サブタイトルおよび右眼サブタイトルの表示位置に視差を付与でき、サブタイトル(字幕)の表示において、画像内の各物体との間の遠近感の整合性を最適な状態に維持することが可能となる。 In the case of a 3D-compatible receiving apparatus in the set top box 200 shown in FIG. 45, the second subtitle data stream received by the network interface 204 includes display control information in addition to stereoscopic image data and subtitle data. included. This display control information includes display control information (subregion region information, parallax information, and the like). Therefore, parallax can be given to the display position of the left-eye subtitle and the right-eye subtitle, and in the display of the subtitle (caption), the consistency of perspective with each object in the image can be maintained in an optimal state. It becomes.
 また、図45に示すセットトップボックス200において、3D対応ビットストリーム処理部201(図46参照)のサブタイトルデコーダ224で取得される表示制御情報に字幕表示期間内で順次更新される視差情報が含まれる場合、左眼サブタイトルおよび右眼サブタイトルの表示位置を動的に制御できる。これにより、左眼サブタイトルおよび右眼サブタイトルの間に付与する視差を画像内容の変化に連動して動的に変化させることが可能となる。 45, the display control information acquired by the subtitle decoder 224 of the 3D-compatible bitstream processing unit 201 (see FIG. 46) includes disparity information that is sequentially updated within the caption display period. In this case, the display positions of the left eye subtitle and the right eye subtitle can be dynamically controlled. Thereby, the parallax provided between the left eye subtitle and the right eye subtitle can be dynamically changed in conjunction with the change of the image content.
 また、図45に示すセットトップボックス200において、3Dビットストリーム処理部201(図46参照)の視差情報補間部226で、字幕表示期間(所定数のフレーム期間)内で順次更新される視差情報を構成する複数フレームの視差情報に対して補間処理が施される。この場合、送信側から更新フレーム間隔毎に視差情報が送信される場合であっても、左眼サブタイトルおよび右眼サブタイトルの間に付与する視差を、細かな間隔で、例えばフレーム毎に制御することが可能となる。 45, the disparity information sequentially updated within the caption display period (a predetermined number of frame periods) by the disparity information interpolation unit 226 of the 3D bitstream processing unit 201 (see FIG. 46) is set. Interpolation processing is performed on disparity information of a plurality of frames constituting the frame. In this case, even when disparity information is transmitted from the transmission side every update frame interval, the disparity provided between the left eye subtitle and the right eye subtitle is controlled at a fine interval, for example, for each frame. Is possible.
 また、図45に示すセットトップボックス200において、3Dビットストリーム処理部201(図46参照)の視差情報補間部226における補間処理は、例えば、時間方向(フレーム方向)のローパスフィルタ処理を伴うようにすることもできる。そのため、送信側から更新フレーム間隔毎に視差情報が送信される場合であっても、補間処理後の視差情報の時間方向の変化をなだらかにでき、左眼サブタイトルおよび右眼サブタイトルの間に付与される視差の推移が、更新フレーム間隔毎に不連続となることによる違和感を抑制できる。 Also, in the set top box 200 shown in FIG. 45, the interpolation processing in the disparity information interpolation unit 226 of the 3D bitstream processing unit 201 (see FIG. 46) involves, for example, low-pass filter processing in the time direction (frame direction). You can also Therefore, even when disparity information is transmitted from the transmission side every update frame interval, the change in the time direction of the disparity information after the interpolation process can be gently performed, and is provided between the left eye subtitle and the right eye subtitle. It is possible to suppress a sense of incongruity due to discontinuity in the disparity transitions at every update frame interval.
 なお、上述していないが、セットトップボックス200が3D対応機器である場合であって、2次元表示モードまたは3次元表示モードのユーザ選択が可能な構成も考えられる。その場合、3次元表示モードが選択されるときには、ビットストリーム処理部201は、上述した3D対応ビットストリーム処理部201(図46参照)と同様の構成、動作とされる。 Although not described above, a configuration in which the set-top box 200 is a 3D-compatible device and the user can select the 2D display mode or the 3D display mode is also conceivable. In this case, when the three-dimensional display mode is selected, the bit stream processing unit 201 has the same configuration and operation as the 3D-compatible bit stream processing unit 201 (see FIG. 46) described above.
 また、2次元表示モードが選択されるときには、ビットストリーム処理部201は、上述した2D対応ビットストリーム処理部201(図47参照)と実質的に同様の構成、動作とされる。この場合、ビットストリーム処理部201は、受信された第2のサブタイトルデータストリームから、例えば各TTMLセグメントに付加されているセグメントURLに基づいて、サブタイトルデータを構成する各TTMLセグメントのデータのみを読み込んで用いる。 When the 2D display mode is selected, the bitstream processing unit 201 has substantially the same configuration and operation as the 2D-compatible bitstream processing unit 201 (see FIG. 47) described above. In this case, the bit stream processing unit 201 reads only the data of each TTML segment constituting the subtitle data from the received second subtitle data stream, for example, based on the segment URL added to each TTML segment. Use.
 [テレビ受信機の説明]
 図1に戻って、テレビ受信機300は、3D対応機器である場合、セットトップボックス200からHDMIケーブル400を介して送られてくる立体画像データを受信する。このテレビ受信機300は、3D信号処理部301を有している。この3D信号処理部301は、立体画像データに対して、伝送フォーマットに対応した処理(デコード処理)を行って、左眼画像データおよび右眼画像データを生成する。
[Description of TV receiver]
Returning to FIG. 1, when the television receiver 300 is a 3D-compatible device, the television receiver 300 receives stereoscopic image data sent from the set-top box 200 via the HDMI cable 400. The television receiver 300 includes a 3D signal processing unit 301. The 3D signal processing unit 301 performs processing (decoding processing) corresponding to the transmission format on the stereoscopic image data to generate left-eye image data and right-eye image data.
 [テレビ受信機の構成例]
 3D対応のテレビ受信機300の構成例を説明する。図48は、テレビ受信機300の構成例を示している。このテレビ受信機300は、3D信号処理部301と、HDMI端子302と、HDMI受信部303と、ネットワークインタフェース305と、ビットストリーム処理部306を有している。
[Configuration example of TV receiver]
A configuration example of the 3D-compatible television receiver 300 will be described. FIG. 48 illustrates a configuration example of the television receiver 300. The television receiver 300 includes a 3D signal processing unit 301, an HDMI terminal 302, an HDMI receiving unit 303, a network interface 305, and a bit stream processing unit 306.
 また、このテレビ受信機300は、映像・グラフィック処理回路307と、パネル駆動回路308と、表示パネル309と、音声信号処理回路310と、音声増幅回路311と、スピーカ312を有している。また、このテレビ受信機300は、CPU321と、フラッシュROM322と、DRAM323と、内部バス324と、リモートコントロール受信部(RC受信部)325と、リモートコントロール送信機(RC送信機)326を有している。 The television receiver 300 includes a video / graphic processing circuit 307, a panel drive circuit 308, a display panel 309, an audio signal processing circuit 310, an audio amplification circuit 311, and a speaker 312. The television receiver 300 includes a CPU 321, a flash ROM 322, a DRAM 323, an internal bus 324, a remote control receiver (RC receiver) 325, and a remote control transmitter (RC transmitter) 326. Yes.
 ネットワークインタフェース305は、MPDファイルに基づいて、放送局100に要求を行って、ユーザの選択チャネルに対応したFragmentedMP4ストリーム(ビットストリームデータ)を受信する。ビットストリーム処理部306は、このFragmentedMP4ストリームに基づいて、サブタイトルが重畳された画像データおよび音声データを出力する。 The network interface 305 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. Based on this Fragmented MP4 stream, the bit stream processing unit 306 outputs image data and audio data on which the subtitle is superimposed.
 このビットストリーム処理部306は、詳細説明は省略するが、例えば、上述したセットトップボックス200の、3D対応ビットストリーム処理部201(図46参照)と同様の構成とされる。このビットストリーム処理部306は、立体画像データに対して、左眼サブタイトルおよび右眼サブタイトルの表示データを合成し、サブタイトルが重畳された出力立体画像データを生成して出力する。 The bit stream processing unit 306 is not described in detail, but has the same configuration as the 3D-compatible bit stream processing unit 201 (see FIG. 46) of the set-top box 200 described above, for example. The bit stream processing unit 306 combines the display data of the left eye subtitle and the right eye subtitle with the stereoscopic image data, and generates and outputs output stereoscopic image data on which the subtitle is superimposed.
 なお、このビットストリーム処理部306は、例えば、立体画像データの伝送フォーマットがサイド・バイ・サイド方式、あるいはトップ・アンド・ボトム方式などの場合、スケーリング処理を施し、フル解像度の左眼画像データおよび右眼画像データを出力する。また、このビットストリーム処理部306は、画像データに対応した音声データを出力する。 Note that the bit stream processing unit 306 performs scaling processing, for example, when the transmission format of the stereoscopic image data is a side-by-side method or a top-and-bottom method, and performs full-resolution left-eye image data and Outputs right eye image data. The bit stream processing unit 306 outputs audio data corresponding to the image data.
 HDMI受信部303は、HDMIに準拠した通信により、HDMIケーブル400を介してHDMI端子302に供給される非圧縮の画像データおよび音声データを受信する。このHDMI受信部303は、そのバージョンが例えばHDMI1.4aとされており、立体画像データの取り扱いが可能な状態にある。 The HDMI receiving unit 303 receives uncompressed image data and audio data supplied to the HDMI terminal 302 via the HDMI cable 400 by communication conforming to HDMI. The HDMI receiving unit 303 has a version of, for example, HDMI 1.4a, and can handle stereoscopic image data.
 3D信号処理部301は、HDMI受信部303で受信された立体画像データに対して、デコード処理を行って、フル解像度の左眼画像データおよび右眼画像データを生成する。3D信号処理部301は、TMDS伝送データフォーマットに対応したデコード処理を行う。なお、3D信号処理部301は、ビットストリーム処理部306で得られたフル解像度の左眼画像データおよび右眼画像データに対しては何もしない。 The 3D signal processing unit 301 performs a decoding process on the stereoscopic image data received by the HDMI receiving unit 303 to generate full-resolution left-eye image data and right-eye image data. The 3D signal processing unit 301 performs a decoding process corresponding to the TMDS transmission data format. Note that the 3D signal processing unit 301 does nothing with the full-resolution left-eye image data and right-eye image data obtained by the bit stream processing unit 306.
 映像・グラフィック処理回路307は、3D信号処理部301で生成された左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データを生成する。また、この映像・グラフィック処理回路307は、画像データに対して、必要に応じて、画質調整処理を行う。 The video / graphic processing circuit 307 generates image data for displaying a stereoscopic image based on the left eye image data and right eye image data generated by the 3D signal processing unit 301. The video / graphic processing circuit 307 performs image quality adjustment processing on the image data as necessary.
 また、映像・グラフィック処理回路307は、画像データに対して、必要に応じて、メニュー、番組表などの重畳情報のデータを合成する。パネル駆動回路308は、映像・グラフィック処理回路307から出力される画像データに基づいて、表示パネル309を駆動する。表示パネル309は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機ELディスプレイ(organic electroluminescence display)等で構成されている。 Also, the video / graphic processing circuit 307 synthesizes superimposition information data such as a menu and a program guide with the image data as necessary. The panel drive circuit 308 drives the display panel 309 based on the image data output from the video / graphic processing circuit 307. The display panel 309 includes, for example, an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL display (organic electroluminescence display), and the like.
 音声信号処理回路310は、HDMI受信部303で受信された、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理を行う。音声増幅回路311は、音声信号処理回路310から出力される音声信号を増幅してスピーカ312に供給する。 The audio signal processing circuit 310 performs necessary processing such as D / A conversion on the audio data received by the HDMI receiving unit 303 or obtained by the bit stream processing unit 306. The audio amplification circuit 311 amplifies the audio signal output from the audio signal processing circuit 310 and supplies the amplified audio signal to the speaker 312.
 CPU321は、テレビ受信機300の各部の動作を制御する。フラッシュROM322は、制御ソフトウェアの格納およびデータの保管を行う。DRAM323は、CPU321のワークエリアを構成する。CPU321は、フラッシュROM322から読み出したソフトウェアやデータをDRAM323上に展開してソフトウェアを起動させ、テレビ受信機300の各部を制御する。 The CPU 321 controls the operation of each unit of the television receiver 300. The flash ROM 322 stores control software and data. The DRAM 323 constitutes a work area for the CPU 321. The CPU 321 develops software and data read from the flash ROM 322 on the DRAM 323 to activate the software, and controls each unit of the television receiver 300.
 RC受信部325は、RC送信機326から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU321に供給する。CPU321は、このリモコンコードに基づいて、テレビ受信機300の各部を制御する。CPU321、フラッシュROM322およびDRAM323は、内部バス324に接続されている。 The RC receiver 325 receives the remote control signal (remote control code) transmitted from the RC transmitter 326 and supplies it to the CPU 321. The CPU 321 controls each part of the television receiver 300 based on the remote control code. The CPU 321, flash ROM 322, and DRAM 323 are connected to the internal bus 324.
 図48に示すテレビ受信機300の動作を簡単に説明する。HDMI受信部303では、HDMI端子302にHDMIケーブル400を介して接続されているセットトップボックス200から送信されてくる、立体画像データおよび音声データが受信される。このHDMI受信部303で受信された立体画像データは、3D信号処理部301に供給される。また、このHDMI受信部303で受信された音声データは音声信号処理回路310に供給される。 The operation of the television receiver 300 shown in FIG. The HDMI receiving unit 303 receives stereoscopic image data and audio data transmitted from the set top box 200 connected to the HDMI terminal 302 via the HDMI cable 400. The stereoscopic image data received by the HDMI receiving unit 303 is supplied to the 3D signal processing unit 301. The audio data received by the HDMI receiving unit 303 is supplied to the audio signal processing circuit 310.
 ネットワークインタフェース305では、MPDファイルに基づいて、放送局100に対して要求が行われ、ユーザの選択チャネルに対応したFragmentedMP4ストリーム(ビットストリームデータ)が受信される。このFragmentedMP4ストリームは、ビットストリーム処理部306に供給される。 The network interface 305 makes a request to the broadcast station 100 based on the MPD file, and receives a Fragmented MP4 stream (bit stream data) corresponding to the user's selected channel. This Fragmented MP4 stream is supplied to the bit stream processing unit 306.
 このビットストリーム処理部306では、ビデオデータストリーム、オーディオデータストリーム、さらには、サブタイトルデータストリームに基づいて、サブタイトルが重畳された出力立体画像データおよび音声データが得られる。この場合、立体画像データに対して、左眼サブタイトルおよび右眼サブタイトルの表示データが合成され、サブタイトルが重畳された出力立体画像データ(フル解像度の左眼画像データおよび右眼画像データ)が生成される。この出力立体画像データは、3D信号処理部301を通って、映像・グラフィック処理回路307に供給される。 The bit stream processing unit 306 obtains output stereoscopic image data and audio data on which a subtitle is superimposed based on a video data stream, an audio data stream, and a subtitle data stream. In this case, the display data of the left eye subtitle and the right eye subtitle is combined with the stereoscopic image data, and output stereoscopic image data (full resolution left eye image data and right eye image data) on which the subtitle is superimposed is generated. The The output stereoscopic image data is supplied to the video / graphic processing circuit 307 through the 3D signal processing unit 301.
 3D信号処理部301では、HDMI受信部303で受信された立体画像データに対してデコード処理が行われて、フル解像度の左眼画像データおよび右眼画像データが生成される。この左眼画像データおよび右眼画像データは、映像・グラフィック処理回路307に供給される。この映像・グラフィック処理回路307では、左眼画像データおよび右眼画像データに基づいて、立体画像を表示するための画像データが生成され、必要に応じて、画質調整処理、OSD(オンスクリーンディスプレイ)等の重畳情報データの合成処理も行われる。 In the 3D signal processing unit 301, the stereoscopic image data received by the HDMI receiving unit 303 is decoded, and full-resolution left-eye image data and right-eye image data are generated. The left eye image data and right eye image data are supplied to the video / graphic processing circuit 307. In the video / graphic processing circuit 307, image data for displaying a stereoscopic image is generated based on the left eye image data and the right eye image data, and image quality adjustment processing, OSD (on-screen display) is performed as necessary. The superimposing information data is synthesized.
 この映像・グラフィック処理回路307で得られる画像データはパネル駆動回路308に供給される。そのため、表示パネル309により立体画像が表示される。例えば、表示パネル309に、左眼画像データによる左眼画像および右眼画像データによる右眼画像が交互に時分割的に表示される。視聴者は、例えば、表示パネル309の表示に同期して左眼シャッタおよび右眼シャッタが交互に開くシャッタメガネを装着することで、左眼では左眼画像のみを見ることができ、右眼では右眼画像のみを見ることができ、立体画像を知覚できる。 The image data obtained by the video / graphic processing circuit 307 is supplied to the panel drive circuit 308. Therefore, a stereoscopic image is displayed on the display panel 309. For example, the left eye image based on the left eye image data and the right eye image based on the right eye image data are alternately displayed on the display panel 309 in a time division manner. For example, the viewer can see only the left eye image with the left eye and the right eye with the shutter glasses by alternately opening the left eye shutter and the right eye shutter in synchronization with the display on the display panel 309. Only the right eye image can be seen, and a stereoscopic image can be perceived.
 また、ビットストリーム処理部306で得られた音声データは、音声信号処理回路310に供給される。この音声信号処理回路310では、HDMI受信部303で受信された音声データ、あるいはビットストリーム処理部306で得られた音声データに対してD/A変換等の必要な処理が施される。この音声データは、音声増幅回路311で増幅された後に、スピーカ312に供給される。そのため、スピーカ312から表示パネル309の表示画像に対応した音声が出力される。 Also, the audio data obtained by the bit stream processing unit 306 is supplied to the audio signal processing circuit 310. In the audio signal processing circuit 310, necessary processing such as D / A conversion is performed on the audio data received by the HDMI receiving unit 303 or the audio data obtained by the bit stream processing unit 306. The audio data is amplified by the audio amplification circuit 311 and then supplied to the speaker 312. Therefore, sound corresponding to the display image on the display panel 309 is output from the speaker 312.
 なお、図48は上述したように3D対応のテレビ受信機300である。詳細説明は省略するが、レガシーの2D対応のテレビ受信機もほぼ同様の構成となる。ただし、レガシーの2D対応のテレビ受信機の場合、ビットストリーム処理部306は、上述の図47に示す2D対応ビットストリーム処理部201と同様の構成、動作となる。また、レガシーの2D対応のテレビ受信機の場合、3D信号処理部301は不要となる。 Note that FIG. 48 shows the 3D-compatible television receiver 300 as described above. Although detailed description is omitted, the legacy 2D-compatible television receiver has almost the same configuration. However, in the case of a legacy 2D-compatible television receiver, the bit stream processing unit 306 has the same configuration and operation as the 2D-compatible bit stream processing unit 201 shown in FIG. 47 described above. Further, in the case of a legacy 2D-compatible television receiver, the 3D signal processing unit 301 is not necessary.
 また、3D対応のテレビ受信機300にあって、2次元表示モードまたは3次元表示モードのユーザ選択が可能な構成も考えられる。その場合、3次元表示モードが選択されるときには、ビットストリーム処理部306は、上述したと同様の構成、動作とされる。 Also, a configuration in which the user can select the 2D display mode or the 3D display mode in the 3D-compatible television receiver 300 is also conceivable. In that case, when the three-dimensional display mode is selected, the bit stream processing unit 306 has the same configuration and operation as described above.
 一方、2次元表示モードが選択されるときには、ビットストリーム処理部306は、上述した2D対応ビットストリーム処理部201(図47参照)と実質的に同様の構成、動作とされる。この場合、ビットストリーム処理部306は、受信された第2のサブタイトルデータストリームから、例えば各TTMLセグメントに付加されているセグメントURLに基づいて、サブタイトルデータを構成する各TTMLセグメントのデータのみを読み込んで用いる。 On the other hand, when the two-dimensional display mode is selected, the bit stream processing unit 306 has substantially the same configuration and operation as the 2D-compatible bit stream processing unit 201 (see FIG. 47) described above. In this case, the bit stream processing unit 306 reads only the data of each TTML segment constituting the subtitle data from the received second subtitle data stream, for example, based on the segment URL added to each TTML segment. Use.
 <2.変形例>
 なお、上述実施の形態においては、英語“eng”の1つの言語サービスのみが存在する場合の例を示した(図24参照)。しかし、本技術は、多言語サービスにも同様に適用できることは勿論である。以下、例えば、英語“eng”の第1言語サービス(1st Language Service)と、独語“ger”の第2言語サービス(2nd Language Service)の2言語サービスが存在する例について説明する。
<2. Modification>
In the above-described embodiment, an example in which only one language service of English “eng” exists is shown (see FIG. 24). However, it goes without saying that the present technology can be applied to multilingual services as well. Hereinafter, an example will be described in which there are two language services, for example, a first language service (1st Language Service) of English “eng” and a second language service (2nd Language Service) of German “ger”.
 図49は、FragmentedMP4ストリームが有するサブタイトルデータストリームの構成例を示している。このサブタイトルデータストリームに対応して、MPDにアダプテーションセット/リプレゼンテーション(AdaptationSet/Representation)要素が記述される。そして、このアダプテーションセット要素には各々ID属性(AdaptationSet/@id)が定義される。 FIG. 49 shows a configuration example of the subtitle data stream included in the Fragmented MP4 stream. Corresponding to this subtitle data stream, an adaptation set / representation element is described in MPD. An ID attribute (AdaptationSet / @ id) is defined for each adaptation set element.
 第1言語サービス(英語“eng”)に係るTTMLセグメントのみを含む第1の2Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性は“@id=PID1-1”とされている。また、第2言語サービス(独語“ger”)に係るTTMLセグメントのみを含む第2の2Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性は“@id=PID2-1”とされている。 The ID attribute of the adaptation set element corresponding to the first 2D subtitle data stream including only the TTML segment related to the first language service (English “eng”) is “@ id = PID1-1”. Further, the ID attribute of the adaptation set element corresponding to the second 2D subtitle data stream including only the TTML segment related to the second language service (German “ger”) is “@ id = PID2-1”.
 また、第1言語サービス(英語“eng”)に係るTTMLセグメントおよびTTML-DSSセグメントを含む第1の3Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性は“@id=PID1_2”とされている。また、第2言語サービス(独語“ger”)に係るTTMLセグメントのみを含む第2の3Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性は“@id=PID2_2_2”とされている。 The ID attribute of the adaptation set element corresponding to the first 3D subtitle data stream including the TTML segment and the TTML-DSS segment related to the first language service (English “eng”) is “@ id = PID1_2”. . Further, the ID attribute of the adaptation set element corresponding to the second 3D subtitle data stream including only the TTML segment related to the second language service (German “ger”) is “@ id = PID2_2_2”.
 受信側では、MPDファイルにおいて、これらのアダプテーションセット要素をID属性に基づいて識別でき、必要とするサブタイトルデータストリームの受信を要求できる。例えば、受信側は、2D対応機器であって第1言語サービス(英語“eng”)が選択される場合、ID属性が“@id=PID1-1”であるアダプテーションセット要素に関連したセグメントインフォを用いて受信要求を行うことで、第1の2Dサブタイトルデータストリームを受信できる。また、例えば、受信側は、3D対応機器であって第2言語サービス(独語“ger”)が選択される場合、ID属性が“@id=PID2_2”であるアダプテーションセット要素に関連したセグメントインフォを用いて受信要求を行うことで、第2の3Dサブタイトルデータストリームを受信できる。 The receiving side can identify these adaptation set elements in the MPD file based on the ID attribute, and can request reception of a necessary subtitle data stream. For example, if the receiving side is a 2D-compatible device and the first language service (English “eng”) is selected, the segment information related to the adaptation set element whose ID attribute is “@ id = PID1-1” is displayed. The first 2D subtitle data stream can be received by using the reception request. Also, for example, when the second language service (German “ger”) is selected on the receiving side and the 3D-compatible device is selected, the segment information related to the adaptation set element whose ID attribute is “@ id = PID2_2” is displayed. The second 3D subtitle data stream can be received by using the reception request.
 ここで、第2の2Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値は、第1の2Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値に予め決定された所定値が加算された値とされる。これにより、第1、第2の2Dサブタイトルデータストリームが、アダプテーションセット要素のID属性上においてひも付けされる。同様に、第2の3Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値は、第1の3Dサブタイトルデータストリームに対応するアダプテーションセット要素のID属性の値に予め決定された所定値が加算された値とされる。これにより、第1、第2の3Dサブタイトルデータストリームが、アダプテーションセット要素のID属性上においてひも付けされる。 Here, the ID attribute value of the adaptation set element corresponding to the second 2D subtitle data stream is obtained by adding a predetermined value to the ID attribute value of the adaptation set element corresponding to the first 2D subtitle data stream. Value. As a result, the first and second 2D subtitle data streams are linked on the ID attribute of the adaptation set element. Similarly, the ID attribute value of the adaptation set element corresponding to the second 3D subtitle data stream is obtained by adding a predetermined value to the ID attribute value of the adaptation set element corresponding to the first 3D subtitle data stream. Value. As a result, the first and second 3D subtitle data streams are linked on the ID attribute of the adaptation set element.
 図50は、FragmentedMP4ストリームの構成例を示している。各FragmentedMP4ストリームには、それぞれ、エレメンタリストリームをパケット化して得られたFragmentedMP4が含まれている。なお、この図においては、図面の簡単化のために、ビデオおよびオーディオに関係する部分の図示を省略している。 FIG. 50 shows a configuration example of a Fragmented MP4 stream. Each FragmentedMP4 stream includes FragmentedMP4 obtained by packetizing the elementary stream. In this figure, for the sake of simplification of the drawing, illustration of portions related to video and audio is omitted.
 この構成例では、TTMLセグメントのみを含む第1、第2の2DサブタイトルデータストリームのFragmentedMP4ストリームが示されている。また、この構成例では、TTMLセグメントの他にTTML-DSSセグメントを含む第1、第2の3DサブタイトルデータストリームのFragmentedMP4ストリームが示されている。各ストリームに対応するアダプテーションセット要素のID属性は、上述の図49で説明したように、互いに異なるものとされ、識別可能とされている。 In this configuration example, the Fragmented MP4 stream of the first and second 2D subtitle data streams including only the TTML segment is shown. In this configuration example, the Fragmented MP4 stream of the first and second 3D subtitle data streams including the TTML-DSS segment in addition to the TTML segment is shown. The ID attribute of the adaptation set element corresponding to each stream is different from each other and can be identified as described above with reference to FIG.
 各FragmentedMP4ストリームには、それぞれに対応する、MPDに記述されるアダプテーションセット/リプレゼンテーション(AdaptationSet/Representation)要素がある。そのリプレゼンテーション要素の配下に列挙(関連付け)されるセグメント(Segment)は、図示したstyp box、sidx box、fragmentedMP4(moofとmdat)の列を参照する。プログラムの単位はこのアダプテーションセットが複数まとまったグループとして定義される。 Each Fragmented MP4 stream has an adaptation set / representation element described in MPD corresponding to each Fragmented MP4 stream. Segments (Segment) listed (associated) under the representation element refer to the columns of stypsbox, sidx box, and fragmentedMP4 (moof and mdat) shown in the figure. A program unit is defined as a group of a plurality of adaptation sets.
 サブタイトルデータストリームに関連する情報の1つに、サブタイトリングタイプ(subtitlingType)が導入され、アダプテーションセット要素の属性として“AdaptationSet/@subtitlingTyp”が配置される。第1、第2の2Dサブタイトルデータストリーム(FragmentedMP4ストリーム)に対応したサブタイトリングタイプ(subtitling_type)は、2D用サブタイトルを示す値、例えば、「0x14」あるいは「0x24」とされる((図22の“component_type”参照)。また、第1、第2の3Dサブタイトルデータストリーム(FragmentedMP4ストリーム)に対応したサブタイトリングタイプ(subtitling_type)は、3D用サブタイトルを示す値、例えば、「0x15」あるいは「0x25」とされる((図22の“component_type”参照)。 The subtitling type (subtitlingType) is introduced as one of the information related to the subtitle data stream, and “AdaptationSet / @ subtitlingTyp” is arranged as an attribute of the adaptation set element. The subtitling type (subtitling_type) corresponding to the first and second 2D subtitle data streams (FragmentedMP4 streams) is a value indicating a 2D subtitle, for example, “0x14” or “0x24” ((FIG. 22 Also, the subtitling type (subtitling_type) corresponding to the first and second 3D subtitle data stream (FragmentedMP4 stream) is a value indicating a 3D subtitle, for example, “0x15” or “0x25”. (See “component_type” in FIG. 22).
 さらに、サブタイトルデータストリームに対応したISO(International Organization for Standardization)言語コードは、サブタイトル(字幕)の言語を示すようにアダプテーションセット要素の属性であるlang属性が設定される。第1の2Dサブタイトルデータストリームに対応したlang属性は英語を示す「eng」に設定されている。また、第2の2Dサブタイトルデータストリームに対応したlang属性は独語を示す「ger」に設定されている。 Furthermore, in the ISO (International Organization for Standardization) language code corresponding to the subtitle data stream, a lang attribute which is an attribute of the adaptation set element is set so as to indicate the language of the subtitle (caption). The lang attribute corresponding to the first 2D subtitle data stream is set to “eng” indicating English. The lang attribute corresponding to the second 2D subtitle data stream is set to “ger” indicating German.
 なお、第1、第2の3Dサブタイトルデータストリームに対応したISO言語コードは、例えば、非言語を示す「zxx」に設定される。しかし、非言語を示すISO言語コードとして、ISO言語コードの「qaa」から「qrz」の空間に含まれる言語コードのいずれか、あるいは、「mis」または「und」の言語コードを使用することも考えられる(図23参照)。また、第1、第2の3Dサブタイトルデータストリームに対応したISO言語コードを、第1、第2の2Dサブタイトルデータストリームと同じく、サブタイトル(字幕)の言語を示すように設定することも考えられる。 Note that the ISO language code corresponding to the first and second 3D subtitle data streams is set to, for example, “zxx” indicating a non-language. However, any of the language codes included in the space “qaa” to “qrz” of the ISO language code or the language code “mis” or “und” may be used as the ISO language code indicating non-language. Possible (see FIG. 23). It is also conceivable to set the ISO language code corresponding to the first and second 3D subtitle data streams so as to indicate the language of the subtitle (caption) as in the first and second 2D subtitle data streams.
 また、上述実施の形態においては、受信側が2D対応機器である場合、MPDファイルに基づいて、サブタイトルデータストリームとして、TTMLセグメントのみを含む2Dサブタイトルデータストリームを受信し、このストリームから各TTMLセグメントのデータを取り出して用いる旨を説明した。 In the above embodiment, when the receiving side is a 2D-compatible device, a 2D subtitle data stream including only a TTML segment is received as a subtitle data stream based on the MPD file, and data of each TTML segment is received from this stream. Explained that it was taken out and used.
 しかし、受信側が2D対応機器である場合にも、サブタイトルデータストリームとして、TTMLセグメントおよびTTML-DSSセグメントを含む3Dサブタイトルデータストリームを受信し、このストリームから各TTMLセグメントのデータを取り出して用いることも考えられる。この場合、受信側では、例えば、3Dサブタイトルデータストリームから、例えば各TTMLセグメントに付加されているセグメントURLに基づいて、サブタイトルデータを構成する各TTMLセグメントのデータのみを読み込んで用いる。 However, even when the receiving side is a 2D-compatible device, it is possible to receive a 3D subtitle data stream including a TTML segment and a TTML-DSS segment as a subtitle data stream, and extract and use the data of each TTML segment from this stream. It is done. In this case, for example, only the data of each TTML segment constituting the subtitle data is read and used from the 3D subtitle data stream, for example, based on the segment URL added to each TTML segment.
 また、上述実施の形態においては、ストリーム配信システム10が、放送局100、セットトップボックス200およびテレビ受信機300で構成されているものを示した(図9参照)。しかし、テレビ受信機300は、図48に示すように、セットトップボックス200内のビットストリーム処理部201と同様に機能するビットストリーム処理部306を備えている。したがって、図51に示すように、放送局100およびテレビ受信機300で構成されるストリーム配信システム10Aも考えられる。 In the above-described embodiment, the stream distribution system 10 includes the broadcasting station 100, the set-top box 200, and the television receiver 300 (see FIG. 9). However, the television receiver 300 includes a bit stream processing unit 306 that functions in the same manner as the bit stream processing unit 201 in the set top box 200, as shown in FIG. Therefore, as shown in FIG. 51, a stream distribution system 10A including a broadcasting station 100 and a television receiver 300 is also conceivable.
 また、上述実施の形態においては、セットトップボックス200と、テレビ受信機300とが、HDMIのデジタルインタフェースで接続されるものを示している。しかし、これらが、HDMIのデジタルインタフェースと同様のデジタルインタフェース(有線の他に無線も含む)で接続される場合においても、本技術を同様に適用できる。 In the above embodiment, the set-top box 200 and the television receiver 300 are connected via an HDMI digital interface. However, even when these are connected by a digital interface similar to the HDMI digital interface (including wireless as well as wired), the present technology can be similarly applied.
 また、上述実施の形態においては、重畳情報としてサブタイトル(字幕)を取り扱うものを示した。しかし、その他のグラフィクス情報、テキスト情報などの重畳情報をはじめ、基本ストリームと追加ストリームとに分割されたものが関連して出力されるようにエンコーダされるもので、オーディオのストリームに関して扱うものにも、本技術を同様に適用できる。 Further, in the above-described embodiment, the information that handles the subtitle (caption) is shown as the superimposition information. However, other information such as superimposition information such as graphics information and text information is encoded so that what is divided into the basic stream and the additional stream is output in association with it. The present technology can be applied similarly.
 また、本技術は、以下のような構成を取ることもできる。
 (1)立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
 受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記視差情報を含む第2のプライベートデータストリームを送信するデータ送信部とを備える
 送信装置。
 (2)上記データ送信部は、
 配信サーバを有し、
 上記各データストリームを、ネットワークを通じて受信側に配信する
 前記(1)に記載の送信装置。
 (3)上記受信側が上記各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、
 上記受信側からの要求に応じて、上記メタファイルを、上記ネットワークを通じて、該受信側に送信するメタファイル送信部とをさらに備える
 前記(2)に記載の送信装置。
 (4)上記第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、上記第2のプライベートデータストリームに対応した第2のメタファイルには上記第1の識別情報とは異なる第2の識別情報が付加される
 前記(3)に記載の送信装置。
 (5)上記第1のプライベートデータストリームに対応した第1の識別情報と上記第2のプライベートデータストリームに対応した第2の識別情報とは固有の関係を持つ
 前記(4)に記載の送信装置。
 (6)上記第1のメタファイルには第1のタイプであることを示す第1のタイプ情報がさらに付加され、上記第2のメタファイルには上記第1のタイプとは異なる第2のタイプであることを示す第2のタイプ情報がさらに付加される
 前記(4)または(5)に記載の送信装置。
 (7)上記第1のメタファイルには所定の言語を示す第1の言語情報がさらに付加され、上記第2のメタファイルには非言語を示す第2の言語情報がさらに付加される
 前記(4)から(6)のいずれかに記載の送信装置。
 (8)上記各データストリームはMPEG-DASHベースのデータストリームであり、
 上記メタファイルはMPDファイルであり、
 上記ネットワークはCDNである
 前記(3)から(7)のいずれかに記載の送信装置。
 (9)立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力ステップと、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力ステップと、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力ステップと、
 受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記視差情報を含む第2のプライベートデータストリームを送信するデータ送信ステップとを備える
 送信方法。
 (10)送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含む第2のプライベートデータストリームを受信するデータ受信部と、
 上記ビデオデータストリームをデコードする第1のデコード部と、
 上記第1のプライベートデータストリームまたは上記第2のプライベートデータストリームをデコードする第2のデコード部とを備える
 受信装置。
 (11)上記データ受信部は、
 上記送信側が有する配信サーバから上記各データストリームを、ネットワークを通じて受信する
 前記(10)に記載の受信装置。
 (12)上記各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、
 上記データ受信部は、上記メタファイルに基づいて、上記送信側に上記要求を行う
 前記(11)に記載の受信装置。
 (13)上記第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、上記第2のプライベートデータストリームに対応した第2のメタファイルには上記第1の識別情報とは異なる第2の識別情報が付加されている
 前記(12)に記載の受信装置。
 (14)上記各データストリームはMPEG-DASHベースのデータストリームであり、
 上記メタファイルはMPDファイルであり、
 上記ネットワークはCDNである
 前記(12)または(13)に記載の受信装置。
 (15)送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオスデータトリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含む第2のプライベートデータストリームを受信するデータ受信ステップと、
 上記ビデオデータストリームをデコードする第1のデコードステップと、
 上記第1のプライベートデータストリームまたは上記第2のプライベートデータストリームをデコードする第2のデコードステップとを備える
 受信方法。
 (16)立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
 上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
 受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータおよび上記視差情報を含むプライベートデータストリームを送信するデータ送信部とを備え、
 上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加される
 送信装置。
 (17)上記データ送信部は、
 配信サーバを有し、
 上記各データストリームを、ネットワークを通じて受信側に配信する
 前記(16)に記載の送信装置。
 (18)上記受信側が上記各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、
 上記受信側からの要求に応じて、上記メタファイルを、上記ネットワークを通じて、該受信側に送信するメタファイル送信部とをさらに備える
 前記(17)に記載の送信装置。
 (19)送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含むプライベートデータストリームとを受信するデータ受信部と、
 上記ビデオデータストリームをデコードする第1のデコード部と、
 上記プライベートデータストリームをデコードする第2のデコード部とを備え、
 上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加されており、
 上記第2のデコード部は、上記第1の識別情報および上記第2の識別情報に基づいて、上記プライベートデータストリームから上記重畳情報のデータ、あるいは上記重畳情報のデータおよび上記視差情報を取得する
 受信装置。
 (20)上記データ受信部は、上記送信側が有する配信サーバから上記各データストリームを、ネットワークを通じて受信し、
 上記各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、
 上記データ受信部は、上記メタファイルに基づいて、上記送信側に上記要求を行う
 前記(19)に記載の受信装置。
Moreover, this technique can also take the following structures.
(1) an image data output unit that outputs left-eye image data and right-eye image data constituting a stereoscopic image;
A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
In response to a request from the receiving side, a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information And a data transmission unit for transmitting the private data stream.
(2) The data transmission unit
A distribution server,
The transmission device according to (1), wherein each of the data streams is distributed to a reception side through a network.
(3) a metafile generation unit that generates a metafile having information for the receiver to acquire each data stream;
The transmission device according to (2), further including: a metafile transmission unit that transmits the metafile to the reception side through the network in response to a request from the reception side.
(4) First identification information is added to the first metafile corresponding to the first private data stream, and the first metafile corresponding to the second private data stream is set to the first metafile. The transmission apparatus according to (3), wherein second identification information different from the identification information is added.
(5) The transmission device according to (4), wherein the first identification information corresponding to the first private data stream and the second identification information corresponding to the second private data stream have a unique relationship. .
(6) First type information indicating the first type is further added to the first metafile, and a second type different from the first type is added to the second metafile. The transmission apparatus according to (4) or (5), further including second type information indicating that:
(7) First language information indicating a predetermined language is further added to the first metafile, and second language information indicating a non-language is further added to the second metafile. 4) The transmission device according to any one of (6).
(8) Each data stream is an MPEG-DASH based data stream,
The metafile is an MPD file,
The transmission device according to any one of (3) to (7), wherein the network is a CDN.
(9) an image data output step for outputting left eye image data and right eye image data constituting a stereoscopic image;
A superimposition information data output step for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
A disparity information output step for outputting disparity information for shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data to give disparity;
In response to a request from the receiving side, a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information A data transmission step of transmitting a private data stream of the transmission method.
(10) A superimposition information to be superposed on a video data stream including left eye image data and right eye image data constituting a stereoscopic image, and an image based on the left eye image data and the right eye image data by making a request to the transmission side Including the first private data stream including the above-described data, or the superimposition information data and the parallax information for shifting the superimposition information superimposed on the image based on the left-eye image data and the right-eye image data to give the parallax. A data receiver for receiving the second private data stream;
A first decoding unit for decoding the video data stream;
A receiving apparatus comprising: a second decoding unit that decodes the first private data stream or the second private data stream.
(11) The data receiving unit
The receiving device according to (10), wherein each data stream is received from a distribution server included in the transmitting side through a network.
(12) a metafile receiving unit that receives a metafile having information for acquiring each data stream;
The receiving device according to (11), wherein the data receiving unit makes the request to the transmitting side based on the metafile.
(13) The first identification information is added to the first metafile corresponding to the first private data stream, and the first metafile corresponding to the second private data stream is set to the first metafile. The receiving apparatus according to (12), wherein second identification information different from the identification information is added.
(14) Each of the data streams is an MPEG-DASH based data stream,
The metafile is an MPD file,
The receiving apparatus according to (12) or (13), wherein the network is a CDN.
(15) A request is made to the transmission side, and a video stream including left-eye image data and right-eye image data constituting a stereoscopic image, and superposition superimposed on an image based on the left-eye image data and the right-eye image data Disparity information for giving disparity by shifting the first private data stream including information data, or the superimposition information data and the superimposition information superimposed on the image by the left eye image data and the right eye image data. A data receiving step for receiving a second private data stream comprising:
A first decoding step for decoding the video data stream;
And a second decoding step of decoding the first private data stream or the second private data stream.
(16) an image data output unit that outputs left-eye image data and right-eye image data constituting a stereoscopic image;
A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
In response to a request from the receiving side, the video data stream including the image data is transmitted, and a data transmission unit that transmits the data of the superimposition information and the private data stream including the disparity information,
In the private data stream, first identification information is added to the data of the superimposition information, and second identification information different from the first identification information is added to the parallax information.
(17) The data transmission unit
A distribution server,
The transmission device according to (16), wherein each of the data streams is distributed to a reception side through a network.
(18) a metafile generating unit that generates a metafile having information for the receiving side to acquire each of the data streams;
The transmission device according to (17), further comprising: a metafile transmission unit that transmits the metafile to the reception side through the network in response to a request from the reception side.
(19) A superimposition information to be superposed on a video data stream including left eye image data and right eye image data constituting a stereoscopic image, and an image based on the left eye image data and the right eye image data by making a request to the transmission side A data receiver that receives the data and the private data stream including disparity information for shifting the superimposition information to be superimposed on the image by the left eye image data and the right eye image data,
A first decoding unit for decoding the video data stream;
A second decoding unit for decoding the private data stream,
In the private data stream, first identification information is added to the superimposition information data, and second identification information different from the first identification information is added to the parallax information,
The second decoding unit acquires the superimposition information data or the superimposition information data and the disparity information from the private data stream based on the first identification information and the second identification information. apparatus.
(20) The data reception unit receives the data streams from the distribution server on the transmission side through the network,
A metafile receiving unit for receiving a metafile having information for acquiring each data stream;
The receiving device according to (19), wherein the data receiving unit makes the request to the transmitting side based on the metafile.
 本技術の主な特徴は、MPDファイルにおいて、MPEG-DASHベースの2D,3Dの各サブタイトルデータストリームに対応したアダプテーションセット要素をID属性で識別可能とし、受信側では2Dサブタイトルデータストリームまたは3Dサブタイトルデータストリームを選択的に受信可能としたことである(図19,図20参照)。 The main feature of this technology is that an adaptation set element corresponding to each MPEG-DASH-based 2D and 3D subtitle data stream can be identified by an ID attribute in the MPD file, and a 2D subtitle data stream or 3D subtitle data is received on the receiving side. This means that the stream can be selectively received (see FIGS. 19 and 20).
 10,10A・・・ストリーム配信システム
 11・・・DASHセグメントストリーマ
 12・・・DASHMPDサーバ
 13-1~13-N・・・IPTVクライアント
 14・・・CDN
 15・・・コンテンツマネジメントサーバ
 100・・・放送局
 111・・・データ取り出し部
 112・・・ビデオエンコーダ
 113・・・オーディオエンコーダ
 114・・・サブタイトル発生部
 115・・・視差情報作成部
 116・・・サブタイトル処理部
 118・・・サブタイトルエンコーダ
 119・・・マルチプレクサ
 131・・・ストリーミングデータ制御部
 132・・・HTTPアクセス部
 133・・・動画再生部
 200・・・セットトップボックス(STB)
 201・・・ビットストリーム処理部
 202・・・HDMI端子
 204・・・ネットワークインタフェース
 205・・・映像信号処理回路
 206・・・HDMI送信部
 207・・・音声信号処理回路
 211・・・CPU
 215・・・リモートコントロール受信部
 216・・・リモートコントロール送信機
 221・・・デマルチプレクサ
 222・・・ビデオデコーダ
 223・・・符号化データバッファ
 224・・・サブタイトルデコーダ
 225・・・ピクセルバッファ
 226・・・視差情報補間部
 227・・・位置制御部
 228・・・ビデオ重畳部
 229・・・オーディオデコーダ
 300・・・テレビ受信機(TV)
 301・・・3D信号処理部
 302・・・HDMI端子
 303・・・HDMI受信部
 305・・・ネットワークインタフェース
 306・・・ビットストリーム処理部
 307・・・映像・グラフィック処理回路
 308・・・パネル駆動回路
 309・・・表示パネル
 310・・・音声信号処理回路
 311・・・音声増幅回路
 312・・・スピーカ
 400・・・HDMIケーブル
10, 10A: Stream distribution system 11: DASH segment streamer 12: DASHMPD server 13-1 to 13-N: IPTV client 14: CDN
DESCRIPTION OF SYMBOLS 15 ... Content management server 100 ... Broadcasting station 111 ... Data extraction part 112 ... Video encoder 113 ... Audio encoder 114 ... Subtitle generation part 115 ... Disparity information preparation part 116 ... Subtitle processing unit 118 ... Subtitle encoder 119 ... Multiplexer 131 ... Streaming data control unit 132 ... HTTP access unit 133 ... Movie playback unit 200 ... Set top box (STB)
DESCRIPTION OF SYMBOLS 201 ... Bit stream processing part 202 ... HDMI terminal 204 ... Network interface 205 ... Video signal processing circuit 206 ... HDMI transmission part 207 ... Audio signal processing circuit 211 ... CPU
215: Remote control receiver 216: Remote control transmitter 221 ... Demultiplexer 222 ... Video decoder 223 ... Encoded data buffer 224 ... Subtitle decoder 225 ... Pixel buffer 226 .... Parallax information interpolation unit 227 ... Position control unit 228 ... Video superimposition unit 229 ... Audio decoder 300 ... Television receiver (TV)
301 ... 3D signal processing unit 302 ... HDMI terminal 303 ... HDMI receiving unit 305 ... network interface 306 ... bit stream processing unit 307 ... video / graphic processing circuit 308 ... panel drive Circuit 309 ... Display panel 310 ... Audio signal processing circuit 311 ... Audio amplification circuit 312 ... Speaker 400 ... HDMI cable

Claims (20)

  1.  立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
     受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記視差情報を含む第2のプライベートデータストリームを送信するデータ送信部とを備える
     送信装置。
    An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image;
    A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
    A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
    In response to a request from the receiving side, a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information And a data transmission unit for transmitting the private data stream.
  2.  上記データ送信部は、
     配信サーバを有し、
     上記各データストリームを、ネットワークを通じて受信側に配信する
     請求項1に記載の送信装置。
    The data transmitter is
    A distribution server,
    The transmission device according to claim 1, wherein each of the data streams is distributed to a reception side through a network.
  3.  上記受信側が上記各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、
     上記受信側からの要求に応じて、上記メタファイルを、上記ネットワークを通じて、該受信側に送信するメタファイル送信部とをさらに備える
     請求項2に記載の送信装置。
    A metafile generation unit that generates a metafile having information for the receiver to acquire each data stream;
    The transmission device according to claim 2, further comprising: a metafile transmission unit that transmits the metafile to the reception side through the network in response to a request from the reception side.
  4.  上記第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、上記第2のプライベートデータストリームに対応した第2のメタファイルには上記第1の識別情報とは異なる第2の識別情報が付加される
     請求項3に記載の送信装置。
    First identification information is added to the first metafile corresponding to the first private data stream, and the first identification information and the second metafile corresponding to the second private data stream are The transmitting apparatus according to claim 3, wherein different second identification information is added.
  5.  上記第1のプライベートデータストリームに対応した第1の識別情報と上記第2のプライベートデータストリームに対応した第2の識別情報とは固有の関係を持つ
     請求項4に記載の送信装置。
    The transmission apparatus according to claim 4, wherein the first identification information corresponding to the first private data stream and the second identification information corresponding to the second private data stream have a unique relationship.
  6.  上記第1のメタファイルには第1のタイプであることを示す第1のタイプ情報がさらに付加され、上記第2のメタファイルには上記第1のタイプとは異なる第2のタイプであることを示す第2のタイプ情報がさらに付加される
     請求項4に記載の送信装置。
    First type information indicating the first type is further added to the first metafile, and the second metafile is a second type different from the first type. The transmission apparatus according to claim 4, wherein second type information indicating is further added.
  7.  上記第1のメタファイルには所定の言語を示す第1の言語情報がさらに付加され、上記第2のメタファイルには非言語を示す第2の言語情報がさらに付加される
     請求項4に記載の送信装置。
    The first language information indicating a predetermined language is further added to the first metafile, and second language information indicating a non-language is further added to the second metafile. Transmitter.
  8.  上記各データストリームはMPEG-DASHベースのデータストリームであり、
     上記メタファイルはMPDファイルであり、
     上記ネットワークはCDNである
     請求項3に記載の送信装置。
    Each of the above data streams is an MPEG-DASH based data stream,
    The metafile is an MPD file,
    The transmission device according to claim 3, wherein the network is a CDN.
  9.  立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力ステップと、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力ステップと、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力ステップと、
     受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記視差情報を含む第2のプライベートデータストリームを送信するデータ送信ステップとを備える
     送信方法。
    An image data output step for outputting left-eye image data and right-eye image data constituting a stereoscopic image;
    A superimposition information data output step for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
    A disparity information output step for outputting disparity information for shifting the superimposition information to be superimposed on the image based on the left eye image data and the right eye image data to give disparity;
    In response to a request from the receiving side, a video data stream including the image data is transmitted and a first private data stream including the superimposition information data or a second data including the superimposition information data and the disparity information A data transmission step of transmitting a private data stream of the transmission method.
  10.  送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含む第2のプライベートデータストリームを受信するデータ受信部と、
     上記ビデオデータストリームをデコードする第1のデコード部と、
     上記第1のプライベートデータストリームまたは上記第2のプライベートデータストリームをデコードする第2のデコード部とを備える
     受信装置。
    A request is made to the transmission side, and a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, and superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data are transmitted. A second private data stream including parallax information for shifting the superimposition information to be superposed on the first private data stream or the superimposition information data and the left eye image data and the right eye image data to add the parallax. A data receiver for receiving the private data stream;
    A first decoding unit for decoding the video data stream;
    A receiving apparatus comprising: a second decoding unit that decodes the first private data stream or the second private data stream.
  11.  上記データ受信部は、
     上記送信側が有する配信サーバから上記各データストリームを、ネットワークを通じて受信する
     請求項10に記載の受信装置。
    The data receiver is
    The receiving device according to claim 10, wherein the data streams are received through a network from a distribution server included in the transmitting side.
  12.  上記各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、
     上記データ受信部は、上記メタファイルに基づいて、上記送信側に上記要求を行う
     請求項11に記載の受信装置。
    A metafile receiving unit for receiving a metafile having information for acquiring each data stream;
    The receiving device according to claim 11, wherein the data receiving unit makes the request to the transmitting side based on the metafile.
  13.  上記第1のプライベートデータストリームに対応した第1のメタファイルには第1の識別情報が付加され、上記第2のプライベートデータストリームに対応した第2のメタファイルには上記第1の識別情報とは異なる第2の識別情報が付加されている
     請求項12に記載の受信装置。
    First identification information is added to the first metafile corresponding to the first private data stream, and the first identification information and the second metafile corresponding to the second private data stream are The receiving apparatus according to claim 12, wherein different second identification information is added.
  14.  上記各データストリームはMPEG-DASHベースのデータストリームであり、
     上記メタファイルはMPDファイルであり、
     上記ネットワークはCDNである
     請求項12に記載の受信装置。
    Each of the above data streams is an MPEG-DASH based data stream,
    The metafile is an MPD file,
    The receiving device according to claim 12, wherein the network is a CDN.
  15.  送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオスデータトリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを含む第1のプライベートデータストリーム、または上記重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含む第2のプライベートデータストリームを受信するデータ受信ステップと、
     上記ビデオデータストリームをデコードする第1のデコードステップと、
     上記第1のプライベートデータストリームまたは上記第2のプライベートデータストリームをデコードする第2のデコードステップとを備える
     受信方法。
    A request is made to the transmission side, and a video data stream including left eye image data and right eye image data constituting a stereoscopic image, and data of superimposition information to be superimposed on an image based on the left eye image data and the right eye image data Including a first private data stream including: or second disparity information for providing disparity by shifting the superimposition information data and the superimposition information superimposed on the image based on the left eye image data and the right eye image data. A data receiving step for receiving a private data stream of
    A first decoding step for decoding the video data stream;
    And a second decoding step of decoding the first private data stream or the second private data stream.
  16.  立体画像を構成する左眼画像データおよび右眼画像データを出力する画像データ出力部と、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータを出力する重畳情報データ出力部と、
     上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を出力する視差情報出力部と、
     受信側からの要求に応じて、上記画像データを含むビデオデータストリームを送信すると共に、上記重畳情報のデータおよび上記視差情報を含むプライベートデータストリームを送信するデータ送信部とを備え、
     上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加される
     送信装置。
    An image data output unit for outputting left-eye image data and right-eye image data constituting a stereoscopic image;
    A superimposition information data output unit for outputting superimposition information data to be superimposed on an image based on the left eye image data and the right eye image data;
    A parallax information output unit for outputting parallax information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data and providing parallax;
    In response to a request from the receiving side, the video data stream including the image data is transmitted, and a data transmission unit that transmits the data of the superimposition information and the private data stream including the disparity information,
    In the private data stream, first identification information is added to the data of the superimposition information, and second identification information different from the first identification information is added to the parallax information.
  17.  上記データ送信部は、
     配信サーバを有し、
     上記各データストリームを、ネットワークを通じて受信側に配信する
     請求項16に記載の送信装置。
    The data transmitter is
    A distribution server,
    The transmission device according to claim 16, wherein each of the data streams is distributed to a reception side through a network.
  18.  上記受信側が上記各データストリームを取得するための情報を持つメタファイルを生成するメタファイル生成部と、
     上記受信側からの要求に応じて、上記メタファイルを、上記ネットワークを通じて、該受信側に送信するメタファイル送信部とをさらに備える
     請求項17に記載の送信装置。
    A metafile generation unit that generates a metafile having information for the receiver to acquire each data stream;
    The transmission device according to claim 17, further comprising: a metafile transmission unit that transmits the metafile to the reception side through the network in response to a request from the reception side.
  19.  送信側に要求を行って、立体画像を構成する左眼画像データおよび右眼画像データを含むビデオデータストリームと、上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報のデータおよび上記左眼画像データおよび上記右眼画像データによる画像に重畳する重畳情報をシフトさせて視差を付与するための視差情報を含むプライベートデータストリームとを受信するデータ受信部と、
     上記ビデオデータストリームをデコードする第1のデコード部と、
     上記プライベートデータストリームをデコードする第2のデコード部とを備え、
     上記プライベートデータストリームにおいて、上記重畳情報のデータには第1の識別情報が付加され、上記視差情報には上記第1の識別情報とは異なる第2の識別情報が付加されており、
     上記第2のデコード部は、上記第1の識別情報および上記第2の識別情報に基づいて、上記プライベートデータストリームから上記重畳情報のデータ、あるいは上記重畳情報のデータおよび上記視差情報を取得する
     受信装置。
    Making a request to the transmission side, a video data stream including left-eye image data and right-eye image data constituting a stereoscopic image, superimposition information data to be superimposed on an image based on the left-eye image data and the right-eye image data, and A data receiving unit that receives a private data stream including disparity information for shifting the superimposition information to be superimposed on the image based on the left-eye image data and the right-eye image data;
    A first decoding unit for decoding the video data stream;
    A second decoding unit for decoding the private data stream,
    In the private data stream, first identification information is added to the superimposition information data, and second identification information different from the first identification information is added to the parallax information,
    The second decoding unit acquires the superimposition information data or the superimposition information data and the disparity information from the private data stream based on the first identification information and the second identification information. apparatus.
  20.  上記データ受信部は、上記送信側が有する配信サーバから上記各データストリームを、ネットワークを通じて受信し、
     上記各データストリームを取得するための情報を持つメタファイルを受信するメタファイル受信部をさらに備え、
     上記データ受信部は、上記メタファイルに基づいて、上記送信側に上記要求を行う
     請求項19に記載の受信装置。
    The data receiving unit receives each data stream from a distribution server of the transmitting side through a network,
    A metafile receiving unit for receiving a metafile having information for acquiring each data stream;
    The receiving device according to claim 19, wherein the data receiving unit makes the request to the transmitting side based on the metafile.
PCT/JP2014/050092 2013-01-09 2014-01-07 Transmission device, transmission method, receiving device, and receiving method WO2014109321A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-001803 2013-01-09
JP2013001803 2013-01-09

Publications (1)

Publication Number Publication Date
WO2014109321A1 true WO2014109321A1 (en) 2014-07-17

Family

ID=51166969

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/050092 WO2014109321A1 (en) 2013-01-09 2014-01-07 Transmission device, transmission method, receiving device, and receiving method

Country Status (1)

Country Link
WO (1) WO2014109321A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016039285A1 (en) * 2014-09-12 2016-03-17 ソニー株式会社 Transmission device, transmission method, reception device, and reception method
WO2016203726A1 (en) * 2015-06-16 2016-12-22 Sony Corporation Reception apparatus, transmission apparatus, and data processing method
CN106663431A (en) * 2014-09-12 2017-05-10 索尼公司 Transmission device, transmission method, reception device, and reception method
JP2017204695A (en) * 2016-05-10 2017-11-16 日本放送協会 Caption data generation device, content display device and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011249945A (en) * 2010-05-24 2011-12-08 Sony Corp Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device, and stereoscopic image data reception method
WO2012057048A1 (en) * 2010-10-29 2012-05-03 ソニー株式会社 Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device and stereoscopic image data reception method
WO2012096372A1 (en) * 2011-01-14 2012-07-19 シャープ株式会社 Content reproduction device, content reproduction method, delivery system, content reproduction program, recording medium, and data structure

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011249945A (en) * 2010-05-24 2011-12-08 Sony Corp Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device, and stereoscopic image data reception method
WO2012057048A1 (en) * 2010-10-29 2012-05-03 ソニー株式会社 Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device and stereoscopic image data reception method
WO2012096372A1 (en) * 2011-01-14 2012-07-19 シャープ株式会社 Content reproduction device, content reproduction method, delivery system, content reproduction program, recording medium, and data structure

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022141686A (en) * 2014-09-12 2022-09-29 ソニーグループ株式会社 Receiving device and receiving method
CN106663431A (en) * 2014-09-12 2017-05-10 索尼公司 Transmission device, transmission method, reception device, and reception method
US11025737B2 (en) 2014-09-12 2021-06-01 Sony Corporation Transmission device, transmission method, reception device, and a reception method
JP7468575B2 (en) 2014-09-12 2024-04-16 ソニーグループ株式会社 Receiving device and receiving method
CN112951250A (en) * 2014-09-12 2021-06-11 索尼公司 Transmission device, transmission method, reception device, and reception method
JPWO2016039285A1 (en) * 2014-09-12 2017-06-22 ソニー株式会社 Transmitting apparatus, transmitting method, receiving apparatus, and receiving method
KR102643537B1 (en) 2014-09-12 2024-03-06 소니그룹주식회사 Transmission device, transmission method, reception device, and reception method
CN113035214A (en) * 2014-09-12 2021-06-25 索尼公司 Transmission device, transmission method, reception device, and reception method
US10878828B2 (en) 2014-09-12 2020-12-29 Sony Corporation Transmission device, transmission method, reception device, and reception method
JP2021057905A (en) * 2014-09-12 2021-04-08 ソニー株式会社 Receiving device and receiving method
CN106663431B (en) * 2014-09-12 2021-04-13 索尼公司 Transmission device, transmission method, reception device, and reception method
CN105706164B (en) * 2014-09-12 2021-04-13 索尼公司 Transmission device, transmission method, reception device, and reception method
KR20230022281A (en) * 2014-09-12 2023-02-14 소니그룹주식회사 Transmission device, transmission method, reception device, and reception method
CN105706164A (en) * 2014-09-12 2016-06-22 索尼公司 Transmission device, transmission method, reception device, and reception method
US10547701B2 (en) 2014-09-12 2020-01-28 Sony Corporation Transmission device, transmission method, reception device, and a reception method
CN113077800A (en) * 2014-09-12 2021-07-06 索尼公司 Transmission device, transmission method, reception device, and reception method
KR20220016285A (en) * 2014-09-12 2022-02-08 소니그룹주식회사 Transmission device, transmission method, reception device, and reception method
JP7099510B2 (en) 2014-09-12 2022-07-12 ソニーグループ株式会社 Receiver and receiving method
WO2016039285A1 (en) * 2014-09-12 2016-03-17 ソニー株式会社 Transmission device, transmission method, reception device, and reception method
US11509737B2 (en) 2014-09-12 2022-11-22 Sony Group Corporation Transmission device, transmission method, reception device, and a reception method
KR102498740B1 (en) 2014-09-12 2023-02-13 소니그룹주식회사 Transmission device, transmission method, reception device, and reception method
WO2016203726A1 (en) * 2015-06-16 2016-12-22 Sony Corporation Reception apparatus, transmission apparatus, and data processing method
US11622088B2 (en) 2015-06-16 2023-04-04 Saturn Licensing Llc Reception apparatus, transmission apparatus, and data processing method
JP2017011325A (en) * 2015-06-16 2017-01-12 ソニー株式会社 Receiver, transmitter, and data processing method
JP2017204695A (en) * 2016-05-10 2017-11-16 日本放送協会 Caption data generation device, content display device and program

Similar Documents

Publication Publication Date Title
JP5429034B2 (en) Stereo image data transmitting apparatus, stereo image data transmitting method, stereo image data receiving apparatus, and stereo image data receiving method
JP5454444B2 (en) Stereo image data transmitting apparatus, stereo image data transmitting method, stereo image data receiving apparatus, and stereo image data receiving method
MX2012008816A (en) Method and apparatus for generating data stream for providing 3-dimensional multimedia service, and method and apparatus for receiving the data stream.
JP2013500673A (en) Method and apparatus for generating 3D video data stream in which additional information for playback of 3D video is inserted and apparatus thereof, and method and apparatus for receiving 3D video data stream in which additional information for playback of 3D video is inserted
WO2013031549A1 (en) Transmission device, transmission method and reception device
JP2011249945A (en) Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device, and stereoscopic image data reception method
WO2013005571A1 (en) Transmitter, transmission method, and receiver
JP5955851B2 (en) Transfer of 3D image data
JP5682149B2 (en) Stereo image data transmitting apparatus, stereo image data transmitting method, stereo image data receiving apparatus, and stereo image data receiving method
WO2014109321A1 (en) Transmission device, transmission method, receiving device, and receiving method
WO2013018490A1 (en) Transmission device, transmission method, and receiving device
KR101844236B1 (en) Method and apparatus for transmitting/receiving broadcast signal for 3-dimentional (3d) broadcast service
WO2012060198A1 (en) Three-dimensional image data transmitting device, three-dimensional image data transmitting method, three-dimensional image data receiving device, and three-dimensional image data receiving method
WO2012057048A1 (en) Stereoscopic image data transmission device, stereoscopic image data transmission method, stereoscopic image data reception device and stereoscopic image data reception method
US9549167B2 (en) Data structure, image processing apparatus and method, and program
WO2013011834A1 (en) Transmitter, transmission method and receiver
WO2012026342A1 (en) 3d-image-data transmission device, 3d-image-data transmission method, 3d-image-data reception device, and 3d-image-data reception method
WO2013018489A1 (en) Transmission device, transmission method, and receiving device
KR102219419B1 (en) 3d broadcast service provding method and apparatus, and 3d broadcast service reproduction method and apparatus for using image of asymmetric aspect ratio
WO2012160812A1 (en) Image processing device, transmitting device, stereoscopic image viewing system, image processing method, image processing program and integrated circuit
WO2013172142A1 (en) Transmission device, transmission method, reception device, and reception method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14737963

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14737963

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP