WO2017154646A1 - 送信装置、送信方法、受信装置および受信方法 - Google Patents

送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
WO2017154646A1
WO2017154646A1 PCT/JP2017/007572 JP2017007572W WO2017154646A1 WO 2017154646 A1 WO2017154646 A1 WO 2017154646A1 JP 2017007572 W JP2017007572 W JP 2017007572W WO 2017154646 A1 WO2017154646 A1 WO 2017154646A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
stream
data
audio
predetermined
Prior art date
Application number
PCT/JP2017/007572
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780014788.3A priority Critical patent/CN108702533B/zh
Priority to KR1020187024760A priority patent/KR20180120169A/ko
Priority to MX2018010460A priority patent/MX2018010460A/es
Priority to JP2018504385A priority patent/JP6984586B2/ja
Priority to US16/077,572 priority patent/US10812838B2/en
Priority to CA3015063A priority patent/CA3015063A1/en
Publication of WO2017154646A1 publication Critical patent/WO2017154646A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • H04N21/23617Multiplexing of additional data and video streams by inserting additional data into a data carousel, e.g. inserting software modules into a DVB carousel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/23805Controlling the feeding rate to the network, e.g. by controlling the video pump
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26233Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving content or additional data duration or size, e.g. length of a movie, size of an executable file
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4343Extraction or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network

Definitions

  • the present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and more particularly to a transmission device that inserts predetermined information into a media encoded stream such as video and audio and transmits the encoded information.
  • Patent Document 1 discloses that predetermined information is inserted into an audio compressed data stream from a broadcasting station, a distribution server, and the like, and the set-top box on the receiving side directly transmits the audio compressed data stream via an HDMI digital interface. It has been proposed that the information is transmitted to the television receiver and the television receiver performs information processing using the predetermined information.
  • An object of the present technology is to allow a predetermined information to be inserted into a media encoded stream and transmitted.
  • the concept of this technology is An information insertion unit that sequentially inserts each divided part obtained by dividing predetermined information into a predetermined number of unit parts of a media encoded stream, with the addition of order information for reconstruction; A transmission unit for transmitting a container of a predetermined format including the media encoded stream in which the predetermined information is inserted; The information insertion part The transmission apparatus divides the predetermined information so that the bit rate of the predetermined information falls within the predetermined bit rate.
  • the information insertion unit sequentially inserts each divided portion obtained by dividing predetermined information into a predetermined number of unit portions of the media encoded stream. Order information for reconstruction is added to each divided portion.
  • the predetermined information is divided so that the bit rate of the predetermined information falls within the predetermined bit rate.
  • the container of the predetermined format containing the media coding stream in which the predetermined information was inserted is transmitted by the transmission unit.
  • the information insertion unit may divide the predetermined information so that the data size of each divided part is a fixed size.
  • the information insertion unit calculates the fixed size by dividing the allowable bit rate obtained by subtracting the bit rate of the media encoded stream from the target bit rate by the number of unit parts generated in one second. It may be made like.
  • the information insertion unit may divide the predetermined information so that the data size of each unit part into which the divided part is inserted is a fixed size.
  • the information insertion unit obtains the first size obtained by dividing the allowable bit rate obtained by subtracting the bit rate of the media encoded stream from the target bit rate by the number of unit parts generated in one second.
  • the fixed size may be calculated by adding the second size obtained by dividing the bit rate of the media encoded stream by the number of unit parts generated in one second.
  • it may be transmitted as identification information so that the receiver side can recognize the target bit rate and the bit rate ratio with respect to the media encoding of the data to be inserted.
  • each divided portion obtained by dividing predetermined information so that the bit rate is within the predetermined bit rate is inserted into a predetermined number of unit portions of the media encoded stream and transmitted. Therefore, the entire bit rate including the media encoded stream can be suppressed to the target bit rate, and it is possible to satisfactorily perform transmission by inserting predetermined information into the media encoded stream.
  • the information insertion unit converts each divided part obtained by dividing the predetermined information into a predetermined number of unit parts of one or more media encoded streams, and the order information for reconstruction.
  • Identification for identifying whether or not each of the divided parts to be inserted and sequentially inserted and inserted into a predetermined number of unit parts of one or more media coded streams has insertion of the divided parts into other media coded streams Information may be added.
  • the container further includes an identification information insertion unit that inserts identification information indicating that there is an insertion of a divided portion of the predetermined information corresponding to each of the one or more media encoded streams. May be.
  • the reception side can easily identify the media encoded stream in which the divided portion of the predetermined information is inserted.
  • the identification information insertion unit determines whether there is another media encoded stream in which a divided portion of predetermined information is inserted corresponding to each of the one or more media encoded streams in the container. When the identification information to be indicated and another media encoded stream are present, the identification information indicating the other media encoded stream may be further inserted.
  • An information insertion unit for sequentially inserting each divided part obtained by dividing predetermined information into a predetermined number of unit parts of one or more media encoded streams, with the addition of order information for reconstruction;
  • the transmission apparatus includes a transmission unit that transmits a container of a predetermined format including the one or more media encoded streams into which the divided portion of the predetermined information is inserted.
  • each divided portion obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit portions of one or more media encoded streams. Order information for reconstruction is added to each divided portion.
  • the transmission unit transmits a container of a predetermined format including one or more media encoded streams into which a divided portion of the predetermined information is inserted.
  • each divided portion obtained by dividing predetermined information into a predetermined number of unit portions of one or more media encoded streams is inserted and transmitted. Therefore, it is possible to reduce the time required for transmitting the entire predetermined information by transmitting using many media encoded streams.
  • the information insertion unit includes identification information for identifying whether each divided portion inserted into one or more media encoded streams has insertion of a divided portion into the other media stream. You may be made to add. In this case, the reception side can easily recognize that there is an insertion of a divided portion into another media encoded stream based on the identification information added to each divided portion, and all the divided portions of the predetermined information can be recognized. Removal can be performed efficiently.
  • the container further includes an identification information insertion unit that inserts identification information indicating that a divided portion of predetermined information is inserted corresponding to each of one or more media encoded streams. , May be.
  • the reception side can easily identify the media encoded stream in which the divided portion of the predetermined information is inserted.
  • the identification information insertion unit indicates whether there is another media encoded stream in which a divided portion of the predetermined information is inserted corresponding to each of the one or more media encoded streams in the container.
  • identification information indicating the other media encoded stream may be further inserted.
  • a stream receiver for receiving one or more media encoded streams; Each divided part obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit parts of the one or more media encoded streams, with order information for reconstruction being added, Processing for extracting each divided portion of the predetermined information from the predetermined number of unit portions of the one or more media encoded streams, reconstructing the predetermined information based on the order information, and the reconstructed predetermined information
  • the receiving apparatus further includes a control unit that controls information processing using the.
  • one or more media encoded streams are received by the receiving unit.
  • the stream reception unit may receive one or more media encoded streams from an external device via a digital interface.
  • Each division portion of the predetermined information is extracted from a predetermined number of unit portions of one or more media encoded streams, and the predetermined information is reconstructed based on the order information. Then, information processing using the reconfigured predetermined information is performed.
  • identification information for identifying whether or not a divided portion is inserted into another media encoded stream is added to a divided portion inserted in a predetermined number of unit portions of one or more media encoded streams.
  • each divided portion of the predetermined information may be extracted from a predetermined number of unit portions of one or more media encoded streams based on the identification information.
  • each divided portion of the predetermined information is extracted from a predetermined number of unit portions of one or more media encoded streams, reconfigured based on the order information, and the reconfigured predetermined information is used. Information processing is performed. Therefore, the predetermined information can be appropriately reconstructed, and information processing can be performed satisfactorily.
  • a receiving unit for receiving a container of a predetermined format including one or more media encoded streams; Each division part obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit parts of the one or more media coded streams with order information for reconstruction added, In the container, identification information indicating that there is an insertion of a divided portion of the predetermined information corresponding to each of the one or more media encoded streams is inserted,
  • the reception apparatus further includes a transmission unit that transmits the one or more media encoded streams having the insertion of a divided portion of the predetermined information based on the identification information to the external device via a digital interface.
  • the receiving unit receives a container of a predetermined format including one or more media encoded streams.
  • Each divided portion obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit portions of one or more media encoded streams with order information for reconstruction.
  • identification information indicating that there is an insertion of a divided portion of predetermined information is inserted into the container corresponding to each of the one or more media encoded streams.
  • the transmission unit transmits one or more media encoded streams with the insertion of a divided portion of the predetermined information to the external device via the digital interface.
  • one or more media encoded streams including the insertion of the divided portion of the predetermined information are transmitted to the external device via the digital interface. is there. Therefore, in the external device, it is possible to extract all the divided portions of the predetermined information from one or more media encoded streams and reconfigure and use the predetermined information.
  • time_information time information
  • time_information time information
  • time_information time information
  • time_information time information
  • time_information time information
  • descriptor data container descriptor
  • descriptor data container descriptor
  • FIG. 1 It is a figure which shows the example in case several container object data are transmitted by several generic data (generic_data). It is a figure which shows the example in which execution of several container object data is managed independently of the audio player PTS based on the time information added to it. It is a figure which shows that execution of the container object data (predetermined information) in the receiving side can be performed independently of an audio time stamp. It is a figure which shows the specific example by which several container object data are synchronously managed based on the time information added to it. It is a figure which shows the structural example of transport stream TS. It is a block diagram which shows the structural example of a set top box. It is a block diagram which shows the structural example of a television receiver.
  • FIG. 1 It is a block diagram which shows the other structural example of the stream production
  • FIG. 1 shows a configuration example of a transmission / reception system 10 as an embodiment.
  • the transmission / reception system 10 includes a broadcast transmission device 100, a set top box (STB) 200, and a television receiver (TV) 300.
  • the set top box 200 and the television receiver 300 are connected via an HDMI cable 400.
  • the set top box 200 is the source and the television receiver 300 is the destination.
  • HDMI is a registered trademark.
  • the broadcast transmission apparatus 100 transmits an MPEG-2 transport stream (hereinafter simply referred to as “transport stream TS”) as a container (multiplexed stream) on a broadcast wave.
  • transport stream TS includes a video stream and an audio stream as media encoded streams.
  • the broadcast sending device 100 divides each divided part obtained by dividing predetermined information into one or more media encoded streams, in this embodiment, a predetermined number of unit parts of one or more audio streams, The sequence information for reconstruction is added and inserted sequentially.
  • the predetermined number includes one.
  • the predetermined information is not actually divided and the whole is inserted into one unit portion.
  • the predetermined information is network access information, command information, media files, and the like.
  • the unit part is, for example, an access unit.
  • This access unit means an audio frame obtained by bundling a predetermined number of audio sample data when the media encoded stream is an audio stream, and means a picture when the media encoded stream is a video stream.
  • the broadcast transmission apparatus 100 divides the predetermined information so that the bit rate of the predetermined information is within the predetermined bit rate. By dividing in this way, the entire bit rate including the media encoded stream can be suppressed to the target bit rate, and it is possible to perform transmission by inserting predetermined information into the media encoded stream.
  • the predetermined information is divided so that the data size of each divided portion is a fixed size.
  • the fixed size is calculated by dividing the allowable bit rate obtained by subtracting the bit rate of the media encoded stream from the target bit rate by the number of unit parts generated in one second.
  • the predetermined information is divided so that the data size of each unit part into which the divided part is inserted is a fixed size.
  • the data size of each divided portion varies.
  • the fixed size is calculated by adding the second size obtained by dividing the bit rate of the stream by the number of unit parts generated in one second.
  • the broadcast transmission apparatus 100 identifies whether each divided part inserted into a predetermined number of unit parts of one or more media encoded streams has insertion of a divided part into another media encoded stream. Is added.
  • the reception side can easily recognize that there is an insertion of a divided portion into another media encoded stream based on the identification information added to each divided portion, and all the divided portions of the predetermined information can be recognized. Removal can be performed efficiently.
  • the broadcast transmission apparatus 100 inserts identification information indicating that there is an insertion of a divided portion of predetermined information, corresponding to each of one or more media encoded streams, into the transport stream TS as a container.
  • identification information indicating that there is an insertion of a divided portion of predetermined information, corresponding to each of one or more media encoded streams, into the transport stream TS as a container.
  • the broadcast transmission apparatus 100 includes another media encoded stream in which a divided portion of predetermined information is inserted corresponding to each of one or more media encoded streams in the transport stream TS as a container.
  • the identification information indicating the other media encoded stream is inserted.
  • the set-top box 200 receives the transport stream TS transmitted from the broadcast transmission device 100 on a broadcast wave.
  • the transport stream TS includes a media encoded stream (video stream, audio stream).
  • each divided portion obtained by dividing predetermined information into a predetermined number of unit portions of one or more audio streams is sequentially inserted with order information for reconstruction. Has been.
  • the set-top box 200 transmits the received one or more audio streams themselves together with the uncompressed video data obtained by decoding the received video stream via the HDMI cable 400 to the television receiver 300. Send to.
  • identification information indicating that there is an insertion of a divided portion of predetermined information is inserted into the transport stream TS corresponding to each of one or more audio streams.
  • the set top box 200 transmits all of the one or more audio streams having the insertion of the divided portion of the predetermined information to the television receiver 300. Even when the television receiver 300 has only a partial decoding capability of one or more audio streams, the set-top box 200 inserts not only the partial audio streams but also a divided portion of predetermined information. All of the one or more audio streams are transmitted to the television receiver 300. As a result, the television receiver 300 can extract all of the divided portions of the predetermined information from one or more media encoded streams and reconfigure and use the predetermined information.
  • the television receiver 300 receives, from the set top box 200 via the HDMI cable 400, one or more audio streams including uncompressed video data and insertion of divided portions of predetermined information.
  • the television receiver 300 displays an image based on uncompressed video data.
  • the television receiver 300 performs decoding processing on all or part of one or more audio streams according to the decoding capability to obtain uncompressed audio data, and outputs the sound corresponding thereto.
  • the television receiver 300 takes out a divided portion of the predetermined information from one or more audio streams, and reconstructs the predetermined information based on the order information. Then, the television receiver 300 performs information processing using the reconstructed predetermined information, for example, processing for acquiring media data by media access information, displaying an image using the media data, outputting audio, and the like.
  • FIG. 2 shows a configuration example of the stream generation unit 110A included in the broadcast transmission apparatus 100.
  • this stream generation unit 110A one audio stream is generated, and each divided portion obtained by dividing predetermined information (inserted data) is inserted into the predetermined number of audio frames.
  • the stream generation unit 110A includes a CPU 111, a video encoder 112, an audio encoder 113, a splitter 114, an inserter 115, and a multiplexer 116.
  • the splitter 114 and the inserter 115 may be included as part of the audio encoder 113 or the CPU 111.
  • the CPU 111 controls each unit of the stream generation unit 110A.
  • the video encoder 112 receives MPEG2, H.264, video data (image data) SV. H.264 / AVC, H.H. Encoding such as H.265 / HEVC is performed to generate a video stream (video elementary stream).
  • the video data SV is, for example, video data reproduced from a recording medium such as a hard disk (HDD) or live video data obtained by a video camera.
  • the audio encoder 113 encodes the audio data (sound data) SA with the MPEG-H 3D Audio compression format to generate an audio stream (audio elementary stream).
  • the audio data SA corresponds to the video data SV described above, and is audio data reproduced from a recording medium such as an HDD or live audio data obtained with a microphone.
  • the splitter 114 divides the insertion data DT constituting the predetermined information to obtain a predetermined number of divided portions f (i).
  • the inserter 115 sequentially inserts a predetermined number of divided portions obtained by the division by the splitter 114 into the predetermined number of audio frames of the audio stream, with the addition of order information for reconstruction.
  • the order information includes, for example, information such as the first divided part, the last divided part, and what number divided part.
  • the splitter 114 divides the inserted data DT so that the bit rate is within a predetermined bit rate, here, an allowable bit rate.
  • the splitter 114 divides the insertion data DT by, for example, the following method (1) or (2).
  • the insertion data DT is divided so that the data size of each divided portion is a fixed size.
  • the insertion data DT is divided so that the data size of the audio frame in which each divided portion is inserted becomes a fixed size.
  • the allowable bit rate AVR may be calculated by designating a ratio with the bit rate of the audio encoded stream, or the allowable bit rate AVR itself may be designated.
  • the flowchart of FIG. 3 shows an example of a processing procedure for determining the size of each divided part to be inserted into a predetermined number of audio frames when dividing by the method (1).
  • the splitter 114 starts processing in step ST1.
  • the splitter 114 determines whether or not the remaining size N of the insertion data DT is equal to or smaller than ISS (i).
  • the first of the remaining size N coincides with the size N_Origin of the insertion data DT.
  • the splitter 114 sets the size of the divided portion f (i) to be inserted into the i-th audio frame as ISS (i) in step ST5.
  • the process proceeds to the process of determining the size of (i).
  • step ST4 when N is ISS (i) or less, the splitter 114 sets the size of the divided part f (i) to be inserted into the i-th audio frame to N in step ST8. After the process in step ST8, the splitter 114 ends the process in step ST9.
  • FIG. 4 shows an example of division of the insertion data DT when divided by the method (1), and transition of the size of each audio frame when each divided portion f (i) is inserted into the corresponding audio frame of the audio stream.
  • An example is shown.
  • the insertion data DT is divided into six divided parts f0, f1, f2, f3, f4, and f5, which are divided into audio frames A0, A1, A2, A3, A4, and A5 of the audio stream. Has been inserted.
  • the data size of each audio frame after insertion directly reflects the change in the data size of each audio frame before insertion.
  • “ACS” indicates the data size obtained by dividing the bit rate CR of the audio stream by the number AU_frec of audio frames generated in one second, that is, the average data size of each audio frame of the audio stream. ing.
  • the splitter 114 calculates the second size ACS by dividing the bit rate CR of the audio stream by the number AU_frec of audio frames generated in one second according to the following equation (2). This second size indicates the average data size of each audio frame of the audio stream. Then, the splitter 114 adds the first size AIS and the second size ACS to calculate a fixed size.
  • ACS CR / 8 / AU_frec (2)
  • FIG. 5 shows an example of a processing procedure for determining the size of each divided part to be inserted into a predetermined number of audio frames when dividing by the method (2).
  • AU (i) is the data size of the i-th audio frame into which the divided portion of the insertion data DT is inserted.
  • step ST14 the splitter 114 determines whether or not ISS (i) is larger than the number of bytes (HDB) corresponding to the header header of the syntax shown in FIG.
  • ISS (i) is equal to or less than HDB
  • the splitter 114 sets the size of the divided portion f (i) to be inserted into the i-th audio frame to 0 in step ST15.
  • the splitter 114 determines whether or not the remaining size N of the insertion data DT is equal to or smaller than ISS (i) in step ST17.
  • the first of the remaining size N coincides with the size N_Origin of the insertion data DT.
  • the splitter 114 sets the size of the divided portion f (i) to be inserted into the i-th audio frame as ISS (i) in step ST18.
  • the process proceeds to the process of determining the size of (i).
  • step ST17 when N is equal to or smaller than ISS (i), the splitter 114 sets the size of the divided portion f (i) to be inserted into the i-th audio frame to N in step ST20. After the process in step ST20, the splitter 114 ends the process in step ST21.
  • FIG. 6 shows an example of the division of the insertion data DT when divided by the method (2), and the transition of the size of each audio frame when each divided portion f (i) is inserted into the corresponding audio frame of the audio stream.
  • An example is shown.
  • the insertion data DT is divided into six divided parts f0, f1, f2, f3, f4, and f5, which are divided into audio frames A0, A1, A2, A3, A4, and A5 of the audio stream. Has been inserted.
  • the data size of each audio frame after insertion is a constant data size except for the audio frame into which the last divided portion of the insertion data DT is inserted, regardless of the variation in the data size of each audio frame before insertion. It becomes.
  • the audio frame into which the last divided portion of the insertion data DT is inserted has a constant data size of (ACS + AIS).
  • FIG. 7 shows an example of the structure of an audio frame in MPEG-H 3D Audio transmission data.
  • This audio frame is composed of a plurality of MPEG audio stream packets (mpeg
  • Each MPEG audio stream packet is composed of a header and a payload.
  • the header has information such as packet type (Packet type), packet label (Packet type Label), and packet length (Packet type Length).
  • Information defined by the packet type of the header is arranged in the payload.
  • the payload information includes “SYNC” corresponding to the synchronization start code, “Frame” that is actual data of 3D audio transmission data, and “Config” indicating the configuration of this “Frame”.
  • “Frame” includes channel encoded data and object encoded data constituting 3D audio transmission data.
  • the channel encoded data is composed of encoded sample data such as SCE (Single Channel Element), CPE (Channel Pair Element), and LFE (Low Frequency Element).
  • the object encoded data is composed of SCE (Single Channel Element) encoded sample data and metadata for rendering it by mapping it to a speaker located at an arbitrary position. This metadata is included as an extension element (Ext_element).
  • “Metadata” is designated by the packet type (Packet Type), and the packet has a division portion of predetermined information.
  • Generic data (generic_data) is newly defined.
  • FIG. 8 shows the type of packet identified by the value of the packet type (Packet Type).
  • FILDATA is defined as “0”, “MPEGH3DACFG” as “1”, “MPEGH3DAFRAME” as “2”, “SYNC” as “6”, and the like.
  • MEADATA can be defined as “128”.
  • the format of the metadata packet is, for example, arranged using an entry whose structure is shown in FIG. Specifically, generic data (generic_data) is arranged in the field of “itu_t_t135_payload_byte”.
  • FIG. 10 shows a structure example (syntax) of generic data (generic_data), and FIG. 11 shows contents (semantics) of main information in the structure example.
  • the 1-bit field of “end_flag” indicates whether or not the container target data is ended, that is, whether or not the last byte of the container target data is included in the insertion division part.
  • the 1-bit field of “joint_delivery_flag” indicates whether or not the divided container target data (divided portion) is inserted into a plurality of media encoded streams, that is, whether or not the divided portion is inserted into other media encoded streams as well. Indicates whether or not.
  • the 13-bit field of “fcounter” indicates the division position of the divided container target data (insertion division part) in ascending count. This “fcounter”, together with the “start_flag” and “end_flag” described above, constitutes the order information of the divided parts.
  • the 8-bit field of “data_id” indicates the ID of the container target data.
  • the 8-bit field of “payload_length” indicates the size of the payload in bytes.
  • “start_flag” is “1” and the start of container target data
  • “data_type” indicates the type of data. For example, “0x01” indicates that it is intended for network access.
  • Payment_identifier indicates the type of container target data. For example, “0x01” indicates URL data, and “0x02” indicates a time stamp.
  • “Target_data_size” indicates the size of the container target data.
  • a field of “data_payload_byte” indicates an arrangement area of container target data. A divided portion of the container target data is arranged in this arrangement area.
  • FIG. 12 shows a structure example (syntax) of time information (time_information), which is container target data when “payload_identifier” is “0x02”, and FIG. 13 shows contents (semantics) of main information in the structure example. Is shown.
  • the 1-bit field of “absolute_time_flag” indicates whether the execution time is UTC absolute time or a difference value from the reference time. “1” indicates UTC absolute time. “0” indicates a difference value from the reference time.
  • the multiplexer 116 converts the video stream output from the video encoder 112 and the audio stream output from the inserter 115 into which each divided portion of the predetermined information (inserted data DT) is inserted into a PES packet. Are further converted into transport packets and multiplexed to obtain a transport stream TS as a multiplexed stream.
  • the multiplexer 114 inserts identification information indicating that predetermined information is inserted into the transport stream TS corresponding to the audio stream. Specifically, a data container descriptor (data_container descriptor) is inserted into an audio elementary stream loop under the program map table (PMT).
  • PMT program map table
  • FIG. 14 shows a structural example (Syntax) of the data container descriptor.
  • FIG. 15 shows the contents (Semantics) of main information in the structural example.
  • An 8-bit field of “descriptor_tag” indicates a descriptor type. Here, it indicates a data container descriptor.
  • the 8-bit field of “descriptor_length” indicates the length (size) of the descriptor, and indicates the number of subsequent bytes as the length of the descriptor.
  • 1-bit field of “data_insertion_flag” indicates whether or not predetermined information is inserted in the stream. “1” indicates that there is an insertion, and “0” indicates that there is no insertion.
  • a 1-bit field of “joint_stream_delivery_flag” indicates whether insertion of content target data (predetermined information) is present in another stream in addition to the stream. “1” indicates that there is data insertion in another stream, and “0” indicates that there is no data insertion in the other stream.
  • the 6-bit field of “media_stream_id” indicates the identification number of the stream.
  • “joint_stream_delivery_flag” is “1”
  • an 8-bit field of “number_of_joint_streams” exists. This field indicates the number (1 or more) of other streams in which the content target data (predetermined information) is inserted. For this number, there are an 8-bit field of “media_stream_id”, an 8-bit field of “data_bitrate”, and an 8-bit field of “data_insertion_ratio”.
  • the field “media_stream_id” indicates a stream identification number.
  • the field of “data_bitrate” indicates a bit rate (target bit rate) after data insertion with a value in units of 1000 bps.
  • the video data SV is supplied to the video encoder 112.
  • H.264 is applied to the video data SV.
  • H.264 / AVC, H.H. Encoding such as H.265 / HEVC is performed, and a video stream including encoded video data is generated.
  • the audio data SA is supplied to the audio encoder 113.
  • the audio data SA is encoded by the MPEG-H 3D Audio compression format to generate an audio stream R_EM1.
  • the insertion data DT as predetermined information is supplied to the splitter 114.
  • the insertion data DT is divided to obtain a predetermined number of divided portions f (i). In this case, it is divided so that the bit rate of the insertion data DT falls within the allowable bit rate AVR.
  • This allowable bit rate AVR is calculated by subtracting the bit rate CR of the audio stream R_EM1 from the target bit rate TR specified by the CPU 111.
  • the audio stream R_EM1 obtained by the audio encoder 113 is supplied to the inserter 115, and a predetermined number of divided portions f (i) of the insertion data DT obtained by the splitter 114 are further supplied to the inserter 115.
  • a predetermined number of divided portions f (i) of the insertion data DT are sequentially inserted into a predetermined number of audio frames of the audio stream, with order information for reconstruction being added.
  • the video stream generated by the video encoder 112 is supplied to the multiplexer 116. Also, an audio stream in which the insertion data DT is inserted by the inserter 115 is supplied to the multiplexer 116. In this multiplexer 116, each stream is packetized and multiplexed, and a transport stream TS is obtained as transmission data.
  • a data container descriptor (see FIG. 14) is inserted in the audio elementary stream loop under the program map table (PMT).
  • PMT program map table
  • This descriptor includes identification information indicating that predetermined information (inserted data DT) is inserted into the corresponding audio stream.
  • FIG. 16 illustrates a configuration example of the stream generation unit 110B included in the broadcast transmission device 100.
  • this stream generation unit 110B two audio streams are generated, and each divided portion obtained by dividing predetermined information (inserted data) is inserted into the predetermined number of audio frames.
  • parts corresponding to those in FIG. 2 are given the same reference numerals.
  • the stream generation unit 110B includes a CPU 111, a video encoder 112, audio encoders 113-1, 113-2, a splitter 114, inserters 115-1, 115-2, and a multiplexer 116.
  • the splitter 114 and the inserters 115-1 and 115-2 may be included as part of the audio encoders 113-1 and 113-2 or the CPU 111.
  • the CPU 111 controls each unit of stream generation unit 110B.
  • the video encoder 112 applies MPEG2, H.264 to the video data SV.
  • H.264 / AVC, H.H. Encoding such as H.265 / HEVC is performed to generate a video stream (video elementary stream).
  • the video data SV is, for example, video data reproduced from a recording medium such as a hard disk (HDD) or live video data obtained by a video camera.
  • the audio encoders 113-1 and 113-2 respectively encode the audio data SA1 and SA2 with the MPEG-H 3D Audio compression format to generate an audio stream (audio elementary stream).
  • audio data SA1 and SA2 are possible.
  • the audio data SA1 is channel data
  • the audio data SA2 is object data
  • the audio data SA1 is stereo data
  • the audio data SA2 is data of other channels.
  • the audio data SA1 and SA2 correspond to the video data SV described above, and are audio data reproduced from a recording medium such as an HDD or live audio data obtained by a microphone.
  • the splitter 114 divides the insertion data DT constituting the predetermined information in the same manner as the splitter 114 of the stream generation unit 100A in FIG. 2 to obtain a predetermined number of divided portions f (i). .
  • the data is divided by the above-described method (1) or (2) so that the bit rate of the insertion data DT inserted into each audio stream falls within the allowable bit rate.
  • the inserters 115-1 and 115-2 are not described in detail, but the audio streams R_EM1 generated by the audio encoders 113-1 and 113-2 in the same manner as the inserter 115 in the stream generation unit 100A of FIG. , R_EM2, a predetermined number of divided portions f (i) obtained by dividing by the splitter 114 are sequentially inserted with reordering information for reconstruction.
  • FIG. 17 shows an example of division of the insertion data DT when divided by the method (1) and the size of each audio frame when each divided portion f (i) is inserted into corresponding audio frames of two audio streams.
  • An example of the transition of is shown.
  • the insertion data DT is divided into six divided portions f0, f1, f2, f3, f4, and f5.
  • the three divided parts f0, f2, and f4 are inserted into the audio frames A0, A1, and A2 of the audio stream R_EM1 generated by the audio encoder 113-1. Further, the three divided portions f1, f3, and f5 are inserted into the audio frames B0, B1, and B2 of the audio stream R_EM2 generated by the audio encoder 113-2, respectively.
  • the splitter 114 calculates the allowable bit rate AVR1 by subtracting the bit rate CR1 of the audio stream R_EM1 from the target bit rate TR1 specified by the CPU 111. Then, the splitter 114 divides this allowable bit rate AVR1 by the number of audio frames AU_frec generated in one second to determine the fixed size AIS1, that is, the sizes of f0, f2, and f4. In this case, the data size of each audio frame after insertion reflects the change in the data size of each audio frame before insertion as it is.
  • the splitter 114 calculates the allowable bit rate AVR2 by subtracting the bit rate CR2 of the audio stream R_EM2 from the target bit rate TR2 specified by the CPU 111. Then, the splitter 114 divides this allowable bit rate AVR2 by the number of audio frames AU_frec generated in one second to determine the fixed size AIS2, that is, the sizes of f0, f2, and f4. In this case, the data size of each audio frame after insertion reflects the change in the data size of each audio frame before insertion as it is.
  • FIG. 18 shows an example of division of the insertion data DT when divided by the method (2), and the size of each audio frame when each divided portion f (i) is inserted into the corresponding audio frame of two audio streams.
  • An example of the transition of is shown.
  • the insertion data DT is divided into six divided portions f0, f1, f2, f3, f4, and f5.
  • the three divided parts f0, f2, and f4 are inserted into the audio frames A0, A1, and A2 of the audio stream R_EM1 generated by the audio encoder 113-1. Further, the three divided portions f1, f3, and f5 are inserted into the audio frames B0, B1, and B2 of the audio stream R_EM2 generated by the audio encoder 113-2, respectively.
  • the splitter 114 calculates the allowable bit rate AVR1 by subtracting the bit rate CR1 of the audio stream R_EM1 from the target bit rate TR1 specified by the CPU 111. Then, the splitter 114 calculates the first size AIS1 by dividing the allowable bit rate AVR1 by the number of audio frames AU_frec generated in one second. In addition, the splitter 114 calculates the second size ACS1 by dividing the bit rate CR1 of the audio stream R_EM1 by the number of audio frames AU_frec generated in one second.
  • the splitter 114 calculates the fixed size (AIS1 + ACS1) by adding the first size AIS1 and the second size ACS1, and subtracts the data size of the audio frame at the insertion destination from the fixed size to obtain the sizes of f0, f2, and f4. To decide.
  • the data size of each audio frame after insertion is a constant data size except for the audio frame into which the last divided portion of the insertion data DT is inserted, regardless of the variation in the data size of each audio frame before insertion. It becomes.
  • the splitter 114 calculates the allowable bit rate AVR2 by subtracting the bit rate CR2 of the audio stream R_EM2 from the target bit rate TR2 specified by the CPU 111. Then, the splitter 114 calculates the first size AIS2 by dividing the allowable bit rate AVR2 by the number AU_frec of audio frames generated in one second. Also, the splitter 114 calculates the second size ACS2 by dividing the bit rate CR2 of the audio stream R_EM2 by the number of audio frames AU_frec generated in one second.
  • the splitter 114 calculates the fixed size (AIS2 + ACS2) by adding the first size AIS2 and the second size ACS2, and subtracts the data size of the audio frame at the insertion destination from the fixed size to obtain the sizes of f1, f3, and f5. To decide.
  • the data size of each audio frame after insertion is a constant data size except for the audio frame into which the last divided portion of the insertion data DT is inserted, regardless of the variation in the data size of each audio frame before insertion. It becomes.
  • AIS1, ACS1, AIS2, and ACS2 are calculated by the following mathematical formulas (4), (5), (6), and (7), respectively.
  • AIS1 AVR1 / 8 / AU_frec (4)
  • ACS1 CR1 / 8 / AU_frec (5)
  • AIS2 AVR2 / 8 / AU_frec (6)
  • ACS2 CR1 / 8 / AU_frec (7)
  • the multiplexer 116 inserts the divided part of the video stream output from the video encoder 112 and the predetermined information (inserted data DT) output from the inserters 115-1 and 115-2. Two audio streams are converted into PES packets, further transport packets are multiplexed, and a transport stream TS as a multiplexed stream is obtained.
  • the multiplexer 116 inserts identification information indicating that predetermined information is inserted into the transport stream TS corresponding to the two audio streams. Specifically, a data container descriptor (see FIG. 14) is inserted into two audio elementary stream loops under the program map table (PMT).
  • PMT program map table
  • the video data SV is supplied to the video encoder 112.
  • H.264 is applied to the video data SV.
  • H.264 / AVC, H.H. Encoding such as H.265 / HEVC is performed, and a video stream including encoded video data is generated.
  • the audio data SA1 and SA2 are supplied to the audio encoders 113-1 and 113-2, respectively.
  • the audio data SA1 and SA2 are encoded by the MPEG-H 3D Audio compression format, and audio streams R_EM1 and R_EM2 are generated.
  • the insertion data DT as predetermined information is supplied to the splitter 114.
  • the insertion data DT is divided to obtain a predetermined number of divided portions f (i).
  • the bit rate of the insertion data DT is divided so as to be within the allowable bit rates AVR1 and AVR2 regarding the two audio streams R_EM1 and R_EM2.
  • the allowable bit rates AVR1 and AVR2 are calculated by subtracting the bit rates CR1 and CR2 of the audio streams R_EM1 and R_EM2 from the target bit rates TR1 and TR2 specified by the CPU 111, respectively.
  • the audio streams R_EM1 and R_EM2 obtained by the audio encoders 113-1 and 113-2 are supplied to the inserters 115-1 and 115-2, and further inserted data obtained by the splitter 114 to the inserters 115-1 and 115-2.
  • a predetermined number of divided portions f (i) of DT are supplied.
  • order information for reconstruction is added to a predetermined number of audio frames of the audio streams R_EM1 and R_EM2, and a predetermined number of divided portions f (i) of the insertion data DT are added. Are inserted sequentially.
  • the video stream generated by the video encoder 112 is supplied to the multiplexer 116.
  • the multiplexer 116 is supplied with the audio stream in which the insertion data DT is inserted by the inserters 115-1 and 115-2.
  • each stream is packetized and multiplexed, and a transport stream TS is obtained as transmission data.
  • data container descriptors are inserted into two audio elementary stream loops respectively corresponding to two audio streams under the program map table (PMT).
  • This descriptor includes identification information indicating that predetermined information (insertion data DT) is inserted into the corresponding audio stream, and whether the insertion of the predetermined information (insertion data DT) is present in other streams in addition to the stream. The identification information to be shown is included.
  • FIG. 19 shows an example in which the container target data is transmitted with a plurality of generic data (generic_data) (see FIG. 10).
  • the container target data is divided into a plurality of parts, and each of the plurality of divided parts is divided into a plurality of generic data and inserted into the field of “data_payload_byte”.
  • start_flag corresponding to the first divided portion is set to “1”, indicating that it is the first divided portion.
  • fcounter corresponding to the first divided portion is set to “0”.
  • a field “target_data_size” exists corresponding to the first divided portion, and indicates the entire size of the container target data.
  • “Start_flag” corresponding to the second and subsequent divided parts is set to “0”, indicating that it is not the first divided part.
  • “Fcounter” corresponding to the second and subsequent divided portions is a count number that is sequentially incremented. When the number of divisions is n, the “fcounter” corresponding to the last division is “n ⁇ 1”. “End_flag” corresponding to the last divided portion is set to “1”, indicating that it is the last divided portion.
  • FIG. 20 shows an example in which the container target data is transmitted with one generic data (generic_data).
  • the container target data is not divided and inserted into the field of “data_payload_byte” of one generic data.
  • start_flag is set to “1”, indicating that it is the first divided portion.
  • end_flag is set to “1”, indicating that it is the last divided portion. Therefore, these pieces of information indicate that the data is not divided.
  • a field “target_data_size” exists corresponding to this divided portion, and indicates the entire size of the container target data.
  • FIG. 21 shows an example in which a plurality of container target data is transmitted as a plurality of generic data (generic_data).
  • the example shown in the figure is an example in which two container target data are transmitted: container target data A in which “data_id” is “0” and container target data B in which “data_id” is “1”.
  • the container target data A is divided into three, and each of the three divided parts is distributed into three generic data and inserted into the field of “data_payload_byte”.
  • start_flag corresponding to the first divided portion is set to “1”, indicating that it is the first divided portion.
  • fcounter corresponding to the first divided portion is set to “0”.
  • target_data_size exists corresponding to the first divided portion, and indicates the entire size of the container target data.
  • “Start_flag” corresponding to the second divided part is set to “0”, indicating that it is not the first divided part. Further, “end_flag” corresponding to the second divided portion is set to “0”, indicating that it is not the last divided portion. Further, “fcounter” corresponding to the second divided portion is set to “1”. In addition, “end_flag” corresponding to the third divided portion is set to “1”, indicating that it is the last divided portion. Then, “fcounter” corresponding to the last divided portion is set to “2”.
  • the container target data B is not divided and inserted into the “data_payload_byte” field of one generic data (generic_data).
  • start_flag is set to “1”, indicating that it is the first divided portion.
  • end_flag is set to “1”, indicating that it is the last divided portion. Therefore, these pieces of information indicate that the data is not divided.
  • a field “target_data_size” exists corresponding to this divided portion, and indicates the entire size of the container target data.
  • FIG. 22 shows an example in which execution of a plurality of container target data is managed independently of the audio PTS based on time information added thereto.
  • the container target data whose “data_id” is “1” starts executing at the corresponding execution time (exec_time), and the container target data whose “data_id” is “2” Execution is started at the timing of the time, and further, the container target data whose “data_id” is “3” is started at the timing of the corresponding execution time.
  • FIG. 23 shows that the execution of the container target data (predetermined information) on the receiving side can be performed independently of the audio time stamp.
  • the container target data is divided into three (Data_0-0, Data_0-1, Data_0-2), and is distributed and inserted into three audio frames.
  • Audio timestamp (n) indicates a timing at which output of audio data (audio sample) obtained by decoding audio frame 0 (Frame 0) is started. This “Audio timestamp (n)” corresponds to the “UTC value”.
  • Execution of container target data divided and inserted into three audio frames is started with the time when the difference value OFS is added to the reference time as the execution time (exec time). That is, the execution of the container target data is performed independently of the audio time stamp.
  • the container target data has a relative type stamp in it
  • synchronization management is performed based on the relative time based on the execution time.
  • the container target data is a media file such as MP3 having no concept of time
  • reproduction is started immediately from the execution time.
  • reproduction synchronization management based on the execution time is performed.
  • FIG. 23 shows the case where the execution time of the container target data is given by the difference value OFS from the reference time, but the execution time of this container target data is the UTC absolute value indicating the execution time (exec) time). The same applies even if given by the time “UTC ′ value”. That is, as the time information indicating the execution time added to the container target data, as described above, a UTC absolute time or a difference value from the reference time can be considered.
  • FIG. 24 shows a specific example in which a plurality of container target data is synchronously managed based on the time information added thereto.
  • information on the URL for connecting to the link server and a control code group for controlling the link server such as “Activate” or “Inactivate” are transmitted as container target data whose “data_id” is “1”. Is done.
  • connection to the link server is executed by the URL at the execution time of “exec time1”, and then “Activate” or “Inactivate” is performed on the link server by the control code group from the execution time of “exec time3”. "Is executed, and media playback from the link server is started and ended.
  • container target data whose “data_id” is “2” information on the URL for connecting to the link server and a control code group for controlling the link server such as “Activate” or “Inactivate” Is transmitted.
  • connection to the link server is executed by the URL at the execution time of “exec time2”, and then “Activate” or “Inactivate” is performed on the link server by the control code group from the execution time of “exec time4”. "Is executed, and media playback from the link server is started and ended.
  • a media file is transmitted as container target data whose “data_id” is “3”.
  • Media file playback starts from the execution time of “exec time5”.
  • FIG. 25 illustrates a structure example of the transport stream TS.
  • This structural example is an example in which two audio streams exist and predetermined information is containered by the two audio streams (see FIG. 16).
  • the portion related to the video stream is omitted.
  • an audio stream PES packet “Audio PES” identified by PID1 there is an audio stream PES packet “Audio PES” identified by PID1, and an audio stream PES packet “Audio PES” identified by PID2.
  • An audio stream (Audio coded stream) is inserted into these PES packets.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of audio frames of the audio stream.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI is information describing to which program each elementary stream included in the transport stream belongs.
  • the PMT has a program loop (Program ⁇ ⁇ ⁇ loop) that describes information related to the entire program.
  • an elementary stream loop having information related to each elementary stream.
  • an audio elementary stream loop (Audio ES loop) corresponding to each of the two audio streams.
  • each audio elementary stream loop (Audio
  • information such as PID (packet identifier)
  • PID packet identifier
  • the descriptor describing the information relevant to the stream is also arrange
  • PID packet identifier
  • the above-described data container descriptor (data_container descriptor) (see FIG. 14) is arranged.
  • a stream identifier descriptor (Stream_identifier descriptor) having information of “Component_tag” is arranged as one of descriptors.
  • a component descriptor (Component_descriptor) is arranged under an EIT (Event Information Table).
  • the above-described data container descriptor (data_container descriptor) may be arranged in the EIT. In that case, identification information for providing insertion of metadata on the receiver EPG display is provided.
  • This component descriptor is associated with the above-described audio elementary stream loop under the PMT by “Component_tag”.
  • predetermined information for example, net access information
  • FIG. 26 shows a configuration example of the set top box 200.
  • the set top box 200 includes a CPU 201, a flash ROM 202, a DRAM 203, an internal bus 204, a remote control receiving unit 205, and a remote control transmitter 206.
  • the set top box 200 includes an antenna terminal 211, a digital tuner 212, a demultiplexer 213, a video decoder 214, an audio framing unit 215, an HDMI transmission unit 216, and an HDMI terminal 217.
  • the CPU 201 controls the operation of each part of the set top box 200.
  • the flash ROM 202 stores control software and data.
  • the DRAM 203 constitutes a work area for the CPU 201.
  • the CPU 201 develops software and data read from the flash ROM 202 on the DRAM 203 and activates the software to control each unit of the set top box 200.
  • the remote control receiving unit 205 receives a remote control signal (remote control code) transmitted from the remote control transmitter 206 and supplies it to the CPU 201.
  • CPU201 controls each part of set top box 200 based on this remote control code.
  • the CPU 201, flash ROM 202, and DRAM 203 are connected to the internal bus 204.
  • the antenna terminal 211 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown).
  • the digital tuner 212 processes the television broadcast signal input to the antenna terminal 211 and outputs a transport stream TS corresponding to the user's selected channel.
  • the demultiplexer 213 extracts a video stream packet from the transport stream TS and sends it to the video decoder 214.
  • the video decoder 214 reconstructs a video stream from the video packets extracted by the demultiplexer 213 and performs decoding processing to obtain uncompressed video data (image data).
  • the demultiplexer 213 extracts one or two audio stream packets from the transport stream TS to reconstruct the audio stream.
  • the demultiplexer 213 extracts various information such as descriptor information from the transport stream TS and sends it to the CPU 201.
  • the various information includes the information of the data container descriptor (data_cotainercodescriptor) described above (see FIG. 14).
  • the CPU 201 recognizes from the data container descriptor that predetermined information is inserted into the corresponding audio stream. Further, it is recognized from this data container descriptor whether the insertion of the predetermined information is present in other streams in addition to the corresponding audio stream. For example, when there is one audio stream and predetermined information is inserted into it, it is recognized that there is no predetermined information inserted from the data container descriptor to another stream. Also, for example, when there are two audio streams and predetermined information is inserted in both of them, it is recognized from the data container descriptor that there is insertion of the predetermined information in another stream.
  • the HDMI transmission unit 216 sends the uncompressed video data obtained by the video decoder 214 and the audio stream after being framed by the audio framing unit 215 from the HDMI terminal 217 by communication conforming to HDMI.
  • the HDMI transmission unit 216 packs the video data and the audio stream and outputs them to the HDMI terminal 217 for transmission through the HDMI TMDS channel. Details of the HDMI transmission unit 216 will be described later.
  • a television broadcast signal input to the antenna terminal 211 is supplied to the digital tuner 212.
  • the digital tuner 212 processes the television broadcast signal and outputs a transport stream TS corresponding to the user's selected channel.
  • the transport stream TS output from the digital tuner 212 is supplied to the demultiplexer 213.
  • video elementary stream packets are extracted from the transport stream TS and sent to the video decoder 214.
  • a video stream is reconstructed from the video packets extracted by the demultiplexer 213, and then the video stream is decoded to obtain uncompressed video data.
  • the uncompressed video data is supplied to the HDMI transmission unit 216.
  • one or two audio stream packets are extracted from the transport stream TS, and an audio stream in which predetermined information is inserted is reconstructed.
  • the audio stream is framed by the audio framing unit 215 and then supplied to the HDMI transmission unit 216.
  • the HDMI transmission unit 216 packs the uncompressed video data and the audio stream, and transmits them from the HDMI terminal 217 to the audio amplifier 300 via the HDMI cable 610.
  • various information such as descriptor information is extracted from the transport stream TS and sent to the CPU 201.
  • the various information includes the information of the data container descriptor (data_cotainercodescriptor) described above (see FIG. 14). Thereby, the CPU 201 recognizes that predetermined information is inserted into the audio stream.
  • FIG. 27 illustrates a configuration example of the television receiver 300.
  • the television receiver 300 includes a CPU 301, a flash ROM 302, a DRAM 303, an internal bus 304, a remote control receiving unit 305, a remote control transmitter 306, and a communication interface 307.
  • the television receiver 300 includes an antenna terminal 311, a digital tuner 312, a demultiplexer 313, a video decoder 314, an HDMI terminal 315, and an HDMI receiving unit 316.
  • the television receiver 300 includes a video processing circuit 317, a panel drive circuit 318, a display panel 319, an audio decoder 320, an audio processing circuit 321, an audio amplification circuit 322, and a speaker 323.
  • the CPU 301 controls the operation of each unit of television receiver 300.
  • the flash ROM 302 stores control software and data.
  • the DRAM 303 constitutes a work area for the CPU 301.
  • the CPU 301 develops software and data read from the flash ROM 302 on the DRAM 303 to activate the software, and controls each unit of the television receiver 300.
  • the remote control receiving unit 305 receives the remote control signal (remote control code) transmitted from the remote control transmitter 306 and supplies it to the CPU 301.
  • the CPU 301 controls each part of the television receiver 300 based on this remote control code.
  • the CPU 301, flash ROM 302 and DRAM 303 are connected to the internal bus 304.
  • the communication interface 307 communicates with a server existing on a network such as the Internet under the control of the CPU 301.
  • the communication interface 307 is connected to the internal bus 304.
  • the antenna terminal 311 is a terminal for inputting a television broadcast signal received by a receiving antenna (not shown).
  • the digital tuner 312 processes the television broadcast signal input to the antenna terminal 311 and outputs a transport stream TS corresponding to the user's selected channel.
  • the demultiplexer 313 extracts a video stream from the transport stream TS and sends it to the video decoder 314.
  • the video decoder 314 decodes the video stream to obtain uncompressed video data (image data).
  • the demultiplexer 313 extracts one or two audio streams from the transport stream TS and sends them to the audio decoder 320. As described in the stream generation units 110A and 110B (see FIGS. 2 and 16), predetermined information is inserted into the audio stream.
  • the demultiplexer 213 extracts various information such as descriptor information from the transport stream TS and sends it to the CPU 301.
  • the various information includes the information of the data container descriptor (data_cotainercodescriptor) described above (see FIG. 14).
  • the CPU 301 recognizes from the data container descriptor that predetermined information is inserted into the corresponding audio stream. Further, it is recognized from this data container descriptor whether the insertion of the predetermined information is present in other streams in addition to the corresponding audio stream.
  • the HDMI receiving unit 316 receives uncompressed video data and an audio stream supplied to the HDMI terminal 315 via the HDMI cable 400 by communication conforming to HDMI. As described in the above set top box 200 (see FIG. 26), predetermined information is inserted into the audio stream. Details of the HDMI receiving unit 316 will be described later.
  • the video processing circuit 317 performs a scaling process on the video data obtained by the video decoder 314 or obtained by the HDMI receiving unit 316, and further, video data received from a server on the network by the communication interface 307, The video data for display is obtained by performing synthesis processing and the like.
  • the panel drive circuit 318 drives the display panel 319 based on the display image data obtained by the video processing circuit 317.
  • the display panel 319 includes, for example, an LCD (Liquid Crystal Display), an organic EL display (organic electroluminescence display), and the like.
  • the audio decoder 320 performs decoding processing on the audio stream obtained by the demultiplexer 313 or obtained by the HDMI receiving unit 316 to obtain uncompressed audio data (audio data). Also, the audio decoder 320 extracts each divided portion of the predetermined information sequentially inserted into a predetermined number of audio frames of the audio stream, reconstructs the predetermined information based on the order information added thereto, and reconstructs the predetermined information.
  • the predetermined information is sent to the CPU 301.
  • the CPU 301 controls each unit of the television receiver 300 so that processing using the predetermined information is appropriately performed.
  • identification information for identifying whether or not a divided portion is inserted into another media encoded stream is added to each divided portion inserted into a predetermined number of audio frames of each audio stream. Therefore, the audio decoder 320 can easily recognize whether or not a divided portion is inserted into another media encoded stream based on the identification information, and from all the audio streams in which the divided portion of the predetermined information is inserted. Thus, it is possible to efficiently and accurately extract all the divided portions of the predetermined information.
  • FIG. 28 shows a configuration example of the audio decoder 320.
  • This audio decoder 320 includes extractors 351-1 and 351-2, decoders 352-1 and 352-2, and a data reassembler 353.
  • the extractor 351-1 extracts the divided portion IS 1 of the predetermined information inserted therein from the predetermined number of audio frames of the audio stream AS 1 (R_EM 1 + IS 1), and outputs the audio stream R_EM 1.
  • the decoder 352-1 performs a decoding process on the audio stream R_EM1 and outputs audio data SA1.
  • the extractor 351-2 takes out a divided portion IS 2 of predetermined information inserted therein from a predetermined number of audio frames of the audio stream AS 2 (R_EM 2 + IS 2) and outputs an audio stream R_EM 2.
  • the decoder 352-2 performs a decoding process on the audio stream R_EM2 and outputs audio data SA2.
  • the data reassembler 353 reconstructs predetermined information from the divided portions IS1 and IS2 extracted by the extractors 351-1 and 351-2 based on the order information added thereto, and the reconstructed predetermined information is displayed. Output.
  • FIG. 29 schematically shows a processing example of the extractor 351-1 when only one audio stream AS1 is obtained from the demultiplexer 313.
  • This example shows a case where the predetermined information (inserted data DT) is divided into six divided portions f0, f1, f2, f3, f4, and f5 by the method (2) (see FIG. 6). The same applies to the case of division by the method (1).
  • the extractor 351-1 six divided portions f 0, f 1, f 2, f 3, f 4, and f 5 included in the six audio frames of the audio stream AS 1 are extracted and sent to the data reassembler 353.
  • FIG. 30 schematically shows a processing example of the extractors 351-1 and 351-2 when two audio streams AS1 and AS2 are obtained from the demultiplexer 313.
  • This example also shows a case where the predetermined information (inserted data DT) is divided into six divided parts f0, f1, f2, f3, f4, and f5 by the method (2) (see FIG. 17). The same applies to the case of division by the method (1).
  • the extractor 351-1 three divided parts of f 0, f 2, and f 4 included in the three audio frames of the audio stream AS 1 are extracted and sent to the data reassembler 353. Further, the extractor 351-2 extracts the three divided portions of f 1, f 3, and f 5 included in the three audio frames of the audio stream AS 2 and sends them to the data reassembler 353.
  • the audio processing circuit 521 performs processing such as D / A conversion on the audio data obtained by the audio decoder 320. This processing includes rendering processing for object data, channel data composition processing, channel number conversion processing, and the like as necessary.
  • the audio amplification circuit 322 amplifies the audio signal of each channel output from the audio processing circuit 321 and supplies it to the speaker 323 of each channel.
  • the operation of the television receiver 300 shown in FIG. 27 will be briefly described.
  • the television broadcast signal input to the antenna terminal 311 is supplied to the digital tuner 312.
  • the digital tuner 312 processes a television broadcast signal and obtains a transport stream TS corresponding to the user's selected channel.
  • the transport stream TS obtained by the digital tuner 312 is supplied to the demultiplexer 313.
  • a video stream is extracted from the transport stream TS and supplied to the video decoder 314.
  • the video decoder 314 the video stream is decoded, and uncompressed video data is obtained.
  • the uncompressed video data is supplied to the video processing circuit 317.
  • the demultiplexer 313 extracts one or two audio streams from the transport stream TS and supplies them to the audio decoder 320.
  • various information such as descriptor information is extracted from the transport stream TS and sent to the CPU 301.
  • the various information includes the information of the data container descriptor (data_cotainercodescriptor) described above (see FIG. 14).
  • the CPU 301 recognizes from the data container descriptor that predetermined information is inserted into the corresponding audio stream. Further, it is recognized from this data container descriptor whether the insertion of the predetermined information is present in other streams in addition to the corresponding audio stream.
  • the HDMI receiving unit 316 receives uncompressed video data and one or two audio streams supplied to the HDMI terminal 315 via the HDMI cable 400 by communication conforming to HDMI. Uncompressed video data is supplied to the video processing circuit 317. The audio stream is supplied to the audio decoder 320.
  • the video processing circuit 317 performs scaling processing on the video data obtained by the video decoder 314 or obtained by the HDMI receiving unit 316, and further, video data received from a server on the network by the communication interface 307, Video data for display is obtained by performing synthesis processing and the like.
  • Display video data obtained by the video processing circuit 317 is supplied to the panel drive circuit 318.
  • the panel drive circuit 318 drives the display panel 319 based on the display video data. As a result, an image corresponding to the video data for display is displayed on the display panel 319.
  • the audio decoder 320 performs decoding processing on the audio stream obtained by the demultiplexer 313 or obtained by the HDMI receiving unit 316 to obtain uncompressed audio data (audio data). Further, the audio decoder 320 extracts each divided portion of the predetermined information sequentially inserted into a predetermined number of audio frames of the audio stream, and reconfigures the predetermined information based on the order information added thereto. The predetermined information reconstructed in this way is sent to the CPU 301. The CPU 301 appropriately controls each part of the television receiver 300 so that processing using this predetermined information is performed.
  • the audio data obtained by the audio decoder 320 is supplied to the audio processing circuit 321.
  • the audio processing circuit 321 performs necessary processing such as D / A conversion on the audio data.
  • the audio data is amplified by the audio amplification circuit 322 and then supplied to the speaker 323. Therefore, sound corresponding to the display image on the display panel 319 is output from the speaker 323.
  • FIG. 31 illustrates a configuration example of the HDMI transmission unit 216 (see FIG. 26) of the set-top box 200 and the HDM reception unit 316 (see FIG. 27) of the television receiver 300.
  • the HDMI transmission unit 216 is an effective image section 21 (hereinafter referred to as “active” as appropriate) which is a section obtained by removing the horizontal blanking section 22 and the vertical blanking section 23 from the section from one vertical synchronization signal to the next vertical synchronization signal. (Also referred to as “video section”) (see FIG. 32), a differential signal corresponding to pixel data of an uncompressed image for one screen is transmitted to the HDMI receiving unit 316 in one direction through a plurality of channels.
  • the HDMI transmission unit 216 transmits, at a plurality of channels, differential signals corresponding to at least audio data, control data, and other auxiliary data associated with an image in the horizontal blanking interval 22 or the vertical blanking interval 23. It transmits to the HDMI receiving unit 316 in one direction.
  • the HDMI transmission unit 216 includes the HDMI transmitter 31.
  • the transmitter 31 converts, for example, pixel data of an uncompressed image into a corresponding differential signal, and receives HDMI signals on three TMDS (Transition Minimized Differential Signaling) channels # 0, # 1, and # 2.
  • TMDS Transition Minimized Differential Signaling
  • the transmitter 31 converts audio data accompanying the uncompressed image, further necessary control data and other auxiliary data, etc. into corresponding differential signals, and converts them into three TMDS channels # 0, # 1, #. 2, serially transmit to the HDMI receiving unit 316 in one direction.
  • the HDMI receiving unit 316 receives a differential signal corresponding to the pixel data transmitted from the HDMI transmitting unit 216 in one direction through a plurality of channels in the active video section 21 (see FIG. 32). Also, the HDMI receiving unit 316 transmits the audio transmitted in one direction from the HDMI transmitting unit 216 through a plurality of channels in the horizontal blanking interval 22 (see FIG. 32) or the vertical blanking interval 23 (see FIG. 21). A differential signal corresponding to data and control data is received.
  • the transmission channel of the HDMI system including the HDMI transmission unit 216 and the HDMI reception unit 316 transmits the pixel clock with three TMDS channels # 0 to # 2 as transmission channels for transmitting pixel data and audio data.
  • TMDS clock channel as a transmission channel, there are transmission channels called DDC (Display Data Channel) 33 and CEC (Consumer Electronics Control) line 34.
  • the DDC 33 includes two signal lines included in the HDMI cable 400, and is used by the HDMI transmission unit 216 to read EDID (Extended Display Identification Data) from the HDMI reception unit 316 connected via the HDMI cable 400. Is done. That is, the HDMI receiving unit 316 includes an EDID ROM that stores EDID, which is performance information related to its performance (Configuration / Capability), in addition to the HDMI receiver 32. When the HDMI transmitting unit 216 reads the EDID, the decoding capability information on the receiving side is sent to the transmitting side.
  • EDID Extended Display Identification Data
  • the HDMI transmission unit 216 reads the EDID from the HDMI reception unit 316 connected via the HDMI cable 400 via the DDC 33. Then, the CPU 201 of the set top box 200 recognizes the performance of the television receiver 300 having the HDMI receiving unit 316 based on the EDID.
  • the CEC line 34 is composed of one signal line included in the HDMI cable 400, and is used for bidirectional communication of control data between the HDMI transmission unit 216 and the HDMI reception unit 316. Also, the HDMI cable 400 includes an HPD line 35 connected to a pin called HPD (Hot Plug Detect).
  • HPD Hot Plug Detect
  • the source device can detect the connection of the sink device (destination device) by using the HPD line 35 by the DC bias potential.
  • the HPD line 35 has a function of receiving a connection state notification from the sink device by a DC bias potential.
  • the HPD line has a function of notifying the source device of the connection state by a DC bias potential.
  • the HDMI cable 400 also includes a power supply line 36 that is used to supply power from the source device to the sink device.
  • the HDMI cable 400 includes a reserved line 37.
  • HDMI Ethernet channel HDMI Ethernet Channel: HEC
  • audio return channel Audio Return Channel: ARC
  • Ethernet and “Ethernet” are registered trademarks.
  • FIG. 32 shows sections of various transmission data when image data of horizontal ⁇ vertical 1920 pixels ⁇ 1080 lines is transmitted in the TMDS channel.
  • a video field 24 Video Data Period
  • a data island period 25 Data Island Period
  • a video field in which transmission data is transmitted using the three TMDS channels of HDMI There are three types of sections, namely, control section 26 (Control26Period).
  • the video field period is a period from a rising edge (Active Edge) of a certain vertical synchronizing signal to a rising edge of the next vertical synchronizing signal, and includes a horizontal blanking period 22 (Horizontal Blanking) and a vertical blanking period 23 ( Vertical Blanking) and an effective pixel section 21 (Active Video) that is a section obtained by removing the horizontal blanking period and the vertical blanking period from the video field section.
  • the video data section 24 is assigned to the effective pixel section 21.
  • data of 1920 pixels (pixels) ⁇ 1080 lines of effective pixels (Active Pixel) constituting uncompressed image data for one screen is transmitted.
  • the data island period 25 and the control period 26 are assigned to the horizontal blanking period 22 and the vertical blanking period 23.
  • auxiliary data (Auxiliary Data) is transmitted.
  • the data island section 25 is allocated to a part of the horizontal blanking period 22 and the vertical blanking period 23.
  • audio data packets that are not related to the control among the auxiliary data are transmitted.
  • the control section 26 is allocated to other portions of the horizontal blanking period 22 and the vertical blanking period 23.
  • vertical synchronization signals, horizontal synchronization signals, control packets, and the like, which are data related to control, of auxiliary data are transmitted.
  • Example of communication between set-top box and TV receiver For example, the CPU 201 of the set-top box 200 negotiates with the CPU 301 of the television receiver 300 by communication using, for example, a CEC line, grasps an audio stream required by the television receiver 300, and the audio stream It is possible to send only.
  • FIG. 33 shows an example of an operation involving negotiation in the set top box 200 and the television receiver 300.
  • the set top box 200 displays a display signal of a program table that clearly shows a program that can be linked to the net based on a component descriptor (Component_descriptor) under the EIT and a data container descriptor (data_container_descriptor). And the program guide is displayed on the display screen of the television receiver 300.
  • Component_descriptor component descriptor
  • data_container_descriptor data_container_descriptor
  • the television receiver 300 uses the program guide displayed on the display screen to select a program that can be linked to the Internet, and sends the program selection signal to the set top box 200.
  • the set top box 200 receives the program based on the program selection signal from the television receiver 300.
  • the set-top box 200 detects an audio stream in which predetermined information (inserted data) is inserted, based on a data container descriptor (Data_container descriptor).
  • the set top box 200 accesses the EDID of the television receiver 300 and checks the reception possibility.
  • the television receiver 300 notifies the set top box 200 that an audio stream (compressed stream) can be received by EDID. (6) The television receiver 300 notifies the set top box 200 that there is one audio playback decoder by EDID.
  • the set top box 200 needs to receive (8) two audio streams (for example, two streams of a main stream and a sub stream). Is notified to the television receiver 300.
  • the television receiver 300 sends an acknowledge (ACK) signal to the set top box 200.
  • the set top box 200 has one audio playback decoder of the television receiver 300, but transmits two audio streams.
  • the television receiver 300 receives two streams. With regard to the main stream, the extracted portion of the predetermined information is extracted by the extractor, while the main stream is transferred to the decoder and decoded. On the other hand, with respect to the substream, a divided portion of the inserted predetermined information is extracted by an extractor. Then, the television receiver 300 reconstructs the predetermined information by the data reassembler from each divided portion of the predetermined information extracted by each extractor. (12) The television receiver 300 performs network access using the reconfigured predetermined information, here, the net access information, acquires the predetermined information, displays the information, and the like.
  • the broadcast transmission apparatus 100 divides each predetermined portion obtained by dividing predetermined information into a predetermined number of audio frames of an audio stream so that the bit rate falls within the predetermined bit rate. Insert and send. For this reason, the overall bit rate including the audio stream can be suppressed to the target bit rate, and it is possible to satisfactorily perform transmission by inserting predetermined information into the audio stream.
  • the broadcast transmission apparatus 100 inserts and transmits each divided portion obtained by dividing predetermined information into a predetermined number of audio frames of one or more, for example, two audio streams. . Therefore, it is possible to shorten the time required for transmitting the entire predetermined information.
  • the broadcast transmission apparatus 100 transmits predetermined information inserted into an audio stream.
  • the broadcast transmission apparatus 100 inserts predetermined information into another media encoded stream such as a video stream and transmits it.
  • FIG. 34 shows a configuration example of the stream generation unit 110C included in the broadcast transmission device 100 in that case.
  • the stream generation unit 110C includes a control unit 111, a video encoder 112, an audio encoder 113, a splitter 114, inserters 115 and 117, and a multiplexer 116.
  • the CPU 111 controls each unit of the stream generation unit 110C.
  • the video encoder 112 receives MPEG2, H.264, video data (image data) SV. H.264 / AVC, H.H. Encoding such as H.265 / HEVC is performed to generate a video stream (video elementary stream).
  • the audio encoder 113 encodes the audio data (sound data) SA with the MPEG-H 3D Audio compression format to generate an audio stream (audio elementary stream).
  • the splitter 114 divides the insertion data DT constituting the predetermined information in the same manner as the splitter 114 of the stream generation unit 110A in FIG. 2 to obtain a predetermined number of divided portions f (i).
  • the data is divided by the method (1) or (2) so that the bit rate of the insertion data DT inserted into each of the video stream and the audio stream falls within the allowable bit rate.
  • the inserter 117 divides a predetermined number of divided portions f (i) obtained by dividing by the splitter 114 into a predetermined number of access units (pictures) of the video stream R_EM3 generated by the video encoder 112 for reconstruction. Add order information and insert sequentially.
  • generic data generator_data
  • FIG. 10 generic data having the divided part f (i) is arranged in the SEI NAL unit using, for example, an entry whose structure example is shown in FIG.
  • the inserter 115 is divided by the splitter 114 into a predetermined number of audio frames of the audio stream R_EM1 generated by the audio encoder 113 in the same manner as the inserter 115 in the stream generation unit 100A of FIG.
  • the predetermined number of divided portions f (i) obtained in this way are sequentially inserted with order information for reconstruction.
  • the multiplexer 116 inserts each divided portion of the predetermined information (inserted data DT) output from the inserter 115 and the video stream into which each divided portion of the predetermined information (inserted data DT) output from the inserter 117 is inserted.
  • the audio stream thus converted is converted into a PES packet, further converted into a transport packet, and multiplexed to obtain a transport stream TS as a multiplexed stream.
  • the multiplexer 116 inserts identification information indicating that predetermined information is inserted into the transport stream TS corresponding to each of the video stream and the audio stream. Specifically, a data container descriptor (see FIG. 14) is inserted into the video elementary stream loop and the audio elementary stream loop under the program map table (PMT).
  • PMT program map table
  • FIG. 35 shows a structure example of the transport stream TS.
  • This structure example is an example in the case where predetermined information is containered by two streams of a video stream and an audio stream (see FIG. 34).
  • Video stream (Video coded stream) is inserted into the PES packet of the video stream.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of access units (pictures) of the video stream.
  • An audio stream (Audio ⁇ ⁇ ⁇ ⁇ ⁇ coded stream) is inserted into the PES packet of the audio stream.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of audio frames of the audio stream.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI is information describing to which program each elementary stream included in the transport stream belongs.
  • the PMT has a program loop (Program ⁇ ⁇ ⁇ loop) that describes information related to the entire program.
  • an elementary stream loop having information related to each elementary stream.
  • an elementary stream loop having information related to each elementary stream.
  • each elementary stream loop (ES loop) information such as a PID (packet identifier) is arranged corresponding to each stream, and a descriptor describing information related to the stream is also arranged.
  • PID packet identifier
  • descriptor describing information related to the stream is also arranged.
  • data_container descriptor data_container descriptor
  • a stream identifier descriptor (Stream_identifier ⁇ ⁇ ⁇ descriptor) having information of “Component_tag” is arranged as one of the descriptors.
  • a component descriptor (Component_descriptor) is arranged under EIT (Event Information Table).
  • the above-described data container descriptor (data_container descriptor) may be arranged in the EIT. In that case, identification information for providing insertion of metadata on the receiver EPG display is provided.
  • This component descriptor is associated with each elementary stream loop under the above-described PMT by “Component_tag”.
  • predetermined information for example, net access information is inserted in the video / audio stream of a certain program, and when displaying a program table such as EPG, a display such as “net link” is displayed on the part of the certain program. This makes it possible to notify the TV viewer that the distribution is accessible via the Internet.
  • the 26 is configured to transmit uncompressed video data obtained by decoding the received video stream to the television receiver 300 via the HDMI cable 400. ing. However, when the predetermined information is inserted into the video stream for transmission as described above, the received video stream is transmitted to the television receiver 300 via the HDMI cable 400 without being decoded. It becomes. In this case, the video stream is decoded by the television receiver 300.
  • the stream generation unit 110C in FIG. 34 inserts predetermined information into both the video stream and the audio stream for transmission. Although detailed description is omitted, a configuration in which predetermined information is inserted only into a video stream and transmitted is also conceivable.
  • the audio compression format is MPEG-H 3D Audio.
  • the present technology can be similarly applied when the audio compression format is another audio compression format such as AAC, AC3, or AC4.
  • FIG. 36 (a) shows the structure of the AC4 Simple Transport layer.
  • a sync word field As shown in FIG. 36 (b), there is a TOC (Table Of Content) field at the head, and a predetermined number of substream (Substream) fields thereafter.
  • TOC Table Of Content
  • a metadata area exists in the substream (ac4_substream_data ()), and a field "umd_payloads_substream ()" is provided therein.
  • the “umd_payload_byte” field contains, for example, generic data (generic_data) (see FIG. 10) having a divided portion of predetermined information using an entry whose structure is shown in FIG. Be placed.
  • the TOC (ac4_toc ()) includes a field “ac4_presentation_info ()”, and further includes a field “umd_info ()”. Indicates that metadata is inserted in the field of “umd_payloads_substream ()” described above.
  • the container stream (multiplexed stream) is an MPEG-2 transport stream (transport stream TS)
  • transport stream TS transport stream
  • the present technology can be similarly applied to a system that is distributed in a container stream of MP4 or other formats.
  • MMT MPEG-Media-Transport
  • FIG. 38 shows an example of the structure of an MMT transport stream.
  • This structural example is an example in which two audio streams exist and predetermined information is containered by the two audio streams (see FIG. 16).
  • the portion related to the video stream is omitted.
  • the MPU packet “MPU audio” of the audio stream AS identified by ID1 and the MPU packet “MPU audio” of the audio stream AS identified by ID2 Is placed.
  • An audio stream (Audio ⁇ ⁇ ⁇ ⁇ ⁇ coded stream) is inserted into these MPU packets.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of audio frames of the audio stream.
  • the packet type is “message”
  • various message packets are arranged in the MMT transport stream.
  • One of the message packets is a PA (Packet Access) message packet.
  • the PA message packet includes a table such as MPT.
  • information such as an asset type (Asset_type) and a packet ID (Packet_id) is arranged in correspondence with each stream as an asset, and a descriptor describing information related to the stream is also arranged.
  • the above-described data container descriptor (data_container descriptor) (see FIG. 14) is arranged.
  • an MH stream identifier descriptor (MH-Stream_identifier descriptor) having information of “Component_tag” is arranged.
  • an MH component group descriptor (MH-Component_Group_Descriptor) is arranged under the MH-EIT (MH-Event Information Table).
  • the above-described data container descriptor (data_container descriptor) may be arranged in the MH-EIT. In that case, identification information for providing insertion of metadata on the receiver EPG display is provided.
  • This MH / component / group / descriptor is associated with information of each asset (audio stream) under the MPT described above by “Component_tag”.
  • Component_tag information of each asset (audio stream) under the MPT described above by “Component_tag”.
  • FIG. 39 shows another structural example of the MMT transport stream.
  • This structure example is an example in the case where predetermined information is containered by two streams of a video stream and an audio stream (see FIG. 34).
  • the MPU packet “MPU video” of the video stream VS identified by ID1 and the MPU packet “MPU audio” of the audio stream AS identified by ID2 Is placed.
  • the video stream (Video coded stream) is inserted into the MPU packet of the video stream.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of access units (pictures) of the video stream.
  • an audio stream (Audio coded ⁇ stream) is inserted into the MPU packet of the audio stream.
  • Generic data (generic_data) (see FIG. 10) including each divided portion of the predetermined information is inserted into a predetermined number (including 1) of audio frames of the audio stream.
  • the packet type is “message”
  • various message packets are arranged in the MMT transport stream.
  • One of the message packets is a PA (Packet Access) message packet.
  • the PA message packet includes a table such as MPT.
  • information such as an asset type (Asset_type) and a packet ID (Packet_id) is arranged in correspondence with each stream as an asset, and a descriptor describing information related to the stream is also arranged.
  • the above-described data container descriptor (data_container descriptor) (see FIG. 14) is arranged.
  • an MH stream identifier descriptor (MH-Stream_identifier descriptor) having information of “Component_tag” is arranged.
  • an MH component group descriptor (MH-Component_Group_Descriptor) is arranged under the MH-EIT (MH-Event Information Table).
  • the above-described data container descriptor (data_containerordescriptor) may be arranged. In that case, identification information for providing insertion of metadata on the receiver EPG display is provided.
  • This MH / component / group / descriptor is associated with information of each asset (video stream, audio stream) under the MPT described above by “Component_tag”.
  • Component_tag information of each asset (video stream, audio stream) under the MPT described above by “Component_tag”.
  • FIG. 40 shows a configuration example of an MP4 stream (file) including audio track (track A) data when the audio compression format is MPEG-H 3D Audio or AC4.
  • the illustrated example is an example in the case of fragmented MP4 (Fragmented MP4).
  • a predetermined number of movie fragments (Movie Fragment) configured by a “moof” box containing control information and an “mdat” box containing media data itself are arranged. Since the “mdat” box contains a fragment obtained by fragmenting the track data, the control information entering the “moof” box is control information related to the fragment.
  • the MP4 stream “audio bitstream” corresponding to the audio track a predetermined number of audio frames (access unit frames) are arranged in the “mdat” box of each movie fragment.
  • a “traf” box exists in the “moof” box of each movie fragment, and a “tfdt” box exists in the box.
  • this “tfdt” box there is a description of the decoding time “baseMediaDecodeTime” of the first access unit after the “moof” box.
  • tfdt AC4 or mpegh
  • sgpd the audio compression format
  • tscl the audio compression format
  • sound genericdata indicates that generic data (generic data) is inserted in the audio track.
  • sound genericdata for example, the content of the data container descriptor (dat_cintainer descriptor) shown in FIG. 14 is described.
  • FIG. 41 shows an MPD file description example when the data insertion stream is two audio streams.
  • FIG. 42 shows an MPD file description example when the data insertion stream is an audio stream and a video stream.
  • FIG. 43 shows the contents of main information in these description examples.
  • a media stream (MP4 stream) and an MPD file as a metafile are transmitted to a receiving side through a communication network transmission path.
  • This MPD file has an adaptation set (AdaptationSet) corresponding to the first and second audio streams.
  • AdaptationSet adaptation set
  • the existence of an audio stream having a bit rate of 96 kbps including the encoded data "" is shown.
  • the location of the audio stream is indicated as “audio / jp / 96.mp4” by the description “ ⁇ baseURL> audio / jp / 96.mp4 ⁇ / BaseURL>”.
  • the MPD file has an adaptation set (AdaptationSet) corresponding to each of the audio stream and the video stream.
  • AdaptationSet adaptation set
  • the existence of a video stream having a bit rate of 20 Mbps including the encoded data "" is shown.
  • the location of the audio stream is indicated as “video / jp / 20000.mp4” by the description “ ⁇ baseURL> audio / jp / 20000.mp4 ⁇ / BaseURL>”.
  • the transmission / reception system 10 including the set-top box 200 and the television receiver 300 is shown.
  • a configuration in which a monitor device, a projector, or the like is arranged instead of the television receiver 300 is also conceivable.
  • a configuration in which a recorder with a reception function, a personal computer, and the like are arranged instead of the set top box 200 is also conceivable.
  • the set top box 200 and the television receiver 300 are connected to each other by a HDMI digital interface.
  • the present invention can be similarly applied to the case where each device is connected by wire with a digital interface similar to HDMI, and even when connected by radio.
  • the transmission / reception system 10 that receives the transport stream TS transmitted on the broadcast wave from the broadcast transmission apparatus 100 by the set-top box 200 is shown.
  • a transmission / reception system 10A that directly receives a transport stream TS transmitted from a broadcast transmission apparatus 100 on a broadcast wave by a television receiver 300 is also conceivable.
  • this technique can also take the following structures.
  • An information insertion unit that sequentially inserts each divided part obtained by dividing predetermined information into a predetermined number of unit parts of a media encoded stream by adding order information for reconstruction;
  • a transmission unit for transmitting a container of a predetermined format including the media encoded stream in which the predetermined information is inserted;
  • the information insertion part A transmission apparatus that divides the predetermined information so that the bit rate of the predetermined information is within the predetermined bit rate.
  • (2) The information insertion unit The transmission device according to (1), wherein the predetermined information is divided so that a data size of each divided portion is a fixed size.
  • the information insertion unit The transmission according to (2), wherein the fixed size is calculated by dividing the allowable bit rate obtained by subtracting the bit rate of the media encoded stream from the target bit rate by the number of unit parts generated in one second. apparatus.
  • the information insertion unit The transmission apparatus according to (1), wherein the predetermined information is divided so that a data size of each unit portion into which the divided portion is inserted is a fixed size.
  • the information insertion unit A first size obtained by dividing the allowable bit rate obtained by subtracting the bit rate of the media encoded stream from the target bit rate by the number of unit parts generated in one second, and the media encoded stream
  • the information insertion unit Each divided part obtained by dividing predetermined information into a predetermined number of unit parts of one or more media coded streams is sequentially inserted with order information for reconstruction, Identification information for identifying whether or not the divided portion is inserted into another media encoded stream is added to each of the divided portions inserted in a predetermined number of unit portions of the one or more media encoded streams.
  • the transmitting device according to any one of (1) to (5).
  • the container further includes an identification information insertion unit that inserts identification information indicating that there is an insertion of a divided portion of the predetermined information corresponding to each of the one or more media encoded streams.
  • the transmitting apparatus according to (6).
  • the identification information insertion unit Identification information indicating whether or not there is another media encoded stream in which the divided portion of the predetermined information is inserted, corresponding to each of the one or more media encoded streams, in the container;
  • the transmission device according to (7), wherein when there is the other media encoded stream, identification information indicating the other media encoded stream is further inserted.
  • the transmission unit includes a transmission step of transmitting a container of a predetermined format including the media encoded stream in which the predetermined information is inserted, In the above information insertion step, A transmission method that divides the predetermined information so that the bit rate of the predetermined information falls within the predetermined bit rate.
  • An information insertion unit that sequentially inserts each divided portion obtained by dividing predetermined information into a predetermined number of unit portions of one or more media encoded streams, with the addition of order information for reconstruction.
  • a transmission apparatus comprising: a transmission unit configured to transmit a container having a predetermined format including the one or more media encoded streams into which the divided portion of the predetermined information is inserted.
  • the information insertion unit The transmission according to (10), wherein identification information for identifying whether or not the divided part is inserted into another media stream is added to each of the divided parts respectively inserted into the one or more media encoded streams.
  • the container further includes an identification information insertion unit that inserts identification information indicating that there is an insertion of a divided portion of the predetermined information corresponding to each of the one or more media encoded streams. 10) or the transmission device according to (11).
  • the identification information insertion unit In the container, identification information indicating whether there is another media encoded stream corresponding to each of the one or more media encoded streams, with the insertion of the divided portion of the predetermined information,
  • the transmission device according to (12), wherein when the other media encoded stream is present, identification information indicating the other media encoded stream is further inserted.
  • a transmission method comprising: transmitting a container of a predetermined format including the one or more media encoded streams into which the divided portion of the predetermined information is inserted by a transmission unit.
  • a stream receiving unit for receiving one or more media encoded streams; Each divided part obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit parts of the one or more media encoded streams, with order information for reconstruction being added, Processing for extracting each divided portion of the predetermined information from the predetermined number of unit portions of the one or more media encoded streams, reconstructing the predetermined information based on the order information, and the reconstructed predetermined information
  • a receiving apparatus further comprising a control unit that controls information processing using the.
  • the stream receiver The receiving device according to (15), wherein the one or more media encoded streams are received from an external device via a digital interface.
  • each divided portion of the predetermined information is extracted from a predetermined number of unit portions of the one or more media encoded streams based on the identification information (15) or (16) The receiving device described in 1.
  • the receiver includes a stream receiving step of receiving one or more media encoded streams, Each division part obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit parts of the one or more media coded streams with order information for reconstruction added, A data configuration step of extracting each divided portion of the predetermined information from the predetermined number of unit portions of the one or more media encoded streams, and reconstructing the predetermined information based on the order information; A receiving method further comprising an information processing step for performing information processing using the reconfigured predetermined information.
  • a receiving unit that receives a container of a predetermined format including one or more media encoded streams, Each divided part obtained by dividing predetermined information is sequentially inserted into a predetermined number of unit parts of the one or more media encoded streams, with order information for reconstruction being added, In the container, identification information indicating that there is an insertion of a divided portion of the predetermined information corresponding to each of the one or more media encoded streams is inserted,
  • a receiving apparatus further comprising: a transmitting unit configured to transmit the one or more media encoded streams having the insertion of a divided portion of the predetermined information based on the identification information to the external device via a digital interface.
  • the main feature of the present technology is that media is transmitted by inserting each divided portion obtained by dividing predetermined information into a predetermined number of unit portions of a media encoded stream so that the bit rate is within the predetermined bit rate and transmitting the media. That is, it is possible to satisfactorily perform transmission by inserting predetermined information into the encoded stream (see FIGS. 2, 4, and 6).
  • Video decoder 315 HDMI terminal 316: HDMI receiving unit 317: Video processing circuit 318 ... Panel drive circuit 319 ... Display panel 320 ... Audio decoder 321 ... Audio processing circuit 322 ... Audio amplifier circuit 323... Speaker 351-1, 351-2... Extractor 352-1, 352-2... Decoder 353 .. data reassembler 400.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得るようにする。 メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する。この場合、所定情報のビットレートが所定ビットレートに収まるように、所定情報を分割する。所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する。

Description

送信装置、送信方法、受信装置および受信方法
 本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオ、オーディオなどのメディア符号化ストリームに所定情報を挿入して送信する送信装置等に関する。
 例えば、特許文献1には、放送局、配信サーバ等から所定情報をオーディオ圧縮データストリームに挿入して送信し、受信側のセットトップボックスがこのオーディオ圧縮データストリームをそのままHDMIのデジタルインタフェースを介してテレビ受信機に送信し、テレビ受信機が当該所定情報を利用した情報処理を行うことが提案されている。
特開2012-010311号公報
 本技術の目的は、メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得るようにすることにある。
 本技術の概念は、
 メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
 上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
 上記情報挿入部は、
 上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
 送信装置にある。
 本技術において、情報挿入部により、メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が順次挿入される。各分割部分には、再構成のための順番情報が付加される。この場合、この所定情報のビットレートが所定ビットレートに収まるように分割される。そして、送信部により、所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナが送信される。
 例えば、情報挿入部は、所定の情報を、各分割部分のデータサイズが固定サイズとなるように分割する、ようにされてもよい。この場合、例えば、情報挿入部は、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する単位部分の数で割ることにより固定サイズを算出する、ようにされてもよい。
 また、例えば、情報挿入部は、所定情報を、分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する、ようにされてもよい。この場合、例えば、情報挿入部は、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する単位部分の数で割って得られた第1のサイズと、メディア符号化ストリームのビットレートを1秒間で発生する単位部分の数で割って得られた第2のサイズとを加算することで固定サイズを算出する、ようにされてもよい。また、ターゲットビットレート、そして、挿入するデータのメディア符号化に対するビットレート比を受信機側が認識できるよう、識別情報として伝送するようにしてもよい。
 このように本技術においては、メディア符号化ストリームの所定数の単位部分にビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信するものである。そのため、メディア符号化ストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得る。
 なお、本技術において、例えば、情報挿入部は、1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、1つ以上のメディア符号化ストリームの所定数の単位部分に挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別するための識別情報を付加する、ようにされてもよい。所定情報を分割して得た各分割部分を多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。
 この場合、例えば、コンテナに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。そして、この場合、識別情報挿入部は、コンテナに、1つ以上の上記メディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報をさらに挿入する、ようにされてもよい。
 また、本技術の他の概念は、
 1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
 上記所定情報の分割部分が挿入された上記1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
 送信装置にある。
 本技術において、1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が順次挿入される。各分割部分には、再構成のための順番情報が付加される。送信部により、所定情報の分割部分が挿入された1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナが送信される。
 このように本技術においては、1つ以上のメディア符号化ストリームの所定数の単位部分に所定情報を分割して得た各分割部分を挿入して送信するものである。そのため、多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。
 なお、本技術において、例えば、情報挿入部は、1つ以上のメディア符号化ストリームにそれぞれ挿入される各分割部分に、他の上記メディアストリームへの分割部分の挿入があるか識別する識別情報を付加する、ようにされてもよい。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。
 また、本技術において、例えば、コンテナに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。そして、この場合、識別情報挿入部は、コンテナに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報をさらに挿入する、ようにされてもよい。
 また、本技術の他の概念は、
 1つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
 上記1つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
 受信装置にある。
 本技術において、受信部により、1つ以上のメディア符号化ストリームが受信される。例えば、ストリーム受信部は、1つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する、ようにされてもよい。
 1つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分が取り出され、順番情報に基づいて、所定情報が再構成される。そして、再構成された所定情報を利用した情報処理が行われる。
 例えば、1つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別するための識別情報が付加されており、所定情報を再構成する処理では、識別情報に基づいて、1つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分を取り出す、ようにされてもよい。
 このように本技術においては、1つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分を取り出して順番情報に基づいて再構成し、この再構成された所定情報を利用した情報処理を行うものである。そのため、所定情報の再構成を適切に行うことができ、情報処理を良好に行い得る。
 また、本技術の他の概念は、
 1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
 上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
 上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記1つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
 受信装置にある。
 本技術において、受信部により、1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナが受信される。1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されている。また、コンテナに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報が挿入されている。送信部により、識別情報に基づいて、所定情報の分割部分の挿入がある1つ以上のメディア符号化ストリームが、外部機器に、デジタルインタフェースを介して送信される。
 このように本技術においては、コンテナに挿入されている識別情報に基づいて、所定情報の分割部分の挿入がある1つ以上のメディア符号化ストリームを外部機器にデジタルインタフェースを介して送信するものである。そのため、外部機器では、1つ以上のメディア符号化ストリームから所定情報の各分割部分の全てを取り出し、所定情報を再構成して利用することが可能となる。
 本技術によれば、メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 放送送出装置が備えるストリーム生成部の構成例を示すブロック図である。 所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示すフローチャートである。 挿入データDTの分割の一例と、各分割部分f(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。 所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示すフローチャートである。 挿入データDTの分割の一例と、各分割部分f(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。 MPEG-H 3D Audioの伝送データにおけるオーディオフレームの構造例を示す図である。 パケットタイプとその値の対応関係を示す図である。 ジェネリックデータ(generic_data)をMETADATAパケットに配置するために用いるエントリの構造例を示す図である。 ジェネリックデータ(generic_data)の構造例を示す図である。 ジェネリックデータ(generic_data)の構造例における主要な情報の内容を示す図である。 タイムインフォメーション(time_information)の構造例を示す図である。 タイムインフォメーション(time_information)の構造例における主要な情報の内容を示す図である。 データコンテナ・デスクリプタ(data_container descriptor)の構造例を示す図である。 データコンテナ・デスクリプタ(data_container descriptor)の構造例における主要な情報の内容を示す図である。 放送送出装置が備えるストリーム生成部の他の構成例を示すブロック図である。 挿入データDTの分割の一例と、各分割部分f(i)を2つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。 挿入データDTの分割の一例と、各分割部分f(i)を2つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。 コンテナ対象データが、複数のジェネリックデータ(generic_data)で伝送される場合の例を示す図である。 コンテナ対象データが、1つのジェネリックデータ(generic_data)で伝送される場合の例を示す図である。 複数のコンテナ対象データが、複数のジェネリックデータ(generic_data)で伝送される場合の例を示す図である。 複数のコンテナ対象データの実行が、それに付加されている時刻情報に基づいて、オーディオ PTSとは独立して、管理される例を示す図である。 受信側におけるコンテナ対象データ(所定情報)の実行が、オーディオタイムスタンプ非依存で行い得ることを示す図である。 複数のコンテナ対象データが、それに付加されている時刻情報に基づいて同期管理される具体例を示す図である。 トランスポートストリームTSの構造例を示す図である。 セットトップボックスの構成例を示すブロック図である。 テレビ受信機の構成例を示すブロック図である。 オーディオデコーダの構成例を示すブロック図である。 1つのオーディオストリームAS1に対するエクストラクタの処理例を概略的に示す図である。 2つのオーディオストリームAS1,AS2に対するエクストラクタの処理例を概略的に示す図である。 セットトップボックスのHDMI送信部とテレビ受信機のHDM受信部の構成例を示すブロック図である。 TMDSチャネルにおいて、横×縦が1920ピクセル×1080ラインの画像データが伝送される場合の、各種の伝送データの区間を示す図である。 セットトップボックスおよびテレビ受信機におけるネゴシエーションを伴った動作の一例を示す図である。 放送送出装置が備えるストリーム生成部の他の構成例を示すブロック図である。 トランスポートストリームTSの他の構造例を示す図である。 AC4のシンプルトランスポート(Simple Transport)のレイヤの構造を示す図である。 TOC(ac4_toc())およびサブストリーム(ac4_substream_data())の概略構成を示す図である。 MMTのトランスポートストリームの構造例を示す図である。 MMTのトランスポートストリームの他の構造例を示す図である。 オーディオ圧縮フォーマットがMPEG-H 3D AudioあるいはAC4である場合におけるオーディオトラック(トラックA)のデータを含むMP4ストリーム(ファイル)の構成例を示す図である。 データ挿入ストリームが2つのオーディオストリームである場合におけるMPDファイル記述例を示す図である。 データ挿入ストリームがオーディオストリームとビデオストリームである場合におけるMPDファイル記述例を示す図である。 MPDファイル記述例における主要な情報の内容を示す図である。 送受信システムの他の構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [送受信システムの構成例]
 図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、放送送出装置100と、セットトップボックス(STB)200と、テレビ受信機(TV)300を有している。セットトップボックス200とテレビ受信機300は、HDMIケーブル400を介して接続されている。この場合、セットトップボックス200がソースで、テレビ受信機300はディスティネーションである。なお、「HDMI」は登録商標である。
 放送送出装置100は、コンテナ(多重化ストリーム)としてのMPEG-2 トランスポートストリーム(以下、単に、「トランスポートストリームTS」と称する)を、放送波に載せて送信する。このトランスポートストリームTSには、メディア符号化ストリームとしてのビデオストリームおよびオーディオストリームが含まれる。
 また、放送送出装置100は、1つ以上のメディア符号化ストリーム、この実施の形態においては1つ以上のオーディオストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して、順次挿入する。なお、所定数は1を含むものとする。所定数が1であるとき、所定情報は、実際には分割されず、その全体が1つの単位部分に挿入される。所定情報は、ネットワークアクセス情報、コマンド情報、メディアファイルなどである。所定情報を分割して得た各分割部分を多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。
 ここで、単位部分は、例えば、アクセスユニットである。このアクセスユニットは、メディア符号化ストリームがオーディオストリームである場合は所定数のオーディオサンプルデータを束ねたオーディオフレームを意味し、メディア符号化ストリームがビデオストリームである場合はピクチャを意味する。
 また、放送送出装置100は、所定情報のビットレートが所定ビットレートに収まるように、所定情報を分割する。このように分割することで、メディア符号化ストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得る。
 例えば、所定情報は、各分割部分のデータサイズが固定サイズとなるように分割される。この場合、例えば、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する単位部分の数で割ることにより、固定サイズが算出される。
 また、例えば、所定情報は、分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割される。このとき、各分割部分のデータサイズは変動したものとなる。この場合、例えば、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する単位部分の数で割って得られた第1のサイズと、メディア符号化ストリームのビットレートを1秒間で発生する単位部分の数で割って得られた第2のサイズとを加算することで、固定サイズが算出される。
 また、放送送出装置100は、1つ以上のメディア符号化ストリームの所定数の単位部分に挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別する識別情報を付加する。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。
 また、放送送出装置100は、コンテナとしてのトランスポートストリームTSに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する。このように識別情報を挿入することで、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。
 また、放送送出装置100は、コンテナとしてのトランスポートストリームTSに、1つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報を挿入する。
 セットトップボックス200は、放送送出装置100から放送波に載せて送信されてくるトランスポートストリームTSを受信する。このトランスポートストリームTSには、上述したように、メディア符号化ストリーム(ビデオストリーム、オーディオストリーム)が含まれている。そして、この実施の形態においては、1つ以上のオーディオストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて、順次挿入されている。
 セットトップボックス200は、受信されたビデオストリームにデコード処理を施して得られた非圧縮のビデオデータと共に、受信された1つ以上のオーディオストリームそのものを、HDMIケーブル400を介して、テレビ受信機300に送信する。上述したように、トランスポートストリームTSには、1つ以上のオーディオストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報が挿入されている。
 セットトップボックス200は、この識別情報に基づいて、所定情報の分割部分の挿入がある1つ以上のオーディオストリームの全てをテレビ受信機300に送信する。セットトップボックス200は、テレビ受信機300が1つ以上のオーディオストリームのうちの一部のデコード能力しか持たない場合であっても、その一部のオーディオストリームだけではなく所定情報の分割部分の挿入がある1つ以上のオーディオストリームの全てをテレビ受信機300に送信する。これにより、テレビ受信機300では、1つ以上のメディア符号化ストリームから所定情報の各分割部分の全てを取り出し、所定情報を再構成して利用することが可能となる。
 テレビ受信機300は、セットトップボックス200から、HDMIケーブル400を介して、非圧縮のビデオデータと共に、所定情報の分割部分の挿入がある1つ以上のオーディオストリームを受信する。テレビ受信機300は、非圧縮のビデオデータによる画像を表示する。また、テレビ受信機300は、デコード能力に応じて、1つ以上のオーディオストリームの全部または一部にデコード処理を行って非圧縮のオーディオデータを得て、それによる音声を出力する。
 また、テレビ受信機300は、1つ以上のオーディオストリームから所定情報の分割部分を取り出し、順番情報に基づいて所定情報を再構成する。そして、テレビ受信機300は、再構成された所定情報を利用した情報処理、例えば、メディアアクセス情報によってメディアデータを取得し、そのメディアデータによる画像表示、音声出力をする処理などを行う。
 [放送送出装置のストリーム生成部]
 図2は、放送送出装置100が備えるストリーム生成部110Aの構成例を示している。このストリーム生成部110Aでは、1つのオーディオストリームが生成され、その所定数のオーディオフレームに、所定情報(挿入データ)を分割して得た各分割部分が挿入される。このストリーム生成部110Aは、CPU111と、ビデオエンコーダ112と、オーディオエンコーダ113と、スプリッタ114と、インサータ115と、マルチプレクサ116を有している。なお、スプリッタ114やインサータ115は、オーディオエンコーダ113あるいはCPU111の一部として含まれる構成であってもよい。
 CPU111は、ストリーム生成部110Aの各部を制御する。ビデオエンコーダ112は、ビデオデータ(画像データ)SVに対して、MPEG2、H.264/AVC、H.265/HEVCなどの符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。ビデオデータSVは、例えば、HDD(hard disk drive)などの記録媒体から再生されたビデオデータ、あるいはビデオカメラで得られたライブビデオデータなどである。
 オーディオエンコーダ113は、オーディオデータ(音声データ)SAに対して、MPEG-H 3D Audioの圧縮フォーマットによる符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。オーディオデータSAは、上述のビデオデータSVに対応しており、HDDなどの記録媒体から再生されたオーディオデータ、あるいはマイクロホンで得られたライブオーディオデータなどである。
 スプリッタ114は、所定情報を構成する挿入データDTを分割して、所定数の分割部分f(i)を得る。インサータ115は、オーディオストリームの所定数のオーディオフレームに、スプリッタ114で分割されて得られた所定数の分割部分を、再構成のための順番情報を付加して、順次挿入する。この順番情報には、例えば、最初の分割部分であるか、最後の分割部分であるか、何番目の分割部分であるかなどの情報が含まれる。
 スプリッタ114は、この挿入データDTのビットレートが所定ビットレート、ここでは許容ビットレートに収まるように、分割する。
 この場合、スプリッタ114は、例えば、以下の(1)または(2)の方法で、挿入データDTを分割する。
 (1)挿入データDTを各分割部分のデータサイズが固定サイズとなるように分割する。
 (2)挿入データDTを各分割部分が挿入されたオーディオフレームのデータサイズが固定サイズとなるように分割する。
 (1)の方法で分割する場合について説明する。この場合、スプリッタ114は、CPU111が指定するターゲットビットレートTRからオーディオエンコーダ113で生成されるオーディオストリームR_EM1から認識されるオーディオストリームのビットレートCRを差し引いて許容ビットレートAVR(=TR-CR)を算出する。なお、許容ビットレートAVRはオーディオ符号化ストリームのビットレートとの割合が指定されて算出されてもよいし、あるいは、許容ビットレートAVR自体が指定されてもよい。
 そして、スプリッタ114は、以下の数式(1)により、許容ビットレートAVRを1秒間で発生するオーディオフレームの数AU_frecで割って、固定サイズAISを算出する。なお、数式(1)で求められる固定サイズの単位はバイトである。
  AIS=AVR/8/AU_frec   ・・・(1)
 図3のフローチャートは、(1)の方法で分割する場合における、所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示している。スプリッタ114は、ステップST1において、処理を開始する。そして、スプリッタ114は、ステップST2において、i=0とし、さらに、ステップST3において、ISS(i)=AISとし、その後にステップST4の処理に移る。
 このステップST4において、スプリッタ114は、挿入データDTの残りサイズNがISS(i)以下であるか否かを判断する。この残りサイズNの最初は、挿入データDTのサイズN_Originに一致する。NがISS(i)以下でないとき、スプリッタ114は、ステップST5において、i番目のオーディオフレームに挿入すべき分割部分f(i)のサイズをISS(i)とする。
 次に、スプリッタ114は、ステップST6において、N=N-ISS(i)とし、さらに、ステップST7において、i=i+1として、ステップST3の処理に戻り、次のオーディオストリームに挿入すべき分割部分f(i)のサイズを決定する処理に移る。
 ステップST4において、NがISS(i)以下であるとき、スプリッタ114は、ステップST8において、i番目のオーディオフレームに挿入すべき分割部分f(i)のサイズをNとする。このステップST8の処理の後、スプリッタ114は、ステップST9において、処理を終了する。
 図4は、(1)の方法で分割した場合における挿入データDTの分割の一例と、各分割部分f(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データDTがf0、f1、f2、f3、f4、f5の6つの分割部分に分割され、それぞれが、オーディオストリームのA0,A1,A2,A3,A4,A5のオーディオフレームに挿入されている。
 この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。なお、“ACS”は、後述するが、オーディオストリームのビットレートCRを1秒間で発生するオーディオフレームの数AU_frecで割って得られたデータサイズ、つまりオーディオストリームの各オーディオフレームの平均データサイズを示している。
 次に、(2)の方法で分割する場合について説明する。この場合、スプリッタ114は、CPU111が指定するターゲットビットレートTRからオーディオエンコーダ113で生成されるオーディオストリームR_EM1から認識されるオーディオストリームのビットレートCRを差し引いて許容ビットレートAVR(=TR-CR)を算出する。そして、スプリッタ114は、上述の数式(1)により、許容ビットレートAVRを1秒間で発生するオーディオフレームの数AU_frecで割って、第1のサイズAISを算出する。
 また、スプリッタ114は、以下の数式(2)により、オーディオストリームのビットレートCRを1秒間で発生するオーディオフレームの数AU_frecで割って、第2のサイズACSを算出する。この第2のサイズは、オーディオストリームの各オーディオフレームの平均データサイズを示す。そして、スプリッタ114は、第1のサイズAISと第2のサイズACSを加算して、固定サイズを算出する。
  ACS=CR/8/AU_frec   ・・・(2)
 図5は、(2)の方法で分割する場合における、所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示している。スプリッタ114は、ステップST11において、処理を開始する。そして、スプリッタ114は、ステップST12において、i=0とし、さらに、ステップST13において、ISS(i)=(ACS+AIS)-AU(i)とし、その後にステップST14の処理に移る。ここで、AU(i)は、挿入データDTの分割部分を挿入するi番目のオーディオフレームのデータサイズである。
 ステップST14において、スプリッタ114は、ISS(i)が、図10に示すsyntaxのheader に相当するバイト数(HDB)より大きいか否かを判断する。ISS(i)がHDB以下であるとき、スプリッタ114は、ステップST15において、i番目のオーディオフレームに挿入すべき分割部分f(i)のサイズを0とする。スプリッタ114は、ステップST15の処理の後、ステップST16でi=i+1として、ステップST13の処理に戻り、次のオーディオストリームに挿入すべき分割部分f(i)のサイズを決定する処理に移る。
 ステップST14でISS(i)がHDBより大きいとき、スプリッタ114は、ステップST17において、挿入データDTの残りサイズNがISS(i)以下であるか否かを判断する。この残りサイズNの最初は、挿入データDTのサイズN_Originに一致する。NがISS(i)以下でないとき、スプリッタ114は、ステップST18において、i番目のオーディオフレームに挿入すべき分割部分f(i)のサイズをISS(i)とする。
 次に、スプリッタ114は、ステップST19において、N=N-ISS(i)とし、さらに、ステップST16において、i=i+1として、ステップST13の処理に戻り、次のオーディオストリームに挿入すべき分割部分f(i)のサイズを決定する処理に移る。
 ステップST17において、NがISS(i)以下であるとき、スプリッタ114は、ステップST20において、i番目のオーディオフレームに挿入すべき分割部分f(i)のサイズをNとする。このステップST20の処理の後、スプリッタ114は、ステップST21において、処理を終了する。
 図6は、(2)の方法で分割した場合における挿入データDTの分割の一例と、各分割部分f(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データDTがf0、f1、f2、f3、f4、f5の6つの分割部分に分割され、それぞれが、オーディオストリームのA0,A1,A2,A3,A4,A5のオーディオフレームに挿入されている。
 この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データDTの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。なお、図示の例においては、挿入データDTの最後の分割部分が挿入されるオーディオフレームについても、(ACS+AIS)の一定のデータサイズとなっている。
 図7は、MPEG-H 3D Audioの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のMPEGオーディオストリームパケット(mpeg Audio Stream Packet)からなっている。各MPEGオーディオストリームパケットは、ヘッダ(Header)とペイロード(Payload)により構成されている。
 ヘッダは、パケットタイプ(Packet Type)、パケットラベル(Packet Label)、パケットレングス(Packet Length)などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“SYNC”と、3Dオーディオの伝送データの実際のデータである“Frame”と、この“Frame”の構成を示す“Config”が存在する。
 “Frame”には、3Dオーディオの伝送データを構成するチャネル符号化データやオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、SCE(Single Channel Element)、CPE(Channel Pair Element)、LFE(Low Frequency Element)などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、SCE(Single Channel Element)の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント(Ext_element)として含まれる。
 この実施の形態では、“SYNC”、“Config”、“Frame”などと同様に、パケットタイプ(Packet Type)により“Metadata”が指定されるものとし、そのパケットにおいて、所定情報の分割部分を持つジェネリックデータ(generic_data)を新たに定義する。
 図8は、パケットタイプ(Packet Type)の値で識別するパケットの種別を示している。「0」として“FILLDATA”、「1」として“MPEGH3DACFG”、「2」として“MPEGH3DAFRAME”、「6」として“SYNC”などが定義されている。これに例えば「128」として“METADATA”を定義することが可能である。
 メタデータのパケットのフォーマットは、例えば、図9に構造例を示すエントリを用いて配置される。具体的には、ジェネリックデータ(generic_data)は、「itu_t_t135_payload_byte」のフィールドに、配置される。
 図10はジェネリックデータ(generic_data)の構造例(syntax)を示し、図11はその構造例における主要な情報の内容(semantics)を示している。「start_flag」の1ビットフィールドは、コンテナ対象データ(所定情報=挿入データDT)の開始か否か、つまり挿入分割部分にコンテナ対象データの最初のバイトを含むか否かを示す。「end_flag」の1ビットフィールドは、コンテナ対象データの終了か否か、つまり挿入分割部分にコンテナ対象データの最後のバイトを含むか否かを示す。
 「joint_delivery_flag」の1ビットフィールドは、分割されたコンテナ対象データ(分割部分)が複数のメディア符号化ストリームに挿入されるか否か、つまり他のメディア符号化ストリームにも分割部分の挿入があるか否かを示す。「fcounter」の13ビットフィールドは、分割されたコンテナ対象データ(挿入分割部分)の分割位置を昇順のカウント数で示す。この「fcounter」は、上述した「start_flag」、「end_flag」と共に、分割部分の順番情報を構成している。「data_id」の8ビットフィールドは、コンテナ対象データのIDを示す。「payload_length」の8ビットフィールドは、ペイロードのサイズをバイト数で示す。
 「start_flag」が“1”であって、コンテナ対象データの開始であるとき、「data_type」の8ビットフィールド、「payload_identifier」の8ビットフィールド、「target_data_size」の16ビットフィールドが存在する。「data_type」は、データの種別を示す。例えば、“0x01”はネットワークアクセスの用途向けであることを示す。「payload_identifier」は、コンテナ対象データの種類を示す。例えば、“0x01”はURLデータであることを示し、“0x02”はタイムスタンプであることを示す。「target_data_size」は、コンテナ対象データのサイズを示す。「data_payload_byte」のフィールドは、コンテナ対象データの配置領域を示す。この配置領域に、コンテナ対象データの分割部分が配置される。
 図12は、「payload_identifier」が“0x02”である場合におけるコンテナ対象データである、タイムインフォメーション(time_information)の構造例(syntax)を示し、図13はその構造例における主要な情報の内容(semantics)を示している。
 「absolute_time_flag」の1ビットフィールドは、実行時刻がUTC絶対時刻であるか基準時刻からの差分値であるかを示す。“1”は、UTC絶対時刻であることを示す。“0”は、基準時刻からの差分値であることを示す。
 「absolute_time_flag」が“1”であるとき、「exec_time_msw」の32ビットフィールドと、「exec_time_1sw」の32ビットフィールドが存在する。「exec_time_msw」のフィールドは、データの実行時刻であるUTC絶対時刻の上位32ビットを示し、「exec_time_1sw」のフィールドは、その下位32ビットを示す。
 「absolute_time_flag」が“0”であるとき、「reference_UTC_msw」の32ビットフィールドと、「reference_UTC_lsw」の32ビットフィールドと、「offset_exec_time_msw」の32ビットフィールドと、「offset_exec_time_1sw」の32ビットフィールドが存在する。「reference_UTC_msw」のフィールドは、基準時刻の上位32ビットを示し、「reference_UTC_lsw」のフィールドは、基準時刻の下位32ビットを示す。「offset_exec_time_msw」のフィールドは、データの実行時刻である基準時刻からの差分値の上位32ビットを示し、「offset_exec_time_1sw」のフィールドは、その下位32ビットを示す。
 図2に戻って、マルチプレクサ116は、ビデオエンコーダ112から出力されるビデオストリームと、インサータ115から出力される、所定情報(挿入データDT)の各分割部分が挿入されたオーディオストリームとを、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
 また、マルチプレクサ114は、トランスポートストリームTSに、オーディオストリームに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル(PMT)の配下のオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ(data_container descriptor)を挿入する。
 図14は、データコンテナ・デスクリプタの構造例(Syntax)を示している。また、図15は、その構造例における主要な情報の内容(Semantics)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、データコンテナ・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
 「data_insertion_flag」の1ビットフィールドは、当該ストリーム内に所定情報の挿入があるか示す。“1”は挿入があることを示し、“0”は挿入がないことを示す。「joint_stream_delivery_flag」の1ビットフィールドは、コンテンツ対象データ(所定情報)の挿入が、当該ストリームに加え、他のストリームにもあるか示す。“1”は他のストリームにもデータ挿入があることを示し、“0”は他のストリームにはデータ挿入がないことを示す。
 「media_stream_id」の6ビットフィールドは、当該ストリームの識別番号を示す。「joint_stream_delivery_flag」が“1”であるとき、「number_of_joint_streams」の8ビットフィールドが存在する。このフィールドは、コンテンツ対象データ(所定情報)が挿入されている他のストリームの数(1以上)を示す。この数だけ、「media_stream_id」の8ビットフィールド、「data_bitrate」の8ビットフィールド、「data_insertion_ratio」の8ビットフィールドが存在する。「media_stream_id」のフィールドは、ストリームの識別番号を示す。「data_bitrate」のフィールドは、データ挿入後のビットレート(ターゲットビットレート)を1000bps単位の値で示す。「data_insertion_ratio」のフィールドは、メディア符号化ストリームのビットレート(CR:compressed media_data_bitrate)を基準とした、挿入データのビットレート(AVR:inserted_data_bitrate)の割合(Ratio)を示す。その場合、割合の算出は次式のようなものになる。
    Ratio = inserted_data_bitrate / compressed media_data_bitrate
 図2に示すストリーム生成部110Aの動作を簡単に説明する。ビデオデータSVはビデオエンコーダ112に供給される。このビデオエンコーダ112では、ビデオデータSVに対してH.264/AVC、H.265/HEVCなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。
 また、オーディオデータSAは、オーディオエンコーダ113に供給される。このオーディオエンコーダ113では、そのオーディオデータSAに対して、MPEG-H 3D Audioの圧縮フォーマットによる符号化が施され、オーディオストリームR_EM1が生成される。
 また、所定情報としての挿入データDTは、スプリッタ114に供給される。このスプリッタ114では、挿入データDTが分割されて、所定数の分割部分f(i)が得られる。この場合、挿入データDTのビットレートが許容ビットレートAVRに収まるように分割される。この許容ビットレートAVRは、CPU111から指定されるターゲットビットレートTRからオーディオストリームR_EM1のビットレートCRを差し引くことで算出される。
 オーディオエンコーダ113で得られたオーディオストリームR_EM1はインサータ115に供給され、さらにこのインサータ115にスプリッタ114で得られた挿入データDTの所定数の分割部分f(i)が供給される。このインサータ115では、オーディオストリームの所定数のオーディオフレームに、挿入データDTの所定数の分割部分f(i)が、再構成のための順番情報が付加されて、順次挿入される。
 ビデオエンコーダ112で生成されたビデオストリームは、マルチプレクサ116に供給される。また、このマルチプレクサ116に、インサータ115で挿入データDTが挿入されたオーディオストリームが供給される。このマルチプレクサ116では、各ストリームがパケット化されて多重され、伝送データとしてトランスポートストリームTSが得られる。
 また、デスクリプタ116では、プログラムマップテーブル(PMT)の配下のオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ(図14参照)が挿入される。このデスクリプタには、対応するオーディオストリームに所定情報(挿入データDT)の挿入があることを示す識別情報などが含まれている。
 図16は、放送送出装置100が備えるストリーム生成部110Bの構成例を示している。このストリーム生成部110Bでは、2つのオーディオストリームが生成され、その所定数のオーディオフレームに、所定情報(挿入データ)を分割して得た各分割部分が挿入される。この図16において、図2と対応する部分には、同一符号を付して示している。
 このストリーム生成部110Bは、CPU111と、ビデオエンコーダ112と、オーディオエンコーダ113-1,113-2と、スプリッタ114と、インサータ115-1,115-2と、マルチプレクサ116を有している。なお、スプリッタ114やインサータ115-1,115-2は、オーディオエンコーダ113-1,113-2あるいはCPU111の一部として含まれる構成であってもよい。
 CPU111は、ストリーム生成部110Bの各部を制御する。ビデオエンコーダ112は、ビデオデータSVに対して、MPEG2、H.264/AVC、H.265/HEVCなどの符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。ビデオデータSVは、例えば、HDD(hard disk drive)などの記録媒体から再生されたビデオデータ、あるいはビデオカメラで得られたライブビデオデータなどである。
 オーディオエンコーダ113-1,113-2は、それぞれ、オーディオデータSA1,SA2に対して、MPEG-H 3D Audioの圧縮フォーマットによる符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。オーディオデータSA1,SA2の組み合わせとしては種々が考えられる。
 例えば、オーディオデータSA1はチャネルデータであり、オーディオデータSA2はオブジェクトデータである。また、例えば、オーディオデータSA1はステレオデータであり、オーディオデータSA2はその他のチャネルのデータである。オーディオデータSA1,SA2は、上述のビデオデータSVに対応しており、HDDなどの記録媒体から再生されたオーディオデータ、あるいはマイクロホンで得られたライブオーディオデータなどである。
 スプリッタ114は、詳細説明は省略するが、図2のストリーム生成部100Aのスプリッタ114と同様にして、所定情報を構成する挿入データDTを分割して、所定数の分割部分f(i)を得る。この場合、それぞれのオーディオストリームに挿入される挿入データDTのビットレートが許容ビットレートに収まるように、上述の(1)または(2)の方法で分割される。
 インサータ115-1,115-2は、それぞれ、詳細説明は省略するが、図2のストリーム生成部100Aにおけるインサータ115と同様にして、オーディオエンコーダ113-1,113-2で生成されたオーディオストリームR_EM1,R_EM2の所定数のオーディオフレームに、スプリッタ114で分割されて得られた所定数の分割部分f(i)を、再構成のための順番情報を付加して、順次挿入する。
 図17は、(1)の方法で分割した場合における挿入データDTの分割の一例と、各分割部分f(i)を2つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データDTがf0、f1、f2、f3、f4、f5の6つの分割部分に分割されている。
 そして、f0、f2、f4の3つの分割部分が、それぞれオーディオエンコーダ113-1で生成されたオーディオストリームR_EM1のA0,A1,A2のオーディオフレームに挿入されている。また、f1、f3、f5の3つの分割部分が、それぞれオーディオエンコーダ113-2で生成されたオーディオストリームR_EM2のB0,B1,B2のオーディオフレームに挿入されている。
 ここで、スプリッタ114は、CPU111から指定されるターゲットビットレートTR1からオーディオストリームR_EM1のビットレートCR1を差し引いて許容ビットレートAVR1を算出する。そして、スプリッタ114は、この許容ビットレートAVR1を1秒間で発生するオーディオフレームの数AU_frecで割って、固定サイズAIS1、つまりf0、f2、f4のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。
 また、スプリッタ114は、CPU111から指定されるターゲットビットレートTR2からオーディオストリームR_EM2のビットレートCR2を差し引いて許容ビットレートAVR2を算出する。そして、スプリッタ114は、この許容ビットレートAVR2を1秒間で発生するオーディオフレームの数AU_frecで割って、固定サイズAIS2、つまりf0、f2、f4のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。
 図18は、(2)の方法で分割した場合における挿入データDTの分割の一例と、各分割部分f(i)を2つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データDTがf0、f1、f2、f3、f4、f5の6つの分割部分に分割されている。
 そして、f0、f2、f4の3つの分割部分が、それぞれオーディオエンコーダ113-1で生成されたオーディオストリームR_EM1のA0,A1,A2のオーディオフレームに挿入されている。また、f1、f3、f5の3つの分割部分が、それぞれオーディオエンコーダ113-2で生成されたオーディオストリームR_EM2のB0,B1,B2のオーディオフレームに挿入されている。
 ここで、スプリッタ114は、CPU111から指定されるターゲットビットレートTR1からオーディオストリームR_EM1のビットレートCR1を差し引いて許容ビットレートAVR1を算出する。そして、スプリッタ114は、この許容ビットレートAVR1を1秒間で発生するオーディオフレームの数AU_frecで割って第1のサイズAIS1を算出する。また、スプリッタ114は、オーディオストリームR_EM1のビットレートCR1を1秒間で発生するオーディオフレームの数AU_frecで割って、第2のサイズACS1を算出する。
 スプリッタ114は、第1のサイズAIS1と第2のサイズACS1を加算して固定サイズ(AIS1+ACS1)を求め、この固定サイズから挿入先のオーディオフレームのデータサイズを差し引いて、f0、f2、f4のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データDTの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。
 また、スプリッタ114は、CPU111から指定されるターゲットビットレートTR2からオーディオストリームR_EM2のビットレートCR2を差し引いて許容ビットレートAVR2を算出する。そして、スプリッタ114は、この許容ビットレートAVR2を1秒間で発生するオーディオフレームの数AU_frecで割って、第1のサイズAIS2を算出する。また、スプリッタ114は、オーディオストリームR_EM2のビットレートCR2を1秒間で発生するオーディオフレームの数AU_frecで割って、第2のサイズACS2を算出する。
 スプリッタ114は、第1のサイズAIS2と第2のサイズACS2を加算して固定サイズ(AIS2+ACS2)を求め、この固定サイズから挿入先のオーディオフレームのデータサイズを差し引いて、f1、f3、f5のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データDTの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。
 なお、AIS1,ACS1,AIS2,ACS2は、それぞれ、以下の数式(4)、(5)、(6)、(7)で算出される。
  AIS1=AVR1/8/AU_frec   ・・・(4)
  ACS1=CR1/8/AU_frec   ・・・(5)
  AIS2=AVR2/8/AU_frec   ・・・(6)
  ACS2=CR1/8/AU_frec   ・・・(7)
 図16に戻って、マルチプレクサ116は、ビデオエンコーダ112から出力されるビデオストリームと、インサータ115-1,115-2から出力される、所定情報(挿入データDT)の各分割部分が挿入された2つのオーディオストリームを、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
 また、マルチプレクサ116は、トランスポートストリームTSに、2つのオーディオストリームに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル(PMT)の配下の2つのオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ(図14参照)を挿入する。
 図16に示すストリーム生成部110Bの動作を簡単に説明する。ビデオデータSVはビデオエンコーダ112に供給される。このビデオエンコーダ112では、ビデオデータSVに対してH.264/AVC、H.265/HEVCなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。
 また、オーディオデータSA1,SA2は、それぞれ、オーディオエンコーダ113-1,113-2に供給される。このオーディオエンコーダ113-1,113-2では、それぞれ、オーディオデータSA1,SA2に対して、MPEG-H 3D Audioの圧縮フォーマットによる符号化が施され、オーディオストリームR_EM1,R_EM2が生成される。
 また、所定情報としての挿入データDTは、スプリッタ114に供給される。このスプリッタ114では、挿入データDTが分割されて、所定数の分割部分f(i)が得られる。この場合、挿入データDTのビットレートが、2つのオーディオストリームR_EM1,R_EM2に関する許容ビットレートAVR1,AVR2に収まるように分割される。許容ビットレートAVR1,AVR2は、それぞれ、CPU111から指定されるターゲットビットレートTR1,TR2からオーディオストリームR_EM1,R_EM2のビットレートCR1,CR2を差し引くことで算出される。
 オーディオエンコーダ113-1,113-2で得られたオーディオストリームR_EM1,R_EM2はインサータ115-1,115-2に供給され、さらにこのインサータ115-1,115-2にスプリッタ114で得られた挿入データDTの所定数の分割部分f(i)が供給される。このインサータ115-1,115-2では、オーディオストリームR_EM1,R_EM2の所定数のオーディオフレームに、挿入データDTの所定数の分割部分f(i)が、再構成のための順番情報が付加されて、順次挿入される。
 ビデオエンコーダ112で生成されたビデオストリームは、マルチプレクサ116に供給される。また、このマルチプレクサ116に、インサータ115-1,115-2で挿入データDTが挿入されたオーディオストリームが供給される。このマルチプレクサ116では、各ストリームがパケット化されて多重され、伝送データとしてトランスポートストリームTSが得られる。
 また、デスクリプタ116では、プログラムマップテーブル(PMT)の配下の2つのオーディオストリームにそれぞれ対応した2つのオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ(図14参照)が挿入される。このデスクリプタには、対応するオーディオストリームに所定情報(挿入データDT)の挿入があることを示す識別情報、所定情報(挿入データDT)の挿入が当該ストリームに加えて他のストリームにもあるかを示す識別情報などが含まれている。
 [コンテナ対象データ(所定の情報)の挿入]
 オーディオストリームへのコンテナ対象データ(所定情報=挿入データDT)の挿入についてさらに説明する。図19は、コンテナ対象データが、複数のジェネリックデータ(generic_data)(図10参照)で伝送される場合の例を示している。
 この場合、コンテナ対象データは複数に分割され、複数の分割部分のそれぞれが複数のジェネリックデータに振り分けられ、「data_payload_byte」のフィールドに挿入される。ここで、最初の分割部分に対応した「start_flag」は“1”とされ、最初の分割部分であることが示される。また、最初の分割部分に対応した「fcounter」は“0” とされる。さらに、この最初の分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。
 2番目以降の分割部分に対応した「start_flag」は“0”とされ、最初の分割部分でないことが示される。2番目以降の分割部分に対応した「fcounter」は順次インクリメントされたカウント数とされる。分割個数がnであるとき、最後の分割部分に対応した「fcounter」は“n-1”となる。最後の分割部分に対応した「end_flag」は“1”とされ、最後の分割部分であることが示される。
 図20は、コンテナ対象データが、1つのジェネリックデータ(generic_data)で伝送される場合の例を示している。この場合、コンテナ対象データは分割されずに、1つのジェネリックデータの「data_payload_byte」のフィールドに挿入される。ここで、「start_flag」は“1”とされ、最初の分割部分であることが示される。また、「end_flag」は“1”とされ、最後の分割部分であることが示される。従って、これらの情報から、分割されていないことが示される。また、この分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。
 図21は、複数のコンテナ対象データが、複数のジェネリックデータ(generic_data)で伝送される場合の例を示している。図示の例は、「data_id」が“0”で示されるコンテナ対象データAと、「data_id」が“1”であるコンテナ対象データBの2つのコンテナ対象データが伝送される場合の例である。
 この場合、コンテナ対象データAは3分割され、3つの分割部分のそれぞれが3つのジェネリックデータに振り分けられ、「data_payload_byte」のフィールドに挿入される。ここで、最初の分割部分に対応した「start_flag」は“1”とされ、最初の分割部分であることが示される。また、最初の分割部分に対応した「fcounter」は“0” とされる。また、この最初の分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。
 2番目の分割部分に対応した「start_flag」は“0”とされ、最初の分割部分でないことが示される。また、2番目の分割部分に対応した「end_flag」は“0”とされ、最後の分割部分でないことが示される。また、2番目の分割部分に対応した「fcounter」は“1”とされる。また、3番目の分割部分に対応した「end_flag」は“1”とされ、最後の分割部分であることが示される。そして、最後の分割部分に対応した「fcounter」は“2”とされる。
 また、コンテナ対象データBは分割されずに、1つのジェネリックデータ(generic_data)の「data_payload_byte」のフィールドに挿入される。ここで、「start_flag」は“1”とされ、最初の分割部分であることが示される。また、「end_flag」は“1”とされ、最後の分割部分であることが示される。従って、これらの情報から、分割されていないことが示される。また、この分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。
 [コンテナ対象データ(所定の情報)の同期管理]
 コンテナ対象データ(所定情報)の同期管理について説明する。図22は、複数のコンテナ対象データの実行が、それに付加されている時刻情報に基づいて、オーディオ PTSとは独立して、管理される例を示している。
 この例では、「data_id」が“1”であるコンテナ対象データはそれに対応した実行時刻(exec_time)のタイミングで実行が開始され、「data_id」が“2”であるコンテナ対象データはそれに対応した実行時刻のタイミングで実行が開始され、さらに、「data_id」が“3”であるコンテナ対象データはそれに対応した実行時刻のタイミングで実行が開始される。
 図23は、受信側におけるコンテナ対象データ(所定情報)の実行が、オーディオタイムスタンプ非依存で行い得ることを示している。この例では、コンテナ対象データが3つ(Data_0-0,Data_0-1,Data_0-2)に分割されて、3つのオーディオフレームに振り分けられて挿入されている。
 また、この例では、コンテナ対象データの実行時刻が基準時刻からの差分値OFSで与えられている場合を示し、この基準時刻が“Audio timestamp(n)”に一致する場合を示している。この“Audio timestamp(n)”は、オーディオフレーム0(Frame 0)がデコードされて得られたオーディオデータ(オーディオサンプル)の出力が開始されるタイミングを示している。この“Audio timestamp(n)”は「UTC値」に対応している。
 3つのオーディオフレームに分割挿入されて伝送されるコンテナ対象データは、基準時刻に差分値OFSが加算された時刻を実行時刻(exec time)として、その実行が開始される。つまり、コンテナ対象データの実行がオーディオタイムスタンプ非依存で行われる。
 ここで、コンテナ対象データが、その中に相対的なタイプスタンプを持つ場合には、実行時刻を基点とした相対時刻による同期管理が行われる。例えば、コンテナ対象データが時間の概念のないMP3のようなメディアファイルである場合には、実行時刻から直ちに再生が開始される。また、例えば、コンテナ対象が相対的なタイムスタンプを持っているMP4のようなメディアファイルである場合には、実行時刻を基点とした再生同期管理が行われる。
 なお、図23の例は、コンテナ対象データの実行時刻が基準時刻からの差分値OFSで与えられる場合を示したが、このコンテナ対象データの実行時刻が、実行時刻(exec time)を示すUTC絶対時刻「UTC´値」で与えられても同様である。つまり、コンテナ対象データに付加する実行時刻を示す時刻情報としては、上述したように、UTC絶対時刻あるいは基準時刻からの差分値が考えられる。
 図24は、複数のコンテナ対象データが、それに付加されている時刻情報に基づいて同期管理される具体例を示している。この例では、「data_id」が“1”であるコンテナ対象データとして、リンクサーバに接続するためのURLの情報と、“Activate”または“Inactivate”などのリンクサーバに対する制御を行うコントロールコード群が伝送される。
 この場合、「exec time1」の実行時刻で、URLによりリンクサーバへの接続が実行さされ、その後、「exec time3」の実行時刻からコントロールコード群により当該リンクサーバに対して“Activate”または“Inactivate”などの制御が実行され、当該リンクサーバからのメディア再生の開始、その終了など行われる。
 また、この例では、「data_id」が“2”であるコンテナ対象データとして、リンクサーバに接続するためのURLの情報と、“Activate”または“Inactivate”などのリンクサーバに対する制御を行うコントロールコード群が伝送される。
 この場合、「exec time2」の実行時刻で、URLによりリンクサーバへの接続が実行さされ、その後、「exec time4」の実行時刻からコントロールコード群により当該リンクサーバに対して“Activate”または“Inactivate”などの制御が実行され、当該リンクサーバからのメディア再生の開始、その終了など行われる。
 また、この例では、「data_id」が“3”であるコンテナ対象データとして、メディアファイルが伝送される。「exec time5」の実行時刻から、メディアファイルの再生が開始される。
 [トランスポートストリームTSの構造例]
 図25は、トランスポートストリームTSの構造例を示している。この構造例は、2つのオーディオストリームが存在し、その2つのオーディオストリームで所定情報をコンテナする場合の例である(図16参照)。この構造例では、ビデオストリームに係る部分は省略されている。
 この構造例では、PID1で識別されるオーディオストリームのPESパケット「Audio PES」が存在すると共に、PID2で識別されるオーディオストリームのPESパケット「Audio PES」が存在する。これらのPESパケットにはオーディオストリーム(Audio coded stream)が挿入される。このオーディオストリームの所定数(1を含む)のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。PSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。
 また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構造例では、2つのオーディオストリームにそれぞれ対応してオーディオエレメンタリストリーム・ループ(Audio ES loop)が存在する。
 各オーディオエレメンタリストリーム・ループ(Audio ES loop)には、それぞれのストリームに対応して、PID(パケット識別子)等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタの1つとして、上述したデータコンテナ・デスクリプタ(data_container descriptor)(図14参照)が配置される。
 また、このオーディオエレメンタリストリーム・ループには、デスクリプタの1つとして、「Component_tag」の情報を持つストリームアイデンチファイア・デスクリプタ(Stream_identifier descriptor)が配置される。また、EIT(Event Information Table)の配下に、コンポーネント・デスクリプタ(Component_descriptor)が配置される。EITには上述したデータコンテナ・デスクリプタ(data_container descriptor)が配置されてもよい。その場合、受信機EPG表示にメタデータの挿入を記す際の識別情報の提供になる。
 このコンポーネント・デスクリプタは、「Component_tag」により上述のPMT配下のオーディオエレメンタリストリーム・ループと関連付けられる。これにより、ある番組のオーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、EPGなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをTV視聴者に知らせることが可能となる。
 [セットトップボックスの構成例]
 図26は、セットトップボックス200の構成例を示している。このセットトップボックス200は、CPU201と、フラッシュROM202と、DRAM203と、内部バス204と、リモコン受信部205と、リモコン送信機206を有している。また、セットトップボックス200は、アンテナ端子211と、デジタルチューナ212と、デマルチプレクサ213と、ビデオデコーダ214と、オーディオフレーミング部215と、HDMI送信部216と、HDMI端子217を有している。
 CPU201は、セットトップボックス200の各部の動作を制御する。フラッシュROM202は、制御ソフトウェアの格納およびデータの保管を行う。DRAM203は、CPU201のワークエリアを構成する。CPU201は、フラッシュROM202から読み出したソフトウェアやデータをDRAM203上に展開してソフトウェアを起動させ、セットトップボックス200の各部を制御する。
 リモコン受信部205は、リモコン送信機206から送信されたリモーコントロール信号(リモコンコード)を受信し、CPU201に供給する。CPU201は、このリモコンコードに基づいて、セットトップボックス200の各部を制御する。CPU201、フラッシュROM202およびDRAM203は、内部バス204に接続されている。
 アンテナ端子211は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ212は、アンテナ端子211に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応したトランスポートストリームTSを出力する。
 デマルチプレクサ213は、トランスポートストリームTSからビデオストリームのパケットを抽出し、ビデオデコーダ214に送る。ビデオデコーダ214は、デマルチプレクサ213で抽出されたビデオのパケットからビデオストリームを再構成し、デコード処理を行って非圧縮のビデオデータ(画像データ)を得る。
 また、デマルチプレクサ213は、トランスポートストリームTSから1つまたは2つのオーディオストリームのパケットを抽出してオーディオストリームを再構成する。オーディオフレーミング部215は、再構成されたオーディオストリームに対してフレーミングを行う。このオーディオストリームには、上述のストリーム生成部110A,110B(図2、図16参照)で説明したように、所定情報(コンテナ対象データ=挿入データDT)が挿入されている。
 また、デマルチプレクサ213は、トランスポートストリームTSからデスクリプタ情報などの各種情報を抽出し、CPU201に送る。この各種情報には、上述したデータコンテナ・デスクリプタ(data_cotainer descriptor)の情報も含まれる(図14参照)。
 CPU201は、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることを認識する。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかを認識する。例えば、オーディオストリームが1つであってそれに所定情報の挿入されている場合には、データコンテナ・デスクリプタから他のストリームへは所定情報の挿入がないことを認識する。また、例えば、オーディオストリームが2つであって双方に所定情報の挿入されている場合には、データコンテナ・デスクリプタから他のストリームにも所定情報の挿入があることを認識する。
 HDMI送信部216は、HDMIに準拠した通信により、ビデオデコーダ214で得られた非圧縮のビデオデータと、オーディオフレーミング部215でフレーミングされた後のオーディオストリームを、HDMI端子217から送出する。HDMI送信部216は、HDMIのTMDSチャネルで送信するため、ビデオデータおよびオーディオストリームをパッキングして、HDMI端子217に出力する。このHDMI送信部216の詳細は後述する。
 セットトップボックス200の動作を簡単に説明する。アンテナ端子211に入力されたテレビ放送信号はデジタルチューナ212に供給される。このデジタルチューナ212では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応したトランスポートストリームTSが出力される。
 デジタルチューナ212から出力されるトランスポートストリームTSは、デマルチプレクサ213に供給される。このデマルチプレクサ213では、トランスポートストリームTSからビデオのエレメンタリストリームのパケットが抽出され、ビデオデコーダ214に送られる。
 ビデオデコーダ214では、デマルチプレクサ213で抽出されたビデオのパケットからビデオストリームが再構成された後、そのビデオストリームに対してデコード処理が行われて、非圧縮のビデオデータが得られる。この非圧縮のビデオデータは、HDMI送信部216に供給される。
 また、デマルチプレクサ213では、トランスポートストリームTSから1つまたは2つのオーディオストリームのパケットが抽出され、所定情報が挿入されているオーディオストリームが再構成される。このオーディオストリームはオーディオフレーミング部215でフレーミングされた後に、HDMI送信部216に供給される。そして、HDMI送信部216では、非圧縮のビデオデータおよびオーディオストリームがパッキングされ、HDMI端子217からHDMIケーブル610を介してオーディオアンプ300に送信される。
 また、デマルチプレクサ213では、トランスポートストリームTSからデスクリプタ情報などの各種情報が抽出され、CPU201に送られる。この各種情報には、上述したデータコンテナ・デスクリプタ(data_cotainer descriptor)の情報も含まれる(図14参照)。これにより、CPU201では、オーディオストリームに所定情報の挿入があることなどが認識される。
 [テレビ受信機の構成例]
 図27は、テレビ受信機300の構成例を示している。このテレビ受信機300は、CPU301と、フラッシュROM302と、DRAM303と、内部バス304と、リモコン受信部305と、リモコン送信機306と、通信インタフェース307を有している。
 また、テレビ受信機300は、アンテナ端子311と、デジタルチューナ312と、デマルチプレクサ313と、ビデオデコーダ314と、HDMI端子315と、HDMI受信部316を有している。また、テレビ受信機300は、映像処理回路317と、パネル駆動回路318と、表示パネル319と、オーディオデコーダ320と、音声処理回路321と、音声増幅回路322と、スピーカ323を有している。
 CPU301は、テレビ受信機300の各部の動作を制御する。フラッシュROM302は、制御ソフトウェアの格納およびデータの保管を行う。DRAM303は、CPU301のワークエリアを構成する。CPU301は、フラッシュROM302から読み出したソフトウェアやデータをDRAM303上に展開してソフトウェアを起動させ、テレビ受信機300の各部を制御する。
 リモコン受信部305は、リモコン送信機306から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU301に供給する。CPU301は、このリモコンコードに基づいて、テレビ受信機300の各部を制御する。CPU301、フラッシュROM302およびDRAM303は、内部バス304に接続されている。
 通信インタフェース307は、CPU301の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース307は、内部バス304に接続されている。
 アンテナ端子311は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ312は、アンテナ端子311に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応したトランスポートストリームTSを出力する。
 デマルチプレクサ313は、トランスポートストリームTSからビデオストリームを抽出してビデオデコーダ314に送る。ビデオデコーダ314は、ビデオストリームにデコード処理を行って非圧縮のビデオデータ(画像データ)を得る。
 また、デマルチプレクサ313は、トランスポートストリームTSから1つまたは2つのオーディオストリームを抽出してオーディオデコーダ320に送る。このオーディオストリームには、上述のストリーム生成部110A,110B(図2、図16参照)で説明したように、所定情報が挿入されている。
 また、デマルチプレクサ213は、トランスポートストリームTSからデスクリプタ情報などの各種情報を抽出し、CPU301に送る。この各種情報には、上述したデータコンテナ・デスクリプタ(data_cotainer descriptor)の情報も含まれる(図14参照)。CPU301は、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることを認識する。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかを認識する。
 HDMI受信部316は、HDMIに準拠した通信により、HDMIケーブル400を介してHDMI端子315に供給される非圧縮のビデオデータとオーディオストリームを受信する。オーディオストリームには、上述のセットトップボックス200(図26参照)で説明したように、所定情報が挿入されている。このHDMI受信部316の詳細は後述する。
 映像処理回路317は、ビデオデコーダ314で得られた、あるいはHDMI受信部316で得られたビデオデータ、さらには、通信インタフェース307でネット上のサーバから受信されたビデオデータなどに対してスケーリング処理、合成処理などを行って、表示用のビデオデータを得る。
 パネル駆動回路318は、映像処理回路317で得られる表示用の画像データに基づいて、表示パネル319を駆動する。表示パネル319は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
 オーディオデコーダ320は、デマルチプレクサ313で得られた、あるいはHDMI受信部316で得られたオーディオストリームに対してデコード処理を施して非圧縮のオーディオデータ(音声データ)を得る。また、オーディオデコーダ320は、オーディオストリームの所定数のオーディオフレームに順次挿入されている所定情報の各分割部分を取り出し、それに付加されている順番情報に基づいて所定情報を再構成し、再構成された所定情報をCPU301に送る。CPU301は、適宜、この所定情報を利用した処理が行われるように、テレビ受信機300の各部を制御する。
 この場合、各オーディオストリームの所定数のオーディオフレームに挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別する識別情報が付加されている。そのため、オーディオデコーダ320は、当該識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があるかを容易に認識でき、所定情報の分割部分が挿入されている全てのオーディオストリームから、この所定情報の全ての分割部分の取り出しを効率的かつ的確に行い得る。
 図28は、オーディオデコーダ320の構成例を示している。このオーディオデコーダ320は、エクストラクタ351-1,351-2と、デコーダ352-1,352-2と、データリアセンブラ353を有している。
 エクストラクタ351-1は、オーディオストリームAS1(R_EM1+IS1)の所定数のオーディオフレームから、それに挿入されている所定情報の分割部分IS1を取り出すと共に、オーディオストリームR_EM1を出力する。デコーダ352-1は、オーディオストリームR_EM1にデコード処理を施してオーディオデータSA1を出力する。
 エクストラクタ351-2は、オーディオストリームAS2(R_EM2+IS2)の所定数のオーディオフレームから、それに挿入されている所定情報の分割部分IS2を取り出すと共に、オーディオストリームR_EM2を出力する。デコーダ352-2は、オーディオストリームR_EM2にデコード処理を施してオーディオデータSA2を出力する。
 データリアセンブラ353は、エクストラクタ351-1,351-2で取り出された分割部分IS1,IS2から、それに付加されている順番情報に基づいて所定情報を再構成し、再構成された所定情報を出力する。
 なお、図示の例は、デマルチプレクサ313から2つのオーディオストリームAS1,AS2が得られる場合に対処可能としたものである。デマルチプレクサ313から1つのオーディオストリームAS1のみが得られる場合には、エクストラクタ351-2およびデコーダ352-2の部分は用いられない。
 図29は、デマルチプレクサ313から1つのオーディオストリームAS1のみが得られる場合における、エクストラクタ351-1の処理例を概略的に示している。この例は、所定情報(挿入データDT)が(2)の方法でf0、f1、f2、f3、f4、f5の6つの分割部分に分割されている場合を示している(図6参照)が、(1)の方法で分割されている場合も同様である。エクストラクタ351-1では、オーディオストリームAS1の6つのオーディオフレームに含まれているf0、f1、f2、f3、f4、f5の6つの分割部分が抽出されて、データリアセンブラ353に送られる。
 図30は、デマルチプレクサ313から2つのオーディオストリームAS1,AS2が得られる場合における、エクストラクタ351-1,351-2の処理例を概略的に示している。この例も、所定情報(挿入データDT)が(2)の方法でf0、f1、f2、f3、f4、f5の6つの分割部分に分割されている場合を示している(図17参照)が、(1)の方法で分割されている場合も同様である。
 エクストラクタ351-1では、オーディオストリームAS1の3つのオーディオフレームに含まれているf0、f2、f4の3つの分割部分が抽出されて、データリアセンブラ353に送られる。また、エクストラクタ351-2では、オーディオストリームAS2の3つのオーディオフレームに含まれているf1、f3、f5の3つの分割部分が抽出されて、データリアセンブラ353に送られる。
 図27に戻って、音声処理回路521は、オーディオデコーダ320で得られたオーディオデータに対して、D/A変換等の処理を行う。この処理には、必要に応じて、オブジェクトデータに対するレンダリング処理、チャネルデータの合成処理、チャネル数変換処理なども含まれる。音声増幅回路322は、音声処理回路321から出力される各チャネルの音声信号を増幅してそれぞれのチャネルのスピーカ323に供給する。
 図27に示すテレビ受信機300の動作を簡単に説明する。アンテナ端子311に入力されたテレビ放送信号はデジタルチューナ312に供給される。このデジタルチューナ312では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応したトランスポートストリームTSが得られる。
 デジタルチューナ312で得られるトランスポートストリームTSは、デマルチプレクサ313に供給される。デマルチプレクサ313では、トランスポートストリームTSからビデオストリームが抽出され、ビデオデコーダ314に供給される。ビデオデコーダ314では、ビデオストリームに対してデコード処理が施されて、非圧縮のビデオデータが得られる。この非圧縮のビデオデータは、映像処理回路317に供給される。また、デマルチプレクサ313では、トランスポートストリームTSから1つまたは2つのオーディオストリームが抽出され、オーディオデコーダ320に供給される。
 また、デマルチプレクサ313では、トランスポートストリームTSからデスクリプタ情報などの各種情報が抽出され、CPU301に送られる。この各種情報には、上述したデータコンテナ・デスクリプタ(data_cotainer descriptor)の情報も含まれる(図14参照)。CPU301では、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることが認識される。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかが認識される。
 HDMI受信部316では、HDMIに準拠した通信により、HDMIケーブル400を介してHDMI端子315に供給される非圧縮のビデオデータと、1つまたは2つのオーディオストリームが受信される。非圧縮のビデオデータは、映像処理回路317に供給される。また、オーディオストリームはオーディオデコーダ320に供給される。
 映像処理回路317では、ビデオデコーダ314で得られた、あるいはHDMI受信部316で得られたビデオデータ、さらには、通信インタフェース307でネット上のサーバから受信されたビデオデータなどに対してスケーリング処理、合成処理などが施され、表示用のビデオデータが得られる。
 映像処理回路317で得られた表示用のビデオデータはパネル駆動回路318に供給される。パネル駆動回路318では、表示用のビデオデータに基づいて、表示パネル319を駆動することが行われる。これにより、表示パネル319には、表示用のビデオデータに対応した画像が表示される。
 オーディオデコーダ320では、デマルチプレクサ313で得られた、あるいはHDMI受信部316で得られたオーディオストリームに対してデコード処理が施されて非圧縮のオーディオデータ(音声データ)が得られる。また、オーディオデコーダ320では、オーディオストリームの所定数のオーディオフレームに順次挿入されている所定情報の各分割部分が取り出され、それに付加されている順番情報に基づいて所定情報が再構成される。このように再構成された所定情報はCPU301に送られる。CPU301では、適宜、この所定情報を利用した処理が行われるように、テレビ受信機300の各部を制することが行われる。
 オーディオデコーダ320で得られたオーディオデータは、音声処理回路321に供給される。音声処理回路321では、オーディオデータに対してD/A変換等の必要な処理が施される。このオーディオデータは、音声増幅回路322で増幅された後に、スピーカ323に供給される。そのため、スピーカ323から、表示パネル319の表示画像に対応した音声が出力される。
 [HDMI送信部、HDMI受信部の構成例]
 図31は、セットトップボックス200のHDMI送信部216(図26参照)とテレビ受信機300のHDM受信部316(図27参照)の構成例を示している。
 HDMI送信部216は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間22および垂直帰線区間23を除いた区間である有効画像区間21(以下、適宜、「アクティブビデオ区間」ともいう)(図32参照)において、非圧縮の1画面分の画像の画素データに対応する差動信号を、複数のチャネルで、HDMI受信部316に一方向に送信する。また、HDMI送信部216は、水平帰線区間22または垂直帰線区間23において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、HDMI受信部316に一方向に送信する。
 すなわち、HDMI送信部216は、HDMIトランスミッタ31を有する。トランスミッタ31は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである3つのTMDS(Transition Minimized Differential Signaling)チャネル#0,#1,#2で、HDMI受信部316に、一方向にシリアル伝送する。
 また、トランスミッタ31は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、3つのTMDSチャネル#0,#1,#2で、HDMI受信部316に一方向にシリアル伝送する。
 HDMI受信部316は、アクティブビデオ区間21(図32参照)において、複数のチャネルで、HDMI送信部216から一方向に送信されてくる、画素データに対応する差動信号を受信する。また、HDMI受信部316は、水平帰線区間22(図32参照)または垂直帰線区間23(図21参照)において、複数のチャネルで、HDMI送信部216から一方向に送信されてくる、音声データや制御データに対応する差動信号を受信する。
 HDMI送信部216とHDMI受信部316とからなるHDMIシステムの伝送チャネルには、画素データおよび音声データを伝送するための伝送チャネルとしての3つのTMDSチャネル#0乃至#2と、ピクセルクロックを伝送する伝送チャネルとしてのTMDSクロックチャネルの他に、DDC(Display Data Channel)33やCEC(Consumer Electronics Control)ライン34と呼ばれる伝送チャネルがある。
 DDC33は、HDMIケーブル400に含まれる2本の信号線からなり、HDMI送信部216が、HDMIケーブル400を介して接続されたHDMI受信部316から、EDID(Extended Display Identification Data)を読み出すために使用される。すなわち、HDMI受信部316は、HDMIレシーバ32の他に、自身の性能(Configuration・Capability)に関する性能情報であるEDIDを記憶している、EDID ROMを有している。HDMI送信部216がEDIDを読み出すことで、受信側の復号化能力情報が送信側に送られることになる。
 HDMI送信部216は、HDMIケーブル400を介して接続されているHDMI受信部316から、EDIDを、DDC33を介して読み出す。そして、セットトップボックス200のCPU201は、そのEDIDに基づき、HDMI受信部316を有するテレビ受信機300の性能を認識する。
 CECライン34は、HDMIケーブル400に含まれる1本の信号線からなり、HDMI送信部216とHDMI受信部316との間で、制御用のデータの双方向通信を行うために用いられる。また、HDMIケーブル400には、HPD(Hot Plug Detect)と呼ばれるピンに接続されるHPDライン35が含まれている。
 ソース機器は、このHPDライン35を利用して、直流バイアス電位により、シンク機器(ディスティネーション機器)の接続を検出することができる。この場合、HPDライン35は、ソース機器側から見ると、直流バイアス電位によってシンク機器から接続状態の通知を受ける機能を有するものとなる。一方、このHPDラインは、シンク機器側から見ると、直流バイアス電位によってソース機器に接続状態を通知する機能を有するものとなる。また、HDMIケーブル400には、ソース機器からシンク機器に電源を供給するために用いられる電源ライン36が含まれている。
 さらに、HDMIケーブル400には、リザーブライン37が含まれている。HPDライン35とリザーブライン37を用いた、イーサネットの信号を伝送するHDMIイーサネットチャネル(HDMI Ethernet Channel : HEC)が存在する。また、HPDライン35とリザーブライン37の双方またはHPDライン35のみを用いた、オーディオデータをディスティネーション機器(シンク機器)からソース機器に伝送するオーディオリターンチャネル(Audio Return Channel : ARC)が存在する。なお、「イーサネット」、「Ethernet」は、登録商標である。
 図32は、TMDSチャネルにおいて、横×縦が1920ピクセル×1080ラインの画像データが伝送される場合の、各種の伝送データの区間を示している。HDMIの3つのTMDSチャネルで伝送データが伝送されるビデオフィールド(Video Field)には、伝送データの種類に応じて、ビデオデータ区間24(Video Data Period)、データアイランド区間25(Data Island Period)、およびコントロール区間26(Control Period)の3種類の区間が存在する。
 ここで、ビデオフィールド区間は、ある垂直同期信号の立ち上がりエッジ(Active Edge)から次の垂直同期信号の立ち上がりエッジまでの区間であり、水平帰線期間22(Horizontal Blanking)、垂直帰線期間23(Vertical Blanking)、並びに、ビデオフィールド区間から、水平帰線期間および垂直帰線期間を除いた区間である有効画素区間21(Active Video)に分けられる。
 ビデオデータ区間24は、有効画素区間21に割り当てられる。このビデオデータ区間24では、非圧縮の1画面分の画像データを構成する1920ピクセル(画素)×1080ライン分の有効画素(Active Pixel)のデータが伝送される。データアイランド区間25およびコントロール区間26は、水平帰線期間22および垂直帰線期間23に割り当てられる。このデータアイランド区間25およびコントロール区間26では、補助データ(Auxiliary Data)が伝送される。
 すなわち、データアイランド区間25は、水平帰線期間22と垂直帰線期間23の一部分に割り当てられている。このデータアイランド区間25では、補助データのうち、制御に関係しないデータである、例えば、音声データのパケット等が伝送される。コントロール区間26は、水平帰線期間22と垂直帰線期間23の他の部分に割り当てられている。このコントロール区間26では、補助データのうちの、制御に関係するデータである、例えば、垂直同期信号および水平同期信号、制御パケット等が伝送される。
 「セットトップボックスとテレビ受信機との間の通信例」
 セットトップボックス200のCPU201は、例えば、テレビ受信機300のCPU301との間で例えばCECラインを用いた通信によりネゴシエーションを行って、テレビ受信機300が必要とするオーディオストリームを把握し、そのオーディオストリームのみを送信することが可能とされる。
 図33は、セットトップボックス200およびテレビ受信機300におけるネゴシエーションを伴った動作の一例を示している。
 (1)セットトップボックス200は、EIT配下のコンポーネント・デスクリプタ(Component_descriptor)、また、データコンテナ・デスクリプタ(data_container_descriptor)に基づいて、ネットリンク可能な番組を明示した番組表の表示信号をテレビ受信機300に送り、テレビ受信機300の表示画面に当該番組表を表示する。
 (2)テレビ受信機300は、表示画面に表示された番組表を利用して、ネットリンク可能な番組を選択し、その番組選択信号をセットトップボックス200に送る。
(3)セットトップボックス200は、テレビ受信機300からの番組選択信号に基づいて、当該番組を受信する。そして、セットトップボックス200は、データコンテナ・デスクリプタ(Data_container descriptor)に基づいて、所定情報(挿入データ)が挿入されているオーディオストリームを検知する。
 (4)セットトップボックス200は、テレビ受信機300のEDIDにアクセスして受信可能性をチェックする。
 (5)テレビ受信機300は、EDIDにより、オーディオストリーム(圧縮ストリーム)が受信可能であることを、セットトップボックス200に通知する。(6)テレビ受信機300は、EDIDにより、オーディオ再生用デコーダは一つであることを、セットトップボックス200に通知する。
 (7)セットトップボックス200は、所定情報が挿入されているオーディオストリームが2つである場合、(8)2つのオーディオストリーム(例えばメインストリームとサブストリームの2ストリーム)の受信が必要であることを、テレビ受信機300に通知する。
 (9)それに対応して、テレビ受信機300は、アクノーレッジ(ACK)信号を、セットトップボックス200に送る。(10)セットトップボックス200は、テレビ受信機300のオーディオ再生用デコーダは1つであるが、2つのオーディオストリームを、送信する。
 (11)テレビ受信機300は、2ストリームを受信する。そして、メインストリームに関しては、挿入されている所定情報の分割部分をエクストラクタで抽出する一方で、当該メインストリームをデコーダへ転送してデコードする。一方、サブストリームに関しては、挿入されている所定情報の分割部分をエクストラクタで抽出する。そして、テレビ受信機300は、各エクストラクタで抽出された所定情報の各分割部分から、データリアセンブラで、所定情報を再構成する。(12)テレビ受信機300は、再構成された所定情報、ここではネットアクセス情報を用いて、ネットアクセスを行って、所定の情報を取得し、表示等を行う。
 上述したように、図1に示す送受信システム10において、放送送出装置100は、オーディオストリームの所定数のオーディオフレームにビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信する。そのため、オーディオストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、オーディオストリームに所定の情報を挿入して送信することを良好に行い得る。
 また、図1に示す送受信システム10において、放送送出装置100は、1つ以上、例えば2つのオーディオストリームの所定数のオーディオフレームに所定情報を分割して得た各分割部分を挿入して送信する。そのため、所定情報の全体の送信に必要な時間の短縮が可能となる。
 <2.変形例>
 なお、上述実施の形態において、放送送出装置100は、所定情報をオーディオストリームに挿入して送信する。しかし、放送送出装置100は、所定情報をビデオストリームなどのその他のメディア符号化ストリームに挿入して送信することも考えられる。
 図34は、その場合における、放送送出装置100が備えるストリーム生成部110Cの構成例を示している。この図34において、図2と対応する部分には、同一符号を付し、適宜、その詳細説明を省略する。このストリーム生成部110Cは、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、スプリッタ114と、インサータ115,117と、マルチプレクサ116を有している。
 CPU111は、ストリーム生成部110Cの各部を制御する。ビデオエンコーダ112は、ビデオデータ(画像データ)SVに対して、MPEG2、H.264/AVC、H.265/HEVCなどの符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ113は、オーディオデータ(音声データ)SAに対して、MPEG-H 3D Audioの圧縮フォーマットによる符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。
 スプリッタ114は、詳細説明は省略するが、図2のストリーム生成部110Aのスプリッタ114と同様に、所定情報を構成する挿入データDTを分割して、所定数の分割部分f(i)を得る。この場合、ビデオストリーム、オーディオストリームのそれぞれに挿入される挿入データDTのビットレートが許容ビットレートに収まるように、(1)または(2)の方法で分割される。
 インサータ117は、ビデオエンコーダ112で生成されたビデオストリームR_EM3の所定数のアクセスユニット(ピクチャ)に、スプリッタ114で分割されて得られた所定数の分割部分f(i)を、再構成のための順番情報を付加して、順次挿入する。この場合、分割部分f(i)を持つジェネリックデータ(generic_data)(図10参照)が、SEI NALユニットに、例えば、図9に構造例を示すエントリを用いて配置される。
 また、インサータ115は、詳細説明は省略するが、図2のストリーム生成部100Aにおけるインサータ115と同様にして、オーディオエンコーダ113で生成されたオーディオストリームR_EM1の所定数のオーディオフレームに、スプリッタ114で分割されて得られた所定数の分割部分f(i)を、再構成のための順番情報を付加して、順次挿入する。
 マルチプレクサ116は、インサータ117から出力される、所定情報(挿入データDT)の各分割部分が挿入されたビデオストリームと、インサータ115から出力される、所定情報(挿入データDT)の各分割部分が挿入されたオーディオストリームを、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
 また、マルチプレクサ116は、トランスポートストリームTSに、ビデオストリーム、オーディオストリームのそれぞれに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル(PMT)の配下のビデオエレメンタリストリームループ内、オーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ(図14参照)を挿入する。
 図35は、トランスポートストリームTSの構造例を示している。この構造例は、ビデオストリームとオーディオストリームの2つのストリームで所定情報をコンテナする場合の例である(図34参照)。
 この構造例では、PID1で識別されるビデオストリームのPESパケット「Video PES」が存在すると共に、PID2で識別されるオーディオストリームのPESパケット「Audio PES」が存在する。
 ビデオストリームのPESパケットには、ビデオストリーム(Video coded stream)が挿入される。このビデオストリームの所定数(1を含む)のアクセスユニット(ピクチャ)内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。また、オーディオストリームのPESパケットにはオーディオストリーム(Audio coded stream)が挿入される。このオーディオストリームの所定数(1を含む)のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。PSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。
 また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構造例では、ビデオストリームに対応してビデオエレメンタリストリーム・ループ(Video ES loop)が存在すると共に、オーディオストリームに対応してオーディオエレメンタリストリーム・ループ(Audio ES loop)が存在する。
 各エレメンタリストリーム・ループ(ES loop)には、それぞれのストリームに対応して、PID(パケット識別子)等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタの1つとして、上述したデータコンテナ・デスクリプタ(data_container descriptor)(図14参照)が配置される。
 また、各エレメンタリストリーム・ループには、デスクリプタの1つとして、「Component_tag」の情報を持つストリームアイデンチファイア・デスクリプタ(Stream_identifier descriptor)が配置される。また、EIT(Event Information Table)の配下に、コンポーネント・デスクリプタ(Component_descriptor)が配置される。また、EITには上述したデータコンテナ・デスクリプタ(data_container descriptor)が配置されてもよい。その場合、受信機EPG表示にメタデータの挿入を記す際の識別情報の提供になる。
 このコンポーネント・デスクリプタは、「Component_tag」により上述のPMT配下の各エレメンタリストリーム・ループと関連付けられる。これにより、ある番組のビデオ、オーディオのストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、EPGなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをTV視聴者に知らせることが可能となる。
 上述の図26に示すセットトップボックス200は、受信されたビデオストリームにデコード処理を施して得られた非圧縮のビデオデータを、HDMIケーブル400を介して、テレビ受信機300に送信する構成となっている。しかし、上述したように所定情報をビデオストリームに挿入して送信する場合にあっては、受信されたビデオストリームをデコードせずにそのまま、HDMIケーブル400を介して、テレビ受信機300に送信する構成となる。この場合、ビデオストリームのデコードはテレビ受信機300で行われることになる。
 なお、図34のストリーム生成部110Cでは、所定情報をビデオストリームとオーディオストリームの双方に挿入して送信するものである。詳細説明は省略するが、所定情報をビデオストリームのみに挿入して送信する構成も考えられる。
 また、上述実施の形態においては、オーディオ圧縮フォーマットがMPEG-H 3D Audioである例を示した。しかし、本技術は、オーディオ圧縮フォーマットが、AAC、AC3、AC4などのその他のオーディオ圧縮フォーマットである場合にも、同様に適用できる。
 図36(a)は、AC4のシンプルトランスポート(Simple Transport)のレイヤの構造を示している。シンクワード(syncWord)のフィールドと、フレームレングス(frame Length)のフィールドと、符号化データのフィールドとしての「RawAc4Frame」のフィールドと、CRCフィールドが存在する。「RawAc4Frame」のフィールドには、図36(b)に示すように、先頭にTOC(Table Of Content)のフィールドが存在し、その後の所定数のサブストリーム(Substream)のフィールドが存在する。
 図37(b)に示すように、サブストリーム(ac4_substream_data())の中には、メタデータ領域(metadata)が存在し、その中に「umd_payloads_substream()」のフィールドが設けられる。この「umd_payloads_substream()」のフィールドの中の「umd_payload_byte」のフィールドに、例えば、図9に構造例を示すエントリを用いて、所定情報の分割部分を持つジェネリックデータ(generic_data)(図10参照)が配置される。
 なお、図37(a)に示すように、TOC(ac4_toc())の中には「ac4_presentation_info()」のフィールドが存在し、さらにその中に「umd_info()」のフィールドが存在し、その中に上述の「umd_payloads_substream())」のフィールドにメタデータの挿入があることが示される。
 また、上述実施の形態においては、コンテナストリーム(多重化ストリーム)がMPEG-2 トランスポートストリーム(トランスポートストリームTS)である例を示した。しかし、本技術は、MP4やそれ以外のフォーマットのコンテナストリームで配信されるシステムにも同様に適用できる。例えば、MPEG-DASHベースのストリーム配信システム、あるいは、MMT(MPEG Media Transport)構造伝送ストリームを扱う送受信システムなどである。
 図38は、MMTのトランスポートストリームの構造例を示している。この構造例は、2つのオーディオストリームが存在し、その2つのオーディオストリームで所定情報をコンテナする場合の例である(図16参照)。この構造例では、ビデオストリームに係る部分は省略している。
 MMTのトランスポートストリームには、パケットタイプが“MPU”である場合、ID1で識別されるオーディオストリームASのMPUパケット「MPU audio」と、ID2で識別されるオーディオストリームASのMPUパケット「MPU audio」が配置される。これらのMPUパケットにはオーディオストリーム(Audio coded stream)が挿入される。このオーディオストリームの所定数(1を含む)のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。
 また、MMTのトランスポートストリームには、パケットタイプが“message”である場合、種々のメッセージパケットが配置される。このメッセージパケットの一つとしてPA(Packet Access)メッセージパケットがある。PAメッセージパケットには、MPTなどのテーブルが含まれている。
 MPTには、アセットとしての各ストリームに対応して、アセットタイプ(Asset_type)、パケットID(Packet_id)等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したデータコンテナ・デスクリプタ(data_container descriptor)(図14参照)が配置される。
 また、デスクリプタの1つとして、「Component_tag」の情報を持つMHストリームアイデンチファイア・デスクリプタ(MH-Stream_identifier descriptor)が配置される。また、MH-EIT(MH-Event Information Table)の配下に、MH・コンポーネント・グループ・デスクリプタ(MH-Component_Group_Descriptor)が配置される。また、MH-EITには上述したデータコンテナ・デスクリプタ(data_container descriptor)が配置されてもよい。
その場合、受信機EPG表示にメタデータの挿入を記す際の識別情報の提供になる。
 このMH・コンポーネント・グループ・デスクリプタは、「Component_tag」により上述のMPT配下の各アセット(オーディオストリーム)の情報と関連付けられる。これにより、ある番組のオーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、EPGなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをTV視聴者に知らせることが可能となる。
 図39は、MMTのトランスポートストリームの他の構造例を示している。この構造例は、ビデオストリームとオーディオストリームの2つのストリームで所定情報をコンテナする場合の例である(図34参照)。
 MMTのトランスポートストリームには、パケットタイプが“MPU”である場合、ID1で識別されるビデオストリームVSのMPUパケット「MPU video」と、ID2で識別されるオーディオストリームASのMPUパケット「MPU audio」が配置される。
 ビデオストリームのMPUパケットには、ビデオストリーム(Video coded stream)が挿入される。このビデオストリームの所定数(1を含む)のアクセスユニット(ピクチャ)内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。また、オーディオストリームのMPUパケットにはオーディオストリーム(Audio coded stream)が挿入される。このオーディオストリームの所定数(1を含む)のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ(generic_data)(図10参照)が挿入される。
 また、MMTのトランスポートストリームには、パケットタイプが“message”である場合、種々のメッセージパケットが配置される。このメッセージパケットの一つとしてPA(Packet Access)メッセージパケットがある。PAメッセージパケットには、MPTなどのテーブルが含まれている。
 MPTには、アセットとしての各ストリームに対応して、アセットタイプ(Asset_type)、パケットID(Packet_id)等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したデータコンテナ・デスクリプタ(data_container descriptor)(図14参照)が配置される。
 また、デスクリプタの1つとして、「Component_tag」の情報を持つMHストリームアイデンチファイア・デスクリプタ(MH-Stream_identifier descriptor)が配置される。また、MH-EIT(MH-Event Information Table)の配下に、MH・コンポーネント・グループ・デスクリプタ(MH-Component_Group_Descriptor)が配置される。MH-EITには上述したデータコンテナ・デスクリプタ(data_container descriptor)が配置されてもよい。その場合、受信機EPG表示にメタデータの挿入を記す際の識別情報の提供になる。
 このMH・コンポーネント・グループ・デスクリプタは、「Component_tag」により上述のMPT配下の各アセット(ビデオストリーム、オーディオストリーム)の情報と関連付けられる。これにより、ある番組のビデオストリーム、オーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、EPGなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをTV視聴者に知らせることが可能となる。
 図40は、オーディオ圧縮フォーマットがMPEG-H 3D AudioあるいはAC4である場合におけるオーディオトラック(トラックA)のデータを含むMP4ストリーム(ファイル)の構成例を示している。図示の例は、フラグメンテッドMP4(Fragmented MP4)の場合の例である。MP4ストリームには、制御情報が入る“moof”ボックスとメディアデータ本体が入る“mdat”ボックスから構成されるムービーフラグメント(Movie Fragment)が所定個数配置される。“mdat”ボックスには、トラックデータが断片化されて得られた断片が入るので、“moof”ボックスに入る制御情報はその断片に関する制御情報となる。
 オーディオトラックに対応したMP4ストリーム「audio bitstream」において、各ムービーフラグメントの“mdat”ボックスには、所定個数のオーディオフレーム(アクセスユニットフレーム)が配置される。また、このMP4ストリーム「audio bitstream」において、各ムービーフラグメントの“moof”ボックス内に“traf”ボックスが存在し、そのボックス内に“tfdt”ボックスが存在する。この“tfdt”ボックスに、“moof”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。
 また、“moof”ボックス内に“tfdt”ボックスが存在し、その内に“sgpd”ボックスが存在し、さらに、その内に“tscl”ボックスが存在する。この“tscl”ボックスに、「Audiostreamtype」、「Attribute」のパラメータの記載がある。「Audiostreamtype = AC4 or mpegh」は、オーディオ圧縮フォーマットがAC4あるいはMPEG-H 3D Audioであることを示す。「Attribute = sound genericdata」は、オーディオトラックにジェネリックデータ(generic data)の挿入あることを示す。具体的には、「sound genericdata」として、例えば、上述の図14に示すデータコンテナ・デスクリプタ(dat_cintainer descriptor)の内容が記載される。
 図41は、データ挿入ストリームが2つのオーディオストリームである場合におけるMPDファイル記述例を示している。また、図42は、データ挿入ストリームがオーディオストリームとビデオストリームである場合におけるMPDファイル記述例を示している。また、図43は、それらの記述例における主要な情報の内容を示す。従来周知のように、MPEG-DASHベースのストリーム配信システムにおいては、メディアストリーム(MP4ストリーム)と、メタファイルとしてのMPDファイルが、通信ネットワーク伝送路を通じて受信側に送信される。
 最初に、図41のMPDファイル記述例を説明する。ここでは、説明の簡単化のためにオーディオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームに関する情報も記述されている。このMPDファイルには、第1、第2のオーディオストリームにそれぞれ対応したアダプテーションセット(AdaptationSet)が存在する。
 「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、第1のオーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ1が割り当てられていることが示されている。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “AC4or mpegh”/>」の記述により、オーディオストリームのコーデックがAC4あるいはMPEG-H 3D Audioであることが示されている。「schemeIdUri=“urn:brdcst:codecType”」は、コーデックの種類を示す。例えば、「value」は“mpegh”、”AAC”、”AC3”、”AC4”などとされる。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ(generic_data)が含まれることが示されている。例えば、「value」が“true”であるときは、ジェネリックデータが含まれることを示す。「value」が“false”であるときは、ジェネリックデータが含まれないことを示す。
 また、「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。例えば、「value」が“true”であるときは、ネット接続情報が他のアダプテーションセットのストリームと協調して供給されることを示す。「value」が“false”であるときは、ネット接続情報が本アダプテーションセットのストリームのみで供給されることを示す。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“1”であることが示されている。「schemeIdUri=“urn:brdcst:metaInsertionFrequency”」は、アクセスユニット単位にメタ情報が供給される頻度を示す。例えば、“1”は、1つのユーザデータエントリが1アクセスユニットに発生することを示す。“2”は、1つ以上のユーザデータエントリが1アクセスユニットに発生することを示す。“3”は、1つ以上のユーザデータエントリが、ランダムアクセスポイントで区切られる期間中に発生することを示す。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。「schemeIdUri=“urn:brdcst:type”」は、メタによるサービスの種類を示す。例えば、「value」が“netlink”であるときは、メタによるサービスの種類がネット接続であることを示す。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を1000bps単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート(CR:compressed media_data_bitrate)を基準とした、挿入データのビットレート(AVR:inserted_data_bitrate)の割合(Ratio)を示す。その場合、割合の算出は次式のようなものになる。
Ratio = inserted_data_bitrate / compressed media_data_bitrate
 また、「<Representation id=“11” bandwidth=“64000”>」の記述により、グループ1のアダプテーションセットの中に、「Representation id=“11”」で識別されるリプレゼンテーションとして、グループ1“group1”の符号化データを含むビットレートが64kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/64.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/64.mp4」として示されている。
 また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、第2のオーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ2が割り当てられていることが示されている。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “AC4or mpegh”/>」の記述により、オーディオストリームのコーデックがAC4あるいはMPEG-H 3D Audioであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ(generic_data)が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。
。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“1”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を1000bps単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート(CR)を基準とした、挿入データのビットレート(AVR)の割合を示す。
 また、「<Representation id=“21” bandwidth=“96000”>」の記述により、グループ2のアダプテーションセットの中に、「Representation id=“21”」で識別されるリプレゼンテーションとして、グループ2“group2”の符号化データを含むビットレートが96kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/96.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/96.mp4」として示されている。
 次に、図42のMPDファイル記述例を説明する。このMPDファイルには、オーディオストリーム、ビデオストリームにそれぞれ対応したアダプテーションセット(AdaptationSet)が存在する。
 「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのオーディストリームはMP4ファイル構造で供給され、グループ1が割り当てられていることが示されている。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>」の記述により、オーディオストリームのコーデックがMPEG-H 3D Audioであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ(generic_data)が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“1”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を1000bps単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート(CR)を基準とした、挿入データのビットレート(AVR)の割合を示す。
 また、「<Representation id=“11” bandwidth=“128000”>」の記述により、グループ1のアダプテーションセットの中に、「Representation id=“11”」で識別されるリプレゼンテーションとして、グループ1“group1”の符号化データを含むビットレートが128kbpsのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/128.mp4」として示されている。
 また、「<AdaptationSet mimeType=“video/mp4” group=“2”>」の記述により、ビデオストリームに対するアダプテーションセット(AdaptationSet)が存在し、そのビデオストリームはMP4ファイル構造で供給され、グループ2が割り当てられていることが示されている。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “hevc”/>」の記述により、ビデオストリームのコーデックがHEVCであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ(generic_data)が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。
 また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、ビデオストリームにジェネリックデータ(generic_data)が含まれることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“1”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を1000bps単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート(CR)を基準とした、挿入データのビットレート(AVR)の割合を示す。
 また、「<Representation id=“21” bandwidth=“20000000”>」の記述により、グループ2のアダプテーションセットの中に、「Representation id=“21”」で識別されるリプレゼンテーションとして、グループ2“group2”の符号化データを含むビットレートが20Mbpsのビデオストリームの存在が示されている。そして、「<baseURL>audio/jp/20000.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「video/jp/20000.mp4」として示されている。
 また、上述実施の形態においては、セットトップボックス200およびテレビ受信機300を有する送受信システム10を示した。しかし、テレビ受信機300の代わりに、モニタ装置、あるいはプロジェクタ等が配置される構成も考えられる。また、セットトップボックス200の代わりに、受信機能付きのレコーダ、パーソナルコンピュータ等が配置される構成も考えられる。
 また、上述実施の形態においては、セットトップボックス200およびテレビ受信機300がHDMIのデジタルインタフェースにより有線で接続されている。しかし、各機器が、HDMIと同様のデジタルインタフェースで有線接続される場合、さらには、無線によって接続される場合にも、この発明を同様に適用できることは勿論である。
 また、上述実施の形態においては、放送送出装置100から放送波に載せて送信されてくるトランスポートストリームTSをセットトップボックス200で受信する送受信システム10を示した。しかし、図44に示すように、放送送出装置100から放送波に載せて送信されてくるトランスポートストリームTSをテレビ受信機300で直接受信する送受信システム10Aも考えられる。
 なお、本技術は、以下のような構成もとることができる。
 (1)メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
 上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
 上記情報挿入部は、
 上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
 送信装置。
 (2)上記情報挿入部は、
 上記所定情報を、各分割部分のデータサイズが固定サイズとなるように分割する
 前記(1)に記載の送信装置。
 (3)上記情報挿入部は、
 ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する上記単位部分の数で割ることにより上記固定サイズを算出する
 前記(2)に記載の送信装置。
 (4)上記情報挿入部は、
 上記所定情報を、上記分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する
 前記(1)に記載の送信装置。
 (5)上記情報挿入部は、
 ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する上記単位部分の数で割って得られた第1のサイズと、上記メディア符号化ストリームのビットレートを1秒間で発生する上記単位部分の数で割って得られた第2のサイズとを加算することで上記固定サイズを算出する
 前記(4)に記載の送信装置。
 (6)上記情報挿入部は、
 1つ以上の上記メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に挿入される上記各分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報を付加する
 前記(1)から(5)のいずれかに記載の送信装置。
 (7)上記コンテナに、上記1つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
 前記(6)に記載の送信装置。
 (8)上記識別情報挿入部は、
 上記コンテナに、上記1つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
 上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
 前記(7)に記載の送信装置。
 (9)メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
 送信部により、上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
 上記情報挿入ステップでは、
 上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
 送信方法。
 (10)1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
 上記所定情報の分割部分が挿入された上記1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
 送信装置。
 (11)上記情報挿入部は、
 上記1つ以上のメディア符号化ストリームにそれぞれ挿入される上記各分割部分に、他の上記メディアストリームへの上記分割部分の挿入があるか識別する識別情報を付加する
 前記(10)に記載の送信装置。
 (12)上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
 前記(10)または(11)に記載の送信装置。
 (13)上記識別情報挿入部は、
 上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
 上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
 前記(12)に記載の送信装置。
 (14)1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
 送信部により、上記所定情報の分割部分が挿入された上記1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
 送信方法。
 (15)1つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
 上記1つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
 受信装置。
 (16)上記ストリーム受信部は、
 上記1つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する
 前記(15)に記載の受信装置。
 (17)上記1つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている上記分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報が付加されており、
 上記所定情報を再構成する処理では、上記識別情報に基づいて、上記1つ以上のメディア符号化ストリームの所定数の単位部分から上記所定情報の各分割部分を取り出す
 前記(15)または(16)に記載の受信装置。
 (18)受信部により、1つ以上のメディア符号化ストリームを受信するストリーム受信ステップを有し、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
 上記1つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成するデータ構成ステップと、
 上記再構成された所定情報を利用した情報処理を行う情報処理ステップをさらに有する
 受信方法。
 (19)1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
 上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
 上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
 上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記1つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
 受信装置。
 本技術の主な特徴は、メディア符号化ストリームの所定数の単位部分にビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信することで、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得るようにしたことである(図2、図4、図6参照)。
 10,10A・・・送受信システム
 21・・・有効画素区間
 22・・・水平帰線期間
 23・・・垂直帰線期間
 24・・・ビデオデータ区間
 25・・・データアイランド区間
 26・・・コントロール区間
 31・・・HDMIトランスミッタ
 32・・・HDMIレシーバ
 33・・・DDC
 34・・・CECライン
 35・・・HPDライン
 36・・・電源ライン
 37・・・リザーブライン
 100・・・放送送出装置
 110A,110B,110C・・・ストリーム生成部
 111・・・CPU
 112・・・ビデオエンコーダ
 113,113-1,113-2・・・オーディオエンコーダ
 114・・・スプリッタ
 115,115-1,115-2,117・・・インサータ
 116・・・マルチプレクサ
 200・・・セットトップボックス(STB)
 201・・・CPU
 202・・・フラッシュROM
 203・・・DRAM
 204・・・内部バス
 205・・・リモコン受信部
 206・・・リモコン送信機
 211・・・アンテナ端子
 212・・・デジタルチューナ
 213・・・デマルチプレクサ
 214・・・ビデオデコーダ
 215・・・オーディオフレーミング部
 216・・・HDMI送信部
 217・・・HDMI端子
 300・・・テレビ受信機(TV)
 301・・・CPU
 302・・・フラッシュROM
 303・・・DRAM
 304・・・内部バス
 305・・・リモコン受信部
 306・・・リモコン送信機
 307・・・通信インタフェース
 311・・・アンテナ端子
 312・・・デジタルチューナ
 313・・・デマルチプレクサ
 314・・・ビデオデコーダ
 315・・・HDMI端子
 316・・・HDMI受信部
 317・・・映像処理回路
 318・・・パネル駆動回路
 319・・・表示パネル
 320・・・オーディオデコーダ
 321・・・音声処理回路
 322・・・音声増幅回路
 323・・・スピーカ
 351-1,351-2・・・エクストラクタ
 352-1,352-2・・・デコーダ
 353・・・データリアセンブラ
 400・・・HDMIケーブル

Claims (19)

  1.  メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
     上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
     上記情報挿入部は、
     上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
     送信装置。
  2.  上記情報挿入部は、
     上記所定情報を、各分割部分のデータサイズが固定サイズとなるように分割する
     請求項1に記載の送信装置。
  3.  上記情報挿入部は、
     ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する上記単位部分の数で割ることにより上記固定サイズを算出する
     請求項2に記載の送信装置。
  4.  上記情報挿入部は、
     上記所定情報を、上記分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する
     請求項1に記載の送信装置。
  5.  上記情報挿入部は、
     ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを1秒間で発生する上記単位部分の数で割って得られた第1のサイズと、上記メディア符号化ストリームのビットレートを1秒間で発生する上記単位部分の数で割って得られた第2のサイズとを加算することで上記固定サイズを算出する
     請求項4に記載の送信装置。
  6.  上記情報挿入部は、
     1つ以上の上記メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、
     上記1つ以上のメディア符号化ストリームの所定数の単位部分に挿入される上記各分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報を付加する
     請求項1に記載の送信装置。
  7.  上記コンテナに、上記1つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
     請求項6に記載の送信装置。
  8.  上記識別情報挿入部は、
     上記コンテナに、上記1つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
     上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
     請求項7に記載の送信装置。
  9.  メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
     送信部により、上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
     上記情報挿入ステップでは、
     上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
     送信方法。
  10.  1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
     上記所定情報の分割部分が挿入された上記1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
     送信装置。
  11.  上記情報挿入部は、
     上記1つ以上のメディア符号化ストリームにそれぞれ挿入される上記各分割部分に、他の上記メディアストリームへの上記分割部分の挿入があるか識別する識別情報を付加する
     請求項10に記載の送信装置。
  12.  上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
     請求項10に記載の送信装置。
  13.  上記識別情報挿入部は、
     上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
     上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
     請求項12に記載の送信装置。
  14.  1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
     送信部により、上記所定情報の分割部分が挿入された上記1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
     送信方法。
  15.  1つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
     上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
     上記1つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
     受信装置。
  16.  上記ストリーム受信部は、
     上記1つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する
     請求項15に記載の受信装置。
  17.  上記1つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている上記分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報が付加されており、
     上記所定情報を再構成する処理では、上記識別情報に基づいて、上記1つ以上のメディア符号化ストリームの所定数の単位部分から上記所定情報の各分割部分を取り出す
     請求項15に記載の受信装置。
  18.  受信部により、1つ以上のメディア符号化ストリームを受信するストリーム受信ステップを有し、
     上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
     上記1つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成するデータ構成ステップと、
     上記再構成された所定情報を利用した情報処理を行う情報処理ステップをさらに有する
     受信方法。
  19.  1つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
     上記1つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
     上記コンテナに、上記1つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
     上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記1つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
     受信装置。
PCT/JP2017/007572 2016-03-09 2017-02-27 送信装置、送信方法、受信装置および受信方法 WO2017154646A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201780014788.3A CN108702533B (zh) 2016-03-09 2017-02-27 发送装置、发送方法、接收装置和接收方法
KR1020187024760A KR20180120169A (ko) 2016-03-09 2017-02-27 송신 장치, 송신 방법, 수신 장치 및 수신 방법
MX2018010460A MX2018010460A (es) 2016-03-09 2017-02-27 Dispositivo de transmision, metodo de transmision, dispositivo de recepcion y metodo de recepcion.
JP2018504385A JP6984586B2 (ja) 2016-03-09 2017-02-27 送信装置、送信方法、受信装置および受信方法
US16/077,572 US10812838B2 (en) 2016-03-09 2017-02-27 Transmission device, transmission method, reception device, and reception method
CA3015063A CA3015063A1 (en) 2016-03-09 2017-02-27 Transmission device, transmission method, reception device, and reception method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016046002 2016-03-09
JP2016-046002 2016-03-09

Publications (1)

Publication Number Publication Date
WO2017154646A1 true WO2017154646A1 (ja) 2017-09-14

Family

ID=59790476

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/007572 WO2017154646A1 (ja) 2016-03-09 2017-02-27 送信装置、送信方法、受信装置および受信方法

Country Status (7)

Country Link
US (1) US10812838B2 (ja)
JP (1) JP6984586B2 (ja)
KR (1) KR20180120169A (ja)
CN (1) CN108702533B (ja)
CA (1) CA3015063A1 (ja)
MX (1) MX2018010460A (ja)
WO (1) WO2017154646A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112020015531A2 (pt) * 2018-02-22 2021-02-02 Dolby International Ab método e aparelho para processamento de fluxos de mídias auxiliares integrados em um fluxo de áudio mpeg-h 3d

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003204275A (ja) * 2001-10-31 2003-07-18 Victor Co Of Japan Ltd メタデータ受信方法
JP2010118949A (ja) * 2008-11-13 2010-05-27 Nippon Television Network Corp デジタル放送方法及びシステムと、放送局及び受信機
WO2014010501A1 (ja) * 2012-07-10 2014-01-16 シャープ株式会社 再生装置、再生方法、配信装置、配信方法、配信プログラム、再生プログラム、記録媒体およびメタデータ
JP2015119477A (ja) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
JP2016012831A (ja) * 2014-06-30 2016-01-21 日本放送協会 映像音声信号送信装置、受信装置及び方法
JP2016029816A (ja) * 2010-05-26 2016-03-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4345024B2 (ja) * 1996-04-12 2009-10-14 ソニー株式会社 画像符号化装置、画像符号化方法及び画像符号化プログラムを記録した記録媒体
KR100495716B1 (ko) * 1996-04-12 2005-11-25 소니 가부시끼 가이샤 화상인코딩장치와방법및화상인코딩프로그램이기록된매체
JP3431470B2 (ja) * 1996-08-30 2003-07-28 松下電器産業株式会社 デジタル放送装置、受信装置、デジタル放送システム、受信装置に適用するプログラム記録媒体
DE69725533T2 (de) * 1996-08-30 2004-05-19 Matsushita Electric Industrial Co., Ltd., Kadoma Digitales Rundfunksystem, digitale Rundfunkvorrichtung und Empfänger dafür
CA2262894C (en) * 1997-06-19 2004-08-03 Kabushiki Kaisha Toshiba Information data multiplexing transmission system, multiplexer and demultiplexer used therefor, and error correcting encoder and decoder
US20030084180A1 (en) 2001-10-31 2003-05-01 Tomohiro Azami Metadata receiving apparatus, receiving method, metadata receiving program, computer-readable recording medium recording therein metadata receiving program, metadata sending apparatus, and transmitting method
US8218559B2 (en) * 2007-05-15 2012-07-10 Nokia Corporation Providing best effort services via a digital broadcast network using data encapsulation
JP6202826B2 (ja) * 2013-01-30 2017-09-27 キヤノン株式会社 通信装置、通信装置の制御方法、および、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003204275A (ja) * 2001-10-31 2003-07-18 Victor Co Of Japan Ltd メタデータ受信方法
JP2010118949A (ja) * 2008-11-13 2010-05-27 Nippon Television Network Corp デジタル放送方法及びシステムと、放送局及び受信機
JP2016029816A (ja) * 2010-05-26 2016-03-03 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
WO2014010501A1 (ja) * 2012-07-10 2014-01-16 シャープ株式会社 再生装置、再生方法、配信装置、配信方法、配信プログラム、再生プログラム、記録媒体およびメタデータ
JP2015119477A (ja) * 2013-12-16 2015-06-25 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 送信方法、受信方法、送信装置及び受信装置
JP2016012831A (ja) * 2014-06-30 2016-01-21 日本放送協会 映像音声信号送信装置、受信装置及び方法

Also Published As

Publication number Publication date
CN108702533A (zh) 2018-10-23
MX2018010460A (es) 2019-01-14
CA3015063A1 (en) 2017-09-14
JP6984586B2 (ja) 2021-12-22
KR20180120169A (ko) 2018-11-05
US10812838B2 (en) 2020-10-20
CN108702533B (zh) 2021-07-09
JPWO2017154646A1 (ja) 2019-01-10
US20190037255A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
JP7099510B2 (ja) 受信装置および受信方法
KR102396133B1 (ko) 송신 장치, 송신 방법, 수신 장치 및 수신 방법
JP6809450B2 (ja) 送信装置、送信方法、受信装置および受信方法
US11956485B2 (en) Transmission device, transmission method, media processing device, media processing method, and reception device
JP6891806B2 (ja) 送信装置、送信方法、受信装置および受信方法
JP6984586B2 (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018504385

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 3015063

Country of ref document: CA

ENP Entry into the national phase

Ref document number: 20187024760

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2018/010460

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17762986

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17762986

Country of ref document: EP

Kind code of ref document: A1