WO2017208818A1 - 送信装置、送信方法、受信装置および受信方法 - Google Patents

送信装置、送信方法、受信装置および受信方法 Download PDF

Info

Publication number
WO2017208818A1
WO2017208818A1 PCT/JP2017/018483 JP2017018483W WO2017208818A1 WO 2017208818 A1 WO2017208818 A1 WO 2017208818A1 JP 2017018483 W JP2017018483 W JP 2017018483W WO 2017208818 A1 WO2017208818 A1 WO 2017208818A1
Authority
WO
WIPO (PCT)
Prior art keywords
subtitle
information
stream
streams
predetermined number
Prior art date
Application number
PCT/JP2017/018483
Other languages
English (en)
French (fr)
Inventor
塚越 郁夫
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780031780.8A priority Critical patent/CN109155866A/zh
Priority to AU2017274829A priority patent/AU2017274829A1/en
Priority to EP17806376.4A priority patent/EP3468204A4/en
Priority to JP2018520780A priority patent/JP7020406B2/ja
Priority to US16/094,539 priority patent/US20190123842A1/en
Publication of WO2017208818A1 publication Critical patent/WO2017208818A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/28Arrangements for simultaneous broadcast of plural pieces of information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/61Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/65Arrangements for services using the result of monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 for using the result on users' side
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Definitions

  • the present technology relates to a transmission device, a transmission method, a reception device, and a reception method, and particularly to a transmission device that transmits a plurality of types of sub-tuttle information in parallel.
  • TTML Timed Text Text Markup Language
  • W3C World Wide Web Consortium
  • the purpose of this technology is to simplify the transmission of multiple types of subtitle information.
  • a subtitle encoding unit for generating a predetermined number of subtitle streams each having one or more subtitle information
  • a transmission apparatus includes a transmission unit that transmits a container having a predetermined format including the predetermined number of subtitle streams.
  • a predetermined number of subtitle streams each having one or two or more subtitle information are generated by the subtitle encoding unit.
  • each of the predetermined number of subtitle streams may have segmented subtitle information.
  • the transmission unit transmits a container having a predetermined format including a predetermined number of subtitle streams.
  • the subtitle encoding unit may generate a plurality of subtitle streams each having subtitle information in different languages, and each of the plurality of subtitle streams may have a plurality of subtitle information having different contents. Further, for example, the subtitle encoding unit may generate a plurality of subtitle streams each having subtitle information having different contents, and each of the plurality of subtitle streams may have a plurality of subtitle information having different languages.
  • a subtitle stream including a plurality of pieces of subtitle information can be generated and transmitted. Therefore, even if the type of subtitle information increases, an increase in the number of subtitle streams can be suppressed, and therefore transmission of a plurality of types of subtitle information can be simplified.
  • an information insertion unit that inserts information on each of a predetermined number of subtitle streams may be further provided in the container.
  • the information regarding each of the subtitle streams includes flag information indicating whether or not the corresponding subtitle stream has a plurality of subtitle information, identification information for identifying the corresponding subtitle stream, and each subtitle information included in the corresponding subtitle stream. Identification information to be identified may be included.
  • On the receiving side it is possible to control display processing of user interface information for the user to perform a selection operation for displaying a desired subtitle, based on information regarding each of the predetermined number of subtitle streams.
  • a receiving unit for receiving a container of a predetermined format including a predetermined number of subtitle streams each having one or more subtitle information;
  • a control unit that controls a first extraction process for extracting one subtitle stream from the predetermined number of subtitle streams and a second extraction process for extracting one subtitle information from the extracted subtitle stream is provided.
  • the device In the device.
  • the receiving unit receives a container of a predetermined format including a predetermined number of subtitle streams each having one or more subtitle information.
  • the control unit controls a first extraction process for extracting one subtitle stream from a predetermined number of subtitle streams and a second extraction process for extracting one subtitle information from the extracted one subtitle stream.
  • information about each of a predetermined number of subtitle streams is inserted into the container, and the control unit performs the first extraction process and the second extraction process based on information about each of the predetermined number of subtitle streams.
  • the display processing of the user interface information may be further controlled. In this case, the user can appropriately and efficiently perform the subtitle information selection operation based on the user interface information.
  • one subtitle stream is extracted from a predetermined number of subtitle streams, and one subtitle information is further extracted from the extracted one subtitle stream. Therefore, even when a predetermined number of subtitle streams include a subtitle stream including a plurality of pieces of subtitle information, a desired subtitle display can be performed.
  • FIG. 1 shows a configuration example of a transmission / reception system 10 as an embodiment.
  • the transmission / reception system 10 includes a broadcast transmission system 100 and a television receiver 200.
  • the broadcast transmission system 100 transmits a transport stream of MPEG-2 TS (hereinafter simply referred to as “transport stream TS”) as a container (multiplexed stream) on a broadcast wave.
  • transport stream TS MPEG-2 TS
  • the transport stream TS includes a predetermined number of subtitle streams together with a video stream having video data and an audio stream having audio data.
  • Each of the predetermined number of subtitle streams has one or more subtitle information.
  • subtitle information text information of a subtitle (caption), for example, TTML or a TTML derived format can be considered.
  • the subtitle information is TTML
  • the subtitle stream has segmented subtitle information.
  • the broadcast transmission system 100 inserts information on each of a predetermined number of subtitle streams into a transport stream TS as a container.
  • This information includes, for example, flag information indicating whether or not the corresponding subtitle stream has a plurality of subtitle information, identification information for identifying the corresponding subtitle stream, and identification information for identifying each subtitle information possessed by the corresponding subtitle stream Etc. are included.
  • the receiving side can appropriately perform display processing of user interface information for the user to perform a selection operation for displaying a desired subtitle.
  • the television receiver 200 receives the transport stream TS sent from the broadcast transmission system 100.
  • the television receiver 200 obtains video data by performing decoding processing on a video stream having video data, and obtains audio data by performing decoding processing on an audio stream having audio data.
  • the television receiver 200 extracts one subtitle stream from a predetermined number of subtitle streams in accordance with a user's selection operation, and extracts one subtitle information from the extracted one subtitle stream. Then, the television receiver 200 performs decoding processing on the extracted one subtitle information, obtains subtitle bitmap data, and superimposes it on the video data to obtain video data for display.
  • the television receiver 200 uses the user interface information (FIG. 3B) for the convenience of the user's selection operation based on the information about each of the predetermined number of subtitle streams inserted in the transport stream TS. Display).
  • the user can easily perform desired subtitle display by performing a selection operation based on the user interface information.
  • the transport stream TS includes a subtitle stream 1 (Packet id1) and a subtitle stream 2 (Packet ⁇ ⁇ ⁇ ⁇ id2), each having three subtitle information.
  • FIG. 2 shows an example of subtitle information that the subtitle streams 1 and 2 have.
  • the subtitle stream 1 has three subtitle information whose language is “English” and whose contents are “general”, “for hearing impaired”, and “non-native”, respectively.
  • the subtitle stream 2 has three pieces of subtitle information whose language is “French” and whose contents are “general”, “for the hearing impaired”, and “for non-native”, respectively.
  • FIG. 3A shows a flow of subtitle information extraction processing for displaying a desired subtitle from the subtitle streams 1 and 2 in the television receiver 200.
  • first extraction process a subtitle stream including subtitle information for performing desired subtitle display is extracted from the subtitle streams 1 and 2.
  • second extraction process subtitle information for performing desired subtitle display is extracted from the extracted subtitle stream.
  • FIG. 3B shows a display example of user interface information for a user's selection operation.
  • “English” or “French” can be selected.
  • “Subtitle Type Selection” section the “General subtitle”, “Hard ofearing subtitle” or “Non-native Subtitle” subtitle Selection is possible.
  • the “general subtitle” is selected in “English”.
  • FIG. 4A shows an example of a time-series change of the subtitle stream extracted by the stream extraction process.
  • the subtitle stream whose display timing is T1 has subtitle information of “Normal1”, “Hard hearing1”, and “Non-native1”.
  • “Normal1” is general subtitle information, and therefore the segment type (segment type) is set to 1, for example, “xxx yy” is subtitle information. “Hard of hearing1” is subtitle information for the hearing impaired, so the segment type (segment type) is 2, and is, for example, subtitle information displaying “ggggjjjj”. Since “Non-native1” is non-native subtitle information, the segment type (segment type) is 3, and is, for example, subtitle information displaying “Fff hi”.
  • FIG. 4B shows an example of subtitle display when subtitle information “Normal1” is extracted from the subtitle stream whose display timing is T1 by the subtitle information extraction process.
  • the subtitle stream whose display timing is T2 has subtitle information of “Normal2”, “Hard hearing2”, and “Non-native2”.
  • “Normal2” is general subtitle information, and therefore the segment type (segment type) is set to 1, for example, “xxx yyxxxzzzz” is displayed. Since “Hard of hearing2” is subtitle information for hearing impaired persons, the segment type (segment type) is set to 2, for example, “G hg jkj jk”. Since “Non-native2” is non-native subtitle information, the segment type (segment type) is set to 3, for example, “Fff hiFjjj”.
  • FIG. 4C shows a subtitle display example when subtitle information “Hard ofhearing2” is extracted from the subtitle stream whose display timing is T2 by the subtitle information extraction process.
  • FIG. 5 shows a configuration example of the stream generation unit 110 of the broadcast transmission system 100.
  • the stream generation unit 110 includes a control unit 111, a video encoder 112, an audio encoder 113, a text format conversion unit 114, a subtitle encoder 115, and a TS formatter (multiplexer) 116.
  • the control unit 111 is configured to include, for example, a CPU (Central Processing Unit), and controls the operation of each unit of the stream generation unit 110.
  • the video encoder 112 receives the video data DV, encodes the video data DV, and generates a video stream composed of video PES packets having encoded video data in the payload.
  • the audio encoder 113 receives the audio data DA, encodes the audio data DA, and generates an audio stream composed of audio PES packets having encoded audio data.
  • the text format conversion unit 114 receives text data (character code) DT and obtains TTML (Timed Text Markup Language) as subtitle information.
  • FIG. 6 shows an example of a TTML structure.
  • TTML is described on an XML basis.
  • the TTML is composed of a head and a body. In the head, there are various elements such as metadata, styling, styling extension, layout, and the like.
  • Metadata includes metadata title information, copyright information, and the like.
  • the styling includes information such as region position, size, color, font (fontFamily), font size (fontSize), and text alignment (textAlign).
  • the layout includes information such as an offset (padding), a background color (backgroundColor), and an alignment (displayAlign) in addition to the identifier (id) of the region in which the subtitle is arranged.
  • the body includes information on the subtitle. For each subtitle, a display start timing and a display end timing are described, and text data is described.
  • the text format conversion unit 114 obtains a plurality of types of TTML corresponding to the same display timing.
  • TTML whose language is “English” and whose content is “general”
  • Six types of TTML whose language is “French” and whose content is “non-native” are obtained.
  • the subtitle encoder 115 converts the six types of TTML obtained by the text format conversion unit 114 into segments (TTML segments). Then, the subtitle encoder 115 generates the subtitle stream 1 including the subtitle PES packet in which the TTML segments (1) to (3) having the language “English” are arranged in the payload, and the language is “French”. A subtitle stream 2 including a subtitle PES packet in which a certain TTML segment (4) to (6) described above is arranged in the payload is generated.
  • the subtitle streams 1 and 2 also include at least a font download segment (Font_download_segment) having download information for downloading a font file specified by the TTML font designation information. That is, the subtitle encoder 115 inserts a font download segment into the payload of the subtitle PES packet that constitutes the subtitle streams 1 and 2, respectively.
  • Font_download_segment a font download segment having download information for downloading a font file specified by the TTML font designation information. That is, the subtitle encoder 115 inserts a font download segment into the payload of the subtitle PES packet that constitutes the subtitle streams 1 and 2, respectively.
  • FIG. 7A shows a structure example (Syntax) of the subtitle PES packet (PES_packet).
  • PES_startcode_prefix a fixed pattern “0x000001” is arranged.
  • An 8-bit field of “stream_id” indicates a stream identifier.
  • the 16-bit field of “PES_packet_length” indicates the number of subsequent bytes as the length (size) of the PES packet.
  • PES_packet_length there is a field of “Optional_PES_header ()”. In this field, time stamps of PTS, DTS, and the like are arranged. After this field, there is a field “PES_packet_data_byte”. This field corresponds to the PES payload. In this field, “PES_data_byte_field ()” for containerizing data is arranged.
  • FIG. 7B shows a structural example (Syntax) of “PES_data_byte_field ()”.
  • the 8-bit field of “data_identifier” indicates an identifier for identifying the type of data in the container portion. Since the conventional subtitle (in the case of a bitmap) is supposed to be indicated by “0x20”, the text can be identified by a new value, for example, “0x21”.
  • the 8-bit field of “subtitle_stream_id” indicates an identifier for identifying the type of the subtitle stream.
  • a new value for example, “0x01”, can be distinguished from the conventional subtitle stream “0x00” that transmits a bitmap.
  • FIG. 8A shows a structural example (Syntax) of a subtitle segment.
  • FIG. 8B shows the content (Semantics) of main information in the structural example.
  • the 8-bit field of “sync_byte” is a unique word indicating the start of a segment.
  • An 8-bit field of “segment_type” indicates a segment type (segment type).
  • FIG. 9 shows an example of the definition of the segment type (segment_type).
  • segment_type For example, “0x01” indicates a general subtitle (Normal subtitle), “0x02” indicates a subtitle for the hearing impaired (Hard_of_hearing subtitle), and “0x03” indicates a non-native subtitle (Non-native subtitle).
  • “0x11” indicates a subtitle of language 1 (English)
  • “0x12” indicates a subtitle of language 2 (French).
  • “0x84” indicates font download (Font Download).
  • the 8-bit field of “segment_id” indicates segment identification.
  • Segment_length is a 16-bit field indicating the number of subsequent bytes as the length (size) of the subtitle segment.
  • a 4-bit field of “version_number” indicates information update. If an update is made, the value is incremented by one.
  • segment_payload () When the segment type is “0x01”, “0x02”, “0x03”, “0x11”, “0x12”, a TTML document (see FIG. 6) is arranged in the field “segment_payload ()”.
  • FIG. 10 shows a structure example (Syntax) of the segment payload (segment_payload ()) when the segment type is “0x84”, and FIG. 11 shows contents (Semantics) of main information in the structure example. .
  • a 16-bit field of “original_network_id” indicates identification information of a network through which download data is transmitted.
  • a 16-bit field of “transport_stream_id” indicates identification information of an individual transport stream.
  • a 16-bit field of “service_id” indicates identification information of a service to be downloaded. In the case of a download target common to distribution media, the font file may be sent by another transport stream instead of its own transport stream. "Original_network_id”, “transport_stream_id”, and “service_id” information can be specified.
  • the 8-bit field of “font_file_id” indicates the identification number assigned to the font file.
  • a 24-bit field of “ISO — 639_language_code” indicates a code consisting of three characters for identifying a language. For example, “jpn” indicates Japanese and “eng” indicates English.
  • the 8-bit field of “font_group_id” indicates the identification information of the font group and corresponds to the generic family of TTML.
  • An 8-bit field of “font_name_id” indicates an individual font name.
  • the 8-bit field “url_type” indicates the server type. For example, “0x01” indicates a font server (uncompressed URL), “0x02” indicates a general server (uncompressed URL), “0x11” indicates a font server (compressed URL), and “0x12” indicates a general server Indicates a server (compressed URL).
  • the 8-bit field of “url_string_length” indicates the length (size) of the character code portion indicating the character string of the subsequent URL in bytes. The character code is placed in the “char” field.
  • the TS formatter 116 transport-packets the video stream generated by the video encoder 112, the audio stream generated by the audio encoder 113, and the subtitle streams 1 and 2 generated by the subtitle encoder 115. Multiplexing is performed to obtain a transport stream TS as a container (multiplexed stream).
  • the TS formatter 116 inserts information on each of the two subtitle streams 1 and 2 included in the transport stream TS into a PMT (Program Map). Specifically, a newly defined text subtitle descriptor (Text_subtitle_descriptor) having such information is generated and inserted into the subtitle elementary stream loop (Subtitle ES loop) corresponding to each of the subtitle streams 1 and 2.
  • PMT Program Map
  • FIG. 12 shows a structural example (Syntax) of a text subtitle descriptor.
  • FIG. 13 shows the contents (Semantics) of main information in the structural example.
  • the 8-bit field of “descriptor_tag” indicates a descriptor type, and here indicates a text subtitle descriptor.
  • the 8-bit field of “descriptor_length” indicates the length (size) of the descriptor, and indicates the number of subsequent bytes as the descriptor length.
  • the 8-bit field of “packet_type” indicates the packet type (packet type) as shown in FIG.
  • FIG. 14 shows an example of the definition of the packet type (packet_type).
  • packet_type For example, “0x01” indicates a general subtitle (Normal subtitle), “0x02” indicates a subtitle for the deaf (Hard_of_hearing subtitle), and “0x03” indicates a non-native subtitle (Non-native subtitle).
  • “0x11” indicates a subtitle of language 1 (English)
  • “0x12” indicates a subtitle of language 2 (French).
  • “0x84” indicates font download (Font Download).
  • the 1-bit field of “multiplexed_segment_packet_flag” indicates whether or not the subtitle stream includes a plurality of pieces of subtitle information.
  • a 7-bit field of “number_of_segments” indicates the number of subtitle information included in the subtitle stream. Then, as many as the number of subtitle information, an 8-bit field of “segment_id”, an 8-bit field of “segment_type”, and a 24-bit field of “ISO_639_language_code” exist repeatedly.
  • the field “segment_id” indicates segment identification.
  • the “segment_type” field indicates the segment type.
  • “ISO_639_language_code” indicates a three-character code for identifying a language.
  • At least a font file designated by the TTML font designation information is downloaded to the subtitle elementary stream loop (Subtitle ES loop) corresponding to each of the subtitle streams 1 and 2.
  • a font file descriptor (Font_file_descriptor) having the download information is inserted.
  • FIG. 15 shows a structural example (Syntax) of a font file descriptor.
  • the 8-bit field of “descriptor_tag” indicates a descriptor type, and here indicates a font file descriptor.
  • the 8-bit field of “descriptor_length” indicates the length (size) of the descriptor, and indicates the number of subsequent bytes as the descriptor length. Since the other fields are the same as those in the segment payload structure example in the case where the segment type shown in FIG. 10 is “0x84”, detailed description thereof will be omitted.
  • the video data DV is supplied to the video encoder 112.
  • the video data DV is encoded, and a video stream composed of video PES packets having encoded image data in the payload is generated. This video stream is supplied to the TS formatter 116.
  • the audio data DA is supplied to the audio encoder 113.
  • the audio encoder 113 encodes the audio data DA and generates an audio stream composed of audio PES packets having encoded audio data. This audio stream is supplied to the TS formatter 116.
  • the text data (character code) DT is supplied to the text format conversion unit 114.
  • This text format conversion unit 114 obtains TTML as caption information (see FIG. 6).
  • six types of TTML are obtained corresponding to the same display timing. That is, (1) TTML whose language is “English” and “general”, (2) TTML whose language is “English” and whose content is “for hearing impaired”, and (3) whose language is “English” and whose content is “English” TTML for “non-native”, (4) TTML with language “French” and content “General”, (5) TTML with language “French” and content “For hearing impaired”, (6) Language Six types of TTML with "French” and "Non-native" content are available.
  • TTML 6 types obtained by the text format conversion unit 114 are supplied to the subtitle encoder 115.
  • the subtitle encoder 115 six types of TTML are converted into segments (TTML segments) (see FIG. 8A and FIG. 6).
  • the subtitle encoder 115 generates the subtitle stream 1 including the subtitle PES packet in which the TTML segments (1) to (3) having the language “English” are arranged in the payload, and the language is “French”.
  • the subtitle stream 2 including the subtitle PES packet in which the TTML segments (4) to (6) described above are arranged in the payload is generated.
  • the subtitle streams 1 and 2 are supplied to the TS formatter 116.
  • the subtitle streams 1 and 2 also include a font download segment (Font_download_segment) having download information for downloading at least a font file designated by the TTML font designation information (see FIG. 8 (a), see FIG.
  • the video stream generated by the video encoder 112 the audio stream generated by the audio encoder 113, and the subtitle streams 1 and 2 generated by the subtitle encoder 115 are transport packetized and multiplexed, and the container A transport stream TS as (multiplexed stream) is generated.
  • a subtitle elementary stream loop (Subtitle ES loop) corresponding to each of the subtitle streams 1 and 2 under the PMT has a text subtitle descriptor (Subtitle ES loop) having information on the corresponding subtitle stream.
  • Text_subtitle_descriptor) is inserted (see FIG. 12), and at least a font file descriptor (Font_file_descriptor) having download information for downloading a font file designated by the font designation information of TTML is inserted (FIG. 12). 15).
  • FIG. 16 illustrates a configuration example of the transport stream TS.
  • the configuration for the video and audio portions is omitted.
  • a subtitle 2 / PES packet that is a PES packet of the subtitle stream 2 identified by PID2 “Subtitle2 PES” exists.
  • a font download segment whose segment type is “0x84” is also inserted in this PES payload.
  • a font download segment whose segment type is “0x84” is also inserted in this PES payload.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI Program Specific Information
  • This PSI is information describing to which program each elementary stream included in the transport stream TS belongs.
  • the PMT has a program descriptor (Program Descriptor) that describes information related to the entire program.
  • this PMT there is a subtitle 1 / elementary stream loop (Subtitle1 ES loop) having information related to the subtitle stream 1.
  • information such as a PID (packet identifier) is arranged corresponding to the subtitle stream 1, and a descriptor that describes information related to the subtitle stream is also arranged.
  • a text subtitle descriptor (Text_subtitle_descriptor) and a font file descriptor (Font_file_descriptor) are inserted (see FIGS. 12 and 15).
  • the text subtitle descriptor has information regarding the corresponding subtitle stream. In this case, the packet type is “0x11”.
  • the font file descriptor has download information for downloading at least a font file designated by the TTML font designation information.
  • this PMT has a subtitle 2 elementary stream loop (Subtitle2 ES loop) having information related to the subtitle stream 2.
  • information such as a PID (packet identifier) is arranged corresponding to the subtitle stream 2, and a descriptor describing information related to the subtitle stream is also arranged.
  • a text subtitle descriptor (Text_subtitle_descriptor) and a font file descriptor (Font_file_descriptor) are inserted (see FIGS. 12 and 15).
  • the text subtitle descriptor has information regarding the corresponding subtitle stream. In this case, the packet type is “0x12”.
  • the font file descriptor has download information for downloading at least a font file designated by the TTML font designation information.
  • FIG. 17 shows a configuration example of the television receiver 200.
  • the television receiver 200 includes a receiving unit 201, a TS analyzing unit (demultiplexer) 202, a video decoder 203, a video superimposing unit 204, a panel driving circuit 205, and a display panel 206 as a monitor (display). is doing.
  • the television receiver 200 includes an audio decoder 207, an audio output circuit 208, a speaker 209, and a subtitle decoder 210.
  • the television receiver 200 includes a CPU 221, a flash ROM 222, a DRAM 223, an internal bus 224, a remote control receiver 225, a remote control transmitter 226, and a communication interface 227.
  • the CPU 221 controls the operation of each part of the television receiver 200.
  • the flash ROM 222 stores control software and data.
  • the DRAM 223 constitutes a work area for the CPU 221.
  • the CPU 221 develops software and data read from the flash ROM 222 on the DRAM 223 to activate the software, and controls each unit of the television receiver 200.
  • the remote control receiving unit 225 receives the remote control signal (remote control code) transmitted from the remote control transmitter 226 and supplies it to the CPU 221.
  • the CPU 221 controls each part of the television receiver 200 based on this remote control code.
  • the CPU 221, flash ROM 222, and DRAM 223 are connected to the internal bus 224.
  • the communication interface 227 communicates with a server existing on a network such as the Internet under the control of the CPU 221. This communication interface 227 is connected to the internal bus 224.
  • the receiving unit 201 receives the transport stream TS transmitted from the broadcast transmission system 100 on a broadcast wave.
  • the transport stream TS includes the video stream, the audio stream, and the subtitle streams 1 and 2.
  • the TS analysis unit 202 extracts video, audio, and subtitle streams from the transport stream TS.
  • the TS analysis unit 202 analyzes various information inserted in the header of each TS packet, and selectively selects a TS packet including data of video, audio, and subtitle PES packets based on “PID”. To obtain video, audio, and subtitle streams.
  • the TS analysis unit 202 analyzes various information inserted in the header of each TS packet, extracts various information inserted in the transport stream TS based on “PID”, and sends it to the CPU 221. .
  • This information includes a text subtitle descriptor and a font file descriptor (see FIGS. 12 and 15).
  • the CPU 221 acquires information related to the corresponding subtitle stream from the text subtitle descriptor. This information includes, for example, flag information indicating whether or not the corresponding subtitle stream has a plurality of subtitle information, identification information for identifying the corresponding subtitle stream, and identification information for identifying each subtitle information possessed by the corresponding subtitle stream Etc. are included. Further, the CPU 221 acquires information for downloading a file of a font specified by at least the font specification information of TTML from the font file descriptor.
  • the audio decoder 207 performs a decoding process on the audio stream extracted by the TS analysis unit 202 to obtain audio data.
  • the audio output circuit 208 performs necessary processing such as D / A conversion and amplification on the audio data and supplies the audio data to the speaker 209.
  • the video decoder 203 performs a decoding process on the video stream extracted by the TS analysis unit 202 to obtain video data.
  • the subtitle decoder 210 performs decoding processing on the subtitle stream extracted by the TS analysis unit 202, and obtains TTML from timed text subtitle segments (TimedText subtitle segments).
  • only one of the two subtitle streams 1 and 2 included in the transport stream TS is selectively extracted and supplied from the TS analysis unit 202 to the subtitle decoder 210. Further, in the subtitle decoder 210, only one of the three TTML segments included in the subtitle stream supplied from the TS analysis unit 202 is selectively extracted and subjected to decoding processing to obtain TTML.
  • the selection of the stream is based on the selection information of the language of the user or the system, and the packet type (Packet_type) information (see FIG. 14) is supplied from the CPU 221 to the TS analysis unit 202. This is done by specifying.
  • the user interface information for the user's selection operation shown in FIG. 3B the user selects “English” or “French” at the language selection “Language Selection”. Can be selected.
  • This user interface information is displayed on the display panel 206 based on information related to each of a predetermined number of subtitle streams under the control of the CPU 221.
  • the packet type when “English” is selected, the packet type is “0x11”, and the TS analysis unit 202 extracts the subtitle stream 1. For example, when “French” is selected, the packet type is “0x12”, and the TS analysis unit 202 extracts the subtitle stream 2.
  • the selection of the TTML segment is based on the selection information of the contents of the user or the system, as shown in FIG. This is done by specifying the segment type.
  • the user selects “General Subtitle”, “Hearing” at the content selection “Subtitle Type Selection”. It is possible to select “Subtitle for disabled people (Hard of Hearing Subtitle)” or “Non-native Subtitle”.
  • the segment type is set to “0x01”, and the subtitle decoder 210 extracts TTML segments including “General” TTML.
  • the segment type is “0x02”, and the subtitle decoder 210 extracts a TTML segment including TTML for “deaf person” Is done.
  • the segment type is “0x03”, and the subtitle decoder 210 extracts TTML segments including TTML of “non-native”.
  • the subtitle decoder 210 sends the TTML obtained by decoding the extracted one TTML segment to the CPU 221.
  • the CPU 221 acquires caption display position information and the like from this TTML.
  • the subtitle decoder 210 extracts the font download segment (see FIG. 8A and FIG. 10) included in the subtitle stream (PES packet) extracted by the TS analysis unit 202 and sends it to the CPU 221.
  • the CPU 221 obtains at least information for downloading a font file designated by the font designation information of TTML from the font download segment.
  • the subtitle decoder 210 converts text data (font data) of subtitles (subtitles) at each subtitle display position (region) included in the TTML into bitmap data (binary image information) under the control of the CPU 221. .
  • the subtitle decoder 210 uses a font file designated by the font designation information of the TTML when obtaining the caption bitmap data.
  • the CPU 221 appropriately selects the font file based on the download information inserted in the PES packet, the PMT, etc. as described above.
  • a broadcast signal transport stream TS
  • downloaded from a server on the network is used. If the file cannot be downloaded, a substitute font file (for example, a default font file) is used.
  • the video superimposing unit 204 superimposes the subtitle bitmap data of each subtitle display position obtained by the subtitle decoder 210 on the video data obtained by the video decoder 203, and displays the display video data. obtain.
  • the CPU 221 controls so that the superimposed position of the caption bitmap data becomes the caption display position determined by the caption display position information.
  • the panel drive circuit 205 drives the display panel 206 based on the display video data obtained by the video superimposing unit 204.
  • the display panel 206 includes, for example, an LCD (Liquid Crystal Display), an organic EL display (organic electroluminescence display), and the like.
  • the receiving unit 201 receives the transport stream TS transmitted from the broadcast transmission system 100 on the broadcast wave.
  • This transport stream TS includes a video stream, an audio stream, and subtitle streams 1 and 2.
  • the transport stream TS is supplied to the TS analysis unit 202.
  • the TS analysis unit 202 extracts video, audio, and subtitle streams from the transport stream TS.
  • various information inserted in the transport stream TS is extracted and sent to the CPU 221.
  • This information includes a text subtitle descriptor and a font file descriptor (see FIGS. 12 and 15).
  • the CPU 221 acquires information on the corresponding subtitle stream from the text subtitle descriptor.
  • the CPU 221 acquires information for downloading a file of a font specified by at least TTML font specification information from the font file descriptor.
  • the video stream extracted by the TS analysis unit 202 is supplied to the video decoder 203.
  • the video PES stream is decoded to obtain video data.
  • the subtitle stream extracted by the TS analysis unit 202 is supplied to the subtitle decoder 210.
  • the subtitle stream is decoded, and TTML is obtained from the timed text subtitled segments (TimedTextTimesubtitle segments).
  • only one of the two subtitle streams 1 and 2 included in the transport stream TS is selectively extracted and supplied from the TS analysis unit 202 to the subtitle decoder 210. Further, in the subtitle decoder 210, only one of the three TTML segments included in the subtitle stream supplied from the TS analysis unit 202 is selectively extracted and subjected to decoding processing to obtain TTML.
  • the selection of the stream in the TS analysis unit 202 is performed under the control of the CPU 221 based on the selection information of the language of the user or the system.
  • the selection of the TTML segment in the subtitle decoder 210 is performed under the control of the CPU 221 based on the selection information of the user or system language.
  • the user can display a desired subtitle by selecting a language and content.
  • the subtitle decoder 210 extracts a font download segment from the subtitle stream obtained by the TS analysis unit 202 and sends it to the CPU 221.
  • the CPU 221 acquires information for downloading a file of the font specified by at least the font designation information of TTML from the font download segment.
  • TTML obtained by the subtitle decoder 210 is sent to the CPU 221.
  • subtitle display position information and the like are acquired from the TTML.
  • the subtitle decoder 210 extracts the font download segment (see FIG. 8A and FIG. 10) included in the subtitle stream (PES packet) extracted by the TS analysis unit 202 and sends it to the CPU 221.
  • the CPU 221 obtains at least information for downloading a font file designated by the font designation information of TTML from the font download segment.
  • subtitle decoder 210 Under the control of the CPU 221, text data (font data) of subtitles (subtitles) in each subtitle display position (region) included in the TTML is converted into bitmap data (binary image information).
  • the subtitle decoder 210 uses a font file designated by font designation information of the TTML when subtitle bitmap data is obtained under the control of the CPU 221.
  • the CPU 221 appropriately selects the font file based on the download information inserted in the PES packet, the PMT, etc. as described above.
  • a broadcast signal transport stream TS
  • downloaded from a server on the network is used. If the file cannot be downloaded, a substitute font file (for example, a default font file) is used.
  • Bitmap data of subtitles at each subtitle display position output from the subtitle decoder 210 is supplied to the video superimposing unit 204.
  • the video superimposing unit 204 superimposes subtitle bitmap data at each subtitle display position obtained by the subtitle decoder 210 on the video data obtained by the video decoder 203 to obtain video data for display.
  • the CPU 221 controls the superimposed position of the caption bitmap data to be the caption display position based on the caption display position determined by the caption display position information.
  • the display video data obtained by the video superimposing unit 204 is supplied to the panel drive circuit 205.
  • the panel drive circuit 205 drives the display panel 206 based on the display video data. Thereby, the display panel 206 displays an image in which a caption (subtitle) is superimposed on each caption display position (region).
  • the audio stream extracted by the TS analysis unit 202 is supplied to the audio decoder 207.
  • the audio stream is decoded to obtain audio data.
  • This audio data is supplied to the audio output circuit 208.
  • the audio output circuit 208 performs necessary processing such as D / A conversion and amplification on the audio data.
  • the processed audio data is supplied to the speaker 209. Thereby, an audio output corresponding to the display image on the display panel 206 is obtained from the speaker 209.
  • the broadcast transmission system 100 generates and transmits a subtitle stream including a plurality of subtitle information (TTML segments). Therefore, even if the type of subtitle information increases, an increase in the number of subtitle streams can be suppressed, and therefore transmission of a plurality of types of subtitle information can be simplified.
  • TTML segments subtitle information
  • the broadcast transmission system 100 inserts information related to each of a predetermined number of subtitle streams into a subtitle stream TS as a container and transmits the subtitle stream TS. Therefore, on the receiving side, it is possible to control display processing of user interface information for the user to perform a selection operation for displaying a desired subtitle, based on information regarding each of the predetermined number of subtitle streams.
  • the television receiver 200 extracts one subtitle stream from a predetermined number of subtitle streams, and further, one subtitle information (TTML segment) from the extracted one subtitle stream. Is extracted. Therefore, even when a predetermined number of subtitle streams include a subtitle stream including a plurality of pieces of subtitle information, a desired subtitle display can be performed.
  • TTML segment subtitle information
  • the transport stream TS generated by the broadcast transmission system 100 has the language “English” and the contents “general”, “for hearing impaired”, and “non-native”, respectively.
  • An example is shown in which subtitle stream 2 (Packet id2) having subtitle information (TTML segment) is included.
  • the transport stream TS generated by the broadcast transmission system 100 includes the subtitle stream 1 (Packet id1) having the subtitle information (TTML segment) whose content is “general” and the content is “for the hearing impaired”.
  • subtitle stream 2 Packet (id2) having subtitle information (TTML segment)
  • subtitle stream 3 Packet id3 having subtitle information (TTML segment) whose content is “non-native” is also conceivable.
  • FIG. 19 shows an example of subtitle information that the subtitle streams 1, 2, and 3 have.
  • the subtitle stream 1 has two pieces of subtitle information whose contents are “general” and whose languages are “English” and “French”, respectively.
  • the subtitle stream 2 has two pieces of subtitle information whose contents are “for the hearing impaired” and whose languages are “English” and “French”, respectively.
  • the subtitle stream 3 has two pieces of subtitle information whose contents are “non-native” and whose languages are “English” and “French”, respectively.
  • FIG. 20A shows a case where the subtitle streams 1, 2, and 3 are included in the transport stream TS as described above, and a desired subtitle display is performed from the subtitle streams 1, 2, and 3 in the television receiver 200. The flow of the extraction process of subtitle information for this is shown.
  • a subtitle stream including subtitle information for performing desired subtitle display is extracted from the subtitle streams 1, 2, and 3.
  • subtitle information extraction process second extraction process
  • subtitle information for performing desired subtitle display is extracted from the extracted subtitle stream.
  • FIG. 20B shows a display example of user interface information for the user's selection operation.
  • “English” or “French” can be selected.
  • “Subtitle Type Selection” section the “General subtitle”, “Hard ofearing subtitle” or “Non-native Subtitle” subtitle Selection is possible.
  • “French” indicates that “Subtitle for the hearing impaired” is selected.
  • FIG. 21 shows a configuration example of the transport stream TS including the subtitle streams 1, 2, and 3 as described above.
  • the configuration for the video and audio portions is omitted.
  • a subtitle 1 and PES packet “Subtitle1 PES” that is a PES packet of the subtitle stream 1 identified by PID1
  • a subtitle 2 and PES packet “Subtitle2 PES” that is a PES packet of the subtitle stream 2 identified by PID2 are used.
  • there is a subtitle 3 / PES packet “Subtitle3 PES” which is a PES packet of the subtitle stream 3 identified by PID3.
  • TTML segments having general subtitle information are inserted in the PES payload. That is, in this PES payload, an English (English) subtitle TTML segment with a segment type of “0x11” and a French (French) subtitle TTML segment with a segment type of “0x12” are inserted. In addition, a font download segment whose segment type is “0x84” is also inserted in this PES payload.
  • TTML segments having subtitle information whose contents are intended for the hearing impaired are inserted in the PES payload. That is, in this PES payload, an English (English) subtitle TTML segment with a segment type of “0x11” and a French (French) subtitle TTML segment with a segment type of “0x12” are inserted. In addition, a font download segment whose segment type is “0x84” is also inserted in this PES payload.
  • TTML segments having subtitle information whose contents are non-native are inserted in the PES payload. That is, in this PES payload, an English (English) subtitle TTML segment with a segment type of “0x11” and a French (French) subtitle TTML segment with a segment type of “0x12” are inserted. In addition, a font download segment whose segment type is “0x84” is also inserted in this PES payload.
  • the transport stream TS includes a PMT (Program Map Table) as PSI (Program Specific Information).
  • PSI Program Specific Information
  • This PSI is information describing to which program each elementary stream included in the transport stream TS belongs.
  • the PMT has a program descriptor (Program Descriptor) that describes information related to the entire program.
  • this PMT there is a subtitle 1 / elementary stream loop (Subtitle1 ES loop) having information related to the subtitle stream 1.
  • information such as a PID (packet identifier) is arranged corresponding to the subtitle stream 1, and a descriptor that describes information related to the subtitle stream is also arranged.
  • a text subtitle descriptor (Text_subtitle_descriptor) and a font file descriptor (Font_file_descriptor) are inserted (see FIGS. 12 and 15).
  • the text subtitle descriptor has information regarding the corresponding subtitle stream. In this case, the packet type is “0x01”.
  • the font file descriptor has download information for downloading at least a font file designated by the TTML font designation information.
  • this PMT has a subtitle 2 elementary stream loop (Subtitle2 ES loop) having information related to the subtitle stream 2.
  • information such as a PID (packet identifier) is arranged corresponding to the subtitle stream 2, and a descriptor describing information related to the subtitle stream is also arranged.
  • a text subtitle descriptor (Text_subtitle_descriptor) and a font file descriptor (Font_file_descriptor) are inserted (see FIGS. 12 and 15).
  • the text subtitle descriptor has information regarding the corresponding subtitle stream. In this case, the packet type is “0x02”.
  • the font file descriptor has download information for downloading at least a font file designated by the TTML font designation information.
  • this PMT there is a subtitle 3 elementary stream loop (Subtitle2 ES loop) having information related to the subtitle stream 3.
  • information such as a PID (packet identifier) is arranged corresponding to the subtitle stream 3, and a descriptor describing information related to the subtitle stream is also arranged.
  • a text subtitle descriptor (Text_subtitle_descriptor) and a font file descriptor (Font_file_descriptor) are inserted (see FIGS. 12 and 15).
  • the text subtitle descriptor has information regarding the corresponding subtitle stream. In this case, the packet type is “0x03”.
  • the font file descriptor has download information for downloading at least a font file designated by the TTML font designation information.
  • the container is a transport stream (MPEG-2 TS)
  • MPEG-2 TS transport stream
  • the present technology is not limited to the MPEG-2 TS container, and can be similarly realized even with other format containers such as MMT or ISOBMFF.
  • the transmission / reception system 10 including the broadcast transmission system 100 and the television receiver 200 is shown, but the configuration of the transmission / reception system to which the present technology can be applied is not limited thereto.
  • a configuration of a set top box and a monitor in which the television receiver 200 is connected by a digital interface such as HDMI (High-Definition Multimedia Interface) may be used.
  • HDMI High-Definition Multimedia Interface
  • HDMI High-Definition Multimedia Interface
  • this technique can also take the following structures.
  • a subtitle encoding unit that generates a predetermined number of subtitle streams each having one or more subtitle information
  • a transmission apparatus comprising: a transmission unit that transmits a container of a predetermined format including the predetermined number of subtitle streams.
  • the transmission device according to (1) wherein each of the predetermined number of subtitle streams has segmented subtitle information.
  • the subtitle encoding unit generates a plurality of subtitle streams each having subtitle information in a different language, The transmission device according to (1) or (2), wherein each of the plurality of subtitle streams has a plurality of pieces of subtitle information having different contents.
  • the subtitle encoding unit generates a plurality of subtitle streams each having subtitle information having different contents,
  • the transmission device according to (1) or (2) wherein each of the plurality of subtitle streams has a plurality of pieces of subtitle information having different languages.
  • the transmission device according to any one of (1) to (4) further including an information insertion unit that inserts information regarding each of the predetermined number of subtitle streams into the container.
  • the transmission device according to any one of (5) to (7), wherein the information regarding each of the subtitle streams includes identification information for identifying each subtitle information included in the corresponding subtitle stream.
  • a subtitle encoding step for generating a predetermined number of subtitle streams each having one or more subtitle information;
  • a transmission method comprising a transmission step of transmitting a container of a predetermined format including the predetermined number of subtitle streams by a transmission unit.
  • a receiving unit that receives a container of a predetermined format including a predetermined number of subtitle streams each having one or more subtitle information;
  • a control unit that controls a first extraction process for extracting one subtitle stream from the predetermined number of subtitle streams and a second extraction process for extracting one subtitle information from the extracted subtitle stream is provided. apparatus.
  • Information related to each of the predetermined number of subtitle streams is inserted into the container, The control unit The receiving device according to (10), further controlling display processing of user interface information for the first extraction processing and the second extraction processing based on information regarding each of the predetermined number of subtitle streams.
  • the main feature of the present technology is that a subtitle stream including a plurality of subtitle information is generated and transmitted, so that an increase in the number of subtitle streams can be suppressed even when the type of subtitle information increases. This is to simplify the transmission of information (see FIGS. 2 and 16).

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)

Abstract

複数種類のサブタイトル情報の伝送の簡素化を図る。 それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成し、それを含む所定フォーマットのコンテナを送信する。受信側では、所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出し、この1つのサブタイトルストリームから1つのサブタイトル情報を抽出し、この1つのサブタイトル情報をデコードしてサブタイトル表示を制御する。

Description

送信装置、送信方法、受信装置および受信方法
 本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、複数種類のサブタトル情報を並行して伝送する送信装置等に関する。
 近時、サブタイトルの情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。この場合、受信側で解像度に応じたフォント展開がなされる。例えば、W3C((World Wide Web Consortium)でTTML(Timed Text Markup Language)が提唱されている(特許文献1参照)。
特開2012-169885号公報
 言語あるいは内容が異なる複数種類のサブタイトル情報をそれぞれ含む複数のサブタイトルストリームを並行して送信し、受信側ではストリーム選択を行うことよって所望のサブタイトル表示を行うことが知られている。この場合、サブタイトル情報の種類が増加すると、サブタイトルストリームの数も増加し、送信側の多重化が同期関係で複雑化する懸念がある。
 本技術の目的は、複数種類のサブタイトル情報の伝送の簡素化を図ることにある。
 本技術の概念は、
 それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
 上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
 送信装置にある。
 本技術において、サブタイトルエンコード部により、それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームが生成される。例えば、所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ、ようにされてもよい。送信部により、所定数のサブタイトルストリームを含む所定フォーマットのコンテナが送信される。
 例えば、サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ、ようにされてもよい。また、例えば、サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ、ようにされてもよい。
 このように本技術においては、複数のサブタイトル情報を含むサブタイトルストリームを生成して送信できる。そのため、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となる。
 なお、本技術において、例えば、コンテナに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える、ようにされてもよい。例えば、サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる、ようにされてもよい。受信側では、この所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を制御することが可能となる。
 また、本技術の他の概念は、
 それぞれ一つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、該抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理を制御する制御部を備える
 受信装置にある。
 本技術において、受信部により、それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナが受信される。制御部により、所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、この抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理が制御される。
 例えば、コンテナに、所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、制御部は、所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、第1の抽出処理および第2の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する、ようにされてもよい。この場合、ユーザは、ユーザインタフェース情報に基づいて、サブタイトル情報の選択操作を適切かつ効率的に行うことができる。
 このように本技術においては、所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出し、さらに、この抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出するものである。そのため、所定数のサブタイトルストリームに複数のサブタイトル情報を含むサブタイトルストリームが含まれる場合であっても、所望のサブタイトル表示が可能となる。
 本技術によれば、複数種類のサブタイトル情報の伝送の簡素化を図ることができる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
実施の形態としての送受信システムの構成例を示すブロック図である。 複数のサブタイトルストリームが持つサブタイトル情報の一例を示す図である。 サブタイトルストリーム1,2から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示す図と、ユーザインタフェース情報の表示例を示す図である。 ストリーム抽出処理で抽出されるサブタイトルストリームの時系列的な変化の一例を示す図である。 放送送出システム100のストリーム生成部の構成例を示すブロック図である。 TTML構造の一例を示す図である。 サブタイトルPESパケットの構造例と、「PES_data_byte_field()」の構造例を示す図である。 サブタイトル・セグメントの構造例と、その構造例における主要な情報の内容を示す図である。 セグメントタイプの定義の一例を示す図である。 セグメントタイプが“0x84”の場合におけるセグメント・ペイロードの構造例を示す図である。 セグメント・ペイロードの構造例における主要な情報の内容を示している。 テキスト・サブタイトル・デスクリプタの構造例を示す図である。 テキスト・サブタイトル・デスクリプタの構造例における主要な情報の内容を示す図である。 パケットタイプの定義の一例を示す図である。 フォント・ファイル・デスクリプタの構造例を示す図である。 サブタイトルストリーム1,2が含まれるトランスポートストリームTSの構成例を示す図である。 テレビ受信機の構成例を示すブロック図である。 ユーザあるいはシステムの選択情報に基づきストリームの選択およびTTMLセグメントの選択が行われることを説明するための図である。 複数のサブタイトルストリームが持つサブタイトル情報の一例を示す図である。 サブタイトルストリーム1,2,3から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示す図と、ユーザインタフェース情報の表示例を示す図である。 サブタイトルストリーム1,2,3が含まれるトランスポートストリームTSの構成例を示す図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [送受信システムの構成例]
 図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、放送送出システム100とテレビ受信機200により構成されている。放送送出システム100は、コンテナ(多重化ストリーム)としてのMPEG-2 TSのトランスポートストリーム(以下、単に、「トランスポートストリームTS」という)を、放送波に載せて送信する。
 トランスポートストリームTSには、ビデオデータを持つビデオストリームおよびオーディオデータを持つオーディオストリームと共に、所定数のサブタイトルストリームが含まれる。所定数のサブタイトルストリームは、それぞれ、1つまたは2つ以上のサブタイトル情報を持っている。サブタイトル情報としては、サブタイトル(字幕)のテキスト情報、例えばTTMLあるいはTTMLの派生フォーマットなどが考えられる。この実施の形態において、サブタイトル情報はTTMLであり、サブタイトルストリームはセグメント化されたサブタイトル情報を持っている。
 放送送出システム100は、コンテナとしてのトランスポートストリームTSに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入する。この情報には、例えば、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる。この情報挿入により、受信側では、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を適切に行うことが可能となる。
 テレビ受信機200は、放送送出システム100から送られてくるトランスポートストリームTSを受信する。テレビ受信機200は、ビデオデータを持つビデオストリームにデコード処理を施してビデオデータを得ると共に、オーディデータを持つオーディオストリームにデコード処理を施してオーディオデータを得る。
 テレビ受信機200は、ユーザの選択操作に応じて、所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出し、この抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する。そして、テレビ受信機200は、この抽出された1つのサブタイトル情報にデコード処理を施してサブタイトルのビットマップデータを得てビデオデータに重畳し、表示用のビデオデータを得る。
 この場合、テレビ受信機200は、トランスポートストリームTSに挿入されている所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザの選択操作の便宜のために、ユーザインタフェース情報(図3(b)参照)を表示する。ユーザは、このユーザインタフェース情報に基づいて選択操作をすることで、所望のサブタイトル表示を行わせることを容易に行い得る。
 この実施の形態において、トランスポートストリームTSにサブタイトルストリーム1(Packet id1)とサブタイトルストリーム2(Packet id2)が含まれ、それぞれ3つのサブタイトル情報を持つものとする。図2は、サブタイトルストリーム1,2が持つサブタイトル情報の一例を示している。
 ここで、サブタイトルストリーム1は、言語が「英語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である3つのサブタイトル情報を持っている。また、サブタイトルストリーム2は、言語が「フランス語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である3つのサブタイトル情報を持っている。
 図3(a)は、テレビ受信機200におけるサブタイトルストリーム1,2から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示している。まず、ストリーム抽出処理(第1の抽出処理)で、サブタイトルストリーム1,2から所望のサブタイトル表示を行うためのサブタイトル情報を含むサブタイトルストリームが抽出される。次に、サブタイトル情報抽出処理(第2の抽出処理)で、抽出されたサブタイトルストリームから、所望のサブタイトル表示を行うためのサブタイトル情報が抽出される。
 図3(b)は、ユーザの選択操作のためのユーザインタフェース情報の表示例を示している。言語選択“Language Selection”の箇所で、「英語(English)」または「フランス語(French)」の選択が可能となっている。また、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル(Normal Subtitle)」、「聴覚障害者向けサブタイトル(Hard of Hearing Subtitle)」または「非ネイティブ向けサブタイトル(Non-native Subtitle)」の選択が可能となっている。図示の例では、「英語」で「一般のサブタイトル」が選択された状態を示している。
 図4(a)は、ストリーム抽出処理で抽出されるサブタイトルストリームの時系列的な変化の一例を示している。表示タイミングがT1とされたサブタイトルストリームは、“Normal1”、“Hard of hearing1”、“Non-native1”のサブタイトル情報を持っている。
 ここで、“Normal1”は、一般のサブタイトルの情報であることからセグメントタイプ(segment type)は1とされ、例えば「xxx yy」を表示するサブタイトル情報である。“Hard of hearing1”は、聴覚障害者向けサブタイトルの情報であることからセグメントタイプ(segment type)は2とされ、例えば「ggggjjjj」を表示するサブタイトル情報である。“Non-native1”は、非ネイティブ向けサブタイトルの情報であることからセグメントタイプ(segment type)は3とされ、例えば「Fff hi」を表示するサブタイトル情報である。
 図4(b)は、表示タイミングがT1とされたサブタイトルストリームから、サブタイトル情報抽出処理で“Normal1”のサブタイトル情報が抽出された場合における、サブタイトル表示例を示している。
 また、表示タイミングがT2とされたサブタイトルストリームは、“Normal2”、“Hard of hearing2”、“Non-native2”のサブタイトル情報を持っている。
 ここで、“Normal2”は、一般のサブタイトルの情報であることからセグメントタイプ(segment type)は1とされ、例えば「xxx yy zzzz」を表示するサブタイトル情報である。“Hard of hearing2”は、聴覚障害者向けサブタイトルの情報であることからセグメントタイプ(segment type)は2とされ、例えば「G hg jkj jk」を表示するサブタイトル情報である。“Non-native2”は、非ネイティブ向けサブタイトルの情報であることからセグメントタイプ(segment type)は3とされ、例えば「Fff hi jjj」を表示するサブタイトル情報である。
 図4(c)は、表示タイミングがT2とされたサブタイトルストリームから、サブタイトル情報抽出処理で“Hard of hearing2”のサブタイトル情報が抽出された場合における、サブタイトル表示例を示している。
 [放送送出システムのストリーム生成部の構成例]
 図5は、放送送出システム100のストリーム生成部110の構成例を示している。このストリーム生成部110は、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、テキストフォーマット変換部114と、サブタイトルエンコーダ115と、TSフォーマッタ(マルチプレクサ)116を有している。
 制御部111は、例えば、CPU(Central Processing Unit)を備えた構成とされており、ストリーム生成部110の各部の動作を制御する。ビデオエンコーダ112は、ビデオデータDVを入力し、このビデオデータDVに対して符号化を施し、ペイロードに符号化ビデオデータを持つビデオPESパケットにより構成されるビデオストリームを生成する。オーディオエンコーダ113は、オーディオデータDAを入力し、このオーディオデータDAに対して符号化を施し、符号化オーディオデータを持つオーディオPESパケットにより構成されるオーディオストリームを生成する。
 テキストフォーマット変換部114は、テキストデータ(文字コード)DTを入力し、サブタイトル情報としてのTTML(Timed Text Markup Language)を得る。図6は、TTML構造の一例を示している。TTMLは、XMLベースで記載される。TTMLは、ヘッド(head)とボディ(body)からなっている。ヘッド(head)には、メタデータ(metadata)、スタイリング(styling)、スタイリング・エクステンション(styling extension)、レイアウト(layout)などの各要素が存在する。
 メタデータ(metadata)には、メタデータのタイトルの情報と、コピーライトの情報などが含まれている。スタイリングには、識別子(id)の他に、リージョン(Region)の位置、サイズ、カラー(color)、フォント(fontFamily)、フォントサイズ(fontSize)、テキストアラインメント(textAlign)などの情報が含まれている。レイアウトには、サブタイトルを配置するリージョンの識別子(id)の他に、オフセット(padding)、バックグラウンドカラー(backgroundColor)、アラインメント(displayAlign)などの情報が含まれている。ボディ(body)には、サブタイトルの情報が含まれている。サブタイトル毎に、表示開始タイミングと表示終了タイミングが記載されると共に、テキストデータが記載されている。
 テキストフォーマット変換部114は、同一の表示タイミングに対応して、複数種類のTTMLを得る。この実施の形態においては、(1)言語が「英語」で内容が「一般」のTTML、(2)言語が「英語」で内容が「聴覚障害者向け」のTTML、(3)言語が「英語」で内容が「非ネイティブ向け」のTTML、(4)言語が「フランス語」で内容が「一般」のTTML、(5)言語が「フランス語」で内容が「聴覚障害者向け」のTTML、(6)言語が「フランス語」で内容が「非ネイティブ向け」のTTMLの6種類が得られる。
 サブタイトルエンコーダ115は、テキストフォーマット変換部114で得られる6種類のTTMLをセグメント(TTMLセグメント)に変換する。そして、サブタイトルエンコーダ115は、言語が「英語」である上述の(1)~(3)のTTMLセグメントをペイロードに配置したサブタイトルPESパケットからなるサブタイトルストリーム1を生成すると共に、言語が「フランス語」である上述の(4)~(6)のTTMLセグメントをペイロードに配置したサブタイトルPESパケットからなるサブタイトルストリーム2を生成する。
 なお、この実施の形態において、サブタイトルストリーム1,2には、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ダウンロード・セグメント(Font_download_segment)も含める。すなわち、サブタイトルエンコーダ115は、サブタイトルストリーム1,2をそれぞれ構成するサブタイトルPESパケットのペイロードに、フォント・ダウンロード・セグメントを挿入する。
 図7(a)は、サブタイトルPESパケット(PES_packet)の構造例(Syntax)を示している。「PES_startcode_prefix」の24ビットフィールドには、“0x000001”の固定パターンが配置される。「stream_id」の8ビットフィールドは、ストリーム識別子を示す。サブタイトルPESパケットの場合、「private stream1を示す値である“10111101”とされる。「PES_packet_length」の16ビットフィールドは、PESパケットの長さ(サイズ)として以降のバイト数を示す。
 「PES_packet_length」の後に、「Optional_PES_header()」のフィールドが存在する。このフィールドには、PTS,DTSのタイムスタンプなどが配置される。このフィールドの後に、「PES_packet_data_byte」のフィールドが存在する。このフィールドが、PESペイロードに相当する。このフィールドに、データをコンテナするための「PES_data_byte_field()」が配置される。
 図7(b)は、「PES_data_byte_field()」の構造例(Syntax)を示している。「data_identifier」の8ビットフィールドは、コンテナ部分でデータの種類を識別する識別子を示す。従来のサブタイトル(ビットマップの場合)は、“0x20”で示すこととされているので、テキストの場合は新たな値、例えば“0x21”で識別することも可能である。
 「subtitle_stream_id」の8ビットフィールドは、サブタイトルストリームの種類を識別する識別子を示す。テキスト情報を伝送するサブタイトルストリームの場合は新たな値、例えば“0x01”とし、従来のビットマップを伝送するサブタイトルストリーム“0x00”と区別することが可能である。
 この「subtitle_stream_id」のフィールドの後に、“00001111”のパターンに続いて、「TimedTextSubtitling_segments()」のフィールドが存在する。このフィールドに、サブタイトル・セグメント(Subtitle_segment)が配置される。このフィールドの後に、「end_of_PES_data_field_marker」の8ビットフィールドが存在する。このフィールドは、PESパケットの最後を示すマーカである。
 図8(a)は、サブタイトル・セグメントの構造例(Syntax)を示している。図8(b)は、その構造例などにおける主要な情報の内容(Semantics)を示している。「sync_byte」の8ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の8ビットフィールドは、セグメント種類(セグメントタイプ)を示す。
 図9は、セグメントタイプ(segment_type)の定義の一例を示している。例えば、“0x01”は、一般のサブタイトル(Normal subtitle)を示し、“0x02”は聴覚障害者向けサブタイトル(Hard_of_hearing subtitle)を示し、“0x03”は非ネイティブ向けのサブタイトル(Non-native subtitle)を示す。また、例えば、“0x11”は言語1(英語)のサブタイトルを示す、“0x12”は言語2(フランス語)のサブタイトルを示す。さらに、例えば、“0x84”は、フォント・ダウンロード(Font Download)を示す。
 図8(a)に戻って、「segment_id」の8ビットフィールドは、セグメント識別を示す。「segment_length」は、16ビットフィールドは、サブタイトル・セグメントの長さ(サイズ)として以降のバイト数を示す。「version_number」の4ビットフィールドは、情報の更新を示す。更新がなされる場合は値を一つ増加する。
 セグメントタイプが“0x01”、“0x02”、“0x03”、“0x11”、“0x12”の場合、「segment_payload()」のフィールドには、TTML文書(図6参照)が配置される。
 図10は、セグメントタイプが“0x84”の場合におけるセグメント・ペイロード(segment_payload())の構造例(Syntax)を示し、図11は、その構造例における主要な情報の内容(Semantics)を示している。
 「original_network_id」の16ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の16ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の16ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。配信メディア間共通のダウンロード対象の場合、自身のトランスポートストリームではなく、他のトランスポートストリームでフォントファイルが送られていることもあり、その場合の参照先のプライベートセクションを特定する情報として、これらの「original_network_id」、「transport_stream_id」、「service_id」の情報が指定できるようになっている。
 「font_file_id」の8ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の24ビットフィールドは、言語を識別させる3文字からなるコードを示す。例えば、“jpn”は日本語を示し、“eng”は英語を示す。「font_group_id」の8ビットフィールドは、フォントグループの識別情報を示し、TTMLのジェネリックファミリーに相当する。「font_name_id」の8ビットフィールドは、個別フォント名を示す。
 「url_type」の8ビットフィールドは、サーバのタイプを示す。例えば、“0x01”はフォントサーバ(非圧縮URL)を示し、“0x02”は一般のサーバ(非圧縮URL)を示し、“0x11”はフォントサーバ(圧縮URL)を示し、“0x12”は一般のサーバ(圧縮URL)を示す。「url_string_length」の8ビットフィールドは、以降のURLの文字列を示す文字コード部分の長さ(サイズ)をバイト数で示す。文字コードは、「char」のフィールドに配置される。
 図5に戻って、TSフォーマッタ116は、ビデオエンコーダ112で生成されたビデオストリーム、オーディオエンコーダ113で生成されたオーディオストリームおよびサブタイトルエンコーダ115で生成されたサブタイトルストリーム1,2を、トランスポートパケット化して多重し、コンテナ(多重化ストリーム)としてのトランスポートストリームTSを得る。
 この場合、TSフォーマッタ116は、PMT(Program Map Table)に、トランスポートストリームTSに含まれる2つのサブタイトルストリーム1,2のそれぞれに関する情報を挿入する。具体的には、それらの情報を持つ新規定義するテキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)を生成し、サブタイトルストリーム1,2のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ(Subtitle ES loop)に挿入する
 図12は、テキスト・サブタイトル・デスクリプタの構造例(Syntax)を示している。図13は、その構造例における主要な情報の内容(Semantics)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、テキスト・サブタイトル・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
 「packet_type」の8ビットフィールドは、図8(b)に示すように、パケット種類(パケットタイプ)を示す。
 図14は、パケットタイプ(packet_type)の定義の一例を示している。例えば、“0x01”は、一般のサブタイトル(Normal subtitle)を示し、“0x02”は聴覚障害者向けサブタイトル(Hard_of_hearing subtitle)を示し、“0x03”は非ネイティブ向けのサブタイトル(Non-native subtitle)を示す。また、例えば、“0x11”は言語1(英語)のサブタイトルを示す、“0x12”は言語2(フランス語)のサブタイトルを示す。さらに、例えば、“0x84”は、フォント・ダウンロード(Font Download)を示す。
 図12に戻って、「multiplexed_segment_packet_flag」の1ビットフィールドは、サブタイトルストリームが複数のサブタイトル情報を含むか否かを示す。「number_of_segments」の7ビットフィールドは、サブタイトルストリームが含むサブタイトル情報の数を示す。そして、サブタイトル情報の数だけ、「segment_id」の8ビットフィールド、「segment_type」の8ビットフィールド、「ISO_639_language_code」の24ビットフィールドが、繰り返し存在する。「segment_id」のフィールドは、セグメント識別を示す。「segment_type」のフィールドは、セグメント種類を示す。「ISO_639_language_code」は、言語を識別させる3文字からなるコードを示す。
 なお、この実施の形態において、サブタイトルストリーム1,2のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ(Subtitle ES loop)に、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ファイル・デスクリプタ(Font_file_descriptor)を挿入する。
 図15は、フォント・ファイル・デスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ファイル・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。なお、その他のフィールドに関しては、上述の図10に示すセグメントタイプが“0x84”の場合におけるセグメント・ペイロードの構造例におけると同様であるので、その詳細説明は省略する。
 図5に示すストリーム生成部110の動作を簡単に説明する。ビデオデータDVは、ビデオエンコーダ112に供給される。ビデオエンコーダ112では、このビデオデータDVに対して符号化が施され、ペイロードに符号化画像データを持つビデオPESパケットからなるビデオストリームが生成される。このビデオストリームは、TSフォーマッタ116に供給される。
 また、オーディオデータDAは、オーディオエンコーダ113に供給される。オーディオエンコーダ113では、オーディオデータDAに対して符号化が施され、符号化音声データを持つオーディオPESパケットからなるオーディオストリームが生成される。このオーディオストリームは、TSフォーマッタ116に供給される。
 また、テキストデータ(文字コード)DTは、テキストフォーマット変換部114に供給される。このテキストフォーマット変換部114では、字幕情報としてのTTMLが得られる(図6参照)。この場合、同一の表示タイミングに対応して、6種類のTTMLが得られる。すなわち、(1)言語が「英語」で内容が「一般」のTTML、(2)言語が「英語」で内容が「聴覚障害者向け」のTTML、(3)言語が「英語」で内容が「非ネイティブ向け」のTTML、(4)言語が「フランス語」で内容が「一般」のTTML、(5)言語が「フランス語」で内容が「聴覚障害者向け」のTTML、(6)言語が「フランス語」で内容が「非ネイティブ向け」のTTMLの6種類が得られる。
 テキストフォーマット変換部114で得られた6種類のTTMLは、サブタイトルエンコーダ115に供給される。このサブタイトルエンコーダ115では、6種類のTTMLがセグメント(TTMLセグメント)に変換される(図8(a)、図6参照)。そして、サブタイトルエンコーダ115では、言語が「英語」である上述の(1)~(3)のTTMLセグメントがペイロードに配置されたサブタイトルPESパケットからなるサブタイトルストリーム1が生成されると共に、言語が「フランス語」である上述の(4)~(6)のTTMLセグメントがペイロードに配置されたサブタイトルPESパケットからなるサブタイトルストリーム2が生成される。このサブタイトルストリーム1,2は、TSフォーマッタ116に供給される。
  なお、サブタイトルエンコーダ115では、サブタイトルストリーム1,2に、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ダウンロード・セグメント(Font_download_segment)も含められる(図8(a)、図10参照)。
 TSフォーマッタ116では、ビデオエンコーダ112で生成されたビデオストリーム、オーディオエンコーダ113で生成されたオーディオストリームおよびサブタイトルエンコーダ115で生成されたサブタイトルストリーム1,2が、トランスポートパケット化されて多重化され、コンテナ(多重化ストリーム)としてのトランスポートストリームTSが生成される。
 この場合、TSフォーマッタ116では、PMTの配下のサブタイトルストリーム1,2のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ(Subtitle ES loop)に、対応するサブタイトルストリームに関する情報を持つテキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)が挿入され(図12参照)、さらに、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図15参照)。
 「トランスポートストリームTSの構成例」
 図16は、トランスポートストリームTSの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略している。この構成例では、PID1で識別されるサブタイトルストリーム1のPESパケットであるサブタイトル1・PESパケット「Subtitle1 PES」が存在すると共に、PID2で識別されるサブタイトルストリーム2のPESパケットであるサブタイトル2・PESパケット「Subtitle2 PES」が存在する。
 サブタイトル1・PESパケットにおいて、PESペイロードには、言語が英語(= 1st language)であるサブタイトル情報を持つ3種類のTTMLセグメントが挿入されている。すなわち、このPESペイロードには、セグメントタイプが“0x01”である一般のサブタイトル(Normal subtitle)のTTMLセグメント、セグメントタイプが“0x02”である聴覚障害者向けサブタイトル(Hard_of_hearing subtitle)およびセグメントタイプが“0x03”である非ネイティブ向けのサブタイトル(Non-native subtitle)のTTMLセグメントが挿入されている。また、このPESペイロードには、セグメントタイプが“0x84”であるフォント・ダウンロード・セグメントも挿入されている。
 同様に、サブタイトル2・PESパケットにおいて、PESペイロードには、言語がフランス語(= 2nd language)であるサブタイトル情報を持つ3種類のTTMLセグメントが挿入されている。すなわち、このPESペイロードには、セグメントタイプが“0x01”である一般のサブタイトル(Normal subtitle)のTTMLセグメント、セグメントタイプが“0x02”である聴覚障害者向けサブタイトル(Hard_of_hearing subtitle)およびセグメントタイプが“0x03”である非ネイティブ向けのサブタイトル(Non-native subtitle)のTTMLセグメントが挿入されている。また、このPESペイロードには、セグメントタイプが“0x84”であるフォント・ダウンロード・セグメントも挿入されている。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームTSに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ(Program Descriptor)が存在する。
 このPMTには、サブタイトルストリーム1に関連した情報を持つサブタイトル1・エレメンタリストリーム・ループ(Subtitle1 ES loop)が存在する。このループには、サブタイトルストリーム1に対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。
 このデスクリプタとして、テキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)およびフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図12、図15参照)。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“0x11”とされている。フォント・ファイル・デスクリプタは、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。
 また、このPMTには、サブタイトルストリーム2に関連した情報を持つサブタイトル2・エレメンタリストリーム・ループ(Subtitle2 ES loop)が存在する。このループには、サブタイトルストリーム2に対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。
 このデスクリプタとして、テキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)およびフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図12、図15参照)。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“0x12”とされている。フォント・ファイル・デスクリプタは、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。
 [テレビ受信機の構成例]
 図17は、テレビ受信機200の構成例を示している。このテレビ受信機200は、受信部201と、TS解析部(デマルチプレクサ)202と、ビデオデコーダ203と、ビデオ重畳部204と、パネル駆動回路205と、モニタ(ディスプレイ)としての表示パネル206を有している。また、このテレビ受信機200は、オーディオデコーダ207と、オーディオ出力回路208と、スピーカ209と、サブタイトルデコーダ210を有している。また、このテレビ受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226と、通信インタフェース227を有している。
 CPU221は、テレビ受信機200の各部の動作を制御する。フラッシュROM222は、制御ソフトウェアの格納およびデータの保管を行う。DRAM223は、CPU221のワークエリアを構成する。CPU221は、フラッシュROM222から読み出したソフトウェアやデータをDRAM223上に展開してソフトウェアを起動させ、テレビ受信機200の各部を制御する。
 リモコン受信部225は、リモコン送信機226から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU221に供給する。CPU221は、このリモコンコードに基づいて、テレビ受信機200の各部を制御する。CPU221、フラッシュROM222およびDRAM223は、内部バス224に接続されている。
 通信インタフェース227は、CPU221の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース227は、内部バス224に接続されている。
 受信部201は、放送送出システム100から放送波に載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSには、上述したように、ビデオストリーム、オーディオストリームおよびサブタイトルストリーム1,2が含まれている。TS解析部202は、トランスポートストリームTSからビデオ、オーディオ、サブタイトルの各ストリームを抽出する。
 この場合、TS解析部202は、各TSパケットのヘッダに挿入されている種々の情報を解析し、“PID”に基づいてビデオ、オーディオ、サブタイトルの各PESパケットのデータを含むTSパケットを選択的に抽出して、ビデオ、オーディオ、サブタイトルの各ストリームを得る。
 また、TS解析部202は、各TSパケットのヘッダに挿入されている種々の情報を解析し、“PID”に基づいてトランスポートストリームTSに挿入されている種々の情報を抽出し、CPU221に送る。この情報には、テキスト・サブタイトル・デスクリプタおよびフォント・ファイル・デスクリプタも含まれる(図12、図15参照)。
 CPU221は、テキスト・サブタイトル・デスクリプタから、対応するサブタイトルストリームに関する情報を取得する。この情報には、例えば、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる。また、CPU221は、フォント・ファイル・デスクリプタから、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報を取得する。
 オーディオデコーダ207は、TS解析部202で抽出されたオーディオストリームにデコード処理を施し、オーディオデータを得る。オーディオ出力回路208は、オーディオデータに対して、D/A変換や増幅等の必要な処理を施し、スピーカ209に供給する。ビデオデコーダ203は、TS解析部202で抽出されたビデオストリームにデコード処理を施し、ビデオデータを得る。
 サブタイトルデコーダ210は、TS解析部202で抽出されたサブタイトルストリームにデコード処理を施し、タイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)からTTMLを得る。
 この場合、TS解析部202からサブタイトルデコーダ210には、トランスポートストリームTSに含まれている2つのサブタイトルストリーム1,2から1つのみが選択的に抽出されて供給される。また、サブタイトルデコーダ210では、TS解析部202から供給されるサブタイトルストリームに含まれる3つのTTMLセグメントから1つのみが選択的に抽出されてデコード処理が施されてTTMLが得られる。
 ストリームの選択は、ユーザあるいはシステムの言語の選択情報に基づき、図18に示すように、CPU221からTS解析部202にパケットタイプ(Packet_type)の情報(図14参照)が供給される、つまりパケットタイプ指定が行われることで行われる。上述したように、図3(b)に示すユーザの選択操作のためのユーザインタフェース情報において、ユーザは、言語選択“Language Selection”の箇所で、「英語(English)」または「フランス語(French)」の選択が可能となっている。なお、このユーザインタフェース情報は、CPU221の制御のもと、所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、表示パネル206に表示される。
 例えば、「英語(English)」が選択される場合、パケットタイプは“0x11”とされ、TS解析部202ではサブタイトルストリーム1が抽出される。また、例えば、「フランス語(French)」が選択される場合、パケットタイプは“0x12”とされ、TS解析部202ではサブタイトルストリーム2が抽出される。
 また、TTMLセグメントの選択は、ユーザあるいはシステムの内容の選択情報に基づき、図18に示すように、CPU221からサブタイトルデコーダ210にセグメントタイプ(Segment_type)の情報(図9参照)が供給される、つまりセグメントタイプ指定が行われることで行われる。上述したように、図3(b)に示すユーザの選択操作のためのユーザインタフェース情報において、ユーザは、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル(Normal Subtitle)」、「聴覚障害者向けサブタイトル(Hard of Hearing Subtitle)」または「非ネイティブ向けサブタイトル(Non-native Subtitle)」の選択が可能となっている。
 例えば、「一般のサブタイトル(Normal Subtitle)」が選択される場合、セグメントタイプは“0x01”とされ、サブタイトルデコーダ210では「一般」のTTMLを含むTTMLセグメントが抽出される。また、例えば、「聴覚障害者向けサブタイトル(Hard of Hearing Subtitle)」が選択される場合、セグメントタイプは“0x02”とされ、サブタイトルデコーダ210では「聴覚障害者向け」のTTMLを含むTTMLセグメントが抽出される。また、例えば、「非ネイティブ向けサブタイトル(Non-native Subtitle)」が選択される場合、セグメントタイプは“0x03”とされ、サブタイトルデコーダ210では「非ネイティブ向け」のTTMLを含むTTMLセグメントが抽出される。
 サブタイトルデコーダ210は、抽出された1つのTTMLセグメントにデコード処理を施して得られたTTMLをCPU221に送る。CPU221は、このTTMLから、字幕表示位置情報などを取得する。
 また、サブタイトルデコーダ210は、TS解析部202で抽出されたサブタイトルストリーム(PESパケット)に含まれるフォント・ダウンロード・セグメント(図8(a)、図10参照)を抽出し、CPU221に送る。CPU221は、このフォント・ダウンロード・セグメントから、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報を取得する。
 また、サブタイトルデコーダ210は、CPU221の制御のもと、TTMLに含まれる各字幕表示位置(リージョン)の字幕(サブタイトル)のテキストデータ(フォントデータ)を、ビットマップデータ(バイナリイメージ情報)に変換する。
 ここで、サブタイトルデコーダ210は、CPU221の制御のもと、字幕のビットマップデータを得る際、TTMLが有するフォント指定情報で指定されるフォントのファイルを用いる。テレビ受信機200がフォント指定情報で指定されるフォントのファイルを搭載していないとき、CPU221は、適宜、上述したようにPESパケット、PMT等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号(トランスポートストリームTS)あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル(例えば、デフォルトのフォントファイル)を使用する。
 ビデオ重畳部204は、CPU221の制御のもと、ビデオデコーダ203で得られたビデオデータに、サブタイトルデコーダ210で得られた各字幕表示位置の字幕のビットマップデータを重畳し、表示用ビデオデータを得る。この場合、CPU221は、字幕のビットマップデータの重畳位置が字幕表示位置情報により決定された字幕表示位置となるように制御する。
 パネル駆動回路205は、ビデオ重畳部204で得られる表示用のビデオデータに基づいて、表示パネル206を駆動する。表示パネル206は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
 図17に示すテレビ受信機200の動作を簡単に説明する。受信部201では、放送送出システム100から放送波に載せて送られてくるトランスポートストリームTSが受信される。このトランスポートストリームTSには、ビデオストリーム、オーディオストリームおよびサブタイトルストリーム1,2が含まれている。このトランスポートストリームTSは、TS解析部202に供給される。TS解析部202では、トランスポートストリームTSからビデオ、オーディオ、サブタイトルの各ストリームが抽出される。
 また、TS解析部202では、トランスポートストリームTSに挿入されている種々の情報が抽出され、CPU221に送られる。この情報には、テキスト・サブタイトル・デスクリプタおよびフォント・ファイル・デスクリプタも含まれる(図12、図15参照)。
 これにより、CPU221では、テキスト・サブタイトル・デスクリプタから、対応するサブタイトルストリームに関する情報が取得される。また、CPU221では、フォント・ファイル・デスクリプタから、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。
 TS解析部202で抽出されたビデオストリームは、ビデオデコーダ203に供給される。ビデオデコーダ203では、このビデオPESストリームにデコード処理が施されて、ビデオデータが得られる。
 また、TS解析部202で抽出されるサブタイトルストリームは、サブタイトルデコーダ210に供給される。このサブタイトルデコーダ210では、サブタイトルストリームにデコード処理が施され、タイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments)からTTMLが得られる。
 この場合、TS解析部202からサブタイトルデコーダ210には、トランスポートストリームTSに含まれている2つのサブタイトルストリーム1,2から1つのみが選択的に抽出されて供給される。また、サブタイトルデコーダ210では、TS解析部202から供給されるサブタイトルストリームに含まれる3つのTTMLセグメントから1つのみが選択的に抽出されてデコード処理が施されてTTMLが得られる。
 TS解析部202におけるストリームの選択は、ユーザあるいはシステムの言語の選択情報に基づき、CPU221の制御のもとで行われる。なお、サブタイトルデコーダ210におけるTTMLセグメントの選択は、ユーザあるいはシステムの言語の選択情報に基づき、CPU221の制御のもとで行われる。ユーザは、言語および内容を選択することで、所望のサブタイトルの表示を行わせることが可能となる。
 サブタイトルデコーダ210では、TS解析部202で得られたサブタイトルストリームからフォント・ダウンロード・セグメントが抽出され、CPU221に送られる。CPU221では、フォント・ダウンロード・セグメントから、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。
 サブタイトルデコーダ210で得られたTTMLは、CPU221に送られる。CPU221では、このTTMLから字幕表示位置情報などが取得される。
 また、サブタイトルデコーダ210はで、TS解析部202で抽出されたサブタイトルストリーム(PESパケット)に含まれるフォント・ダウンロード・セグメント(図8(a)、図10参照)が抽出され、CPU221に送られる。CPU221では、このフォント・ダウンロード・セグメントから、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。
 また、サブタイトルデコーダ210では、CPU221の制御のもと、TTMLに含まれる各字幕表示位置(リージョン)の字幕(サブタイトル)のテキストデータ(フォントデータ)が、ビットマップデータ(バイナリイメージ情報)に変換される。
 ここで、サブタイトルデコーダ210では、CPU221の制御のもと、字幕のビットマップデータを得る際、TTMLが有するフォント指定情報で指定されるフォントのファイルが用いられる。テレビ受信機200がフォント指定情報で指定されるフォントのファイルを搭載していないとき、CPU221は、適宜、上述したようにPESパケット、PMT等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号(トランスポートストリームTS)あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル(例えば、デフォルトのフォントファイル)を使用する。
 サブタイトルデコーダ210から出力される各字幕表示位置の字幕のビットマップデータは、ビデオ重畳部204に供給される。ビデオ重畳部204では、ビデオデコーダ203で得られたビデオデータに、サブタイトルデコーダ210で得られた各字幕表示位置の字幕のビットマップデータが重畳され、表示用のビデオデータが得られる。この場合、CPU221により、字幕表示位置情報により決定された字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御される。
 ビデオ重畳部204で得られた表示用のビデオデータは、パネル駆動回路205に供給される。パネル駆動回路205では、表示用のビデオデータに基づいて、表示パネル206を駆動することが行われる。これにより、表示パネル206には、各字幕表示位置(リージョン)に字幕(サブタイトル)が重畳された画像が表示される。
 また、TS解析部202で抽出されたオーディオストリームは、オーディオデコーダ207に供給される。オーディオデコーダ207では、このオーディオストリームにデコード処理が施され、オーディオデータが得られる。このオーディオデータは、オーディオ出力回路208に供給される。オーディオ出力回路208では、オーディオデータに対して、D/A変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカ209に供給される。これにより、スピーカ209からは表示パネル206の表示画像に対応した音声出力が得られる。
 以上説明したように、図1に示す送受信システム10において、放送送出システム100は、複数のサブタイトル情報(TTMLセグメント)を含むサブタイトルストリームを生成して送信するものである。そのため、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となる。
 また、図1に示す送受信システム10において、放送送出システム100は、コンテナとしてのサブタイトルストリームTSに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入して送信するものである。そのため、受信側では、この所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を制御することが可能となる。
 また、図1に示す送受信システム10において、テレビ受信機200は、所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出し、さらに、この抽出された1つのサブタイトルストリームから1つのサブタイトル情報(TTMLセグメント)を抽出するものである。そのため、所定数のサブタイトルストリームに複数のサブタイトル情報を含むサブタイトルストリームが含まれる場合であっても、所望のサブタイトル表示が可能となる。
 <2.変形例>
 なお、上述実施の形態においては、放送送出システム100で生成されるトランスポートストリームTSに、言語が「英語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である3つのサブタイトル情報(TTMLセグメント)を持つサブタイトルストリーム1(Packet id1)と、言語が「フランス語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である3つのサブタイトル情報(TTMLセグメント)を持つサブタイトルストリーム2(Packet id2)が含まれる例を示した。
 しかし、放送送出システム100で生成されるトランスポートストリームTSに、内容が「一般」であるサブタイトル情報(TTMLセグメント)を持つサブタイトルストリーム1(Packet id1)と、内容が「聴覚障害者向け」であるサブタイトル情報(TTMLセグメント)を持つサブタイトルストリーム2(Packet id2)と、内容が「非ネイティブ向け」であるサブタイトル情報(TTMLセグメント)を持つサブタイトルストリーム3(Packet id3)が含まれる例も考えられる。
 図19は、サブタイトルストリーム1,2,3が持つサブタイトル情報の一例を示している。ここで、サブタイトルストリーム1は、内容が「一般」で、言語がそれぞれ「英語」、「フランス語」である2つのサブタイトル情報を持っている。また、サブタイトルストリーム2は、内容が「聴覚障害者向け」で、言語がそれぞれ「英語」、「フランス語」である2つのサブタイトル情報を持っている。また、サブタイトルストリーム3は、内容が「非ネイティブ向け」で、言語がそれぞれ「英語」、「フランス語」である2つのサブタイトル情報を持っている。
 図20(a)は、上述したようにトランスポートストリームTSにサブタイトルストリーム1,2,3が含まれる場合にあって、テレビ受信機200におけるサブタイトルストリーム1,2,3から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示している。
 まず、ストリーム抽出処理(第1の抽出処理)で、サブタイトルストリーム1,2,3から所望のサブタイトル表示を行うためのサブタイトル情報を含むサブタイトルストリームが抽出される。次に、サブタイトル情報抽出処理(第2の抽出処理)で、抽出されたサブタイトルストリームから、所望のサブタイトル表示を行うためのサブタイトル情報が抽出される。
 図20(b)は、ユーザの選択操作のためのユーザインタフェース情報の表示例を示している。言語選択“Language Selection”の箇所で、「英語(English)」または「フランス語(French)」の選択が可能となっている。また、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル(Normal Subtitle)」、「聴覚障害者向けサブタイトル(Hard of Hearing Subtitle)」または「非ネイティブ向けサブタイトル(Non-native Subtitle)」の選択が可能となっている。図示の例では、「フランス語」で「聴覚障害者向けサブタイトル」が選択された状態を示している。
 図21は、上述したようにサブタイトルストリーム1,2,3が含まれるトランスポートストリームTSの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略している。この構成例では、PID1で識別されるサブタイトルストリーム1のPESパケットであるサブタイトル1・PESパケット「Subtitle1 PES」、PID2で識別されるサブタイトルストリーム2のPESパケットであるサブタイトル2・PESパケット「Subtitle2 PES」、さらにPID3で識別されるサブタイトルストリーム3のPESパケットであるサブタイトル3・PESパケット「Subtitle3 PES」が存在する。
 サブタイトル1・PESパケットにおいて、PESペイロードには、内容が一般であるサブタイトル情報を持つ2種類のTTMLセグメントが挿入されている。すなわち、このPESペイロードには、セグメントタイプが“0x11”である英語(English)のサブタイトルのTTMLセグメント、セグメントタイプが“0x12”であるフランス語(French)のサブタイトルのTTMLセグメントが挿入されている。また、このPESペイロードには、セグメントタイプが“0x84”であるフォント・ダウンロード・セグメントも挿入されている。
 同様に、サブタイトル2・PESパケットにおいて、PESペイロードには、内容が聴覚障害者向けであるサブタイトル情報を持つ2種類のTTMLセグメントが挿入されている。すなわち、このPESペイロードには、セグメントタイプが“0x11”である英語(English)のサブタイトルのTTMLセグメント、セグメントタイプが“0x12”であるフランス語(French)のサブタイトルのTTMLセグメントが挿入されている。また、このPESペイロードには、セグメントタイプが“0x84”であるフォント・ダウンロード・セグメントも挿入されている。
 同様に、サブタイトル3・PESパケットにおいて、PESペイロードには、内容が非ネイティブ向けであるサブタイトル情報を持つ2種類のTTMLセグメントが挿入されている。すなわち、このPESペイロードには、セグメントタイプが“0x11”である英語(English)のサブタイトルのTTMLセグメント、セグメントタイプが“0x12”であるフランス語(French)のサブタイトルのTTMLセグメントが挿入されている。また、このPESペイロードには、セグメントタイプが“0x84”であるフォント・ダウンロード・セグメントも挿入されている。
 また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームTSに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ(Program Descriptor)が存在する。
 このPMTには、サブタイトルストリーム1に関連した情報を持つサブタイトル1・エレメンタリストリーム・ループ(Subtitle1 ES loop)が存在する。このループには、サブタイトルストリーム1に対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。
 このデスクリプタとして、テキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)およびフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図12、図15参照)。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“0x01”とされている。フォント・ファイル・デスクリプタは、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。
 また、このPMTには、サブタイトルストリーム2に関連した情報を持つサブタイトル2・エレメンタリストリーム・ループ(Subtitle2 ES loop)が存在する。このループには、サブタイトルストリーム2に対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。
 このデスクリプタとして、テキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)およびフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図12、図15参照)。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“0x02”とされている。フォント・ファイル・デスクリプタは、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。
 また、このPMTには、サブタイトルストリーム3に関連した情報を持つサブタイトル3・エレメンタリストリーム・ループ(Subtitle2 ES loop)が存在する。このループには、サブタイトルストリーム3に対応して、PID(パケット識別子)等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。
 このデスクリプタとして、テキスト・サブタイトル・デスクリプタ(Text_subtitle_descriptor)およびフォント・ファイル・デスクリプタ(Font_file_descriptor)が挿入される(図12、図15参照)。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“0x03”とされている。フォント・ファイル・デスクリプタは、少なくともTTMLのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。
 また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG-2 TS)である例を示した。しかし、本技術は、MPEG-2 TSのコンテナに限定されるものではなく、例えばMMTあるいは、ISOBMFFなど、その他のフォーマットのコンテナであっても同様に実現できる。
 また、上述実施の形態においては、放送送出システム100とテレビ受信機200とからなる送受信システム10を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、テレビ受信機200の部分が、HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「HDMI」は登録商標である。
 また、本技術は、以下のような構成を取ることもできる。
 (1)それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
 上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
 送信装置。
 (2)上記所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ
 前記(1)に記載の送信装置。
 (3)上記サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
 上記複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ
 前記(1)または(2)に記載の送信装置。
 (4)上記サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
 上記複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ
 前記(1)または(2)に記載の送信装置。
 (5)上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える
 前記(1)から(4)のいずれかに記載の送信装置。
 (6)上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報が含まれる
 前記(5)に記載の送信装置。
 (7)上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームを識別する識別情報が含まれる
 前記(5)または(6)に記載の送信装置。
 (8)上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報が含まれる
 前記(5)から(7)のいずれかに記載の送信装置。
 (9)それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコードステップと、
 送信部により、上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
 送信方法。
 (10)それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
 上記所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、該抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理を制御する制御部を備える
 受信装置。
 (11)上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、
 上記制御部は、
 上記所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、上記第1の抽出処理および上記第2の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する
 前記(10)に記載の受信装置。
 (12)受信部により、それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
 上記所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、該抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理を制御する制御ステップを有する
 受信方法。
 本技術の主な特徴は、複数のサブタイトル情報を含むサブタイトルストリームを生成して送信することで、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となるようにしたことである(図2、図16参照)。
 10・・・送受信システム
 100・・・放送送出システム
 110・・・ストリーム生成部
 111・・・制御部
 112・・・ビデオエンコーダ
 113・・・オーディオエンコーダ
 114・・・テキストフォーマット変換部
 115・・・サブタイトルエンコーダ
 116・・・TSフォーマッタ
 200・・・テレビ受信機
 201・・・受信部
 202・・・TS解析部
 203・・・ビデオデコーダ
 204・・・ビデオ重畳部
 205・・・パネル駆動回路
 206・・・表示パネル
 207・・・オーディオデコーダ
 208・・・オーディオ出力回路
 209・・・スピーカ
 210・・・サブタイトルデコーダ
 221・・・CPU
 227・・・通信インタフェース

Claims (12)

  1.  それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
     上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
     送信装置。
  2.  上記所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ
     請求項1に記載の送信装置。
  3.  上記サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
     上記複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ
     請求項1に記載の送信装置。
  4.  上記サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
     上記複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ
     請求項1に記載の送信装置。
  5.  上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える
     請求項1に記載の送信装置。
  6.  上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報が含まれる
     請求項5に記載の送信装置。
  7.  上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームを識別する識別情報が含まれる
     請求項5に記載の送信装置。
  8.  上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報が含まれる
     請求項5に記載の送信装置。
  9.  それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコードステップと、
     送信部により、上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
     送信方法。
  10.  それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
     上記所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、該抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理を制御する制御部を備える
     受信装置。
  11.  上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、
     上記制御部は、
     上記所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、上記第1の抽出処理および上記第2の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する
     請求項10に記載の受信装置。
  12.  受信部により、それぞれ1つまたは2つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
     上記所定数のサブタイトルストリームから1つのサブタイトルストリームを抽出する第1の抽出処理と、該抽出された1つのサブタイトルストリームから1つのサブタイトル情報を抽出する第2の抽出処理を制御する制御ステップを有する
     受信方法。
PCT/JP2017/018483 2016-05-31 2017-05-17 送信装置、送信方法、受信装置および受信方法 WO2017208818A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201780031780.8A CN109155866A (zh) 2016-05-31 2017-05-17 发送装置、发送方法、接收装置和接收方法
AU2017274829A AU2017274829A1 (en) 2016-05-31 2017-05-17 Transmission device, transmission method, reception device, and reception method
EP17806376.4A EP3468204A4 (en) 2016-05-31 2017-05-17 TRANSMITTING DEVICE, TRANSMITTING METHOD, RECEIVING DEVICE, AND RECEIVING METHOD
JP2018520780A JP7020406B2 (ja) 2016-05-31 2017-05-17 送信装置、送信方法、受信装置および受信方法
US16/094,539 US20190123842A1 (en) 2016-05-31 2017-05-17 Transmission device, transmission method, reception device, and reception method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-109483 2016-05-31
JP2016109483 2016-05-31

Publications (1)

Publication Number Publication Date
WO2017208818A1 true WO2017208818A1 (ja) 2017-12-07

Family

ID=60478510

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/018483 WO2017208818A1 (ja) 2016-05-31 2017-05-17 送信装置、送信方法、受信装置および受信方法

Country Status (6)

Country Link
US (1) US20190123842A1 (ja)
EP (1) EP3468204A4 (ja)
JP (1) JP7020406B2 (ja)
CN (1) CN109155866A (ja)
AU (1) AU2017274829A1 (ja)
WO (1) WO2017208818A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019134296A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134294A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134292A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134293A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134290A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134297A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134295A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134291A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12003825B1 (en) * 2022-09-21 2024-06-04 Amazon Technologies, Inc. Enhanced control of video subtitles

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012169885A (ja) 2011-02-15 2012-09-06 Sony Corp 表示制御方法、記録媒体、表示制御装置
JP2013534097A (ja) * 2010-06-18 2013-08-29 サムスン エレクトロニクス カンパニー リミテッド 字幕サービスを含むデジタル放送サービスを提供する方法及びその装置
WO2015093856A1 (en) * 2013-12-19 2015-06-25 Lg Electronics Inc. Broadcast transmitting device and operating method thereof, and broadcast receiving device and operating method thereof

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5294982A (en) * 1991-12-24 1994-03-15 National Captioning Institute, Inc. Method and apparatus for providing dual language captioning of a television program
KR101061115B1 (ko) * 2004-08-13 2011-08-31 엘지전자 주식회사 디지털 방송 수신기 및 그의 서브타이틀 데이터 처리 방법
WO2012169813A2 (ko) * 2011-06-09 2012-12-13 엘지전자 주식회사 방송 서비스 전송 방법, 그 수신 방법 및 그 수신 장치
JP2013066075A (ja) * 2011-09-01 2013-04-11 Sony Corp 送信装置、送信方法および受信装置
FR3025925B1 (fr) * 2014-09-17 2016-12-23 France Brevets Procede de controle de modes de presentation de sous-titres

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534097A (ja) * 2010-06-18 2013-08-29 サムスン エレクトロニクス カンパニー リミテッド 字幕サービスを含むデジタル放送サービスを提供する方法及びその装置
JP2012169885A (ja) 2011-02-15 2012-09-06 Sony Corp 表示制御方法、記録媒体、表示制御装置
WO2015093856A1 (en) * 2013-12-19 2015-06-25 Lg Electronics Inc. Broadcast transmitting device and operating method thereof, and broadcast receiving device and operating method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3468204A4

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019134296A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134294A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134292A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134293A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134290A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134297A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134295A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機
JP2019134291A (ja) * 2018-01-31 2019-08-08 東芝映像ソリューション株式会社 受信機

Also Published As

Publication number Publication date
JPWO2017208818A1 (ja) 2019-03-28
US20190123842A1 (en) 2019-04-25
CN109155866A (zh) 2019-01-04
EP3468204A1 (en) 2019-04-10
EP3468204A4 (en) 2019-05-08
JP7020406B2 (ja) 2022-02-16
AU2017274829A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP7020406B2 (ja) 送信装置、送信方法、受信装置および受信方法
US10979664B2 (en) Transmission device, transmission method, reception device and reception method
JP7176598B2 (ja) 送信方法
EP3236659B1 (en) Transmission device, transmission method, reception device, and reception method
US11765330B2 (en) Transmitter, transmission method, receiver, and reception method
US11290785B2 (en) Transmission apparatus, transmission method, reception apparatus, and reception method for transmitting subtitle text information
CN109479154B (zh) 发送装置、发送方法、接收装置和接收方法
JP6868776B2 (ja) 送信装置、送信方法、受信装置および受信方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018520780

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17806376

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017274829

Country of ref document: AU

Date of ref document: 20170517

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2017806376

Country of ref document: EP

Effective date: 20190102