WO2017022461A1 - Receiving device, sending device and data processing method - Google Patents

Receiving device, sending device and data processing method Download PDF

Info

Publication number
WO2017022461A1
WO2017022461A1 PCT/JP2016/071059 JP2016071059W WO2017022461A1 WO 2017022461 A1 WO2017022461 A1 WO 2017022461A1 JP 2016071059 W JP2016071059 W JP 2016071059W WO 2017022461 A1 WO2017022461 A1 WO 2017022461A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialog
control information
channel
dialog control
transmitted
Prior art date
Application number
PCT/JP2016/071059
Other languages
French (fr)
Japanese (ja)
Inventor
高橋 和幸
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2017022461A1 publication Critical patent/WO2017022461A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/28Arrangements for simultaneous broadcast of plural pieces of information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/09Arrangements for device control with a direct linkage to broadcast information or to broadcast space-time; Arrangements for control of broadcast-related services
    • H04H60/13Arrangements for device control affected by the broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Definitions

  • the present technology relates to a receiving device, a transmitting device, and a data processing method, and more particularly, to a receiving device, a transmitting device, and a data processing method that can perform dialog control using dialog control information.
  • multi-channel audio such as 22.2ch is being introduced as an acoustic system.
  • various descriptors related to audio streams are defined (for example, see Non-Patent Document 1).
  • dialog control By the way, in multi-channel audio, a technique called dialog control is becoming widespread. However, a technical method of dialog control has not been established, and a proposal for performing dialog control using dialog control information has been requested.
  • This technology has been made in view of such a situation, and makes it possible to perform dialog control using dialog control information.
  • a receiving device processes a receiving unit that receives a stream including a multi-channel or stereo audio component that is transmitted via a transmission path, and a signaling that is defined by a predetermined standard.
  • An acquisition unit that acquires dialog control information for controlling a dialog of multi-channel or stereo audio transmitted in the system layer, and a multi-channel transmitted through the transmission path based on the dialog control information
  • a control unit that controls a stereo audio dialog.
  • the receiving device may be an independent device, or may be an internal block constituting one device.
  • the data processing method according to the first aspect of the present technology is a data processing method corresponding to the above-described receiving device according to the first aspect of the present technology.
  • a stream including a multi-channel or stereo audio component transmitted via a transmission path is received and defined by a predetermined standard.
  • Dialog control information for controlling a multi-channel or stereo audio dialog transmitted in a system layer for processing signaling is acquired, and the multi-channel is transmitted via the transmission path based on the dialog control information Alternatively, a stereo audio dialog is controlled.
  • a transmission apparatus includes an acquisition unit that acquires a stream including a multi-channel or stereo audio component, and generation that generates dialog control information for controlling a multi-channel or stereo audio dialog. And a transmission unit that transmits the dialog control information together with the stream via a transmission path, and the dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard Device.
  • the transmission device according to the second aspect of the present technology may be an independent device, or may be an internal block constituting one device.
  • a data processing method according to the second aspect of the present technology is a data processing method corresponding to the transmission device according to the second aspect of the present technology described above.
  • a dialog control information for acquiring a stream including a multi-channel or stereo audio component and controlling a multi-channel or stereo audio dialog. And the dialog control information is transmitted along with the stream via a transmission path.
  • the dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard.
  • dialog control using dialog control information can be performed.
  • FIG. 1 is a diagram illustrating a configuration of an embodiment of a transmission system to which the present technology is applied.
  • the system refers to a logical collection of a plurality of devices.
  • the transmission system 1 includes a transmission device 10 and a reception device 20.
  • the transmission system 1 for example, data transmission conforming to a predetermined standard such as a digital broadcasting standard is performed.
  • the transmitting device 10 transmits (transmits) the content via the transmission path 30.
  • the transmission apparatus 10 transmits a stream of video and audio (components) constituting a content such as a television program and signaling and a signaling as a digital broadcast signal via the transmission path 30.
  • the receiving device 20 receives and outputs content transmitted (transmitted) from the transmitting device 10 via the transmission path 30.
  • the receiving device 20 receives a digital broadcast signal transmitted from the transmitting device 10, acquires a stream of video and audio (components thereof) and signaling that constitute the content, and obtains a video of content such as a TV program, Play audio.
  • data transmission conforming to digital broadcasting standards such as ISDB (Integrated Services Digital Broadcasting), DVB (Digital Video Broadcasting), ATSC (Advanced Television Systems Committee), etc.
  • Digital broadcasting standards such as ISDB (Integrated Services Digital Broadcasting), DVB (Digital Video Broadcasting), ATSC (Advanced Television Systems Committee), etc.
  • Data transmission conforming to the standard is performed.
  • the transmission line 30 when data transmission conforming to the digital broadcasting standard is performed, a satellite line, a cable television network (wired line), or the like can be used in addition to the ground wave.
  • a communication line such as the Internet or a telephone network can be used.
  • Dialog control refers to controlling a multi-channel audio dialog such as dialog volume level (voice level) control, dialog replacement control, or dialog localization position control.
  • dialog control information information related to dialog control is referred to as dialog control information.
  • 22.2ch multi-channel audio will be described as an example of multi-channel audio.
  • multi-channel audio refers to an acoustic system that transmits audio data of two or more channels such as 22.2ch in order to reproduce the localization of a sound image and the sense of spread of a sound field.
  • multi-channel audio will be described, but the present technology can also be applied to stereo audio.
  • FIG. 2 is a diagram showing an example of speaker arrangement in an acoustic system employing 22.2ch multi-channel audio.
  • 3 and 4 show the layer configuration of the speaker arrangement of FIG. 2 and the channel map, which will be described with reference to them as appropriate.
  • the circles indicate the position of each speaker.
  • a two-channel subwoofer is arranged for low frequency enhancement (LFE: Low Frequency Frequency).
  • LFE Low Frequency Frequency
  • the front left channel speaker FL, the front right channel speaker FR, the front center channel speaker FC, and the rear left channel are displayed in the middle layer with respect to the content video display area (TV screen).
  • the upper layer has a speaker TpFL for the upper front left channel, a speaker TpFR for the upper front right channel, a speaker TpFC for the upper front center channel, and an upper center for the content video display area (TV screen).
  • a channel speaker TpC, an upper rear left channel speaker TpBL, an upper rear right channel speaker TpBR, an upper side left channel speaker TpSiL, an upper side right channel speaker TpSiR, and an upper rear center channel speaker TpBC are arranged. Is done. That is, in the acoustic system of FIG. 2, a total of nine channels of speakers are arranged in the upper layer.
  • a lower front center channel speaker BtFC, a lower front left channel speaker BtFL, and a lower front right channel speaker BtFR are displayed in the lower layer with respect to a content video display area (TV screen). Be placed. Further, in the lower layer, a subwoofer LFE1 and a subwoofer LFE2 for low frequency enhancement (LFE) are arranged in front of the lower layer. That is, in the acoustic system of FIG. 2, a 3-channel speaker and a 2-channel subwoofer are arranged in the lower layer.
  • the receiving device 20 when the receiving device 20 has a configuration capable of realizing the 22.2 ch multi-channel audio shown in FIG. 2, the transmission device 10 via the transmission path 30.
  • the receiving apparatus 20 controls the 22.2ch multi-channel audio dialog based on the dialog control information.
  • the receiving apparatus 20 when receiving the dialog control information including an instruction for adjusting the volume of the dialog from the transmission apparatus 10, the receiving apparatus 20 adjusts the 22.2ch volume level based on the dialog control information. Also, when receiving the dialog control information including the dialog replacement instruction from the transmitting device 10, the receiving device 20 receives, for example, the front center channel speaker FC and the lower front center channel speaker BtFC based on the dialog control information. Replace the input Japanese dialog with the English or French dialog.
  • the receiving device 20 when the receiving device 20 has a configuration capable of realizing the 22.2 ch multi-channel audio shown in FIG.
  • the receiving device 20 performs a multi-channel audio dialog such as dialog volume level control, dialog replacement control, or dialog localization position control based on the dialog control information. Control.
  • MPEG-H 3D Audio Dialog control can also be used in MPEG-H 3D Audio, which defines audio compression for 3D audio, which allows multiple speakers.
  • MPEG-H 3D Audio VBAP (Vector Base Amplitude Pannning) is used as a technique for controlling the localization of a sound image by arranging a plurality of speakers. The details of VBAP are described in “Ville Pulkki,“ Virtual Sound Source Positioning Using Vector Base Amplitude Panning ”, Journal of AES, vol.45, no.6, pp.456-466, 1997”. Yes.
  • FIG. 5 is a diagram showing an example of speaker arrangement of a three-dimensional VBAP.
  • each channel is output from these speakers SP1 to SP5.
  • the speakers SP1 to SP5 are arranged on a spherical surface centering on the origin O at the position of the head of the user U11. Further, the three-dimensional vectors starting from the origin O and pointing in the direction of the positions of the speakers SP1 to SP5 are set as vectors I 1 to I 5 .
  • a triangular region surrounded by the speaker SP1, the speaker SP4, and the speaker SP5 is defined as a region TR21.
  • a triangular region surrounded by the speaker SP3, the speaker SP4, and the speaker SP5 among the region on the spherical surface centered on the origin O is defined as a region TR22, and is surrounded by the speaker SP2, the speaker SP3, and the speaker SP5.
  • a triangular region is referred to as a region TR23.
  • these regions TR21 to TR23 are one mesh (three-dimensional mesh).
  • a three-dimensional vector indicating a position where the sound image is to be localized is a vector P, in the example of FIG. 5, the vector P indicates a position on the region TR21.
  • the three-dimensional vectors facing the positions of the speaker SP1, the speaker SP4, and the speaker SP5 are the vector I 1 , the vector I 4 , and the vector I 5. As shown in (1), it can be expressed by a linear sum of a vector I 1 , a vector I 4 , and a vector I 5 .
  • the gain of the sound output from the speaker SP2 and the speaker SP3 that does not constitute the region TR21 is zero. That is, no sound is output from the speaker SP2 and the speaker SP3.
  • a sound image can be placed at an arbitrary position (sound image position) on a region composed of regions TR21 to TR23 by three-dimensional VBAP. It is possible to localize.
  • the sound image position VSP is represented by a polar coordinate system based on Azimuth ( ⁇ ), Elevation ( ⁇ ), and Radius (r).
  • the “front” represented by the arrow in the x-axis direction in the figure indicates, for example, the direction of the content video display area (for example, “TV screen” in FIG. 2) with respect to the head of the user U11. pointing.
  • FIG. 7 is a diagram illustrating a configuration example of the audio decoder 50 corresponding to MPEG-H 3D Audio.
  • an audio decoder 50 corresponding to MPEG-H 3D Audio includes a USAC-3D decoder 51, a format converter 52, a metadata decoder 53, an object renderer 54, a SAOC-3D decoder 55, a HOA renderer 56, a mixer 57, and , A binaural renderer 58.
  • the MPEG-H bit stream is input to the USAC-3D decoder 51.
  • the USAC-3D decoder 51 decodes the MPEG-H bitstream in accordance with USAC (Unified Speech and Audio Audio Coding).
  • the USAC-3D decoder 51 obtains channels (Channels), metadata (Compressed object metadata), objects (Object), SAOC transport channels (SAOC Transport Channels), and HOA coefficients (HOA (Higher order ambisonics) obtained by decoding. ) (Coefficient) is supplied to the format converter 52, the metadata decoder 53, the object renderer 54, the SAOC-3D decoder 55, and the HOA renderer 56, respectively.
  • the format converter 52 performs processing such as format conversion on the channel information of each channel supplied from the USAC-3D decoder 51, and supplies the processing result to the mixer 57.
  • the metadata decoder 53 decodes the compressed metadata supplied from the USAC-3D decoder 51 and supplies the metadata obtained thereby to the object renderer 54 and the SAOC-3D decoder 55, respectively.
  • the object renderer 54 includes object information (for example, polar coordinate information of the object sound source) regarding each object sound source from the USAC-3D decoder 51 and metadata (for example, meta information including position information of each speaker SP) from the metadata decoder 53. Data).
  • object information for example, polar coordinate information of the object sound source
  • metadata for example, meta information including position information of each speaker SP
  • the object renderer 54 is based on the object information, metadata, and the like, and has a triangular area TR (for example, FIG. 5) surrounded by three speakers SP (for example, the speakers SP1, SP4, and SP5 in FIG. 5) in the vicinity of the target object sound source. 5 region TR21), the processing is performed so that the sound image is localized at the position of the target object sound source (for example, the sound image position VSP corresponding to the vector P in FIG. 5).
  • the object renderer 54 supplies the processing result to the mixer 57.
  • the SAOC-3D decoder 55 is based on SAOC transport channel information supplied from the USAC-3D decoder 51 and metadata (metadata including position information of the speaker SP) supplied from the metadata decoder 53, etc. Processing related to the object sound source is performed, and the processing result is supplied to the mixer 57.
  • the HOA renderer 56 performs processing related to the microphone arranged on the spherical surface based on the HOA coefficient supplied from the USAC-3D decoder 51, and supplies the processing result to the mixer 57.
  • the mixer 57 mixes the processing results from the format converter 52, the object renderer 54, the SAOC-3D decoder 55, and the HOA renderer 56, and outputs the result to each speaker SP (for example, the speakers SP1 to SP5 in FIG. 5). .
  • the output from the mixer 57 is processed by the binaural renderer 58 before being output.
  • the audio decoder 50 compatible with MPEG-H 3D Audio is configured as described above.
  • dialog control is performed from the transmitting device 10 via the transmission path 30.
  • the receiving device 20 controls the dialog of the sound image that is localized at a position on the region composed of the regions TR21 to TR23, for example, based on the dialog control information.
  • the receiving device 20 when receiving the dialog control information including the instruction for adjusting the volume of the dialog from the transmitting device 10, the receiving device 20 has a position on the region composed of the regions TR21 to TR23 based on the dialog control information. Adjust the volume level for the sound image localized in In addition, when receiving the dialog control information including the dialog replacement instruction from the transmission device 10, the receiving device 20 receives, for example, the Japanese text input to the object sound source Ob1 and the object sound source Ob2 based on the dialog control information. Replace dialogs with English or French dialogs.
  • the reception device 20 when the reception device 20 has a configuration capable of realizing the three-dimensional VBAP shown in FIG. 5, the dialog from the transmission device 10 via the transmission path 30 is performed.
  • the receiving device 20 controls a dialog of multi-channel audio such as dialog volume level control, dialog replacement control, or dialog localization position control based on the dialog control information.
  • the receiving device 20 controls the dialog of the multi-channel audio based on the dialog control information from the transmitting device 10.
  • ARIB Association of Radio Industries, and Businesses: General Incorporated Association Meeting
  • dialog control information is transmitted in an audio stream.
  • FIG. 8 is a diagram illustrating the syntax of an audio stream for transmitting dialog control information. This syntax is the syntax of the bitstream added to the end of MPEG4_ancillary_data ().
  • ext_downmixing_level_status2 is set to “0” in the case of an audio mode in which a value other than “13” is set as channelConfiguration, which is a parameter set in MPEG-4 Audio, and downmix coefficients (dmix_c_idx, dmix_d_idx, dmix_e_idx, dmix_f_idx, dmix_g_idx, dmix_l_idx) will not be transmitted.
  • Ext_dialogue_status is a flag indicating whether or not dialog control information exists.
  • dialog control information exists.
  • Num_dialogue_chans is set to the number of channels dedicated to the dialog.
  • the number of bits of num_dialogue_chans is determined according to the number of channels of main audio.
  • the upper limit value of the allowable value of the gain control amount on the receiving device 20 side is set.
  • a lower limit value of an allowable value of the gain control amount on the receiving device 20 side is set.
  • the language code of the main dialog is set in 24-bit dialog_main_lang_code.
  • This language code value conforms to, for example, ISO 639-2, and a value defined in ISO / IEC 8859-1 can be used for characters.
  • 8-bit dialog_main_lang_comment_bytes the number of bytes of character string information for indicating the contents of the main dialog is set.
  • 8-bit dialog_main_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_main_lang_comment_bytes.
  • the dialogue_main_lang_comment_data byte data of character string information for indicating the contents of the main dialog is set.
  • dialog_src_index and 4-bit dialog_gain_index are arranged in a loop according to the number of channels dedicated to the dialog indicated by num_dialogue_chans.
  • the index of the channel dedicated to the dialog is set.
  • the number of bits of dialog_src_index_ is determined according to the number of channels of main audio.
  • the gain correction value index of the additional dialog is set.
  • the number of additional dialogs is set in 4-bit num_additional_lang_chans.
  • a 24-bit dialog_additional_lang_code and an 8-bit dialog_additional_lang_comment_bytes are arranged in a loop corresponding to the number of additional dialogs indicated by the num_additional_lang_chans.
  • dialogue_additional_lang_code the language code of the additional dialog is set. This language code value conforms to, for example, ISO 639-2, and a value defined in ISO / IEC 8859-1 can be used for characters.
  • Dialog_additional_lang_comment_bytes is set with the number of bytes of the character string information for indicating the contents of the add dialog.
  • 8-bit dialog_additional_lang_comment_data is arranged in a loop corresponding to the dialog_additional_lang_comment_bytes.
  • byte data of character string information for indicating the contents of the add dialog is set.
  • Byte_alignment () is a function for adjusting the data length to a byte unit (multiple of 8 bits), and its starting point is taken from ext_dialogue_status.
  • dialog control information is transmitted with an audio stream as shown in FIG. 8, there is a possibility that the reception device 20 may have difficulty handling the dialog control information.
  • the receiving apparatus 20 can adjust the volume within the range of 0 to 100, and the dialog control information instructs the volume adjustment of the dialog within the range of 30 to 70, 30 to 70 Therefore, even if the user wants to reduce the volume to 0, the volume can only be reduced to 30.
  • the volume can be adjusted in the range of 0 to 100, but presenting a user interface indicating that the volume is currently limited to the range of 30 to 70, the volume is shown to the user. It is a general flow of processing to notify the reason why cannot be lowered.
  • dialog control information is transmitted in an audio stream, so in the system layer that is a layer that processes signaling (descriptor) and the like, dialog control information is not transmitted. It is necessary to pass dialog control information acquired from the audio stream to the system layer using API (Application Programming Interface) or the like. As a result, the system layer can present a user interface indicating that volume adjustment is limited to a range of 30 to 70, for example, based on the dialog control information obtained from the audio stream, but the API is used. It is assumed that processing will take time, such as the need to perform processing.
  • API Application Programming Interface
  • the dialog control information is transmitted in the system layer (descriptor) so that the reception apparatus 20 can easily handle the dialog control information.
  • ARIB ⁇ ⁇ STD-B60 1.3 currently being developed, information indicating whether the audio stream includes dialog control information is placed in the audio component descriptor (MH-Audio Component Descriptor) transmitted in the system layer. It is planned.
  • FIG. 9 is a diagram illustrating an example of the syntax of an audio component descriptor (MH-Audio Component Descriptor) defined in the ARIB STD-B60 version 1.3.
  • the 16-bit descriptor_tag contains a tag value that identifies each descriptor.
  • Descriptor length is set in 8-bit descriptor_length.
  • the descriptor_length is followed by a 4-bit reserved area (reserved_future_use).
  • the stream type is set in 4-bit stream_content.
  • 8-bit component_type information related to encoding for an audio component is set.
  • ⁇ Information for identifying the component stream is set in the 16-bit component_tag.
  • the audio stream format is set in the 8-bit stream_type.
  • simulcast_group_tag In 8-bit simulcast_group_tag, the same number is set for the component performing simulcast. In the 1-bit ES_multi_lingual_flag, “1” is set when bilingual multiplexing is performed in the elementary stream.
  • -1 is set in 1-bit main_component_flag when the target audio component is the main audio.
  • a predefined sound quality mode is set in the 2-bit quality_indicator.
  • ⁇ Sampling frequency is specified in 3-bit sampling_rate.
  • the sampling_rate is followed by a 1-bit reserved area (reserved_future_use).
  • the language code of the audio component is set in 24-bit ISO_639_language_code. Further, when “1” is designated as ES_multi_lingual_flag, 24-bit ISO_639_language_code_2 is arranged. ISO_639_language_code_2 is set with the language code of the second audio component in the case of the multilingual mode.
  • the audio component descriptor is configured as described above.
  • the most significant bit (b7) can indicate the presence / absence of dialog control information.
  • component_type when “0” is set in the most significant bit (b7) of component_type, it indicates that the audio stream does not include dialog control information. When 1 "is set, it indicates that the audio stream includes dialog control information.
  • the audio component descriptor (MH-Audio Component Descriptor) defined in ARIB STD-B60 1.3 contains only information indicating whether or not the audio stream includes dialog control information. Even if it is known whether or not the stream is transmitting dialog information, eventually it is necessary to pass the dialog control information to the system layer using an API or the like, so that processing takes time.
  • dialog control information may be difficult to handle in the receiving device 20, so that a proposal for making the dialog control information easy to handle and performing dialog control using the dialog control information is requested. It was.
  • a descriptor including dialog control information for responding to such a request (hereinafter also referred to as this technology descriptor) is defined and transmitted by the system layer.
  • a method for enabling the apparatus 20 to perform dialog control using dialog control information transmitted in the system layer is proposed.
  • FIG. 11 is a diagram illustrating an example of syntax and semantics of the technology descriptor.
  • ext_dialogue_status is a flag indicating that dialog control is performed.
  • dialog control is performed when “1” is set as ext_dialogue_status.
  • ext_dialogue_status is a 7-bit reserved area (reserved).
  • dialog control information information related to dialog control
  • num_of_dialog_chans The number of audio components for which dialog control is performed is set in 5-bit num_of_dialog_chans. Next to num_of_dialog_chans is a 3-bit reserved area (reserved).
  • the upper limit of the audio level at which dialog control is performed is set in the 8-bit dialog_plus_index. Also, the lower limit of the audio level at which dialog control is performed is set in the 8-bit dialog_minus_index.
  • the country code of the main dialog is set in 24-bit dialog_lang_code.
  • ISO International Organization for Standardization
  • the 8-bit dialog_main_lang_comment_bytes field contains the number of character information bytes in the main dialog contents.
  • 8-bit dialog_main_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_main_lang_comment_bytes.
  • the content of the main dialog is set in dialogue_main_lang_comment_data.
  • a 5-bit dialog_src_index, a 3-bit reserved area (reserved), and a 4-bit dialog_gain_index are arranged in a loop corresponding to the number of audio components (dialog control is performed) indicated by num_of_dialog_chans.
  • the index of the dialog dedicated channel is set.
  • the gain correction index of the additional dialog is set.
  • num_additional_lang_chans The number of additional dialogs is set in 4-bit num_additional_lang_chans. Next to num_additional_lang_chans is a 4-bit reserved area (reserved).
  • dialog_additional_lang_code the country code of the additional dialog is set.
  • ISO International Organization for Standardization
  • dialog_additional_lang_comment_bytes the number of character information bytes of the contents of the add dialog is set.
  • 8-bit dialog_additional_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_additional_lang_comment_bytes.
  • dialogue_additional_lang_comment_data the content of the add dialog is set.
  • This technical descriptor is configured as described above.
  • the configuration of the syntax and semantics of this technical descriptor shown in FIG. 11 is an example, and other configurations may be adopted.
  • the reception device 20 can transmit the present technology description in the system layer. Based on the child (dialog control information included therein), dialog control of multi-channel audio such as dialog volume level control, dialog replacement control, or dialog localization position control can be performed.
  • the technology descriptor (FIG. 11) is newly defined and the transmission method in the system layer has been described. However, the contents (dialog control information) described in the technology descriptor (FIG. 11) are described. ) May be adopted as long as it can be transmitted in the system layer.
  • dialog control is performed in the system layer. Audio component descriptors containing information can be transmitted. As a result, the receiving device 20 can perform dialog control such as dialog volume level control based on the technical descriptor (contained in the dialog control information) transmitted in the system layer.
  • the content of the present technology descriptor (FIG. 11) can be described after the text_char loop arranged last.
  • what is arranged after the loop of text_char is an example, and the contents of the technical descriptor (FIG. 11) can be arranged at an arbitrary position in the audio component descriptor (FIG. 9).
  • the content of this technical descriptor (FIG. 11) is not limited to the audio component descriptor (FIG. 9), but may be described in another descriptor transmitted in the system layer.
  • the description has been made on the assumption that the descriptor is standardized by ARIB, but it may be applied to other digital broadcasting standards such as DVB (Digital Video Broadcasting). That is, also in other digital broadcasting standards such as DVB, the receiving apparatus 20 controls dialog control using dialog control information by transmitting the present technology descriptor (FIG. 11) including dialog control information in the system layer. It can be performed.
  • DVB Digital Video Broadcasting
  • DE Dialogue Enhancement
  • a component descriptor (Component Descriptor) is defined, and the contents (dialog control information) of this technical descriptor in FIG. 11 are described in this component descriptor.
  • the component descriptor including the dialog control information can be transmitted in the system layer.
  • the receiving device 20 can perform dialog control such as dialog volume level control based on the technical descriptor (contained in the dialog control information) transmitted in the system layer.
  • the content of the present technical descriptor (FIG. 11) can be described after the text_char loop arranged last.
  • the arrangement following the text_char loop is an example, and the content of the present technology descriptor (FIG. 11) can be arranged at an arbitrary position in the component descriptor (FIG. 13).
  • the content of this technical descriptor (FIG. 11) is not limited to the component descriptor (FIG. 13), and may be described in another descriptor transmitted in the system layer.
  • dialog control information is standardized as being transmitted in an audio stream.
  • other types such as MPEG-H and AC-4 (Audio Code number 4) have been described.
  • dialog control information is transmitted at the bitstream level, but dialog control information is not transmitted in the system layer.
  • the technical descriptor (FIG. 11) is transmitted in the system layer, or the existing descriptor is extended.
  • dialog control information is transmitted in the system layer (descriptor).
  • the receiving device 20 can perform dialog control such as dialog volume level control based on the descriptor (dialog control information included in the descriptor) transmitted in the system layer.
  • the configuration of the transmission system 1 in FIG. 1 is as follows, for example. That is, in the transmission system 1 of FIG. 1, the transmission path 30 is a communication line such as the Internet or a telephone network, and the receiving device 20 transmits content to the transmitting device 10 installed as a server via the communication line. By requesting the distribution, the stream of the content distributed by streaming from the transmission device 10 is received and reproduced.
  • the transmission path 30 is a communication line such as the Internet or a telephone network
  • the dialog control information may be transmitted as a data broadcast application such as HTML5 (HyperText Markup Language 5), for example, in addition to transmission by descriptor.
  • the reception device 20 can perform dialog control by receiving and executing an application transmitted from the transmission device 10 via the transmission path 30.
  • the application is not limited to data broadcasting, but may be distributed from a server via communication.
  • FIG. 14 is a diagram illustrating a configuration example of the transmission device 10 of FIG.
  • the transmission apparatus 10 includes a control unit 101, a component acquisition unit 102, an encoder 103, a signaling generation unit 104, a signaling processing unit 105, a packet generation unit 106, a physical layer frame generation unit 107, and a transmission unit 108. Is done.
  • the control unit 101 controls the operation of each unit of the transmission device 10.
  • the component acquisition unit 102 acquires data such as video, audio, and subtitles (components) constituting content (for example, a television program) provided by a specific service, and supplies the acquired data to the encoder 103.
  • the encoder 103 encodes data (components) such as video and audio supplied from the component acquisition unit 102 according to a predetermined encoding method, and supplies the encoded data to the packet generation unit 106.
  • the corresponding content is acquired from the storage location of the already recorded content according to the broadcast time zone, or the live content is acquired from the studio or location location.
  • the content can be configured to include multi-channel audio components.
  • the signaling generation unit 104 acquires raw data for generating signaling from an external server, a built-in storage, or the like.
  • the signaling generation unit 104 generates signaling using the raw data of signaling and supplies it to the signaling processing unit 105.
  • the signaling for example, the present technology descriptor (FIG. 11) including the dialog control information or the existing descriptor (FIG. 9) is generated.
  • the signaling processing unit 105 processes the signaling supplied from the signaling generation unit 104 and supplies it to the packet generation unit 106.
  • the packet generator 106 processes video and audio (components) data supplied from the encoder 103 and signaling data supplied from the signaling processor 105, and converts the packet in which those data are stored. It is generated and supplied to the physical layer frame generation unit 107.
  • the physical layer frame generation unit 107 generates a physical layer frame by encapsulating a plurality of packets supplied from the packet generation unit 106 and supplies the physical layer frame to the transmission unit 108.
  • the transmission unit 108 performs, for example, OFDM (Orthogonal Frequency Division Multiplexing) modulation on the physical layer frame supplied from the physical layer frame generation unit 107, and transmits it as a digital broadcast signal via the antenna 111.
  • OFDM Orthogonal Frequency Division Multiplexing
  • the present technology descriptor (FIG. 11) or the existing descriptor (FIG. 9) including the dialog control information is transmitted in the system layer by the digital broadcast signal.
  • the transmission apparatus 10 of FIG. 14 it is not necessary that all the functional blocks are physically disposed in a single apparatus, and at least some of the functional blocks are physically independent from other functional blocks. It may be configured as a device.
  • FIG. 15 is a diagram illustrating a configuration example of the receiving device 20 of FIG.
  • the reception device 20 includes a control unit 201, a reception unit 202, a physical layer frame processing unit 203, a packet processing unit 204, a signaling processing unit 205, a decoder 206, a video output unit 207, and an audio output unit 208. Is done.
  • the video output unit 207 is connected to a display device 221, and the audio output unit 208 is connected to speakers 222-1 to 222-N (N is an integer of 1 or more).
  • the speakers 222-1 to 222-N are arranged corresponding to the speaker arrangement in the 22.2ch multi-channel audio sound system as shown in FIG. Although omitted in FIG. 15, a subwoofer may be arranged in addition to the speaker 222.
  • the control unit 201 controls the operation of each unit of the receiving device 20.
  • the reception unit 202 receives the digital broadcast signal transmitted from the transmission device 10 via the antenna 211, performs processing such as OFDM demodulation, and converts the physical layer frame obtained thereby into the physical layer frame processing unit. 203.
  • the physical layer frame processing unit 203 performs processing on the physical layer frame supplied from the receiving unit 202, extracts a packet, and supplies the packet to the packet processing unit 204.
  • the packet processing unit 204 processes the packet supplied from the physical layer frame processing unit 203 and acquires component and signaling data. Of the data acquired by the packet processing unit 204, signaling data is supplied to the signaling processing unit 205, and component data is supplied to the decoder 206.
  • the signaling processing unit 205 appropriately processes the signaling data supplied from the packet processing unit 204 and supplies it to the control unit 201.
  • the control unit 201 controls the operation of each unit based on the signaling supplied from the signaling processing unit 205. Specifically, the control unit 201 controls packet filtering performed by the packet processing unit 204 based on the analysis result of the signaling, so that data such as video and audio (components thereof) is supplied to the decoder 206. To.
  • the decoder 206 decodes (components) data such as video and audio supplied from the packet processing unit 204 according to a predetermined decoding method, and supplies the resulting video data to the video output unit 207.
  • the audio data is supplied to the audio output unit 208.
  • the video output unit 207 causes the display device 221 to display video corresponding to the video data supplied from the decoder 206 in accordance with control from the control unit 201.
  • the audio output unit 208 causes the speakers 222-1 to 222-N to output audio corresponding to the audio data supplied from the decoder 206 in accordance with control from the control unit 201.
  • control unit 201 controls the audio output unit 208 based on the dialog control information included in the technical descriptor (FIG. 11) or the existing descriptor (FIG. 9) transmitted in the system layer. It controls a dialog of multi-channel audio (for example, 22.2ch multi-channel audio shown in FIG. 2) realized by the speakers 222-1 to 222-N.
  • multi-channel audio for example, 22.2ch multi-channel audio shown in FIG. 2
  • the receiving device 20 includes, for example, a fixed receiver such as a television receiver, a recorder, and a set top box (STB), a mobile receiver such as a smartphone and a tablet terminal, and an in-vehicle television. It can be set as the apparatus mounted in motor vehicles, such as.
  • a fixed receiver such as a television receiver, a recorder, and a set top box (STB)
  • STB set top box
  • mobile receiver such as a smartphone and a tablet terminal
  • in-vehicle television in-vehicle television. It can be set as the apparatus mounted in motor vehicles, such as.
  • step S101 component signaling acquisition processing is performed.
  • components such as video and audio (multi-channel audio) are acquired by the component acquisition unit 102, and data of components such as video and audio are encoded by the encoder 103.
  • signaling is generated by the signaling generation unit 104 and the signaling is processed by the signaling processing unit 105.
  • this technical descriptor may be newly defined as a descriptor for describing the dialog control information, or an existing descriptor such as an audio component descriptor (FIG. 9) is extended. Then, dialog control information may be described in the extended area.
  • step S102 packet / frame generation processing is performed.
  • a packet is generated by the packet generation unit 106, and a physical layer frame is generated by the physical layer frame generation unit 107.
  • step S103 digital broadcast signal transmission processing is performed.
  • the transmission unit 108 performs a process on the physical layer frame and transmits it as a digital broadcast signal via the antenna 111.
  • the present technology descriptor (FIG. 11) or the audio component descriptor (FIG. 9) including the dialog control information is transmitted in the system layer by the digital broadcast signal.
  • step S201 digital broadcast signal reception processing is performed.
  • the receiver 202 receives the digital broadcast signal via the antenna 211.
  • step S202 packet / frame processing is performed.
  • the physical layer frame processing unit 203 extracts a packet from the physical layer frame, and the packet processing unit 204 processes the packet.
  • step S203 signaling component processing is performed.
  • the control unit 201 controls the operation of each unit based on the signaling, and the decoder 206 decodes component data such as video and audio.
  • the video output unit 207 displays the content video on the display device 221 in accordance with the control from the control unit 201.
  • the audio output unit 208 outputs the audio of the content from the speakers 222-1 to 222-N according to the control from the control unit 201.
  • control unit 201 controls the audio output unit 208 based on the dialog control information included in the technical descriptor (FIG. 11) or the audio component descriptor (FIG. 9) transmitted in the system layer.
  • Control of multi-channel audio dialog realized by speakers 222-1 to 222-N such as dialog volume level control, dialog replacement control, or dialog localization position control.
  • control unit 201 adjusts the volume level of the 22.2ch multi-channel audio realized by the speakers 222-1 to 222-N according to the dialog volume adjustment instruction included in the dialog control information. Do. By adjusting the volume level, for example, for a hearing impaired person, it is possible to control to increase only the level of the voice of narration.
  • dialog_plus_index Within the range of 0 dB ⁇ x ⁇ +12 dB shown, each level of 20.2 ch other than the speaker FC and speaker BtFC is lowered by xdB.
  • the speaker FC and the speaker are within the range of - ⁇ dB ⁇ -x ⁇ 0dB indicated by dialog_minus_index.
  • Each level of BtFC is lowered by xdB.
  • control unit 101 in accordance with the dialog replacement instruction included in the dialog control information, in the 22.2ch multi-channel audio realized by the speakers 222-1 to 222-N, for example, the speaker FC (for the front center channel) Replace the Japanese dialog input to the speaker BtFC (in the lower front center channel) with the English or French dialog.
  • dialog_gain_index [0] ( ⁇ 3 dB) indicating the assignment level to the speaker FC
  • dialog_gain_index [1] (0 dB) indicating the assignment level to the speaker BtFC
  • dialog control can also be performed in the same manner when 3D VBAP or the like is used.
  • dialog control information in the system layer Dialog control can be performed in the same manner by transmitting a descriptor including.
  • FIG. 18 is a diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 905 is further connected to the bus 904.
  • An input unit 906, an output unit 907, a recording unit 908, a communication unit 909, and a drive 910 are connected to the input / output interface 905.
  • the input unit 906 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 907 includes a display, a speaker, and the like.
  • the recording unit 908 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 909 includes a network interface or the like.
  • the drive 910 drives a removable medium 911 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 loads the program recorded in the ROM 902 or the recording unit 908 to the RAM 903 via the input / output interface 905 and the bus 904, and executes the program. A series of processing is performed.
  • the program executed by the computer 900 can be provided by being recorded on a removable medium 911 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 908 via the input / output interface 905 by installing the removable medium 911 in the drive 910. Further, the program can be received by the communication unit 909 via a wired or wireless transmission medium and installed in the recording unit 908. In addition, the program can be installed in the ROM 902 or the recording unit 908 in advance.
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing).
  • the program may be processed by a single computer (processor) or may be distributedly processed by a plurality of computers.
  • the present technology can take the following configurations.
  • a receiver for receiving a stream including multi-channel or stereo audio components transmitted through a transmission path An acquisition unit for acquiring dialog control information for controlling a dialog of multi-channel or stereo audio transmitted in a system layer that processes signaling defined by a predetermined standard; And a control unit that controls a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
  • the predetermined standard is a standard for digital broadcasting, The receiving unit receives a broadcast wave of the digital broadcast, The acquisition unit acquires the dialog control information transmitted in a system layer that processes signaling defined in the digital broadcasting standard, The receiving device according to (1), wherein the control unit controls a dialog of multi-channel or stereo audio transmitted through the broadcast wave.
  • the dialog control information is described in a newly defined descriptor.
  • the receiving apparatus according to (2).
  • the receiving apparatus according to (2), wherein the dialog control information is described in an extension area of a component descriptor.
  • the receiving apparatus according to (2) or (4), wherein the dialog control information is described in an extension area of an audio component descriptor.
  • the receiving apparatus according to (1), wherein the dialog control information is described as an application including an HTML5 (HyperText Markup Language 5) standard.
  • the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
  • the receiving device is Receiving a stream containing multi-channel or stereo audio components transmitted over a transmission line; Obtaining dialog control information for controlling a multi-channel or stereo audio dialog transmitted in a system layer that processes signaling defined by a predetermined standard; A data processing method including a step of controlling a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
  • the predetermined standard is a standard for digital broadcasting
  • the transmission unit transmits the dialog control information together with the stream by the broadcast wave of the digital broadcast,
  • the transmission apparatus according to (9), wherein the dialog control information is transmitted in a system layer that processes signaling defined in the digital broadcasting standard.
  • the dialog control information is described in a newly defined descriptor.
  • the transmission device according to (10). (12) The transmission apparatus according to (10), wherein the dialog control information is described in an extension area of a component descriptor.
  • the transmission apparatus according to (9), wherein the dialog control information is described as an application including the HTML5 standard.
  • the transmission apparatus according to any one of (9) to (14), wherein the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
  • the transmitting device is Get a stream containing multi-channel or stereo audio components, Generate dialog control information to control multi-channel or stereo audio dialog, Transmitting the dialog control information together with the stream via a transmission path;
  • the dialog control information is a data processing method transmitted in a system layer that processes signaling defined by a predetermined standard.

Abstract

The present technology relates to a receiving device, a sending device and a data processing method that make it possible to perform dialog control using dialog control information. The receiving device: receives a stream which is transmitted via a transmission path and which includes a multi-channel or stereo audio component; acquires dialog control information which is transmitted by a system layer that processes signaling specified by a prescribed standard and which is for controlling the multi-channel or stereo audio dialog; and controls the multi-channel or stereo audio dialog transmitted via the transmission path on the basis of the dialog control information. The present technology is applicable, for example, to a TV receiver which is compatible with multi-channel audio.

Description

受信装置、送信装置、及び、データ処理方法Reception device, transmission device, and data processing method
 本技術は、受信装置、送信装置、及び、データ処理方法に関し、特に、ダイアログ制御情報を用いたダイアログ制御を行うことができるようにした受信装置、送信装置、及び、データ処理方法に関する。 The present technology relates to a receiving device, a transmitting device, and a data processing method, and more particularly, to a receiving device, a transmitting device, and a data processing method that can perform dialog control using dialog control information.
 デジタル放送においては、音響システムとして、22.2ch等のマルチチャンネル(マルチチャンネルオーディオ)の導入が進められている。また、デジタル放送の規格では、オーディオストリームに関する記述子が各種規定されている(例えば、非特許文献1参照)。 In digital broadcasting, multi-channel (multi-channel audio) such as 22.2ch is being introduced as an acoustic system. Also, in the digital broadcasting standard, various descriptors related to audio streams are defined (for example, see Non-Patent Document 1).
 ところで、マルチチャンネルオーディオでは、ダイアログ制御と称される技術が普及しつつある。しなしながら、ダイアログ制御の技術方式は確立されておらず、ダイアログ制御情報を用いたダイアログ制御を行うための提案が要請されていた。 By the way, in multi-channel audio, a technique called dialog control is becoming widespread. However, a technical method of dialog control has not been established, and a proposal for performing dialog control using dialog control information has been requested.
 本技術はこのような状況に鑑みてなされたものであり、ダイアログ制御情報を用いたダイアログ制御を行うことができるようにするものである。 This technology has been made in view of such a situation, and makes it possible to perform dialog control using dialog control information.
 本技術の第1の側面の受信装置は、伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを受信する受信部と、所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を取得する取得部と、前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する制御部とを備える受信装置である。 A receiving device according to a first aspect of the present technology processes a receiving unit that receives a stream including a multi-channel or stereo audio component that is transmitted via a transmission path, and a signaling that is defined by a predetermined standard. An acquisition unit that acquires dialog control information for controlling a dialog of multi-channel or stereo audio transmitted in the system layer, and a multi-channel transmitted through the transmission path based on the dialog control information And a control unit that controls a stereo audio dialog.
 本技術の第1の側面の受信装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第1の側面のデータ処理方法は、上述した本技術の第1の側面の受信装置に対応するデータ処理方法である。 The receiving device according to the first aspect of the present technology may be an independent device, or may be an internal block constituting one device. The data processing method according to the first aspect of the present technology is a data processing method corresponding to the above-described receiving device according to the first aspect of the present technology.
 本技術の第1の側面の受信装置、及び、データ処理方法においては、伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームが受信され、所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報が取得され、前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログが制御される。 In the receiving device and the data processing method according to the first aspect of the present technology, a stream including a multi-channel or stereo audio component transmitted via a transmission path is received and defined by a predetermined standard. Dialog control information for controlling a multi-channel or stereo audio dialog transmitted in a system layer for processing signaling is acquired, and the multi-channel is transmitted via the transmission path based on the dialog control information Alternatively, a stereo audio dialog is controlled.
 本技術の第2の側面の送信装置は、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを取得する取得部と、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を生成する生成部と、前記ストリームとともに、前記ダイアログ制御情報を、伝送路を介して送信する送信部とを備え、前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される送信装置である。 A transmission apparatus according to a second aspect of the present technology includes an acquisition unit that acquires a stream including a multi-channel or stereo audio component, and generation that generates dialog control information for controlling a multi-channel or stereo audio dialog. And a transmission unit that transmits the dialog control information together with the stream via a transmission path, and the dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard Device.
 本技術の第2の側面の送信装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第2の側面のデータ処理方法は、上述した本技術の第2の側面の送信装置に対応するデータ処理方法である。 The transmission device according to the second aspect of the present technology may be an independent device, or may be an internal block constituting one device. A data processing method according to the second aspect of the present technology is a data processing method corresponding to the transmission device according to the second aspect of the present technology described above.
 本技術の第2の側面の送信装置、及び、データ処理方法においては、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームが取得され、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報が生成され、前記ストリームとともに、前記ダイアログ制御情報が、伝送路を介して送信される。また、前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される。 In the transmission device and the data processing method according to the second aspect of the present technology, a dialog control information for acquiring a stream including a multi-channel or stereo audio component and controlling a multi-channel or stereo audio dialog. And the dialog control information is transmitted along with the stream via a transmission path. The dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard.
 本技術の第1の側面、及び、第2の側面によれば、ダイアログ制御情報を用いたダイアログ制御を行うことができる。 According to the first aspect and the second aspect of the present technology, dialog control using dialog control information can be performed.
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。 It should be noted that the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.
本技術を適用した伝送システムの一実施の形態の構成を示す図である。It is a figure showing the composition of the 1 embodiment of the transmission system to which this art is applied. 22.2chのスピーカ配置例を示す図である。It is a figure which shows the speaker arrangement example of 22.2ch. 22.2chのスピーカ配置のレイヤ構成を示す図である。It is a figure which shows the layer structure of 22.2ch speaker arrangement | positioning. 22.2chのチャンネルマップの例を示す図である。It is a figure which shows the example of a 22.2ch channel map. 3次元VBAPのスピーカ配置例を示す図である。It is a figure which shows the speaker arrangement example of three-dimensional VBAP. 3次元VBAPにおける座標系を説明する図である。It is a figure explaining the coordinate system in three-dimensional VBAP. MPEG-H 3D Audioのオーディオデコーダの構成例を示す図である。It is a figure which shows the structural example of the audio decoder of MPEG-H | 3D | Audio. オーディオストリームのシンタックスの例を示す図である。It is a figure which shows the example of the syntax of an audio stream. オーディオコンポーネント記述子のシンタックスの例を示す図である。It is a figure which shows the example of the syntax of an audio component descriptor. オーディオコンポーネント記述子に配置されるダイアログ制御に関する情報の例を示す図である。It is a figure which shows the example of the information regarding the dialog control arrange | positioned at an audio component descriptor. 本技術記述子のシンタックスとセマンティクスの例を示す図である。It is a figure which shows the example of the syntax and semantics of this technical descriptor. DVBで規定されるDE_control_data記述子のシンタックスの例を示す図である。It is a figure which shows the example of the syntax of the DE_control_data descriptor prescribed | regulated by DVB. DVBで規定されるコンポーネント記述子のシンタックスの例を示す図である。It is a figure which shows the example of the syntax of the component descriptor prescribed | regulated by DVB. 送信装置の構成例を示す図である。It is a figure which shows the structural example of a transmitter. 受信装置の構成例を示す図である。It is a figure which shows the structural example of a receiver. 送信処理を説明するフローチャートである。It is a flowchart explaining a transmission process. 受信処理を説明するフローチャートである。It is a flowchart explaining a reception process. コンピュータの構成例を示す図である。It is a figure which shows the structural example of a computer.
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。 Hereinafter, embodiments of the present technology will be described with reference to the drawings. The description will be made in the following order.
1.システムの構成
2.マルチチャンネルのダイアログ制御技術の概要
3.本技術のダイアログ制御技術の内容
4.各装置の構成
5.各装置で実行される処理の流れ
6.コンピュータの構成
1. 1. System configuration 2. Overview of multi-channel dialog control technology Contents of dialog control technology of this technology4. 4. Configuration of each device 5. Flow of processing executed in each device Computer configuration
<1.システムの構成> <1. System configuration>
 図1は、本技術を適用した伝送システムの一実施の形態の構成を示す図である。なお、システムとは、複数の装置が論理的に集合したものをいう。 FIG. 1 is a diagram illustrating a configuration of an embodiment of a transmission system to which the present technology is applied. The system refers to a logical collection of a plurality of devices.
 図1において、伝送システム1は、送信装置10と受信装置20から構成される。この伝送システム1では、例えば、デジタル放送の規格などの所定の規格に準拠したデータ伝送が行われる。 1, the transmission system 1 includes a transmission device 10 and a reception device 20. In the transmission system 1, for example, data transmission conforming to a predetermined standard such as a digital broadcasting standard is performed.
 送信装置10は、伝送路30を介してコンテンツを送信(伝送)する。例えば、送信装置10は、テレビ番組等のコンテンツを構成するビデオやオーディオ等(のコンポーネント)のストリームとシグナリングを、デジタル放送信号として、伝送路30を介して送信する。 The transmitting device 10 transmits (transmits) the content via the transmission path 30. For example, the transmission apparatus 10 transmits a stream of video and audio (components) constituting a content such as a television program and signaling and a signaling as a digital broadcast signal via the transmission path 30.
 受信装置20は、送信装置10から伝送路30を介して送信(伝送)されてくる、コンテンツを受信して出力する。例えば、受信装置20は、送信装置10から送信されるデジタル放送信号を受信して、コンテンツを構成するビデオやオーディオ等(のコンポーネント)のストリームとシグナリングを取得し、テレビ番組等のコンテンツの映像や音声を再生する。 The receiving device 20 receives and outputs content transmitted (transmitted) from the transmitting device 10 via the transmission path 30. For example, the receiving device 20 receives a digital broadcast signal transmitted from the transmitting device 10, acquires a stream of video and audio (components thereof) and signaling that constitute the content, and obtains a video of content such as a TV program, Play audio.
 なお、図1の伝送システム1では、例えば、ISDB(Integrated Services Digital Broadcasting)やDVB(Digital Video Broadcasting)、ATSC(Advanced Television Systems Committee)等のデジタル放送の規格に準拠したデータ伝送のほか、その他の規格に準拠したデータ伝送が行われる。 In addition, in the transmission system 1 of FIG. 1, for example, data transmission conforming to digital broadcasting standards such as ISDB (Integrated Services Digital Broadcasting), DVB (Digital Video Broadcasting), ATSC (Advanced Television Systems Committee), etc. Data transmission conforming to the standard is performed.
 また、伝送路30としては、デジタル放送の規格に準拠したデータ伝送が行われる場合には、地上波のほか、衛星回線やケーブルテレビジョン網(有線回線)等を利用することができる。また、伝送路30において、デジタル放送の規格以外の他の規格に準拠したデータ伝送が行われる場合には、例えば、インターネットや電話網などの通信回線を利用することができる。 Further, as the transmission line 30, when data transmission conforming to the digital broadcasting standard is performed, a satellite line, a cable television network (wired line), or the like can be used in addition to the ground wave. In addition, when data transmission conforming to a standard other than the digital broadcasting standard is performed on the transmission path 30, for example, a communication line such as the Internet or a telephone network can be used.
<2.マルチチャンネルのダイアログ制御技術の概要> <2. Overview of multi-channel dialog control technology>
 ところで、22.2chなどのマルチチャンネルオーディオにおいては、ダイアログ制御に関する技術が普及しつつある。ダイアログ制御とは、ダイアログの音量レベル(音声レベル)制御、ダイアログの置き換え制御、又はダイアログの定位位置制御などのマルチチャンネルオーディオのダイアログを制御することをいう。なお、以下の説明では、ダイアログの制御に関する情報を、ダイアログ制御情報と称するものとする。 By the way, for multi-channel audio such as 22.2ch, technology related to dialog control is spreading. Dialog control refers to controlling a multi-channel audio dialog such as dialog volume level (voice level) control, dialog replacement control, or dialog localization position control. In the following description, information related to dialog control is referred to as dialog control information.
(22.2chマルチチャンネルオーディオ)
 ここで、マルチチャンネルオーディオの一例として、22.2chのマルチチャンネルオーディオについて説明する。なお、マルチチャンネルオーディオとは、音像の定位や音場の広がり感を再現するために、例えば、22.2chなどの2チャンネル以上のオーディオデータを伝送する音響システムをいう。また、以下の説明では、マルチチャンネルオーディオについて説明するが、本技術は、ステレオのオーディオにも適用することができる。
(22.2ch multi-channel audio)
Here, 22.2ch multi-channel audio will be described as an example of multi-channel audio. Note that multi-channel audio refers to an acoustic system that transmits audio data of two or more channels such as 22.2ch in order to reproduce the localization of a sound image and the sense of spread of a sound field. In the following description, multi-channel audio will be described, but the present technology can also be applied to stereo audio.
 図2は、22.2chのマルチチャンネルオーディオを採用した音響システムにおけるスピーカ配置例を示す図である。なお、図3と図4には、図2のスピーカ配置のレイヤ構成と、チャンネルマップを図示しており、適宜参照しながら、説明するものとする。 FIG. 2 is a diagram showing an example of speaker arrangement in an acoustic system employing 22.2ch multi-channel audio. 3 and 4 show the layer configuration of the speaker arrangement of FIG. 2 and the channel map, which will be described with reference to them as appropriate.
 図2の音響システムにおいて、○印は、各スピーカの位置を表しており、上層(Top layer)、中層(Middle layer)、及び、下層(Bottom layer)の3層に、合計22個のスピーカが配置され、360度の立体音響空間が形成されている。また、下層には、低域増強(LFE:Low Frequency Effect)のために、2チャンネルのサブウーファーが配置されている。なお、図3のA乃至図3のCには、図2の音響システムにおける下層乃至上層における各位置に配置されるスピーカとサブウーファーが、レイヤごとに示されている。 In the acoustic system of FIG. 2, the circles indicate the position of each speaker. There are a total of 22 speakers in three layers, the top layer, the middle layer, and the bottom layer. Arranged to form a 360-degree stereophonic space. In the lower layer, a two-channel subwoofer is arranged for low frequency enhancement (LFE: Low Frequency Frequency). In FIG. 3A to FIG. 3C, the speakers and subwoofers arranged at respective positions in the lower layer to the upper layer in the acoustic system of FIG. 2 are shown for each layer.
 ここで、図2において、中層には、コンテンツの映像の表示領域(TV screen)に対して、前方左チャンネルのスピーカFL、前方右チャンネルのスピーカFR、前方中央チャンネルのスピーカFC、後方左チャンネルのスピーカBL、後方右チャンネルのスピーカBR、前方左中央チャンネルのスピーカFLC、前方右中央チャンネルのスピーカFRC、後方中央チャンネルのスピーカBC、側方左チャンネルのスピーカSiL、及び、側方右チャンネルのスピーカSiRが配置される。すなわち、図2の音響システムにおいて、その中層には、合計10チャンネルのスピーカが配置されている。 In FIG. 2, in the middle layer, the front left channel speaker FL, the front right channel speaker FR, the front center channel speaker FC, and the rear left channel are displayed in the middle layer with respect to the content video display area (TV screen). Speaker BL, rear right channel speaker BR, front left center channel speaker FLC, front right center channel speaker FRC, rear center channel speaker BC, side left channel speaker SiL, and side right channel speaker SiR Is placed. That is, in the acoustic system of FIG. 2, a total of 10 channels of speakers are arranged in the middle layer.
 また、図2において、上層には、コンテンツの映像の表示領域(TV screen)に対して、上方前方左チャンネルのスピーカTpFL、上方前方右チャンネルのスピーカTpFR、上方前方中央チャンネルのスピーカTpFC、上方中央チャンネルのスピーカTpC、上方後方左チャンネルのスピーカTpBL、上方後方右チャンネルのスピーカTpBR、上方側方左チャンネルのスピーカTpSiL、上方側方右チャンネルのスピーカTpSiR、及び、上方後方中央チャンネルのスピーカTpBCが配置される。すなわち、図2の音響システムにおいて、その上層には、合計9チャンネルのスピーカが配置されている。 Also, in FIG. 2, the upper layer has a speaker TpFL for the upper front left channel, a speaker TpFR for the upper front right channel, a speaker TpFC for the upper front center channel, and an upper center for the content video display area (TV screen). A channel speaker TpC, an upper rear left channel speaker TpBL, an upper rear right channel speaker TpBR, an upper side left channel speaker TpSiL, an upper side right channel speaker TpSiR, and an upper rear center channel speaker TpBC are arranged. Is done. That is, in the acoustic system of FIG. 2, a total of nine channels of speakers are arranged in the upper layer.
 また、図2において、下層には、コンテンツの映像の表示領域(TV screen)に対して、下方前方中央チャンネルのスピーカBtFC、下方前方左チャンネルのスピーカBtFL、及び、下方前方右チャンネルのスピーカBtFRが配置される。また、下層には、その前方に、低域増強(LFE)用のサブウーファーLFE1とサブウーファーLFE2が配置される。すなわち、図2の音響システムにおいて、その下層には、3チャンネルのスピーカと、2チャンネルのサブウーファーが配置されている。 Further, in FIG. 2, a lower front center channel speaker BtFC, a lower front left channel speaker BtFL, and a lower front right channel speaker BtFR are displayed in the lower layer with respect to a content video display area (TV screen). Be placed. Further, in the lower layer, a subwoofer LFE1 and a subwoofer LFE2 for low frequency enhancement (LFE) are arranged in front of the lower layer. That is, in the acoustic system of FIG. 2, a 3-channel speaker and a 2-channel subwoofer are arranged in the lower layer.
 なお、図2の音響システムにおいて、22.2chのマルチチャンネルオーディオで用いられる各スピーカのラベルについては、図4のチャンネルマップに記載されている。 In the sound system of FIG. 2, the labels of the speakers used in 22.2ch multi-channel audio are described in the channel map of FIG.
 ここで、図1の伝送システム1において、受信装置20が、図2に示した22.2chのマルチチャンネルオーディオを実現可能な構成を有している場合に、送信装置10から伝送路30を介して、ダイアログ制御情報を受信したとき、受信装置20は、当該ダイアログ制御情報に基づいて、22.2chのマルチチャンネルオーディオのダイアログを制御する。 Here, in the transmission system 1 of FIG. 1, when the receiving device 20 has a configuration capable of realizing the 22.2 ch multi-channel audio shown in FIG. 2, the transmission device 10 via the transmission path 30. When the dialog control information is received, the receiving apparatus 20 controls the 22.2ch multi-channel audio dialog based on the dialog control information.
 具体的には、例えば、受信装置20は、送信装置10から、ダイアログの音量調節の指示を含むダイアログ制御情報を受信した場合、ダイアログ制御情報に基づいて、22.2chの音量レベルの調節を行う。また、受信装置20は、送信装置10から、ダイアログの置き換え指示を含むダイアログ制御情報を受信した場合、ダイアログ制御情報に基づいて、例えば、前方中央チャンネルのスピーカFCと下方前方中央チャンネルのスピーカBtFCに入力されていた日本語のダイアログと、英語又はフランス語のダイアログとを置き換える。 Specifically, for example, when receiving the dialog control information including an instruction for adjusting the volume of the dialog from the transmission apparatus 10, the receiving apparatus 20 adjusts the 22.2ch volume level based on the dialog control information. Also, when receiving the dialog control information including the dialog replacement instruction from the transmitting device 10, the receiving device 20 receives, for example, the front center channel speaker FC and the lower front center channel speaker BtFC based on the dialog control information. Replace the input Japanese dialog with the English or French dialog.
 このように、図1の伝送システム1においては、受信装置20が、図2に示した22.2chのマルチチャンネルオーディオを実現可能な構成を有している場合に、送信装置10から伝送路30を介してダイアログ制御情報が送信されてきたとき、受信装置20は、当該ダイアログ制御情報に基づいて、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御などのマルチチャンネルオーディオのダイアログを制御する。 As described above, in the transmission system 1 of FIG. 1, when the receiving device 20 has a configuration capable of realizing the 22.2 ch multi-channel audio shown in FIG. When the dialog control information is transmitted via the receiving device 20, the receiving device 20 performs a multi-channel audio dialog such as dialog volume level control, dialog replacement control, or dialog localization position control based on the dialog control information. Control.
(MPEG-H 3D Audio)
 また、複数のスピーカ対応を可能にする、3Dオーディオのための音声圧縮を規定しているMPEG-H 3D Audioにおいても、ダイアログ制御が使用可能とされている。MPEG-H 3D Audioでは、複数のスピーカを配置して音像の定位を制御する技術として、VBAP(Vector Base Amplitude Pannning)が使用されている。なお、VBAPの詳細な内容については、「Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning" , Journal of AES, vol.45, no.6, pp.456-466, 1997」に記載されている。
(MPEG-H 3D Audio)
Dialog control can also be used in MPEG-H 3D Audio, which defines audio compression for 3D audio, which allows multiple speakers. In MPEG-H 3D Audio, VBAP (Vector Base Amplitude Pannning) is used as a technique for controlling the localization of a sound image by arranging a plurality of speakers. The details of VBAP are described in “Ville Pulkki,“ Virtual Sound Source Positioning Using Vector Base Amplitude Panning ”, Journal of AES, vol.45, no.6, pp.456-466, 1997”. Yes.
 図5は、3次元VBAPのスピーカ配置例を示す図である。 FIG. 5 is a diagram showing an example of speaker arrangement of a three-dimensional VBAP.
 図5においては、5つのスピーカSP1乃至SP5が配置されており、これらのスピーカSP1乃至SP5から各チャンネルの音声が出力される。ここで、スピーカSP1乃至SP5は、ユーザU11の頭部の位置にある原点Oを中心とする球面上に配置されている。さらに、原点Oを始点として、各スピーカSP1乃至SP5の位置の方向を向いている3次元のベクトルを、ベクトルI1乃至I5としている。 In FIG. 5, five speakers SP1 to SP5 are arranged, and the sound of each channel is output from these speakers SP1 to SP5. Here, the speakers SP1 to SP5 are arranged on a spherical surface centering on the origin O at the position of the head of the user U11. Further, the three-dimensional vectors starting from the origin O and pointing in the direction of the positions of the speakers SP1 to SP5 are set as vectors I 1 to I 5 .
 また、原点Oを中心とする球面上の領域のうち、スピーカSP1、スピーカSP4、及び、スピーカSP5により囲まれる三角形の領域を領域TR21とする。同様に、原点Oを中心とする球面上の領域のうち、スピーカSP3、スピーカSP4、及び、スピーカSP5により囲まれる三角形の領域を領域TR22とし、スピーカSP2、スピーカSP3、及び、スピーカSP5により囲まれる三角形の領域を領域TR23とする。 Further, among the regions on the spherical surface centered on the origin O, a triangular region surrounded by the speaker SP1, the speaker SP4, and the speaker SP5 is defined as a region TR21. Similarly, a triangular region surrounded by the speaker SP3, the speaker SP4, and the speaker SP5 among the region on the spherical surface centered on the origin O is defined as a region TR22, and is surrounded by the speaker SP2, the speaker SP3, and the speaker SP5. A triangular region is referred to as a region TR23.
 3次元VBAPでは、これらの領域TR21乃至TR23が、1つのメッシュ(3次元メッシュ)とされる。いま、音像を定位させたい位置を示す3次元のベクトルを、ベクトルPとすると、図5の例では、ベクトルPは、領域TR21上の位置を示している。 In the three-dimensional VBAP, these regions TR21 to TR23 are one mesh (three-dimensional mesh). Now, assuming that a three-dimensional vector indicating a position where the sound image is to be localized is a vector P, in the example of FIG. 5, the vector P indicates a position on the region TR21.
 この例では、スピーカSP1、スピーカSP4、及び、スピーカSP5の位置の方向を向く3次元のベクトルは、ベクトルI1、ベクトルI4、及び、ベクトルI5となるので、ベクトルPは、下記の式(1)に示すように、ベクトルI1、ベクトルI4、及び、ベクトルI5の線形和によって表すことができる。 In this example, the three-dimensional vectors facing the positions of the speaker SP1, the speaker SP4, and the speaker SP5 are the vector I 1 , the vector I 4 , and the vector I 5. As shown in (1), it can be expressed by a linear sum of a vector I 1 , a vector I 4 , and a vector I 5 .
 P=g11+g44+g55   ・・・(1) P = g 1 I 1 + g 4 I 4 + g 5 I 5 (1)
 そして、式(1)において、ベクトルI1、ベクトルI4、及び、ベクトルI5に乗算されている係数g1、係数g4、係数g5を求めて、これらの係数を、スピーカSP1、スピーカSP4、及び、スピーカSP5のそれぞれから出力される音声のゲインとすれば、所望の音像位置に音像を定位させることができる。 Then, in the formula (1), the vector I 1, vector I 4 and, the coefficients g 1, which is multiplied by the vector I 5, the coefficient g 4, seeking coefficient g 5, these coefficients, the speaker SP1, a speaker If the gain of the sound output from each of SP4 and speaker SP5 is used, the sound image can be localized at a desired sound image position.
 なお、この場合、領域TR21を構成しない、スピーカSP2、及び、スピーカSP3から出力される音声のゲインは0とされる。すなわち、スピーカSP2、及び、スピーカSP3からは、音声は出力されない。 In this case, the gain of the sound output from the speaker SP2 and the speaker SP3 that does not constitute the region TR21 is zero. That is, no sound is output from the speaker SP2 and the speaker SP3.
 このように、図5においては、3次元空間上に5つのスピーカSP1乃至SP5を配置すれば、3次元VBAPによって、領域TR21乃至TR23からなる領域上の任意の位置(音像位置)に、音像を定位させることが可能となる。 As described above, in FIG. 5, if five speakers SP1 to SP5 are arranged in a three-dimensional space, a sound image can be placed at an arbitrary position (sound image position) on a region composed of regions TR21 to TR23 by three-dimensional VBAP. It is possible to localize.
 なお、図6に示すように、3次元VBAPにおいて、音像位置VSPは、Azimuth(φ),Elevation(θ),Radius(r)による極座標系で表される。ただし、この極座標表記と直交座標表記との関係は、s(φ,θ,r) = p(x,y,z)となる。また、図中のx軸方向の矢印で表された「正面」とは、例えば、ユーザU11の頭部に対するコンテンツの映像の表示領域(例えば、図2の「TV screen」に相当)の方向を指している。 As shown in FIG. 6, in the three-dimensional VBAP, the sound image position VSP is represented by a polar coordinate system based on Azimuth (φ), Elevation (θ), and Radius (r). However, the relationship between the polar coordinate notation and the orthogonal coordinate notation is s (φ, θ, r) = p (x, y, z). In addition, the “front” represented by the arrow in the x-axis direction in the figure indicates, for example, the direction of the content video display area (for example, “TV screen” in FIG. 2) with respect to the head of the user U11. pointing.
(デコーダの構成例)
 図7は、MPEG-H 3D Audioに対応したオーディオデコーダ50の構成例を示す図である。
(Decoder configuration example)
FIG. 7 is a diagram illustrating a configuration example of the audio decoder 50 corresponding to MPEG-H 3D Audio.
 図7において、MPEG-H 3D Audioに対応したオーディオデコーダ50は、USAC-3Dデコーダ51、フォーマットコンバータ52、メタデータデコーダ53、オブジェクトレンダラ54、SAOC-3Dデコーダ55、HOAレンダラ56、ミキサ57、及び、バイノーラルレンダラ58から構成される。 In FIG. 7, an audio decoder 50 corresponding to MPEG-H 3D Audio includes a USAC-3D decoder 51, a format converter 52, a metadata decoder 53, an object renderer 54, a SAOC-3D decoder 55, a HOA renderer 56, a mixer 57, and , A binaural renderer 58.
 USAC-3Dデコーダ51には、MPEG-Hビットストリームが入力される。USAC-3Dデコーダ51は、MPEG-Hビットストリームを、USAC(Unified Speech and Audio Coding)に従って復号する。 The MPEG-H bit stream is input to the USAC-3D decoder 51. The USAC-3D decoder 51 decodes the MPEG-H bitstream in accordance with USAC (Unified Speech and Audio Audio Coding).
 USAC-3Dデコーダ51は、復号により得られる、チャンネル(Channels)、メタデータ(Compressed object metadata)、オブジェクト(Object)、SAOCトランスポートチャンネル(SAOC Transport Channels)、及び、HOA係数(HOA(Higher order ambisonics) Coefficient)を示す情報を、フォーマットコンバータ52、メタデータデコーダ53、オブジェクトレンダラ54、SAOC-3Dデコーダ55、及び、HOAレンダラ56にそれぞれ供給する。 The USAC-3D decoder 51 obtains channels (Channels), metadata (Compressed object metadata), objects (Object), SAOC transport channels (SAOC Transport Channels), and HOA coefficients (HOA (Higher order ambisonics) obtained by decoding. ) (Coefficient) is supplied to the format converter 52, the metadata decoder 53, the object renderer 54, the SAOC-3D decoder 55, and the HOA renderer 56, respectively.
 フォーマットコンバータ52は、USAC-3Dデコーダ51から供給される、各チャンネルのチャンネル情報に対してフォーマット変換などの処理を施し、その処理結果を、ミキサ57に供給する。 The format converter 52 performs processing such as format conversion on the channel information of each channel supplied from the USAC-3D decoder 51, and supplies the processing result to the mixer 57.
 メタデータデコーダ53は、USAC-3Dデコーダ51から供給される圧縮メタデータを復号し、それにより得られるメタデータを、オブジェクトレンダラ54とSAOC-3Dデコーダ55にそれぞれ供給する。 The metadata decoder 53 decodes the compressed metadata supplied from the USAC-3D decoder 51 and supplies the metadata obtained thereby to the object renderer 54 and the SAOC-3D decoder 55, respectively.
 オブジェクトレンダラ54には、USAC-3Dデコーダ51からの各オブジェクト音源に関するオブジェクト情報(例えば、オブジェクト音源の極座標情報)と、メタデータデコーダ53からのメタデータ(例えば、各スピーカSPの位置情報を含むメタデータ)が供給される。 The object renderer 54 includes object information (for example, polar coordinate information of the object sound source) regarding each object sound source from the USAC-3D decoder 51 and metadata (for example, meta information including position information of each speaker SP) from the metadata decoder 53. Data).
 オブジェクトレンダラ54は、オブジェクト情報及びメタデータなどに基づいて、対象のオブジェクト音源の近傍の3つのスピーカSP(例えば、図5のスピーカSP1、SP4、SP5)により囲まれる三角形の領域TR(例えば、図5の領域TR21)内の、対象のオブジェクト音源の位置(例えば、図5のベクトルPに対応する音像位置VSP)に、音像が定位されるように処理を行う。オブジェクトレンダラ54は、その処理結果を、ミキサ57に供給する。 The object renderer 54 is based on the object information, metadata, and the like, and has a triangular area TR (for example, FIG. 5) surrounded by three speakers SP (for example, the speakers SP1, SP4, and SP5 in FIG. 5) in the vicinity of the target object sound source. 5 region TR21), the processing is performed so that the sound image is localized at the position of the target object sound source (for example, the sound image position VSP corresponding to the vector P in FIG. 5). The object renderer 54 supplies the processing result to the mixer 57.
 SAOC-3Dデコーダ55は、USAC-3Dデコーダ51から供給されるSAOCトランスポートチャンネル情報、及び、メタデータデコーダ53から供給されるメタデータ(スピーカSPの位置情報を含むメタデータ)などに基づいて、オブジェクト音源に関する処理を行い、その処理結果を、ミキサ57に供給する。 The SAOC-3D decoder 55 is based on SAOC transport channel information supplied from the USAC-3D decoder 51 and metadata (metadata including position information of the speaker SP) supplied from the metadata decoder 53, etc. Processing related to the object sound source is performed, and the processing result is supplied to the mixer 57.
 HOAレンダラ56は、USAC-3Dデコーダ51から供給されるHOA係数などに基づいて、球面上に配置されるマイクロフォンに関する処理を行い、その処理結果を、ミキサ57に供給する。 The HOA renderer 56 performs processing related to the microphone arranged on the spherical surface based on the HOA coefficient supplied from the USAC-3D decoder 51, and supplies the processing result to the mixer 57.
 ミキサ57は、フォーマットコンバータ52、オブジェクトレンダラ54、SAOC-3Dデコーダ55、及び、HOAレンダラ56からの処理結果を、ミキシングして、各スピーカSP(例えば、図5のスピーカSP1乃至SP5)に出力する。なお、ヘッドホンに出力する場合には、ミキサ57からの出力を、バイノーラルレンダラ58で処理してから出力する。 The mixer 57 mixes the processing results from the format converter 52, the object renderer 54, the SAOC-3D decoder 55, and the HOA renderer 56, and outputs the result to each speaker SP (for example, the speakers SP1 to SP5 in FIG. 5). . When outputting to headphones, the output from the mixer 57 is processed by the binaural renderer 58 before being output.
 MPEG-H 3D Audioに対応したオーディオデコーダ50は、以上のように構成される。 The audio decoder 50 compatible with MPEG-H 3D Audio is configured as described above.
 ここで、図1の伝送システム1において、受信装置20が、図5に示した3次元VBAPを実現可能な構成を有している場合に、送信装置10から伝送路30を介して、ダイアログ制御情報を受信したとき、受信装置20は、当該ダイアログ制御情報に基づいて、例えば、領域TR21乃至TR23からなる領域上の位置に定位される音像のダイアログを制御する。 Here, in the transmission system 1 of FIG. 1, when the receiving device 20 has a configuration capable of realizing the three-dimensional VBAP shown in FIG. 5, dialog control is performed from the transmitting device 10 via the transmission path 30. When receiving the information, the receiving device 20 controls the dialog of the sound image that is localized at a position on the region composed of the regions TR21 to TR23, for example, based on the dialog control information.
 具体的には、例えば、受信装置20は、送信装置10から、ダイアログの音量調節の指示を含むダイアログ制御情報を受信した場合、ダイアログ制御情報に基づいて、領域TR21乃至TR23からなる領域上の位置に定位される音像に対する音量レベルの調節を行う。また、受信装置20は、送信装置10から、ダイアログの置き換え指示を含むダイアログ制御情報を受信した場合、ダイアログ制御情報に基づいて、例えば、オブジェクト音源Ob1とオブジェクト音源Ob2に入力されていた日本語のダイアログと、英語又はフランス語のダイアログとを置き換える。 Specifically, for example, when receiving the dialog control information including the instruction for adjusting the volume of the dialog from the transmitting device 10, the receiving device 20 has a position on the region composed of the regions TR21 to TR23 based on the dialog control information. Adjust the volume level for the sound image localized in In addition, when receiving the dialog control information including the dialog replacement instruction from the transmission device 10, the receiving device 20 receives, for example, the Japanese text input to the object sound source Ob1 and the object sound source Ob2 based on the dialog control information. Replace dialogs with English or French dialogs.
 このように、図1の伝送システム1においては、受信装置20が、図5に示した3次元VBAPを実現可能な構成を有している場合に、送信装置10から伝送路30を介してダイアログ制御情報が送信されてきたとき、受信装置20は、当該ダイアログ制御情報に基づいて、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御などのマルチチャンネルオーディオのダイアログを制御する。 As described above, in the transmission system 1 of FIG. 1, when the reception device 20 has a configuration capable of realizing the three-dimensional VBAP shown in FIG. 5, the dialog from the transmission device 10 via the transmission path 30 is performed. When the control information is transmitted, the receiving device 20 controls a dialog of multi-channel audio such as dialog volume level control, dialog replacement control, or dialog localization position control based on the dialog control information.
<3.本技術のダイアログ制御技術の内容> <3. Contents of dialog control technology of this technology>
 上述したように、受信装置20では、送信装置10からのダイアログ制御情報に基づいて、マルチチャンネルオーディオのダイアログの制御が行われるが、例えば、ARIB(Association of Radio Industries and Businesses:一般社団法人 電波産業会)では、ダイアログ制御情報を、オーディオストリームで伝送することが規格化されている。 As described above, the receiving device 20 controls the dialog of the multi-channel audio based on the dialog control information from the transmitting device 10. For example, ARIB (Association of Radio Industries, and Businesses: General Incorporated Association Meeting) has standardized that dialog control information is transmitted in an audio stream.
(オーディオストリームのシンタックス)
 図8は、ダイアログ制御情報を伝送するオーディオストリームのシンタックスを示す図である。このシンタックスは、MPEG4_ancillary_data()の末尾に追加するビットストリームのシンタックスとなる。
(Audio stream syntax)
FIG. 8 is a diagram illustrating the syntax of an audio stream for transmitting dialog control information. This syntax is the syntax of the bitstream added to the end of MPEG4_ancillary_data ().
 ext_downmixing_level_status2には、MPEG-4 Audioで設定されるパラメータであるchannelConfigurationとして、"13"以外の値が設定された音声モードの場合には、"0"が設定され、ダウンミックス係数(dmix_c_idx,dmix_d_idx,dmix_e_idx,dmix_f_idx,dmix_g_idx,dmix_l_idx)は送出されないことになる。 ext_downmixing_level_status2 is set to “0” in the case of an audio mode in which a value other than “13” is set as channelConfiguration, which is a parameter set in MPEG-4 Audio, and downmix coefficients (dmix_c_idx, dmix_d_idx, dmix_e_idx, dmix_f_idx, dmix_g_idx, dmix_l_idx) will not be transmitted.
 ext_dialogue_statusは、ダイアログ制御情報が存在するかどうかを示すフラグである。ここでは、ext_dialogue_statusとして"1"が設定された場合に、ダイアログ制御情報が存在することになる。 Ext_dialogue_status is a flag indicating whether or not dialog control information exists. Here, when “1” is set as ext_dialogue_status, dialog control information exists.
 ここで、ext_dialogue_statusに、"1"が設定された場合には、以下に示すダイアログ制御に関する情報が配置される。 Here, when "1" is set in ext_dialogue_status, the following information related to dialog control is arranged.
 num_dialogue_chansには、ダイアログ専用のチャンネルの数が設定される。なお、num_dialogue_chansのビット数は、メインオーディオのチャンネル数に応じて定められる。 Num_dialogue_chans is set to the number of channels dedicated to the dialog. The number of bits of num_dialogue_chans is determined according to the number of channels of main audio.
 3ビットのsn_dialogue_plus_indexには、受信装置20側におけるゲイン制御量の許容値の上限値が設定される。3ビットのsn_dialogue_minus_indexには、受信装置20側におけるゲイン制御量の許容値の下限値が設定される。 In the 3-bit sn_dialogue_plus_index, the upper limit value of the allowable value of the gain control amount on the receiving device 20 side is set. In the 3-bit sn_dialogue_minus_index, a lower limit value of an allowable value of the gain control amount on the receiving device 20 side is set.
 24ビットのdialogue_main_lang_codeには、メインダイアログの言語コードが設定される。この言語コート値は、例えば、ISO 639-2に準拠し、文字にはISO/IEC 8859-1で定義された値を用いることができる。 The language code of the main dialog is set in 24-bit dialog_main_lang_code. This language code value conforms to, for example, ISO 639-2, and a value defined in ISO / IEC 8859-1 can be used for characters.
 8ビットのdialogue_main_lang_comment_bytesには、メインダイアログの内容を示すための文字列情報のバイト数が設定される。このdialogue_main_lang_comment_bytesが示すバイト数に応じたループ内に、8ビットのdialogue_main_lang_comment_dataが配置される。dialogue_main_lang_comment_dataには、メインダイアログの内容を示すための文字列情報のバイトデータが設定される。 In 8-bit dialog_main_lang_comment_bytes, the number of bytes of character string information for indicating the contents of the main dialog is set. 8-bit dialog_main_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_main_lang_comment_bytes. In the dialogue_main_lang_comment_data, byte data of character string information for indicating the contents of the main dialog is set.
 また、num_dialogue_chansが示すダイアログ専用のチャンネルの数に応じたループ内に、dialogue_src_indexと、4ビットのdialogue_gain_indexが配置される。dialogue_src_indexには、ダイアログ専用のチャンネルのインデックスが設定される。なお、dialogue_src_index のビット数は、メインオーディオのチャンネル数に応じて定められる。dialogue_gain_indexには、追加ダイアログの利得補正値のインデックスが設定される。 Also, dialog_src_index and 4-bit dialog_gain_index are arranged in a loop according to the number of channels dedicated to the dialog indicated by num_dialogue_chans. In dialogue_src_index, the index of the channel dedicated to the dialog is set. The number of bits of dialog_src_index_ is determined according to the number of channels of main audio. In dialogue_gain_index, the gain correction value index of the additional dialog is set.
 4ビットのnum_additional_lang_chansには、追加ダイアログの数が設定される。このnum_additional_lang_chansが示す追加ダイアログの数に応じたループ内には、24ビットのdialogue_additional_lang_codeと、8ビットのdialogue_additional_lang_comment_bytesが配置される。dialogue_additional_lang_codeには、追加ダイアログの言語コードが設定される。この言語コート値は、例えば、ISO 639-2に準拠し、文字にはISO/IEC 8859-1で定義された値を用いることができる。 ∙ The number of additional dialogs is set in 4-bit num_additional_lang_chans. A 24-bit dialog_additional_lang_code and an 8-bit dialog_additional_lang_comment_bytes are arranged in a loop corresponding to the number of additional dialogs indicated by the num_additional_lang_chans. In dialogue_additional_lang_code, the language code of the additional dialog is set. This language code value conforms to, for example, ISO 639-2, and a value defined in ISO / IEC 8859-1 can be used for characters.
 dialogue_additional_lang_comment_bytesには、追加ダイアログの内容を示すための文字列情報のバイト数が設定される。このdialogue_additional_lang_comment_bytesに応じたループ内に、8ビットのdialogue_additional_lang_comment_dataが配置される。dialogue_additional_lang_comment_dataには、追加ダイアログの内容を示すための文字列情報のバイトデータが設定される。 “Dialogue_additional_lang_comment_bytes” is set with the number of bytes of the character string information for indicating the contents of the add dialog. 8-bit dialog_additional_lang_comment_data is arranged in a loop corresponding to the dialog_additional_lang_comment_bytes. In the dialogue_additional_lang_comment_data, byte data of character string information for indicating the contents of the add dialog is set.
 byte_alignment()は、データ長をバイト単位(8ビットの倍数)に調整するための関数であって、その起点は、ext_dialogue_statusからとされる。 Byte_alignment () is a function for adjusting the data length to a byte unit (multiple of 8 bits), and its starting point is taken from ext_dialogue_status.
 なお、図8に示したMPEG4_ancillary_data()の末尾に追加されるビットストリームのシンタックスの詳細な内容については、「ARIB STD-B32 3.2版 一般社団法人 電波産業会」に記載されている。 The detailed content of the syntax of the bitstream added to the end of MPEG4_ancillary_data () shown in FIG. 8 is described in “ARIB STD-B32 3.2 edition General Incorporated Association Radio Industry Association”.
 ここで、図8に示したような、オーディオストリームでダイアログ制御情報を伝送する場合には、受信装置20で、ダイアログ制御情報を扱いにくくなる可能性がある。 Here, when dialog control information is transmitted with an audio stream as shown in FIG. 8, there is a possibility that the reception device 20 may have difficulty handling the dialog control information.
 例えば、受信装置20が、0~100の範囲の間で音量調節を可能な場合に、ダイアログ制御情報によって、30~70の範囲内でのダイアログの音量調節の指示がされたとき、30~70の範囲内でしか音量調節ができないため、仮に、ユーザが、0まで音量を下げたくても、30までしか音量を下げることができない。このような場合には、例えば、0~100の範囲の間で音量調節が可能ではあるが、現在は、30~70の範囲に制限されている旨のユーザインターフェースを提示して、ユーザに音量が下げられない理由を通知するのが、一般的な処理の流れである。 For example, when the receiving apparatus 20 can adjust the volume within the range of 0 to 100, and the dialog control information instructs the volume adjustment of the dialog within the range of 30 to 70, 30 to 70 Therefore, even if the user wants to reduce the volume to 0, the volume can only be reduced to 30. In such a case, for example, the volume can be adjusted in the range of 0 to 100, but presenting a user interface indicating that the volume is currently limited to the range of 30 to 70, the volume is shown to the user. It is a general flow of processing to notify the reason why cannot be lowered.
 しかしながら、現状のARIBの方式では、オーディオストリームでダイアログ制御情報を伝送しているため、シグナリング(記述子)等を処理するレイヤであるシステム層では、ダイアログ制御情報が伝送されておらず、例えば、API(Application Programming Interface)等を利用して、システム層に、オーディオストリームから取得されるダイアログ制御情報を渡す必要がある。これにより、システム層では、オーディオストリームから得られるダイアログ制御情報に基づいて、例えば、30~70の範囲に音量調節が制限されている旨のユーザインターフェースを提示することはできるが、APIを利用した処理を行う必要があるなど、処理に時間がかかってしまうことが想定される。 However, in the current ARIB method, dialog control information is transmitted in an audio stream, so in the system layer that is a layer that processes signaling (descriptor) and the like, dialog control information is not transmitted. It is necessary to pass dialog control information acquired from the audio stream to the system layer using API (Application Programming Interface) or the like. As a result, the system layer can present a user interface indicating that volume adjustment is limited to a range of 30 to 70, for example, based on the dialog control information obtained from the audio stream, but the API is used. It is assumed that processing will take time, such as the need to perform processing.
 そのため、受信装置20において、ダイアログ制御情報を扱いやすくしたいという要請があった。そこで、本技術では、システム層(の記述子)で、ダイアログ制御情報を伝送することで、受信装置20が、ダイアログ制御情報を扱いやすくすることができるようにする。 Therefore, there has been a request that the receiving apparatus 20 wants to make dialog control information easy to handle. Therefore, in the present technology, the dialog control information is transmitted in the system layer (descriptor) so that the reception apparatus 20 can easily handle the dialog control information.
 ただし、現在策定中のARIB STD-B60 1.3版では、システム層で伝送される、オーディオコンポーネント記述子(MH-Audio Component Descriptor)に、オーディオストリームがダイアログ制御情報を含むかどうかを示す情報を配置することが予定されている。 However, in ARIB 策 定 STD-B60 1.3 currently being developed, information indicating whether the audio stream includes dialog control information is placed in the audio component descriptor (MH-Audio Component Descriptor) transmitted in the system layer. It is planned.
(オーディオコンポーネント記述子の構成)
 図9は、ARIB STD-B60 1.3版に規定される、オーディオコンポーネント記述子(MH-Audio Component Descriptor)のシンタックスの例を示す図である。
(Configuration of audio component descriptor)
FIG. 9 is a diagram illustrating an example of the syntax of an audio component descriptor (MH-Audio Component Descriptor) defined in the ARIB STD-B60 version 1.3.
 16ビットのdescriptor_tagには、各記述子を識別するタグの値が設定される。8ビットのdescriptor_lengthには、記述子長が設定される。descriptor_lengthの次は、4ビットのリザーブド領域(reserved_future_use)とされる。 The 16-bit descriptor_tag contains a tag value that identifies each descriptor. Descriptor length is set in 8-bit descriptor_length. The descriptor_length is followed by a 4-bit reserved area (reserved_future_use).
 4ビットのstream_contentには、ストリームの種別が設定される。8ビットのcomponent_typeには、オーディオコンポーネントに対する符号化に関する情報が設定される。 The stream type is set in 4-bit stream_content. In 8-bit component_type, information related to encoding for an audio component is set.
 16ビットのcomponent_tagには、コンポーネントのストリームを識別するための情報が設定される。8ビットのstream_typeには、オーディオストリームの形式が設定される。 ∙ Information for identifying the component stream is set in the 16-bit component_tag. The audio stream format is set in the 8-bit stream_type.
 8ビットのsimulcast_group_tagには、サイマルキャストを行っているコンポーネントに対して、同一の番号が設定される。1ビットのES_multi_lingual_flagには、エレメンタリストリーム内で、2言語多重が行われている場合には、"1"が設定される。 ∙ In 8-bit simulcast_group_tag, the same number is set for the component performing simulcast. In the 1-bit ES_multi_lingual_flag, “1” is set when bilingual multiplexing is performed in the elementary stream.
 1ビットのmain_component_flagには、対象のオーディオコンポーネントが主音声である場合に、"1"が設定される。2ビットのquality_indicatorには、あらかじめ規定されている音質モードが設定される。 -1 is set in 1-bit main_component_flag when the target audio component is the main audio. A predefined sound quality mode is set in the 2-bit quality_indicator.
 3ビットのsampling_rateには、サンプリング周波数が指定される。sampling_rateの次は、1ビットのリザーブド領域(reserved_future_use)とされる。 ∙ Sampling frequency is specified in 3-bit sampling_rate. The sampling_rate is followed by a 1-bit reserved area (reserved_future_use).
 24ビットのISO_639_language_codeには、オーディオコンポーネントの言語コードが設定される。また、ES_multi_lingual_flagとして、"1"が指定された場合、24ビットのISO_639_language_code_2が配置される。ISO_639_language_code_2には、多言語モードの場合において、第2オーディオコンポーネントの言語コードが設定される。 The language code of the audio component is set in 24-bit ISO_639_language_code. Further, when “1” is designated as ES_multi_lingual_flag, 24-bit ISO_639_language_code_2 is arranged. ISO_639_language_code_2 is set with the language code of the second audio component in the case of the multilingual mode.
 8ビットのtext_charには、コンポーネントのストリームの文字記述を規定する情報が設定される。 ∙ Information specifying the character description of the component stream is set in the 8-bit text_char.
 オーディオコンポーネント記述子は、以上のように構成される。このオーディオコンポーネント記述子において、component_typeの8ビット(b7~b0)のうち、最上位の1ビット(b7)が、ダイアログ制御情報の有無を示すようにすることができる。 The audio component descriptor is configured as described above. In this audio component descriptor, among the 8 bits (b7 to b0) of component_type, the most significant bit (b7) can indicate the presence / absence of dialog control information.
 具体的には、図10に示すように、component_typeの最上位の1ビット(b7)に、"0"が設定されている場合には、オーディオストリームがダイアログ制御情報を含まないことを示し、"1"が設定されている場合には、オーディオストリームがダイアログ制御情報を含むことを示している。 Specifically, as shown in FIG. 10, when “0” is set in the most significant bit (b7) of component_type, it indicates that the audio stream does not include dialog control information. When 1 "is set, it indicates that the audio stream includes dialog control information.
 このように、ARIB STD-B60 1.3版に規定される、オーディオコンポーネント記述子(MH-Audio Component Descriptor)には、オーディオストリームがダイアログ制御情報を含むかどうかを示す情報しか含まれていないため、オーディオストリームがダイアログ情報を伝送しているかどうかが分かっても、結局は、APIなどを利用して、システム層に、ダイアログ制御情報を渡す必要があるため、処理に時間がかかってしまう。 In this way, the audio component descriptor (MH-Audio Component Descriptor) defined in ARIB STD-B60 1.3 contains only information indicating whether or not the audio stream includes dialog control information. Even if it is known whether or not the stream is transmitting dialog information, eventually it is necessary to pass the dialog control information to the system layer using an API or the like, so that processing takes time.
 そのため、受信装置20ではダイアログ制御情報を扱いにくくなる可能性があったため、受信装置20が、ダイアログ制御情報を扱いやすくして、当該ダイアログ制御情報を用いたダイアログ制御を行うための提案が要請されていた。 For this reason, there is a possibility that the dialog control information may be difficult to handle in the receiving device 20, so that a proposal for making the dialog control information easy to handle and performing dialog control using the dialog control information is requested. It was.
 そこで、本技術では、このような要請に対応するためのダイアログ制御情報を含む記述子(以下、本技術記述子ともいう)を定義して、システム層で伝送されるようにすることで、受信装置20が、システム層で伝送されるダイアログ制御情報を用いたダイアログ制御を行うことができるようにするための方式を提案する。 Therefore, in this technology, a descriptor including dialog control information for responding to such a request (hereinafter also referred to as this technology descriptor) is defined and transmitted by the system layer. A method for enabling the apparatus 20 to perform dialog control using dialog control information transmitted in the system layer is proposed.
(本技術記述子の構成例)
 図11は、本技術記述子のシンタックスとセマンティクスの例を示す図である。
(Configuration example of this technical descriptor)
FIG. 11 is a diagram illustrating an example of syntax and semantics of the technology descriptor.
 1ビットのext_dialogue_statusは、ダイアログ制御が行われることを示すフラグである。ここでは、ext_dialogue_statusとして"1"が設定された場合に、ダイアログ制御が行われる。ext_dialogue_statusの次は、7ビットのリザーブド領域(reserved)とされる。 1-bit ext_dialogue_status is a flag indicating that dialog control is performed. Here, dialog control is performed when “1” is set as ext_dialogue_status. Next to ext_dialogue_status is a 7-bit reserved area (reserved).
 ここで、ext_dialogue_statusに、"1"が設定された場合には、以下に示すダイアログ制御に関する情報(ダイアログ制御情報)が配置される。 Here, when "1" is set in ext_dialogue_status, the following information related to dialog control (dialog control information) is arranged.
 5ビットのnum_of_dialog_chansには、ダイアログ制御が行われるオーディオコンポーネントの個数が設定される。num_of_dialog_chansの次は、3ビットのリザーブド領域(reserved)とされる。 The number of audio components for which dialog control is performed is set in 5-bit num_of_dialog_chans. Next to num_of_dialog_chans is a 3-bit reserved area (reserved).
 8ビットのdialogue_plus_indexには、ダイアログ制御が行われる音声レベルの上限が設定される。また、8ビットのdialogue_minus_indexには、ダイアログ制御が行われる音声レベルの下限が設定される。 The upper limit of the audio level at which dialog control is performed is set in the 8-bit dialog_plus_index. Also, the lower limit of the audio level at which dialog control is performed is set in the 8-bit dialog_minus_index.
 24ビットのdialogue_lang_codeには、メインダイアログの国コードが設定される。ここでは、例えば、国際標準化機構(ISO:International Organization for Standardization)により発行される3バイトのコードを用いることができる。 The country code of the main dialog is set in 24-bit dialog_lang_code. Here, for example, a 3-byte code issued by the International Organization for Standardization (ISO) can be used.
 8ビットのdialogue_main_lang_comment_bytesには、メインダイアログの内容の文字情報バイト数が設定される。このdialogue_main_lang_comment_bytesが示すバイト数に応じたループ内に、8ビットのdialogue_main_lang_comment_dataが配置される。dialogue_main_lang_comment_dataには、メインダイアログの内容が設定される。 The 8-bit dialog_main_lang_comment_bytes field contains the number of character information bytes in the main dialog contents. 8-bit dialog_main_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_main_lang_comment_bytes. The content of the main dialog is set in dialogue_main_lang_comment_data.
 また、num_of_dialog_chansが示す(ダイアログ制御が行われる)オーディオコンポーネントの個数に応じたループ内に、5ビットのdialogue_src_indexと、3ビットのリザーブド領域(reserved)と、4ビットのdialogue_gain_indexとが配置される。dialogue_src_indexには、ダイアログ専用チャンネルのインデックスが設定される。dialogue_gain_indexには、追加ダイアログの利得補正のインデックスが設定される。 Also, a 5-bit dialog_src_index, a 3-bit reserved area (reserved), and a 4-bit dialog_gain_index are arranged in a loop corresponding to the number of audio components (dialog control is performed) indicated by num_of_dialog_chans. In dialogue_src_index, the index of the dialog dedicated channel is set. In dialogue_gain_index, the gain correction index of the additional dialog is set.
 4ビットのnum_additional_lang_chansには、追加ダイアログの個数が設定される。num_additional_lang_chansの次は、4ビットのリザーブド領域(reserved)とされる。 ∙ The number of additional dialogs is set in 4-bit num_additional_lang_chans. Next to num_additional_lang_chans is a 4-bit reserved area (reserved).
 num_additional_lang_chansが示す追加ダイアログの個数に応じたループ内には、24ビットのdialogue_additional_lang_codeと、8ビットのdialogue_additional_lang_comment_bytesが配置される。dialogue_additional_lang_codeには、追加ダイアログの国コードが設定される。ここでは、例えば、国際標準化機構(ISO)により発行される3バイトのコードを用いることができる。 In the loop according to the number of additional dialogs indicated by num_additional_lang_chans, 24-bit dialog_additional_lang_code and 8-bit dialog_additional_lang_comment_bytes are arranged. In dialogue_additional_lang_code, the country code of the additional dialog is set. Here, for example, a 3-byte code issued by the International Organization for Standardization (ISO) can be used.
 dialogue_additional_lang_comment_bytesには、追加ダイアログの内容の文字情報バイト数が設定される。このdialogue_additional_lang_comment_bytesが示すバイト数に応じたループ内に、8ビットのdialogue_additional_lang_comment_dataが配置される。dialogue_additional_lang_comment_dataには、追加ダイアログの内容が設定される。 In dialog_additional_lang_comment_bytes, the number of character information bytes of the contents of the add dialog is set. 8-bit dialog_additional_lang_comment_data is arranged in a loop corresponding to the number of bytes indicated by the dialog_additional_lang_comment_bytes. In dialogue_additional_lang_comment_data, the content of the add dialog is set.
 本技術記述子は、以上のように構成される。なお、図11に示した本技術記述子のシンタックスとセマンティクスの構成は一例であって、他の構成を採用するようにしてもよい。 This technical descriptor is configured as described above. The configuration of the syntax and semantics of this technical descriptor shown in FIG. 11 is an example, and other configurations may be adopted.
 以上のように、本技術では、図11の本技術記述子を新たに規定して、システム層で伝送されるようにすることで、受信装置20は、このシステム層で伝送される本技術記述子(に含まれるダイアログ制御情報)に基づいて、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御などのマルチチャンネルオーディオのダイアログの制御を行うことができる。 As described above, in the present technology, by newly defining the present technology descriptor in FIG. 11 and transmitting the system descriptor in the system layer, the reception device 20 can transmit the present technology description in the system layer. Based on the child (dialog control information included therein), dialog control of multi-channel audio such as dialog volume level control, dialog replacement control, or dialog localization position control can be performed.
(既存記述子の拡張による対応)
 また、上述した説明では、本技術記述子(図11)を新たに規定して、システム層で伝送する方式について説明したが、本技術記述子(図11)に記述された内容(ダイアログ制御情報)を、システム層で伝送できるのであれば、他の方式を採用するようにしてもよい。
(Corresponding to expansion of existing descriptors)
In the above description, the technology descriptor (FIG. 11) is newly defined and the transmission method in the system layer has been described. However, the contents (dialog control information) described in the technology descriptor (FIG. 11) are described. ) May be adopted as long as it can be transmitted in the system layer.
 例えば、上述した図9のオーディオコンポーネント記述子(MH-Audio Component Descriptor)に、本技術記述子(図11)に記述された内容(ダイアログ制御情報)を記述することで、システム層で、ダイアログ制御情報を含むオーディオコンポーネント記述子を伝送することができる。これにより、受信装置20は、このシステム層で伝送される本技術記述子(に含まれるダイアログ制御情報)に基づいて、ダイアログの音量レベル制御等のダイアログの制御を行うことができる。 For example, by describing the contents (dialog control information) described in the technical descriptor (FIG. 11) in the audio component descriptor (MH-Audio Component Descriptor) in FIG. 9 described above, dialog control is performed in the system layer. Audio component descriptors containing information can be transmitted. As a result, the receiving device 20 can perform dialog control such as dialog volume level control based on the technical descriptor (contained in the dialog control information) transmitted in the system layer.
 なお、オーディオコンポーネント記述子(図9)においては、例えば、最後に配置されるtext_charのループの次に、本技術記述子(図11)の内容を記述することができる。ただし、text_charのループの次に配置するのは、一例であって、本技術記述子(図11)の内容は、オーディオコンポーネント記述子(図9)における任意の位置に配置することができる。また、本技術記述子(図11)の内容は、オーディオコンポーネント記述子(図9)に限らず、システム層で伝送される、他の記述子に記述するようにしてもよい。 In the audio component descriptor (FIG. 9), for example, the content of the present technology descriptor (FIG. 11) can be described after the text_char loop arranged last. However, what is arranged after the loop of text_char is an example, and the contents of the technical descriptor (FIG. 11) can be arranged at an arbitrary position in the audio component descriptor (FIG. 9). Further, the content of this technical descriptor (FIG. 11) is not limited to the audio component descriptor (FIG. 9), but may be described in another descriptor transmitted in the system layer.
(DVBへの対応)
 また、上述した説明では、ARIBで標準規格化された記述子を前提に説明を行ったが、DVB(Digital Video Broadcasting)等の他のデジタル放送の規格に適用するようにしてもよい。すなわち、DVB等の他のデジタル放送の規格においても、システム層で、ダイアログ制御情報を含む本技術記述子(図11)を伝送することで、受信装置20は、ダイアログ制御情報を用いたダイアログ制御を行うことができる。
(DVB support)
Further, in the above description, the description has been made on the assumption that the descriptor is standardized by ARIB, but it may be applied to other digital broadcasting standards such as DVB (Digital Video Broadcasting). That is, also in other digital broadcasting standards such as DVB, the receiving apparatus 20 controls dialog control using dialog control information by transmitting the present technology descriptor (FIG. 11) including dialog control information in the system layer. It can be performed.
 ここで、DVBにおいては、図12に示すように、DE(Dialogue Enhancement)_control_data記述子に、ダイアログ制御に関する情報が記述されている。なお、図12に示したDE_control_data記述子の詳細な内容については、「ETSI TS 101 154 V2.2.1 (2015-06)」に記載されている。 Here, in DVB, as shown in FIG. 12, information on dialog control is described in a DE (Dialogue Enhancement) _control_data descriptor. The detailed contents of the DE_control_data descriptor shown in FIG. 12 are described in “ETSIETTS 101 154 V2.2.1 (2015-06)”.
 また、図13に示すように、DVBにおいては、コンポーネント記述子(Component Descriptor)が規定されているが、このコンポーネント記述子に、図11の本技術記述子の内容(ダイアログ制御情報)を記述することで、システム層で、ダイアログ制御情報を含むコンポーネント記述子を伝送することができる。これにより、受信装置20は、このシステム層で伝送される本技術記述子(に含まれるダイアログ制御情報)に基づいて、ダイアログの音量レベル制御等のダイアログの制御を行うことができる。 In addition, as shown in FIG. 13, in DVB, a component descriptor (Component Descriptor) is defined, and the contents (dialog control information) of this technical descriptor in FIG. 11 are described in this component descriptor. Thus, the component descriptor including the dialog control information can be transmitted in the system layer. As a result, the receiving device 20 can perform dialog control such as dialog volume level control based on the technical descriptor (contained in the dialog control information) transmitted in the system layer.
 なお、コンポーネント記述子(図13)においては、例えば、最後に配置されるtext_charのループの次に、本技術記述子(図11)の内容を記述することができる。ただし、text_charのループの次に配置するのは、一例であって、本技術記述子(図11)の内容は、コンポーネント記述子(図13)における任意の位置に配置することができる。また、本技術記述子(図11)の内容は、コンポーネント記述子(図13)に限らず、システム層で伝送される、他の記述子に記述するようにしてもよい。 In the component descriptor (FIG. 13), for example, the content of the present technical descriptor (FIG. 11) can be described after the text_char loop arranged last. However, the arrangement following the text_char loop is an example, and the content of the present technology descriptor (FIG. 11) can be arranged at an arbitrary position in the component descriptor (FIG. 13). Further, the content of this technical descriptor (FIG. 11) is not limited to the component descriptor (FIG. 13), and may be described in another descriptor transmitted in the system layer.
 なお、図13に示したコンポーネント記述子(Component Descriptor)の詳細な内容については、「ETSI EN 300 468 V1.14.1 (2014-05)」に記載されている。 The detailed contents of the component descriptor (Component Descriptor) shown in FIG. 13 are described in “ETSI EN 300-468 V 1.14.1” (2014-05).
(他の規格への対応)
 また、上述した説明において、ARIBでは、ダイアログ制御情報がオーディオストリームで伝送されていることが規格化されているとして説明したが、MPEG-HやAC-4(Audio Code number 4)等の他の規格においても、ビットストリームレベルではダイアログ制御情報の伝送が行われているが、システム層で、ダイアログ制御情報を伝送するといったことは行われていない。
(Support for other standards)
In the above description, ARIB has described that the dialog control information is standardized as being transmitted in an audio stream. However, other types such as MPEG-H and AC-4 (Audio Code number 4) have been described. Even in the standard, dialog control information is transmitted at the bitstream level, but dialog control information is not transmitted in the system layer.
 そのため、MPEG-HやAC-4などのデジタル放送の規格以外の他の規格においても、ARIBと同様に、ダイアログ制御情報を扱いやすくすることが望ましい。 Therefore, it is desirable to make it easy to handle dialog control information in standards other than digital broadcasting standards such as MPEG-H and AC-4, as in ARIB.
 そこで、例えば、MPEG-HやAC-4などのデジタル放送の規格以外の他の規格においても、システム層で、本技術記述子(図11)を伝送するか、あるいは、既存記述子を拡張して本技術記述子(図11)の内容を記述することで、システム層(の記述子)で、ダイアログ制御情報が伝送されるようにする。これにより、受信装置20は、このシステム層で伝送される記述子(に含まれるダイアログ制御情報)に基づいて、ダイアログの音量レベル制御等のダイアログの制御を行うことができる。 Therefore, for example, even in standards other than digital broadcasting standards such as MPEG-H and AC-4, the technical descriptor (FIG. 11) is transmitted in the system layer, or the existing descriptor is extended. By describing the contents of this technical descriptor (FIG. 11), dialog control information is transmitted in the system layer (descriptor). Accordingly, the receiving device 20 can perform dialog control such as dialog volume level control based on the descriptor (dialog control information included in the descriptor) transmitted in the system layer.
 なお、MPEG-HやAC-4などのデジタル放送の規格以外の他の規格に適用する場合、図1の伝送システム1の構成は、例えば、次のようになる。すなわち、図1の伝送システム1において、伝送路30は、インターネットや電話網などの通信回線とされ、受信装置20は、サーバとして設置される送信装置10に対して、通信回線を介してコンテンツの配信を要求することで、送信装置10からストリーミング配信されるコンテンツのストリームを受信して、再生することになる。 In addition, when applying to standards other than digital broadcasting standards such as MPEG-H and AC-4, the configuration of the transmission system 1 in FIG. 1 is as follows, for example. That is, in the transmission system 1 of FIG. 1, the transmission path 30 is a communication line such as the Internet or a telephone network, and the receiving device 20 transmits content to the transmitting device 10 installed as a server via the communication line. By requesting the distribution, the stream of the content distributed by streaming from the transmission device 10 is received and reproduced.
(アプリケーションによる対応)
 また、ダイアログ制御情報は、記述子による伝送だけでなく、例えば、HTML5(HyperText Markup Language 5)などのデータ放送のアプリケーションとして伝送するようにしてもよい。この場合、受信装置20は、送信装置10から伝送路30を介して伝送されてくるアプリケーションを、受信して実行することで、ダイアログ制御を行うことができる。なお、アプリケーションは、データ放送に限らず、通信経由でサーバから配信されるようにしてもよい。
(Correspondence by application)
Further, the dialog control information may be transmitted as a data broadcast application such as HTML5 (HyperText Markup Language 5), for example, in addition to transmission by descriptor. In this case, the reception device 20 can perform dialog control by receiving and executing an application transmitted from the transmission device 10 via the transmission path 30. The application is not limited to data broadcasting, but may be distributed from a server via communication.
<4.各装置の構成> <4. Configuration of each device>
 次に、図1の伝送システム1を構成する、送信装置10と受信装置20の詳細な構成を説明する。 Next, detailed configurations of the transmission device 10 and the reception device 20 that constitute the transmission system 1 of FIG. 1 will be described.
(送信装置の構成)
 図14は、図1の送信装置10の構成例を示す図である。
(Configuration of transmitter)
FIG. 14 is a diagram illustrating a configuration example of the transmission device 10 of FIG.
 図14において、送信装置10は、制御部101、コンポーネント取得部102、エンコーダ103、シグナリング生成部104、シグナリング処理部105、パケット生成部106、物理層フレーム生成部107、及び、送信部108から構成される。 14, the transmission apparatus 10 includes a control unit 101, a component acquisition unit 102, an encoder 103, a signaling generation unit 104, a signaling processing unit 105, a packet generation unit 106, a physical layer frame generation unit 107, and a transmission unit 108. Is done.
 制御部101は、送信装置10の各部の動作を制御する。 The control unit 101 controls the operation of each unit of the transmission device 10.
 コンポーネント取得部102は、特定のサービスにより提供されるコンテンツ(例えばテレビ番組)を構成するビデオやオーディオ、字幕等(のコンポーネント)のデータを取得し、エンコーダ103に供給する。エンコーダ103は、コンポーネント取得部102から供給される、ビデオやオーディオ等(のコンポーネント)のデータを、所定の符号化方式に従って符号化して、パケット生成部106に供給する。 The component acquisition unit 102 acquires data such as video, audio, and subtitles (components) constituting content (for example, a television program) provided by a specific service, and supplies the acquired data to the encoder 103. The encoder 103 encodes data (components) such as video and audio supplied from the component acquisition unit 102 according to a predetermined encoding method, and supplies the encoded data to the packet generation unit 106.
 なお、コンテンツとしては、例えば、既に収録されたコンテンツの保管場所から、放送時間帯に応じて該当するコンテンツが取得されたり、あるいはスタジオやロケーション場所からライブのコンテンツが取得されたりする。また、コンテンツは、マルチチャンネルオーディオのコンポーネントが含まれるように構成することができる。 Note that, as the content, for example, the corresponding content is acquired from the storage location of the already recorded content according to the broadcast time zone, or the live content is acquired from the studio or location location. Also, the content can be configured to include multi-channel audio components.
 シグナリング生成部104は、外部のサーバや内蔵するストレージ等から、シグナリングを生成するための素データを取得する。シグナリング生成部104は、シグナリングの素データを用いて、シグナリングを生成し、シグナリング処理部105に供給する。ここでは、シグナリングとして、例えば、ダイアログ制御情報を含む本技術記述子(図11)又は既存記述子(図9)などが生成される。シグナリング処理部105は、シグナリング生成部104から供給されるシグナリングを処理し、パケット生成部106に供給する。 The signaling generation unit 104 acquires raw data for generating signaling from an external server, a built-in storage, or the like. The signaling generation unit 104 generates signaling using the raw data of signaling and supplies it to the signaling processing unit 105. Here, as the signaling, for example, the present technology descriptor (FIG. 11) including the dialog control information or the existing descriptor (FIG. 9) is generated. The signaling processing unit 105 processes the signaling supplied from the signaling generation unit 104 and supplies it to the packet generation unit 106.
 パケット生成部106は、エンコーダ103から供給されるビデオやオーディオ等(のコンポーネント)のデータ、及び、シグナリング処理部105から供給されるシグナリングのデータを処理して、それらのデータが格納されたパケットを生成し、物理層フレーム生成部107に供給する。 The packet generator 106 processes video and audio (components) data supplied from the encoder 103 and signaling data supplied from the signaling processor 105, and converts the packet in which those data are stored. It is generated and supplied to the physical layer frame generation unit 107.
 物理層フレーム生成部107は、パケット生成部106から供給される、複数のパケットをカプセル化などすることで、物理層フレームを生成し、送信部108に供給する。 The physical layer frame generation unit 107 generates a physical layer frame by encapsulating a plurality of packets supplied from the packet generation unit 106 and supplies the physical layer frame to the transmission unit 108.
 送信部108は、物理層フレーム生成部107から供給される物理層フレームに対して、例えばOFDM(Orthogonal Frequency Division Multiplexing)変調などの処理を行い、アンテナ111を介して、デジタル放送信号として送信する。これにより、デジタル放送信号によって、ダイアログ制御情報を含む本技術記述子(図11)又は既存記述子(図9)が、システム層で伝送されることになる。 The transmission unit 108 performs, for example, OFDM (Orthogonal Frequency Division Multiplexing) modulation on the physical layer frame supplied from the physical layer frame generation unit 107, and transmits it as a digital broadcast signal via the antenna 111. Thus, the present technology descriptor (FIG. 11) or the existing descriptor (FIG. 9) including the dialog control information is transmitted in the system layer by the digital broadcast signal.
 なお、図14の送信装置10において、すべての機能ブロックが、物理的に単一の装置内に配置される必要はなく、少なくとも一部の機能ブロックが、他の機能ブロックとは物理的に独立した装置として構成されるようにしてもよい。 In the transmission apparatus 10 of FIG. 14, it is not necessary that all the functional blocks are physically disposed in a single apparatus, and at least some of the functional blocks are physically independent from other functional blocks. It may be configured as a device.
(受信装置の構成)
 図15は、図1の受信装置20の構成例を示す図である。
(Receiver configuration)
FIG. 15 is a diagram illustrating a configuration example of the receiving device 20 of FIG.
 図15において、受信装置20は、制御部201、受信部202、物理層フレーム処理部203、パケット処理部204、シグナリング処理部205、デコーダ206、ビデオ出力部207、及び、オーディオ出力部208から構成される。 In FIG. 15, the reception device 20 includes a control unit 201, a reception unit 202, a physical layer frame processing unit 203, a packet processing unit 204, a signaling processing unit 205, a decoder 206, a video output unit 207, and an audio output unit 208. Is done.
 また、ビデオ出力部207には、表示装置221が接続され、オーディオ出力部208には、スピーカ222-1乃至222-N(Nは1以上の整数)が接続されている。なお、図15において、スピーカ222-1乃至222-Nは、例えば、図2に示したような22.2chのマルチチャンネルオーディオの音響システムにおけるスピーカ配置に対応して配置されている。また、図15では、省略しているが、スピーカ222の他に、サブウーファーが配置されるようにしてもよい。 The video output unit 207 is connected to a display device 221, and the audio output unit 208 is connected to speakers 222-1 to 222-N (N is an integer of 1 or more). In FIG. 15, the speakers 222-1 to 222-N are arranged corresponding to the speaker arrangement in the 22.2ch multi-channel audio sound system as shown in FIG. Although omitted in FIG. 15, a subwoofer may be arranged in addition to the speaker 222.
 制御部201は、受信装置20の各部の動作を制御する。 The control unit 201 controls the operation of each unit of the receiving device 20.
 受信部202は、送信装置10から送信されてくるデジタル放送信号を、アンテナ211を介して受信して、例えばOFDM復調などの処理を行い、それにより得られる物理層フレームを、物理層フレーム処理部203に供給する。 The reception unit 202 receives the digital broadcast signal transmitted from the transmission device 10 via the antenna 211, performs processing such as OFDM demodulation, and converts the physical layer frame obtained thereby into the physical layer frame processing unit. 203.
 物理層フレーム処理部203は、受信部202から供給される物理層フレームに対する処理を行い、パケットを抽出し、パケット処理部204に供給する。 The physical layer frame processing unit 203 performs processing on the physical layer frame supplied from the receiving unit 202, extracts a packet, and supplies the packet to the packet processing unit 204.
 パケット処理部204は、物理層フレーム処理部203から供給されるパケットを処理して、コンポーネントとシグナリングのデータを取得する。パケット処理部204により取得されたデータのうち、シグナリングのデータは、シグナリング処理部205に供給され、コンポーネントのデータは、デコーダ206に供給される。 The packet processing unit 204 processes the packet supplied from the physical layer frame processing unit 203 and acquires component and signaling data. Of the data acquired by the packet processing unit 204, signaling data is supplied to the signaling processing unit 205, and component data is supplied to the decoder 206.
 シグナリング処理部205は、パケット処理部204から供給されるシグナリングのデータを適宜処理して、制御部201に供給する。 The signaling processing unit 205 appropriately processes the signaling data supplied from the packet processing unit 204 and supplies it to the control unit 201.
 制御部201は、シグナリング処理部205から供給されるシグナリングに基づいて、各部の動作を制御する。具体的には、制御部201は、シグナリングの解析結果に基づいて、パケット処理部204で行われるパケットのフィルタリングを制御し、ビデオやオーディオ等(のコンポーネント)のデータがデコーダ206に供給されるようにする。 The control unit 201 controls the operation of each unit based on the signaling supplied from the signaling processing unit 205. Specifically, the control unit 201 controls packet filtering performed by the packet processing unit 204 based on the analysis result of the signaling, so that data such as video and audio (components thereof) is supplied to the decoder 206. To.
 デコーダ206は、パケット処理部204から供給される、ビデオやオーディオ等(のコンポーネント)のデータに対して、所定の復号方式に従って復号して、その結果得られるビデオデータをビデオ出力部207に供給し、オーディオデータをオーディオ出力部208に供給する。 The decoder 206 decodes (components) data such as video and audio supplied from the packet processing unit 204 according to a predetermined decoding method, and supplies the resulting video data to the video output unit 207. The audio data is supplied to the audio output unit 208.
 ビデオ出力部207は、制御部201からの制御に従い、デコーダ206から供給されるビデオデータに対応する映像を、表示装置221に表示させる。また、オーディオ出力部208は、制御部201からの制御に従い、デコーダ206から供給されるオーディオデータに対応する音声を、スピーカ222-1乃至222-Nから出力させる。これにより、受信装置20においては、例えば、ユーザの選局操作に応じたコンテンツ(例えばテレビ番組)の映像と音声が出力される。 The video output unit 207 causes the display device 221 to display video corresponding to the video data supplied from the decoder 206 in accordance with control from the control unit 201. In addition, the audio output unit 208 causes the speakers 222-1 to 222-N to output audio corresponding to the audio data supplied from the decoder 206 in accordance with control from the control unit 201. Thereby, in the receiving device 20, for example, video and audio of content (for example, a television program) corresponding to the user's channel selection operation are output.
 また、制御部201は、システム層で伝送される、本技術記述子(図11)又は既存記述子(図9)に含まれるダイアログ制御情報に基づいて、オーディオ出力部208を制御することで、スピーカ222-1乃至222-Nにより実現されるマルチチャンネルオーディオ(例えば、図2に示した22.2chのマルチチャンネルオーディオ)のダイアログを制御する。 Further, the control unit 201 controls the audio output unit 208 based on the dialog control information included in the technical descriptor (FIG. 11) or the existing descriptor (FIG. 9) transmitted in the system layer. It controls a dialog of multi-channel audio (for example, 22.2ch multi-channel audio shown in FIG. 2) realized by the speakers 222-1 to 222-N.
 なお、図15において、受信装置20は、例えば、テレビ受像機や録画機、セットトップボックス(STB:Set Top Box)等の固定受信機のほか、スマートフォンやタブレット端末等のモバイル受信機、車載テレビなどの自動車に搭載される機器とすることができる。 In FIG. 15, the receiving device 20 includes, for example, a fixed receiver such as a television receiver, a recorder, and a set top box (STB), a mobile receiver such as a smartphone and a tablet terminal, and an in-vehicle television. It can be set as the apparatus mounted in motor vehicles, such as.
<5.各装置で実行される処理の流れ> <5. Flow of processing executed by each device>
 次に、図16乃至図17のフローチャートを参照して、図1の伝送システム1を構成する各装置で実行される処理の流れを説明する。 Next, with reference to the flowcharts of FIGS. 16 to 17, the flow of processing executed by each device constituting the transmission system 1 of FIG. 1 will be described.
(送信処理)
 まず、図16のフローチャートを参照して、図1の送信装置10により実行される送信処理の流れを説明する。
(Transmission process)
First, the flow of transmission processing executed by the transmission device 10 of FIG. 1 will be described with reference to the flowchart of FIG.
 ステップS101においては、コンポーネント・シグナリング取得処理が行われる。 In step S101, component signaling acquisition processing is performed.
 このコンポーネント・シグナリング取得処理では、コンポーネント取得部102によりビデオやオーディオ(マルチチャンネルオーディオ)等のコンポーネントが取得され、エンコーダ103によりビデオやオーディオ等のコンポーネントのデータが符号化される。 In this component signaling acquisition process, components such as video and audio (multi-channel audio) are acquired by the component acquisition unit 102, and data of components such as video and audio are encoded by the encoder 103.
 また、コンポーネント・シグナリング取得処理では、シグナリング生成部104によりシグナリングが生成され、シグナリング処理部105によりシグナリングが処理される。 In the component / signaling acquisition process, signaling is generated by the signaling generation unit 104 and the signaling is processed by the signaling processing unit 105.
 具体的には、トランスポート・プロトコルとして、例えば、MMT(MPEG Media Transport)方式を採用する場合、MPT(MMT Package Table)やMH-EIT(Event Information Table)などのテーブルに配置される記述子に、ダイアログ制御情報(図11の本技術記述子の内容)が記述される。このダイアログ制御情報を記述する記述子としては、例えば、新規に本技術記述子(図11)を規定してもよいし、あるいは、オーディオコンポーネント記述子(図9)などの既存の記述子を拡張してその拡張領域にダイアログ制御情報を記述してもよい。 Specifically, for example, when the MMT (MPEG Media Transport) method is used as a transport protocol, descriptors placed in tables such as MPT (MMT Package Table) and MH-EIT (Event Information Table) are used. Dialog control information (the contents of this technical descriptor in FIG. 11) is described. For example, this technical descriptor (FIG. 11) may be newly defined as a descriptor for describing the dialog control information, or an existing descriptor such as an audio component descriptor (FIG. 9) is extended. Then, dialog control information may be described in the extended area.
 ステップS102においては、パケット・フレーム生成処理が行われる。 In step S102, packet / frame generation processing is performed.
 このパケット・フレーム生成処理では、パケット生成部106によりパケットが生成され、物理層フレーム生成部107により物理層フレームが生成される。 In this packet / frame generation process, a packet is generated by the packet generation unit 106, and a physical layer frame is generated by the physical layer frame generation unit 107.
 ステップS103においては、デジタル放送信号送信処理が行われる。 In step S103, digital broadcast signal transmission processing is performed.
 このデジタル放送信号送信処理では、送信部108により、物理層フレームに対する処理が行われ、アンテナ111を介してデジタル放送信号として送信される。これにより、デジタル放送信号によって、ダイアログ制御情報を含む本技術記述子(図11)又はオーディオコンポーネント記述子(図9)が、システム層で伝送されることになる。 In this digital broadcast signal transmission process, the transmission unit 108 performs a process on the physical layer frame and transmits it as a digital broadcast signal via the antenna 111. Thus, the present technology descriptor (FIG. 11) or the audio component descriptor (FIG. 9) including the dialog control information is transmitted in the system layer by the digital broadcast signal.
 以上、送信処理の流れについて説明した。 The flow of transmission processing has been described above.
(受信処理)
 次に、図17のフローチャートを参照して、図1の受信装置20により実行される受信処理の流れを説明する。
(Reception processing)
Next, the flow of reception processing executed by the reception device 20 of FIG. 1 will be described with reference to the flowchart of FIG.
 ステップS201においては、デジタル放送信号受信処理が行われる。 In step S201, digital broadcast signal reception processing is performed.
 このデジタル放送信号受信処理では、受信部202により、アンテナ211を介してデジタル放送信号が受信される。 In this digital broadcast signal reception process, the receiver 202 receives the digital broadcast signal via the antenna 211.
 ステップS202においては、パケット・フレーム処理が行われる。 In step S202, packet / frame processing is performed.
 このパケット・フレーム処理では、物理層フレーム処理部203により、物理層フレームからパケットが抽出され、パケット処理部204により、パケットが処理される。 In this packet / frame processing, the physical layer frame processing unit 203 extracts a packet from the physical layer frame, and the packet processing unit 204 processes the packet.
 ステップS203においては、シグナリング・コンポーネント処理が行われる。 In step S203, signaling component processing is performed.
 このシグナリング・コンポーネント処理では、制御部201により、シグナリングに基づいて、各部の動作が制御され、デコーダ206により、ビデオやオーディオ等のコンポーネントのデータが復号される。これにより、ビデオ出力部207は、制御部201からの制御に従い、コンテンツの映像を、表示装置221に表示する。また、オーディオ出力部208は、制御部201からの制御に従い、コンテンツの音声を、スピーカ222-1乃至222-Nから出力する。 In this signaling component processing, the control unit 201 controls the operation of each unit based on the signaling, and the decoder 206 decodes component data such as video and audio. As a result, the video output unit 207 displays the content video on the display device 221 in accordance with the control from the control unit 201. Also, the audio output unit 208 outputs the audio of the content from the speakers 222-1 to 222-N according to the control from the control unit 201.
 また、制御部201は、システム層で伝送される、本技術記述子(図11)又はオーディオコンポーネント記述子(図9)に含まれるダイアログ制御情報に基づいて、オーディオ出力部208を制御することで、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御など、スピーカ222-1乃至222-Nにより実現されるマルチチャンネルオーディオのダイアログの制御を行う。 Further, the control unit 201 controls the audio output unit 208 based on the dialog control information included in the technical descriptor (FIG. 11) or the audio component descriptor (FIG. 9) transmitted in the system layer. Control of multi-channel audio dialog realized by speakers 222-1 to 222-N, such as dialog volume level control, dialog replacement control, or dialog localization position control.
 より具体的には、制御部201は、ダイアログ制御情報に含まれるダイアログの音量調節の指示に従い、スピーカ222-1乃至222-Nにより実現される、22.2chのマルチチャンネルオーディオの音量レベルの調節を行う。この音量レベルの調節によって、例えば、難聴の人のために、ナレーションの音声のレベルのみを上げるといった制御が可能になる。 More specifically, the control unit 201 adjusts the volume level of the 22.2ch multi-channel audio realized by the speakers 222-1 to 222-N according to the dialog volume adjustment instruction included in the dialog control information. Do. By adjusting the volume level, for example, for a hearing impaired person, it is possible to control to increase only the level of the voice of narration.
 例えば、このダイアログ制御では、ダイアログ専用チャンネルの(前方中央チャンネルの)スピーカFCと、(下方前方中央チャンネルの)スピーカBtFCのレベルを基準値よりもxdBだけ上げる指示が記述されている場合、dialogue_plus_indexの示す0dB ≦ x ≦ +12dBの範囲内で、スピーカFCとスピーカBtFC以外の20.2chの各レベルを、xdBだけ下げるようにする。一方で、ダイアログ専用チャンネのスピーカFCとスピーカBtFCのレベルを基準値よりもxdBだけ下げる指示が記述されている場合、dialogue_minus_indexの示す-∞dB ≦ -x ≦ 0dBの範囲内で、スピーカFCとスピーカBtFCの各レベルを、xdBだけ下げるようにする。 For example, in this dialog control, when an instruction to increase the level of the speaker FC (for the front center channel) of the dialog dedicated channel and the speaker BtFC (for the lower front center channel) by xdB from the reference value is described, dialog_plus_index Within the range of 0 dB ≦ x ≦ +12 dB shown, each level of 20.2 ch other than the speaker FC and speaker BtFC is lowered by xdB. On the other hand, if an instruction to lower the levels of the speaker FC and the speaker BtFC of the dialog dedicated channel by xdB from the reference value is described, the speaker FC and the speaker are within the range of -∞dB ≦ -x ≦ 0dB indicated by dialog_minus_index. Each level of BtFC is lowered by xdB.
 また、制御部101は、ダイアログ制御情報に含まれるダイアログの置き換え指示に従い、スピーカ222-1乃至222-Nにより実現される22.2chのマルチチャンネルオーディオにおいて、例えば、(前方中央チャンネルの)スピーカFCと(下方前方中央チャンネルの)スピーカBtFCに入力されていた日本語のダイアログと、英語又はフランス語のダイアログとを置き換える。 Further, the control unit 101, in accordance with the dialog replacement instruction included in the dialog control information, in the 22.2ch multi-channel audio realized by the speakers 222-1 to 222-N, for example, the speaker FC (for the front center channel) Replace the Japanese dialog input to the speaker BtFC (in the lower front center channel) with the English or French dialog.
 例えば、このダイアログ制御では、ダイアログの置き換え指示を受けた場合、スピーカFCへのアサインレベルを示すdialogue_gain_index[0](-3dB)と、スピーカBtFCへのアサインレベルを示すdialogue_gain_index[1](0dB)を参照して、日本語ダイアログの代わりに、レベルを3dBだけ下げた英語のダイアログをスピーカFCに、レベルを0dBだけ下げた英語ダイアログを、スピーカBtFCにアサインする。これにより、日本語のダイアログと、英語のダイアログとが置き換えられる。 For example, in this dialog control, when a dialog replacement instruction is received, dialog_gain_index [0] (−3 dB) indicating the assignment level to the speaker FC and dialog_gain_index [1] (0 dB) indicating the assignment level to the speaker BtFC are set. Referring to the English dialog with the level lowered by 3 dB instead of the Japanese dialog, the English dialog with the level lowered by 0 dB is assigned to the speaker BtFC. This replaces the Japanese dialog with the English dialog.
 なお、ここでは、22.2chのマルチチャンネルオーディオを例に説明したが、3次元VBAPなどを用いた場合にも、同様にダイアログ制御を行うことができる。また、ARIBで標準規格化された記述子に限らず、DVBなどの他のデジタル放送の規格、さらには、MPEG-HやAC-4などの他の規格においても、システム層で、ダイアログ制御情報を含む記述子を伝送することで、同様にダイアログ制御を行うことができる。 Note that here, 22.2ch multi-channel audio has been described as an example, but dialog control can also be performed in the same manner when 3D VBAP or the like is used. In addition to descriptors standardized by ARIB, other digital broadcasting standards such as DVB, as well as other standards such as MPEG-H and AC-4, dialog control information in the system layer Dialog control can be performed in the same manner by transmitting a descriptor including.
 以上、受信処理の流れについて説明した。 The flow of reception processing has been described above.
<6.コンピュータの構成> <6. Computer configuration>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。 The series of processes described above can be executed by hardware or software. When a series of processing is executed by software, a program constituting the software is installed in the computer. FIG. 18 is a diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processing by a program.
 コンピュータ900において、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。バス904には、さらに、入出力インターフェース905が接続されている。入出力インターフェース905には、入力部906、出力部907、記録部908、通信部909、及び、ドライブ910が接続されている。 In the computer 900, a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, and a RAM (Random Access Memory) 903 are connected to each other by a bus 904. An input / output interface 905 is further connected to the bus 904. An input unit 906, an output unit 907, a recording unit 908, a communication unit 909, and a drive 910 are connected to the input / output interface 905.
 入力部906は、キーボード、マウス、マイクロフォンなどよりなる。出力部907は、ディスプレイ、スピーカなどよりなる。記録部908は、ハードディスクや不揮発性のメモリなどよりなる。通信部909は、ネットワークインターフェースなどよりなる。ドライブ910は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア911を駆動する。 The input unit 906 includes a keyboard, a mouse, a microphone, and the like. The output unit 907 includes a display, a speaker, and the like. The recording unit 908 includes a hard disk, a nonvolatile memory, and the like. The communication unit 909 includes a network interface or the like. The drive 910 drives a removable medium 911 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
 以上のように構成されるコンピュータ900では、CPU901が、ROM902や記録部908に記録されているプログラムを、入出力インターフェース905及びバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。 In the computer 900 configured as described above, the CPU 901 loads the program recorded in the ROM 902 or the recording unit 908 to the RAM 903 via the input / output interface 905 and the bus 904, and executes the program. A series of processing is performed.
 コンピュータ900(CPU901)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア911に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。 The program executed by the computer 900 (CPU 901) can be provided by being recorded on a removable medium 911 as a package medium, for example. The program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
 コンピュータ900では、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インターフェース905を介して、記録部908にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部909で受信し、記録部908にインストールすることができる。その他、プログラムは、ROM902や記録部908に、あらかじめインストールしておくことができる。 In the computer 900, the program can be installed in the recording unit 908 via the input / output interface 905 by installing the removable medium 911 in the drive 910. Further, the program can be received by the communication unit 909 via a wired or wireless transmission medium and installed in the recording unit 908. In addition, the program can be installed in the ROM 902 or the recording unit 908 in advance.
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。 Here, in the present specification, the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or individually (for example, parallel processing or object processing). The program may be processed by a single computer (processor) or may be distributedly processed by a plurality of computers.
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。 Note that the embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present technology.
 また、本技術は、以下のような構成をとることができる。 Also, the present technology can take the following configurations.
(1)
 伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを受信する受信部と、
 所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を取得する取得部と、
 前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する制御部と
 を備える受信装置。
(2)
 前記所定の規格は、デジタル放送の規格であり、
 前記受信部は、前記デジタル放送の放送波を受信し、
 前記取得部は、前記デジタル放送の規格で規定されるシグナリングを処理するシステム層で伝送される前記ダイアログ制御情報を取得し、
 前記制御部は、前記放送波で伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する
 (1)に記載の受信装置。
(3)
 前記ダイアログ制御情報は、新たに規定される記述子に記述される
 (2)に記載の受信装置。
(4)
 前記ダイアログ制御情報は、コンポーネント記述子の拡張領域に記述される
 (2)に記載の受信装置。
(5)
 前記ダイアログ制御情報は、オーディオコンポーネント記述子の拡張領域に記述される
 (2)又は(4)に記載の受信装置。
(6)
 前記ダイアログ制御情報は、HTML5(HyperText Markup Language 5)規格を含むアプリケーションとして記述される
 (1)に記載の受信装置。
(7)
 前記ダイアログ制御情報は、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御に関する情報を含む
 (1)乃至(6)のいずれかに記載の受信装置。
(8)
 受信装置のデータ処理方法において、
 前記受信装置が、
 伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを受信し、
 所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を取得し、
 前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する
 ステップを含むデータ処理方法。
(9)
 マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを取得する取得部と、
 マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を生成する生成部と、
 前記ストリームとともに、前記ダイアログ制御情報を、伝送路を介して送信する送信部と
 を備え、
 前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される
 送信装置。
(10)
 前記所定の規格は、デジタル放送の規格であり、
 前記送信部は、前記デジタル放送の放送波によって、前記ストリームとともに、前記ダイアログ制御情報を送信し、
 前記ダイアログ制御情報は、前記デジタル放送の規格で規定されるシグナリングを処理するシステム層で伝送される
 (9)に記載の送信装置。
(11)
 前記ダイアログ制御情報は、新たに規定される記述子に記述される
 (10)に記載の送信装置。
(12)
 前記ダイアログ制御情報は、コンポーネント記述子の拡張領域に記述される
 (10)に記載の送信装置。
(13)
 前記ダイアログ制御情報は、オーディオコンポーネント記述子の拡張領域に記述される
 (10)又は(12)に記載の送信装置。
(14)
 前記ダイアログ制御情報は、HTML5規格を含むアプリケーションとして記述される
 (9)に記載の送信装置。
(15)
 前記ダイアログ制御情報は、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御に関する情報を含む
 (9)乃至(14)のいずれかに記載の送信装置。
(16)
 送信装置のデータ処理方法において、
 前記送信装置が、
 マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを取得し、
 マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を生成し、
 前記ストリームとともに、前記ダイアログ制御情報を、伝送路を介して送信する
 ステップを含み、
 前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される
 データ処理方法。
(1)
A receiver for receiving a stream including multi-channel or stereo audio components transmitted through a transmission path;
An acquisition unit for acquiring dialog control information for controlling a dialog of multi-channel or stereo audio transmitted in a system layer that processes signaling defined by a predetermined standard;
And a control unit that controls a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
(2)
The predetermined standard is a standard for digital broadcasting,
The receiving unit receives a broadcast wave of the digital broadcast,
The acquisition unit acquires the dialog control information transmitted in a system layer that processes signaling defined in the digital broadcasting standard,
The receiving device according to (1), wherein the control unit controls a dialog of multi-channel or stereo audio transmitted through the broadcast wave.
(3)
The dialog control information is described in a newly defined descriptor. The receiving apparatus according to (2).
(4)
The receiving apparatus according to (2), wherein the dialog control information is described in an extension area of a component descriptor.
(5)
The receiving apparatus according to (2) or (4), wherein the dialog control information is described in an extension area of an audio component descriptor.
(6)
The receiving apparatus according to (1), wherein the dialog control information is described as an application including an HTML5 (HyperText Markup Language 5) standard.
(7)
The receiving apparatus according to any one of (1) to (6), wherein the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
(8)
In the data processing method of the receiving device,
The receiving device is
Receiving a stream containing multi-channel or stereo audio components transmitted over a transmission line;
Obtaining dialog control information for controlling a multi-channel or stereo audio dialog transmitted in a system layer that processes signaling defined by a predetermined standard;
A data processing method including a step of controlling a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
(9)
An acquisition unit for acquiring a stream including multi-channel or stereo audio components;
A generator for generating dialog control information for controlling a dialog of multi-channel or stereo audio;
A transmission unit that transmits the dialog control information along with the stream via a transmission path;
The dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard.
(10)
The predetermined standard is a standard for digital broadcasting,
The transmission unit transmits the dialog control information together with the stream by the broadcast wave of the digital broadcast,
The transmission apparatus according to (9), wherein the dialog control information is transmitted in a system layer that processes signaling defined in the digital broadcasting standard.
(11)
The dialog control information is described in a newly defined descriptor. The transmission device according to (10).
(12)
The transmission apparatus according to (10), wherein the dialog control information is described in an extension area of a component descriptor.
(13)
The transmission apparatus according to (10) or (12), wherein the dialog control information is described in an extension area of an audio component descriptor.
(14)
The transmission apparatus according to (9), wherein the dialog control information is described as an application including the HTML5 standard.
(15)
The transmission apparatus according to any one of (9) to (14), wherein the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
(16)
In the data processing method of the transmission device,
The transmitting device is
Get a stream containing multi-channel or stereo audio components,
Generate dialog control information to control multi-channel or stereo audio dialog,
Transmitting the dialog control information together with the stream via a transmission path;
The dialog control information is a data processing method transmitted in a system layer that processes signaling defined by a predetermined standard.
 1 伝送システム, 10 送信装置, 20 受信装置, 30 伝送路, 101 制御部, 102 コンポーネント取得部, 104 シグナリング生成部, 106 パケット生成部, 107 物理層フレーム生成部, 108 送信部, 201 制御部, 202 受信部, 203 物理層フレーム処理部, 204 パケット処理部, 205 シグナリング処理部, 206 デコーダ, 207 ビデオ出力部, 208 オーディオ出力部, 221 表示装置, 222-1乃至222-N スピーカ, 900 コンピュータ, 901 CPU 1 transmission system, 10 transmission device, 20 reception device, 30 transmission path, 101 control unit, 102 component acquisition unit, 104 signaling generation unit, 106 packet generation unit, 107 physical layer frame generation unit, 108 transmission unit, 201 control unit, 202 receiving unit, 203 physical layer frame processing unit, 204 packet processing unit, 205 signaling processing unit, 206 decoder, 207 video output unit, 208 audio output unit, 221 display device, 222-1 to 222-N speaker, 900 computer, 901 CPU

Claims (16)

  1.  伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを受信する受信部と、
     所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を取得する取得部と、
     前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する制御部と
     を備える受信装置。
    A receiver for receiving a stream including multi-channel or stereo audio components transmitted through a transmission path;
    An acquisition unit for acquiring dialog control information for controlling a dialog of multi-channel or stereo audio transmitted in a system layer that processes signaling defined by a predetermined standard;
    And a control unit that controls a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
  2.  前記所定の規格は、デジタル放送の規格であり、
     前記受信部は、前記デジタル放送の放送波を受信し、
     前記取得部は、前記デジタル放送の規格で規定されるシグナリングを処理するシステム層で伝送される前記ダイアログ制御情報を取得し、
     前記制御部は、前記放送波で伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する
     請求項1に記載の受信装置。
    The predetermined standard is a standard for digital broadcasting,
    The receiving unit receives a broadcast wave of the digital broadcast,
    The acquisition unit acquires the dialog control information transmitted in a system layer that processes signaling defined in the digital broadcasting standard,
    The receiving device according to claim 1, wherein the control unit controls a dialog of multi-channel or stereo audio transmitted through the broadcast wave.
  3.  前記ダイアログ制御情報は、新たに規定される記述子に記述される
     請求項2に記載の受信装置。
    The receiving apparatus according to claim 2, wherein the dialog control information is described in a newly defined descriptor.
  4.  前記ダイアログ制御情報は、コンポーネント記述子の拡張領域に記述される
     請求項2に記載の受信装置。
    The receiving apparatus according to claim 2, wherein the dialog control information is described in an extension area of a component descriptor.
  5.  前記ダイアログ制御情報は、オーディオコンポーネント記述子の拡張領域に記述される
     請求項4に記載の受信装置。
    The receiving apparatus according to claim 4, wherein the dialog control information is described in an extension area of an audio component descriptor.
  6.  前記ダイアログ制御情報は、HTML5(HyperText Markup Language 5)規格を含むアプリケーションとして記述される
     請求項1に記載の受信装置。
    The receiving apparatus according to claim 1, wherein the dialog control information is described as an application including an HTML5 (HyperText Markup Language 5) standard.
  7.  前記ダイアログ制御情報は、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御に関する情報を含む
     請求項1に記載の受信装置。
    The receiving apparatus according to claim 1, wherein the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
  8.  受信装置のデータ処理方法において、
     前記受信装置が、
     伝送路を介して伝送される、マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを受信し、
     所定の規格で規定されるシグナリングを処理するシステム層で伝送される、マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を取得し、
     前記ダイアログ制御情報に基づいて、前記伝送路を介して伝送されるマルチチャンネル又はステレオのオーディオのダイアログを制御する
     ステップを含むデータ処理方法。
    In the data processing method of the receiving device,
    The receiving device is
    Receiving a stream containing multi-channel or stereo audio components transmitted over a transmission line;
    Obtaining dialog control information for controlling a multi-channel or stereo audio dialog transmitted in a system layer that processes signaling defined by a predetermined standard;
    A data processing method including a step of controlling a dialog of multi-channel or stereo audio transmitted through the transmission path based on the dialog control information.
  9.  マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを取得する取得部と、
     マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を生成する生成部と、
     前記ストリームとともに、前記ダイアログ制御情報を、伝送路を介して送信する送信部と
     を備え、
     前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される
     送信装置。
    An acquisition unit for acquiring a stream including multi-channel or stereo audio components;
    A generator for generating dialog control information for controlling a dialog of multi-channel or stereo audio;
    A transmission unit that transmits the dialog control information along with the stream via a transmission path;
    The dialog control information is transmitted in a system layer that processes signaling defined by a predetermined standard.
  10.  前記所定の規格は、デジタル放送の規格であり、
     前記送信部は、前記デジタル放送の放送波によって、前記ストリームとともに、前記ダイアログ制御情報を送信し、
     前記ダイアログ制御情報は、前記デジタル放送の規格で規定されるシグナリングを処理するシステム層で伝送される
     請求項9に記載の送信装置。
    The predetermined standard is a standard for digital broadcasting,
    The transmission unit transmits the dialog control information together with the stream by the broadcast wave of the digital broadcast,
    The transmission apparatus according to claim 9, wherein the dialog control information is transmitted in a system layer that processes signaling defined in the digital broadcasting standard.
  11.  前記ダイアログ制御情報は、新たに規定される記述子に記述される
     請求項10に記載の送信装置。
    The transmission apparatus according to claim 10, wherein the dialog control information is described in a newly defined descriptor.
  12.  前記ダイアログ制御情報は、コンポーネント記述子の拡張領域に記述される
     請求項10に記載の送信装置。
    The transmission apparatus according to claim 10, wherein the dialog control information is described in an extension area of a component descriptor.
  13.  前記ダイアログ制御情報は、オーディオコンポーネント記述子の拡張領域に記述される
     請求項12に記載の送信装置。
    The transmission apparatus according to claim 12, wherein the dialog control information is described in an extension area of an audio component descriptor.
  14.  前記ダイアログ制御情報は、HTML5規格を含むアプリケーションとして記述される
     請求項9に記載の送信装置。
    The transmission apparatus according to claim 9, wherein the dialog control information is described as an application including an HTML5 standard.
  15.  前記ダイアログ制御情報は、ダイアログの音量レベル制御、ダイアログの置き換え制御、又はダイアログの定位位置制御に関する情報を含む
     請求項9に記載の送信装置。
    The transmission apparatus according to claim 9, wherein the dialog control information includes information related to dialog volume level control, dialog replacement control, or dialog localization position control.
  16.  送信装置のデータ処理方法において、
     前記送信装置が、
     マルチチャンネル又はステレオのオーディオのコンポーネントを含むストリームを取得し、
     マルチチャンネル又はステレオのオーディオのダイアログを制御するためのダイアログ制御情報を生成し、
     前記ストリームとともに、前記ダイアログ制御情報を、伝送路を介して送信する
     ステップを含み、
     前記ダイアログ制御情報は、所定の規格で規定されるシグナリングを処理するシステム層で伝送される
     データ処理方法。
    In the data processing method of the transmission device,
    The transmitting device is
    Get a stream containing multi-channel or stereo audio components,
    Generate dialog control information to control multi-channel or stereo audio dialog,
    Transmitting the dialog control information together with the stream via a transmission path;
    The dialog control information is a data processing method transmitted in a system layer that processes signaling defined by a predetermined standard.
PCT/JP2016/071059 2015-07-31 2016-07-15 Receiving device, sending device and data processing method WO2017022461A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-152906 2015-07-31
JP2015152906 2015-07-31

Publications (1)

Publication Number Publication Date
WO2017022461A1 true WO2017022461A1 (en) 2017-02-09

Family

ID=57943848

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/071059 WO2017022461A1 (en) 2015-07-31 2016-07-15 Receiving device, sending device and data processing method

Country Status (1)

Country Link
WO (1) WO2017022461A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0447725A (en) * 1990-06-15 1992-02-17 Nec Corp Voice signal multiplexer
WO2014184353A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio processing apparatus and method therefor
JP5713140B1 (en) * 2014-12-05 2015-05-07 ソニー株式会社 Receiving apparatus and data processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0447725A (en) * 1990-06-15 1992-02-17 Nec Corp Voice signal multiplexer
WO2014184353A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio processing apparatus and method therefor
JP5713140B1 (en) * 2014-12-05 2015-05-07 ソニー株式会社 Receiving apparatus and data processing method

Similar Documents

Publication Publication Date Title
EP3729425B1 (en) Priority information for higher order ambisonic audio data
KR101759005B1 (en) Loudspeaker position compensation with 3d-audio hierarchical coding
US10356545B2 (en) Method and device for processing audio signal by using metadata
JP6045696B2 (en) Audio signal processing method and apparatus
RU2617553C2 (en) System and method for generating, coding and presenting adaptive sound signal data
Füg et al. Design, coding and processing of metadata for object-based interactive audio
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
US20180091919A1 (en) Method and device for processing binaural audio signal
KR20140046980A (en) Apparatus and method for generating audio data, apparatus and method for playing audio data
US11950080B2 (en) Method and device for processing audio signal, using metadata
US20230232182A1 (en) Spatial Audio Capture, Transmission and Reproduction
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
Sen et al. Efficient compression and transportation of scene-based audio for television broadcast
CN111492674B (en) Processing a mono signal in a 3D audio decoder to deliver binaural content
WO2017022461A1 (en) Receiving device, sending device and data processing method
US11270711B2 (en) Higher order ambisonic audio data
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
DeFilippis Mastering and Distributing Immersive Sound
Fug et al. An Introduction to MPEG-H 3D Audio
Bleidt et al. Meeting the Requirements of Next-Generation Broadcast Television Audio
WO2016038876A1 (en) Encoding device, decoding device, and speech signal processing device
Komori Trends in Standardization of Audio Coding Technologies
KR20140128563A (en) Updating method of the decoded object list
KR20140128562A (en) Object signal decoding method depending on speaker&#39;s position

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16832740

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 16832740

Country of ref document: EP

Kind code of ref document: A1