WO2010090019A1 - 結合装置、遠隔通信システム及び結合方法 - Google Patents

結合装置、遠隔通信システム及び結合方法 Download PDF

Info

Publication number
WO2010090019A1
WO2010090019A1 PCT/JP2010/000666 JP2010000666W WO2010090019A1 WO 2010090019 A1 WO2010090019 A1 WO 2010090019A1 JP 2010000666 W JP2010000666 W JP 2010000666W WO 2010090019 A1 WO2010090019 A1 WO 2010090019A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
substream
downmix
combined
combining
Prior art date
Application number
PCT/JP2010/000666
Other languages
English (en)
French (fr)
Inventor
石川智一
則松武志
フアン ゾウ
シャン ジョン ハイ
コック セン チョン
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201080001336.XA priority Critical patent/CN102016982B/zh
Priority to JP2010532766A priority patent/JP5377505B2/ja
Priority to US12/935,797 priority patent/US8504184B2/en
Publication of WO2010090019A1 publication Critical patent/WO2010090019A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities

Definitions

  • the present invention relates to a combining device, a telecommunication system, and a combining method, and in particular, a downmix substream obtained by downmixing a plurality of audio input signals and parameters for restoring the downmix substream into a plurality of audio input signals. And a combination apparatus for combining a plurality of encoded bit streams transmitted from each of a plurality of sites.
  • parametric coding technology has been very actively developed in the audio coding field because of its advantages of high coding efficiency and sound image reproduction.
  • parametric coding methods not only extend the limits of the human auditory system, but can also model audio input signals by capturing sound scene characteristics.
  • Technologies well known in the art include encoding methods related to parametric stereo and MPEG surround.
  • a typical parametric encoding apparatus 100 is shown in FIG.
  • a parametric encoding device 100 shown in FIG. 1 includes a TF (time-frequency) conversion unit 101, an analyzer 102, an FT (frequency-time) conversion unit 103, and a downmix encoder 104.
  • the TF converter 101 converts a plurality of audio input signals 110 that are time signals into a plurality of frequency signals 111.
  • the analyzer 102 analyzes the converted frequency signal 111 by two methods.
  • the analyzer 102 includes a downmix unit 102A and a parameter extraction unit 102B.
  • the downmix unit 102A generates a monaural or stereo intermediate downmix signal 112 from the plurality of frequency signals 111.
  • the parameter extraction unit 102B extracts parameters from the plurality of frequency signals 111, and outputs a parameter substream 113 including the extracted parameters.
  • the FT conversion unit 103 generates the downmix time signal 114 by inversely converting the intermediate downmix signal 112 into the time domain.
  • the downmix encoder 104 compresses the downmix time signal 114 and outputs a downmix substream 115 including the compressed signal.
  • the parametric encoded audio stream includes a downmix substream 115 and a parameter substream 113 corresponding thereto.
  • the parametric decoding device 200 includes a downmix decoder 201, a TF conversion unit 202, a parameter synthesis unit 203, and an FT conversion unit 204.
  • the downmix decoder 201 decodes the received downmix substream 115 into a monaural or stereo time signal 213.
  • the TF conversion unit 202 generates the frequency signal 214 by converting the time signal 213 again into the parametric analysis domain.
  • the parameter synthesis unit 203 generates a plurality of converted signals 215 by synthesizing the frequency signal 214 according to the information derived from the received parameter substream 113.
  • the FT converter 204 generates a plurality of audio output signals 216 by inversely converting the converted signal 215 into the time domain.
  • the plurality of audio output signals 216 perceptually represent the same spatial sound image as a single signal input.
  • the above encoding procedure shows two features of the parametric encoder. That is, they are the reconstruction of a realistic acoustic scene realized by the synthesis of spatially related parameters with high coding efficiency obtained from the reduction of the number of transmission channels.
  • Each communication site in such a system receives a plurality of audio input signals 110 from a plurality of speakers, and can usually expect an effect that a realistic presence can be obtained even in a remote place.
  • FIG. 3 is a diagram showing a remote communication system 300 including four remote conference sites 301A to 301D. Note that, when the sites 301A to 301D are not particularly distinguished, they are referred to as sites 301.
  • Each site 301 (eg, site 301A) employs a parametric codec.
  • the site 301 generates an encoded bit stream 116 (including a downmix substream Dmx A and a parameter substream Paras A ) by parametrically encoding all of the acquired audio input signals 110. Also, the generated encoded bit stream 116 is transmitted to the other three sites 301B to 301D.
  • each site 301 performs parametric decoding on the received encoded bitstream 116 (the encoded bitstream 116 includes three downmix substreams Dmx B , Dmx C , and Dmx D and three parameter substreams). Including Paras B , Paras C , and Paras D ).
  • a coupling device multipoint connection device: MCU 305
  • MCU 305 multipoint connection device
  • This MCU 305 combines a plurality of received encoded bit streams 116 into a single combined bit stream 124 for each site 301 in a computationally efficient manner. Ideally, the combined bitstream 124 should approximate the stream as if all of the multiple encoded bitstreams 116 from other sites 301 were encoded at a single virtual site. .
  • FIG. 4 is a block diagram illustrating a functional configuration of the MCU 305.
  • the MCU 305 includes three independent parametric decoders 401 to 403, an adder 404, and a parametric encoder 405.
  • the three parametric decoders 401-403 decode time for each site 301 (eg, site 301 A) by decoding all of the encoded bitstreams 116 from other sites 301 (sites 301 B, 301 C, and 301 D). Domain decoded signals 411B, 411C, and 411D are generated.
  • the addition unit 404 generates the addition signal 412 by adding the generated decoded signals 411B, 411C, and 411D.
  • the parametric encoder 405 generates the combined bit stream 124 by re-encoding the addition signal 412.
  • MCU 305 requires N independent tandem parametric decoding and encoding processes in a telecommunication system connecting N sites.
  • the calculation amount of the MCU 305 increases, and thereby the delay amount of signal transmission increases.
  • the amount of calculation increases linearly as the number of sites increases. Therefore, it is difficult for the MCU 305 to execute an application that requires real-time processing.
  • the audio stream format enables the ability to combine two or more streams into a single signal stream in a computationally efficient manner. More specifically, the downmix substream can be combined in the downmix coding domain, and the parameter substream can be combined in the parameter analysis domain.
  • Patent Document 1 proposes a method for efficiently combining a plurality of parametric encoded audio signals.
  • downmix coupling and parameter coupling are independent for the sake of simplicity.
  • the downmix coupling method only a biased method using a very rough coupling method is shown.
  • the parameter combination method a problem when using different parameter analysis domains is not addressed.
  • the parametric audio encoding method is preferred in actual communication systems because of its high encoding efficiency and sound scene reproduction characteristics. In order to realize this scenario, some practical issues must be addressed. That is, how to combine a plurality of parametrically encoded audio streams into a single stream with a low amount of computation.
  • an object of the present invention is to provide a coupling device that can reduce the amount of calculation.
  • a combining device includes a downmix substream in which a plurality of audio input signals are downmixed and transmitted from each of a plurality of sites, and the downmix substream.
  • a plurality of encoded bitstreams including a parameter substream for recovering a plurality of audio input signals, and effective within a predetermined time of the plurality of encoded bitstreams.
  • a detection unit that detects an active encoded bitstream that is an encoded bitstream, and a combination of only the plurality of downmix substreams included in the plurality of active encoded bitstreams among the plurality of downmix substreams.
  • a combined parameter substream is generated by combining only a plurality of parameter substreams included in the plurality of active encoded bitstreams among a plurality of parameter substreams and a first combining unit that generates a stream.
  • a second combining unit; and a transmission unit configured to transmit a combined bitstream including the combined downmix substream and the combined parameter substream to the plurality of sites.
  • the combining device does not perform combining processing on an inactive encoded bitstream.
  • the coupling device can reduce the amount of calculation by considering whether or not each site is active.
  • the first combining unit generates a plurality of decoded downmix substreams by decoding only the downmix substream included in the active encoded bitstream among the plurality of downmix substreams.
  • An adder that generates one or more intermediate combined downmix substreams by adding the plurality of decoded downmix substreams, and one or more by encoding the one or more intermediate combined downmix substreams
  • An encoding unit that generates the combined downmix substream.
  • the combining device does not perform decoding processing on an inactive encoded bitstream.
  • the coupling device can reduce the amount of calculation.
  • the first combining unit may transmit, to each of the plurality of sites, a plurality of downmix substreams included in the plurality of active encoded bitstreams transmitted from sites other than the site. Are combined with each other to generate a combined downmix substream corresponding to the site, and the second combining unit generates the plurality of active coding bits for each of the plurality of sites.
  • the transmitter is configured to combine the combined downmix substream.
  • an inactive coded bitstream that is a coded bitstream other than the active coded bitstream among the plurality of coded bitstreams.
  • the first combining unit generates a common combined downmix substream by combining a plurality of downmix substreams included in all active encoded bitstreams, and (1) 2)
  • the second combining unit generates a common combined parameter substream by combining a plurality of parameter substreams included in all active encoded bitstreams, and (3) the transmitting unit generates the common combined down stream.
  • Mix substream and the common connection Common binding bitstream containing a parameter sub-streams may be transmitted to the sender of the site of the two or more inactive coded bit stream.
  • the combining device when there are a plurality of inactive sites, transmits a common combined bitstream to the plurality of inactive sites.
  • the coupling device can reduce the number of times of coupling processing, thereby reducing the amount of calculation.
  • the transmission unit keeps the first encoded bitstream which is one of the two active encoded bitstreams as it is, and the two active encoded bits.
  • the second encoded bit stream that is the other side of the stream may be transmitted to the transmission source site, and the second encoded bit stream may be transmitted as it is to the transmission source site of the first encoded bit stream.
  • the combining device when there are two active sites, transmits the encoded bitstream transmitted from the active site as it is.
  • the coupling device according to one aspect of the present invention can reduce the number of times of coupling processing, thereby reducing the amount of calculation.
  • the transmission unit may transmit the active encoded bitstream as it is to a site other than the source site of the active encoded bitstream.
  • the combining device when there is one active site, transmits the encoded bit stream transmitted from the active site as it is.
  • the coupling device according to one aspect of the present invention can reduce the number of times of coupling processing, thereby reducing the amount of calculation.
  • the detection unit may detect the active encoded bitstream using information included in the plurality of parameter substreams.
  • the combining device can easily detect the active encoded bitstream using information included in the parameter stream.
  • the first combining unit generates the single combined downmix substream by combining the plurality of downmix substreams included in all active encoded bitstreams, and the second combining unit. Generates the single combined parameter substream by combining a plurality of the parameter substreams included in all active encoded bitstreams, and the transmitting unit generates the single combined downmix substream. And a single combined bitstream including the single combined parameter substream may be transmitted to all of the plurality of sites.
  • the combining apparatus further includes, for each active site that is a transmission source of the active encoded bitstream, out of the signal components of the single combined bitstream, the code transmitted by the active site.
  • An auxiliary information generation unit that generates auxiliary information for specifying a signal component corresponding to the coded bitstream may be provided, and the transmission unit may transmit each of the plurality of auxiliary information to a corresponding active site.
  • each site can exclude the signal component of the encoded bit stream transmitted by the own site using the auxiliary information transmitted by the coupling device according to one aspect of the present invention.
  • the auxiliary information generation unit identifies, for each of the active sites, a parameter corresponding to the parameter substream transmitted by the active site among parameters included in the single combined parameter substream.
  • the auxiliary information for generating may be generated.
  • each site can exclude the signal component of the encoded bit stream transmitted by the own site by updating the parameter using the auxiliary information transmitted by the coupling device according to one aspect of the present invention.
  • the second combining unit converts the parameter expression standards of the plurality of parameter substreams into a single unified parameter expression standard. Accordingly, a parameter standard unifying unit that generates a plurality of unified parameters may be provided, and the second combining unit may generate the combined parameter substream by combining the plurality of unified parameters.
  • the combining device can efficiently generate a combined parameter substream even when a plurality of parameter substreams are expressed by different parameter expression standards.
  • the combining device may further select a parameter criterion selection from the plurality of parameter expression criteria according to a current bit rate that can be used for transmission from the combining device to the plurality of sites. May be provided.
  • the combining device can efficiently integrate parameter substreams having different parameter expression criteria by considering the bit rate.
  • the combining device may further include a parameter reference selecting unit that selects the unified parameter expression criterion from a plurality of parameter expression criteria according to a bit cost indicating the number of bits of the combined parameter substream.
  • the combining device can efficiently integrate parameter substreams having different parameter expression criteria by considering the bit cost.
  • the downmix substream is encoded after the plurality of audio input signals are downmixed and converted to a spectral domain, and the decoding unit decodes the downmix substream.
  • the decoding downmix substream of the spectral domain is generated, and the adding unit adds the plurality of decoded downmix substreams of the spectral domain to add the one or more intermediate combined downmix substreams. It may be generated.
  • the combining device does not decode the encoded bitstream until the time domain. That is, the coupling device according to one embodiment of the present invention does not perform time-frequency conversion and vice versa. Thereby, the coupling device according to one embodiment of the present invention can reduce the amount of calculation.
  • the first combining unit may further include a scaling unit that scales the intermediate combined downmix substream so that spectral powers of the plurality of decoded downmix substreams are stored in the intermediate combined downmix substream.
  • the encoding unit may generate the combined downmix substream by encoding the intermediate combined downmix substream scaled by the scaling unit.
  • the combining apparatus can store the spectrum power of a plurality of decoded downmix substreams in the intermediate combined downmix substream.
  • the second combining unit generates a plurality of dequantization parameters by dequantizing a plurality of parameter substreams, and generates a combination parameter by combining the dequantization parameters.
  • a parameter combining unit that generates an update parameter by updating a part of the parameters included in the combined parameter, and a parameter other than the part of the parameters included in the combined parameter;
  • a quantization unit that generates the combined parameter substream by quantizing the update parameter.
  • the combining device combines and updates some of the parameters in the parametric analysis domain.
  • the parameters match the combining method of the downmix substream.
  • a telecommunications system includes a downmix substream obtained by downmixing a plurality of audio input signals, and a parameter substream for restoring the downmix substream to a plurality of audio input signals.
  • the combined bit stream is generated by combining a plurality of sites including an encoding device that generates an encoded bit stream including a plurality of encoded bit streams transmitted by the plurality of sites, and the generated combination And a combining device that transmits a bitstream to the plurality of sites, and each of the plurality of sites further includes a decoding device that generates an audio output signal by decoding the combined bitstream.
  • the telecommunications system according to an aspect of the present invention does not perform a combining process on an inactive coded bitstream.
  • the remote communication system according to an aspect of the present invention can reduce the amount of calculation of the coupling device.
  • a telecommunications system includes a downmix substream obtained by downmixing a plurality of audio input signals, and a parameter substream for restoring the downmix substream to a plurality of audio input signals.
  • the combined bit stream is generated by combining a plurality of sites including an encoding device that generates an encoded bit stream including a plurality of encoded bit streams transmitted by the plurality of sites, and the generated combination And a combining device that transmits a bitstream to the plurality of sites, each of the plurality of sites further including a decoding device that generates an audio output signal by decoding the combined bitstream, and the decoding
  • the device uses the auxiliary information to make the single connection. Of the signal components of the bit stream, to generate the audio output signal obtained by removing the corresponding signal component in the encoded bit stream transmitted by the site with the decoding device.
  • each site can exclude the signal component of the encoded bit stream transmitted by the own site using the auxiliary information transmitted by the coupling device.
  • the present invention can be realized not only as such a coupling device and a telecommunications system, but also as a coupling method that uses characteristic means included in the coupling device as steps, and such characteristic steps are performed by a computer. It can also be realized as a program to be executed. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM and a transmission medium such as the Internet.
  • the present invention can be realized as a semiconductor integrated circuit (LSI) that realizes part or all of the functions of such a coupling device or telecommunications system.
  • LSI semiconductor integrated circuit
  • the present invention can provide a combining device that combines a plurality of parametric encoded audio streams while realizing a small delay and a small amount of calculation. This feature is very attractive for using a multi-site communication system such as a teleconference system for connecting a plurality of sites in real time.
  • FIG. 1 is a block diagram of a general parametric encoding apparatus.
  • FIG. 2 is a block diagram of a general parametric decoding device.
  • FIG. 3 is a diagram showing a configuration of a conventional telecommunications system.
  • FIG. 4 is a block diagram of a conventional MCU.
  • FIG. 5 is a diagram showing a configuration of the telecommunications system according to Embodiment 1 of the present invention.
  • FIG. 6 is a diagram showing parameter expression criteria in parametric audio coding according to Embodiment 1 of the present invention.
  • FIG. 7 is a block diagram of the downmix encoder according to Embodiment 1 of the present invention.
  • FIG. 8 is a block diagram of the MCU according to Embodiment 1 of the present invention.
  • FIG. 9 is a block diagram of a downmix substream combining unit according to Embodiment 1 of the present invention.
  • FIG. 10 is a diagram showing a frequency mapping method from the QMF domain to the MDCT domain according to Embodiment 1 of the present invention.
  • FIG. 11 is a block diagram of the parameter substream combining unit according to Embodiment 1 of the present invention.
  • FIG. 12 is a diagram showing the processing amount of the MCU according to the first embodiment of the present invention.
  • FIG. 13 is a flowchart of the combining process by the MCU according to the first embodiment of the present invention.
  • FIG. 14 is a diagram illustrating an operation when there is one active site of the MCU according to the first embodiment of the present invention.
  • FIG. 15 is a diagram showing an operation when there are two active sites of the MCU according to the first embodiment of the present invention.
  • FIG. 16 is a diagram showing an operation when there are three active sites of the MCU according to the first embodiment of the present invention.
  • FIG. 17 is a block diagram of an MCU according to Embodiment 2 of the present invention.
  • FIG. 18 is a diagram illustrating the operation of the MCU according to the second embodiment of the present invention.
  • FIG. 19 is a flowchart of the combining process by the MCU according to the second embodiment of the present invention.
  • FIG. 20 is a diagram showing the processing amount of the MCU according to the second embodiment of the present invention.
  • FIG. 21 is a block diagram of the parametric decoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 22A is a diagram showing an example of parameter criteria according to Embodiment 2 of the present invention.
  • FIG. 22B is a diagram showing an example of parameter criteria according to Embodiment 2 of the present invention.
  • FIG. 23 is a block diagram of an MCU according to Embodiment 3 of the present invention.
  • FIG. 24 is a block diagram of a parameter substream combining unit according to Embodiment 3 of the present invention.
  • FIG. 25A is a diagram showing an example of a unified parameter criterion according to Embodiment 3 of the present invention.
  • FIG. 25B is a diagram showing an example of a unified parameter criterion according to Embodiment 3 of the present invention.
  • FIG. 25A is a diagram showing an example of a unified parameter criterion according to Embodiment 3 of the present invention.
  • FIG. 25B is a diagram showing an example of a unified parameter criterion according to Embodiment 3 of the present invention.
  • FIG. 25C is a diagram showing an example of the unified parameter criterion according to Embodiment 3 of the present invention.
  • FIG. 26A is a diagram showing parameter criteria according to Embodiment 3 of the present invention.
  • FIG. 26B is a diagram showing parameter criteria according to Embodiment 3 of the present invention.
  • FIG. 27 is a block diagram of an MCU according to Embodiment 4 of the present invention.
  • FIG. 28 is a block diagram of a parameter substream combining unit according to Embodiment 4 of the present invention.
  • the method using the MCU according to the present invention will be described below by taking a remote conference system (remote communication system) connecting four sites as an example.
  • An MCU for a remote conference system connecting more sites can be easily generalized from this case.
  • the combination of audio streams encoded by the conventional parametric encoding method will be described in detail.
  • the downmix signal is a monaural signal encoded by an AAC encoder.
  • the embodiments described below can be generalized to support other parametric encoded bitstream formats.
  • FIG. 5 is a diagram showing a configuration of the telecommunications system 300A according to Embodiment 1 of the present invention.
  • the remote communication system 300A is, for example, a remote conference system.
  • This telecommunications system 300A includes four sites 301 (301A to 301D) and a coupling device (MCU 305A) which is a multipoint connection device.
  • the four sites 301 and the MCU 305A are connected via a network.
  • Each site 301 includes the encoding device 100 shown in FIG. 1 and the decoding device 200 shown in FIG.
  • Each encoding device 100 performs a parametric encoding on a plurality of audio input signals 110 acquired by a plurality of microphones connected to the site 301, thereby encoding a downmix substream 115 and a parameter substream 113.
  • a generalized bitstream 116 is generated.
  • the downmix substream 115 is a signal obtained by downmixing a plurality of audio input signals 110
  • the parameter substream 113 is information for restoring the downmix substream 115 into a plurality of audio input signals.
  • each encoding device 100 transmits the generated encoded bit stream 116 to the MCU 305A.
  • each of the plurality of audio input signals 110 corresponds to the voice of each of a plurality of speakers.
  • the MCU 305A generates a combined bitstream 124 by combining a plurality of encoded bitstreams 116 transmitted by a plurality of sites 301.
  • This combined bitstream 124 includes a combined downmix substream 121 and a combined parameter substream 122.
  • the MCU 305A transmits the generated combined bitstream 124 to the plurality of sites 301.
  • the MCU 305A generates a combined bit stream 124 by combining the encoded bit stream 116 transmitted from a site other than the site 301 with respect to each site 301. Transmit to the site 301.
  • the MCU 305A combines the encoded bitstream 116 transmitted from the sites 301B to 301D with the site 301A, thereby combining the combined bitstream 124 (the combined downmix substream Dmx BCD and the combined parameter substream Paras BCD) . And the combined bitstream 124 is transmitted to the site 301A. Also, the MCU 305A generates a combined downmix substream Dmx ACD and a combined parameter substream Paras ACD by combining the encoded bitstream 116 transmitted from the sites 301A, 301C, and 301D with respect to the site 301B.
  • the MCU 305A generates a combined downmix substream Dmx ABD and a combined parameter substream Paras ABD by combining the encoded bitstream 116 transmitted from the sites 301A, 301B, and 301D with respect to the site 301C.
  • the MCU 305A combines the encoded bitstream 116 transmitted from the sites 301A, 301B, and 301C to the site 301D, thereby combining A stream Dmx ABC and a combined parameter substream Paras ABC are generated.
  • the decoding device 200 at each site 301 generates a plurality of audio output signals 216 by decoding the combined bitstream 124 transmitted from the MCU 305A.
  • the plurality of audio output signals 216 are output by a plurality of speakers connected to the site 301.
  • the encoding device 100 shown in FIG. 1 will be described in detail below.
  • the encoding apparatus 100 shown in FIG. 1 generates an encoded bit stream 116 including a monaural downmix substream 115 and a parameter substream 113 by parametrically encoding a plurality of audio input signals 110.
  • the encoding apparatus 100 includes a TF (time-frequency) conversion unit 101, an analyzer 102, an FT (frequency-time) conversion unit 103, and a downmix encoder 104.
  • the TF converter 101 converts a plurality of time domain audio input signals 110 into a plurality of frequency signals 111 in the hybrid domain.
  • T-F conversion unit 101 converts the N A number of audio input signals 110, with efficient non-uniform frequency resolution, the N A number of frequency signal 111 of the hybrid domain represented by the following (Equation 1) To do.
  • n is a time slot index indicating time.
  • K is a hybrid band index indicating a frequency.
  • the analyzer 102 analyzes the converted frequency signal 111 by two methods.
  • the analyzer 102 includes a downmix unit 102A and a parameter extraction unit 102B.
  • the downmix unit 102A generates a monaural intermediate downmix signal 112 from a plurality of frequency signals 111.
  • the parameter extraction unit 102B extracts object parameters from the plurality of frequency signals 111. Also, the parameter extraction unit 102B generates the parameter substream 113 by quantizing the extracted object parameters.
  • the parameter extraction unit 102B analyzes the object parameter as a time-frequency function with the resolution of the time frequency analysis determined based on the auditory psychological model. For example, the parameter extraction unit 102B groups the entire hybrid domain into P ⁇ Q parameter tiles as shown in FIG. Also, in order to approximate the frequency resolution of the human auditory system, the number Q of parameter bands m covering the entire frequency band is from only a few (when applying a low bit rate) to 28 (high). It can be set to any number in the case of quality processing. Also, the parameter set l separated to improve the transient behavior covers a fixed time segment (about 20-30 ms).
  • d i (l, m) is a predetermined scale factor for each audio input signal 110 (each frequency signal 111).
  • the factor e (l, m) is used for adjusting the power of the signal component. That is, the power of the signal component in the intermediate downmix signal 112 is calculated so as to be approximately the same as the power of the scaled full frequency signal 111. That is, e (l, m) is determined so that the relationship of the following (formula 3) is satisfied.
  • the FT conversion unit 103 generates a downmix time signal 114 by inversely converting all signal components of the intermediate downmix signal 112 into the time domain.
  • the downmix encoder 104 generates a downmix substream 115 by encoding the downmix time signal 114.
  • each of the object parameters includes:
  • Object level difference Indicates a power ratio in a corresponding parameter tile between a plurality of frequency signals 111.
  • Absolute energy parameter Indicates the absolute object energy of the frequency signal 111 having the maximum energy among the plurality of frequency signals 111.
  • Cross-correlation (IOC) between objects Indicates the similarity of corresponding parameter tiles between a plurality of frequency signals.
  • DMG Downmix gain
  • the parameter extraction unit 102B calculates these parameters using the following (formula 5) to (formula 9).
  • the parameter extraction unit 102B generates a parameter substream 113 by quantizing this object parameter together with other header information.
  • sites 301 also generate a downmix substream 115 and a corresponding parameter substream 113 according to a similar encoding procedure.
  • FIG. 7 is a block diagram showing a configuration of the downmix encoder 104.
  • the downmix encoder 104 includes an MDCT (Modified Discrete Cosine Transform) conversion unit 601, an encoding unit 602, and a control unit 603.
  • MDCT Modified Discrete Cosine Transform
  • the MDCT conversion unit 601 converts the downmix time signal 114 in the time domain into an MDCT coefficient set 611 in the MDCT domain (spectrum domain).
  • the control unit 603 calculates an estimated value of a masked threshold (acoustic psychology model) that depends on actual time using a rule known in acoustic psychology.
  • the encoding unit 602 efficiently quantizes and encodes the MDCT coefficient set 611 so that the quantization noise is kept below the masked threshold calculated by the control unit 603. Accordingly, the encoding unit 602 generates the downmix substream 115.
  • the encoding device 100 included in each site 301A to 301D needs to satisfy the following two additional requirements.
  • the downmix substream 115 is encoded by the AAC method using a fixed block type (that is, a long block type).
  • the present invention is not limited to this, and the AAC-LD method or the HE-AAC method may be used.
  • the CELP method may be used as long as it is a highly efficient stereo / monophonic audio encoding method, but this method is more effective when an encoding method using an orthogonal transform technique such as MDCT is used. The effect of the invention becomes higher.
  • the present invention is not limited to this, and the FFT method or the MDST (Modified Discrete Sine Transform) method may be used.
  • FIG. 8 is a block diagram showing the configuration of the MCU 305A.
  • the MCU 305A includes a detection unit 501, a downmix substream combination unit 504 (first combination unit), a parameter substream combination unit 506 (second combination unit), and a transmission unit 508.
  • the detection unit 501 detects an active site and an inactive site among a plurality of sites 301 within the time interval at predetermined time intervals.
  • the active site is a site that transmits a valid encoded bit stream 116
  • the inactive site is a site other than the active site.
  • an active site is a site where voice is currently being transmitted, and an inactive site is that voice is not currently being transmitted, a voice signal below a predetermined threshold is being exchanged, or It is a site that is explicitly designated by a control signal or the like when no audio signal is exchanged.
  • the maximum volume of the plurality of audio input signals 110 acquired at the active site is greater than or equal to a predetermined threshold, and all the volumes of the plurality of audio input signals 110 acquired at the inactive site are less than the predetermined threshold. .
  • the detection unit 501 detects whether each site 301 is an active site or an inactive site using information included in the plurality of parameter substreams 113. For example, the detection unit 501 determines that the transmission source site of the parameter substream 113 whose NRG parameter is less than a predetermined value is an inactive site.
  • the detection unit 501 may determine whether each site 301 is an active site or an inactive site by referring to other parameters or the downmix substream 115. For example, when the maximum volume of the plurality of audio input signals 110 included in the corresponding encoded bitstream 116 is equal to or higher than a predetermined threshold, the detecting unit 501 activates the transmission source site 301 of the encoded bitstream 116. When it is determined that the site is a site, and the maximum volume of the plurality of audio input signals 110 included in the corresponding encoded bitstream 116 is less than a predetermined threshold, the site 301 that is the transmission source of the encoded bitstream 116 is not You may determine that it is an active site.
  • the detection unit 501 determines that the source site 301 of the encoded bitstream 116 is the active site according to the volume difference or the change rate of the volume of the plurality of audio input signals 110 included in the corresponding encoded bitstream 116. Or inactive site may be determined.
  • the detection unit 501 calculates the number of active sites and the number of inactive sites based on the detection result.
  • the downmix substream combining unit 504 combines a plurality of downmix substreams 115 by combining the plurality of downmix substreams 115 according to the number of active sites (number of inactive sites) detected by the detection unit 501.
  • a stream 121 is generated.
  • the downmix substream combining unit 504 when there is an inactive site, the downmix substream combining unit 504 generates a combined downmix substream 121 by combining only the downmix substream 115 transmitted from the active site.
  • the downmix substream combining unit 504 transmits, to each of the plurality of sites 301, the sites 301 other than the site 301 among the plurality of downmix substreams 115 transmitted from the plurality of active sites.
  • the combined downmix substream 121 corresponding to the site 301 is generated by combining the plurality of downmix substreams 115 transmitted from.
  • the parameter substream combining unit 506 combines the plurality of parameter substreams 113 according to the number of active sites (the number of inactive sites) detected by the detecting unit 501, thereby combining the plurality of combined parameter substreams 122. Generate.
  • the parameter substream combining unit 506 when there is an inactive site, the parameter substream combining unit 506 generates a combined parameter substream 122 by combining only the parameter substreams 113 transmitted from the active site.
  • the parameter substream combining unit 506 transmits to each of the plurality of sites 301 from the sites 301 other than the site 301 among the plurality of parameter substreams 113 transmitted from the plurality of active sites. By combining the plurality of parameter substreams 113, a combined parameter substream 122 corresponding to the site 301 is generated.
  • the transmission unit 508 transmits the combined bitstream 124 including the combined downmix substream 121 and the combined parameter substream 122 to the corresponding site 301.
  • FIG. 9 is a block diagram showing a configuration of the downmix substream combining unit 504.
  • the downmix substream combining unit 504 includes a decoding unit 700, an adding unit 704, a scaling unit 705, and an encoding unit 706.
  • FIG. 9 shows a case where one combined downmix substream 121 to be transmitted to the site 301A is generated.
  • the decoding unit 700 decodes (decodes and dequantizes) the plurality of downmix substreams 115 (Dmx B , Dmx C, and Dmx D ), thereby corresponding to MDCTs in the MDCT domain (spectrum domain).
  • a coefficient set 710 (coef B , coef C, and coef D ) is generated.
  • inverse encoding and inverse quantization are inverse operations of AAC encoding performed by the encoding unit 602 shown in FIG.
  • Decoding section 700 also includes decoding sections 701 to 703 that decode and dequantize downmix substreams Dmx B , Dmx C, and Dmx D.
  • the decoding unit 700 includes three decoding units 701 to 703 as shown in FIG. 9, and three downmix substreams 115 may be processed in parallel by the three decoding units 701 to 703. Alternatively, one or two inverse encoding units may be provided, and the three downmix substreams 115 may be processed in a time division manner.
  • the decoding unit 700 decodes only the downmix substream 115 transmitted from the active site among the plurality of downmix substreams 115.
  • the addition unit 704 generates a combined MDCT coefficient set 711 (intermediate combined downmix substream) by adding all the MDCT coefficient sets 710 (decoded downmix substream).
  • the scaling unit 705 generates a combined MDCT coefficient set 712 (coef BCD ) by scaling the added combined MDCT coefficient set 711. Specifically, the scaling unit 705 scales the combined MDCT coefficient set 711 so that the spectral powers of the plurality of MDCT coefficient sets 710 are stored in the combined MDCT coefficient set 712.
  • the combined downmix substream 121 is obtained as a result of linearly combining all downmix substreams 115 with different combined gains in different frequency ranges.
  • the hybrid domain has time-frequency resolution, but the MDCT domain has only frequency resolution.
  • the coupling gain to the MDCT coefficient set, it is necessary to approximate the value in the hybrid domain to the value in the MDCT domain.
  • the approximation method applied in the present invention is a method of ignoring the separation of the parameter set in the hybrid domain and directly mapping the parameter band separation method to the MDCT domain (note that the separation method of different parameter bands is a single unified parameter). A method of integrating the band separation method will be described later).
  • the number of parameter bands used in the parametric encoding process is Q (header information included in the parameter substream)
  • the parameter band m covers the same frequency range as the subset I m , eg (q m ⁇ , q m + ).
  • the combined gain of the divided downmix coefficient set can be designed flexibly as follows according to different application examples.
  • Embodiment 1 when all of a plurality of encoded audio objects are important, neither amplification nor attenuation of signal components is preferable. In such a case, a power conservation technique that applies a common scaling factor for equalizing the combined downmix coefficients is employed.
  • the combined MDCT coefficient set coef BCD is expressed by the following (formula 8).
  • i is the MDCT coefficient index and m is the subset index. That is, i is expressed by the following (formula 9).
  • the superscript symbol represents the site index of the corresponding parameter.
  • the coupling gain is calculated using the following (Equation 10) so as to preserve the spectrum power.
  • the encoding unit 706 generates a combined downmix substream 121 (Dmx BCD ) for transmission by quantizing and encoding the combined MDCT coefficient set coef BCD .
  • perceptual encoders eg, AAC encoders
  • the downmix combination is performed only in the MDCT domain in order to satisfy the requirement that the calculation amount is small and the delay time is short. That is, any domain conversion from the MDCT domain to the time domain is not allowed.
  • the encoding unit 706 can be designed as follows. First, in the MDCT domain, an accurate psychoacoustic masker for the combined MDCT coefficient set is calculated. In addition, the remaining quantization and encoding are performed in a manner similar to the AAC encoder. The output result is transmitted as a combined downmix substream 121 to the parametric decoding device 200 at the site 301A. A similar procedure is performed for all other sites. That is, this procedure is performed N times for a system connecting N sites.
  • FIG. 11 is a block diagram showing the configuration of the parameter substream combining unit 506.
  • the downmix substream combination unit 504 includes an inverse quantization unit 750, a parameter combination unit 755, a parameter update unit 756, and a quantization unit 757. Further, FIG. 11 shows only a configuration for generating one combined parameter substream 122 to be transmitted to the site 301A.
  • the inverse quantization unit 750 restores the parameter substreams 113 (Paras B , Paras C, and Paras D ) to the corresponding parameters 761 by performing inverse quantization.
  • the inverse quantization is an inverse operation of the quantization performed by the parameter extraction unit 102B shown in FIG.
  • the parameter combining unit 755 generates combined parameters 763 and 764 by combining all the parameters 761.
  • the parameter update unit 756 generates the update parameter 765 by updating the combined parameter 764.
  • the parameter combining unit 755 combines all parameters 761 using the same coupling gain. As a result, this downmix combining process is not affected by additional parameters. Therefore, when there are a plurality of active sites, the parameter update unit 756 updates only the NRG parameter and the OLD parameter as the combined parameter 764.
  • the parameter substream combining unit 506 combines the parameter substreams 113 transmitted from the sites 301B and 301D.
  • the parameter update unit 756 calculates the updated OLD parameter for all objects using the following (formula 12).
  • the object indicates each of the plurality of audio input signals 110.
  • the quantization unit 757 generates the combined parameter substream 122 by quantizing the combined parameter 763 and the update parameter 765.
  • the MCU 305A needs to perform partial decoding processing N times, combining processing N times, and partial encoding processing N times.
  • the same combined downmix substream 121 is delivered to those inactive sites. In other words, when an inactive site normally exists, this means that the combining method is redundant.
  • the calculation amount of the MCU 305A is further reduced by considering the number of active sites before the combining and encoding process.
  • the transmission unit 508 directly switches and transmits the received encoded bitstream 116 to the distribution destination site. Thereby, the calculation amount of MCU305A can further be reduced.
  • the downmix substream combining unit 504 combines all the downmix substreams 115 transmitted from all active sites, thereby combining all inactive sites.
  • a common combined downmix substream 121 is generated for the site.
  • the parameter substream combining unit 506 generates a common combined parameter substream 122 for all inactive sites by combining a plurality of parameter substreams 113 transmitted from all active sites.
  • the transmission unit 508 transmits the common combined bitstream 124 including the common combined downmix substream 121 and the common combined parameter substream 122 to all inactive sites.
  • the transmission unit 508 transmits the encoded bit stream 116 transmitted from one of the two active sites as it is to the other of the two active sites. Also, the transmission unit 508 transmits the encoded bit stream 116 transmitted from the other of the two active sites as it is to one of the two active sites.
  • the transmission unit 508 transmits the encoded bit stream 116 transmitted from the active site to all inactive sites as it is.
  • FIG. 12 is a diagram showing a calculation amount of the MCU 305A according to the present invention and a normal MCU.
  • FIG. 13 is a flowchart of the combining process performed by the MCU 305A.
  • the detection unit 501 detects the number N 1 of active sites (S101).
  • the detection unit 501 determines whether the 1 (S102).
  • the transmission unit 508 transmits the coded bit stream 116 transmitted from the active site as it is to all inactive site (S103). That is, the downmix substream combining unit 504 and the parameter substream combining unit 506 do not perform combining processing. Also, the transmission unit 508 does not transmit the encoded bit stream 116 and the combined bit stream 124 to one active site.
  • the transmission unit 508 does not transmit the encoded bit stream 116 and the combined bit stream 124.
  • FIG. 14 is a diagram schematically illustrating the processing of the MCU 305 ⁇ / b> A when only one site 301 ⁇ / b> A is active among the four sites 301.
  • the MCU 305A transmits the downmix substream Dmx A and the parameter substream Paras A transmitted from the site 301A to the inactive sites 301B, 301C, and 301D.
  • the downmix substream coupling section 504 performs a partial decoding process into a plurality of downmix substream 115 sent from all active sites Thus, a plurality of MDCT coefficient sets 710 are generated (S104).
  • the detection unit 501 determines whether the 2 (S105).
  • the downmix substream coupling portion 504 by combining and scaling the MDCT coefficient sets 710 corresponding to the two active sites, binding MDCT coefficient sets 712 Is generated.
  • the downmix substream combining unit 504 generates one combined downmix substream 121 for inactive sites by encoding and quantizing the generated combined MDCT coefficient set 712.
  • the parameter substream combining unit 506 generates one combined parameter substream 122 for the inactive site by combining the parameter substreams 113 corresponding to the two active sites (S106).
  • the transmission unit 508 transmits one combined downmix substream 121 and combined parameter substream 122 generated in step S106 to all inactive sites (S107).
  • the transmitting unit 508 transmits the encoded bit stream 116 transmitted from one of the two active sites as it is to the other active site, and the encoded bit stream transmitted from the other active site. 116 is transmitted as it is to one active site (S108).
  • the binding process are one. That is, the partial decoding process for the inactive site is reduced, and the number of combining processes and the number of partial encoding processes are reduced to one.
  • FIG. 15 is a diagram schematically showing processing of the MCU 305A when only two sites 301A and 301B out of four sites 301 are active.
  • the MCU 305A transmits the downmix substream Dmx A and the parameter substream Paras A transmitted from the site 301A to the active site 301B, and the site 301B
  • the downmix substream Dmx B and the parameter substream Paras B transmitted from are transmitted to the active site 301A.
  • the MCU 305A combines the downmix substream Dmx A and the parameter substream Paras A with the downmix substream Dmx B and the parameter substream Paras B , thereby combining the combined downmix substream Dmx AB and the combined parameter substream.
  • Paras AB is generated, and the combined downmix substream Dmx AB and the combined parameter substream Paras AB are transmitted to the inactive sites 301C and 301D.
  • the downmix substream coupling portion 504 by any coupling and scaling the MDCT coefficient sets 710 corresponding to the three or more active sites, A combined MDCT coefficient set 712 is generated.
  • the downmix substream combining unit 504 generates one combined downmix substream 121 for inactive sites by encoding and quantizing the generated combined MDCT coefficient set 712.
  • the parameter substream combining unit 506 generates one combined parameter substream 122 for the inactive site by combining the parameter substreams 113 corresponding to the three or more active sites (S109).
  • the transmission unit 508 transmits one combined downmix substream 121 and one combined parameter substream generated in step S109 to all inactive sites (S110).
  • the MCU 305A generates a combined bit stream 124 to be transmitted to each of the three or more active sites.
  • the MCU 305A selects one active site from among three or more active sites, and generates a combined bit stream 124 to be transmitted to the selected active site.
  • the downmix substream combining unit 504 generates a combined MDCT coefficient set 712 by combining and scaling MDCT coefficient sets 710 corresponding to all active sites other than the selected active site.
  • the downmix substream combining unit 504 generates a combined downmix substream 121 for the selected active site by encoding and quantizing the generated combined MDCT coefficient set 712.
  • the parameter substream combining unit 506 generates a selected active site combined parameter substream 122 by combining the parameter substreams 113 corresponding to all active sites other than the selected active site (S111).
  • the transmission unit 508 transmits the combined downmix substream 121 and the combined parameter substream generated in step S111 to the selected active site (S112).
  • the downmix substream coupling unit 504 by subtracting 1 from the number N 1 of the active site, and calculate the number N 1 of a new active site (S113), the number N 1 of a new active sites If it is greater than 0 (Yes in S114), the next active site is selected, and the processing after step S111 is performed on the selected active site. That is, the downmix substream combining unit 504 repeats the processes of steps S111 to S114 for all active sites.
  • the number of partial decoding processes is as shown in FIG. number N 1 next to the number of number and partial encoding process for the joining process becomes N 1 +1 time. That is, the partial decoding process for the inactive site is reduced, and the number of the combining processes for transmission to the inactive site and the number of the partial encoding processes are reduced.
  • the processing of steps S109 and S110 are not performed. That is, as shown in FIG. 12, the number of partial decoding processes, the number of combining processes, and the number of partial encoding processes are N 1 times.
  • FIG. 16 is a diagram schematically showing processing of the MCU 305A when three sites 301A, 301B, and 301C among the four sites 301 are active.
  • the MCU 305A performs the downmix substream Dmx A and the parameter substream Paras A , the downmix substream Dmx B, the parameter substream Paras B, and the down A combined downmix substream Dmx ABC and a combined parameter substream Paras ABC are generated by combining the mixed substream Dmx C and the parameter substream Paras C , and the combined downmix substream Dmx ABC and the combined parameter substream Paras.
  • the MCU 305A combines the downmix substream Dmx B and the parameter substream Paras B with the downmix substream Dmx C and the parameter substream Paras C , thereby combining the combined downmix substream Dmx BC and the combined parameter substream.
  • a Paras BC is generated, and the combined downmix substream Dmx BC and the combined parameter substream Paras BC are transmitted to the site 301A.
  • the MCU 305A combines the downmix substream Dmx A and the parameter substream Paras A with the downmix substream Dmx C and the parameter substream Paras C , thereby combining the combined downmix substream Dmx AC and the combined parameter substream.
  • Paras AC is generated, and the combined downmix substream Dmx AC and the combined parameter substream Paras AC are transmitted to the site 301B.
  • the MCU 305A combines the downmix substream Dmx A and the parameter substream Paras A with the downmix substream Dmx B and the parameter substream Paras B , thereby combining the combined downmix substream Dmx AB and the combined parameter substream.
  • Paras AB is generated, and the combined downmix substream Dmx AB and the combined parameter substream Paras AB are transmitted to the site 301C.
  • the MCU 305A according to Embodiment 1 of the present invention does not perform the decoding process, the combining process, and the encoding process when the number of active sites N1 is 1 . Further, MCU305A, when the number N 1 of the active site is 2, does not generate a binding bitstream 124 to be transmitted to the active site. Thereby, MCU305A can reduce the amount of calculations.
  • the MCU 305A when there is an inactive site, does not combine the encoded bit stream 116 transmitted from the inactive site. Specifically, the MCU 305A does not perform the decoding process on the downmix substream 115 transmitted from the inactive site. Thereby, MCU305A can reduce the amount of calculations.
  • the MCU 305A when there are a plurality of inactive sites, the MCU 305A according to Embodiment 1 of the present invention generates a common combined bitstream 124 for the plurality of inactive sites. As a result, the MCU 305A can omit the process of generating the combined bit stream 124 for transmission to the inactive site, thereby reducing the amount of calculation.
  • the MCU 305A according to Embodiment 1 of the present invention can reduce the amount of calculation by taking into account the special case where the number of active sites is 1 or 2.
  • the partial encoding process includes an acoustic masker generation process and a double-loop quantization process, and thus has the largest amount of calculation. Therefore, the MCU 305B according to Embodiment 2 can further reduce the amount of calculation by performing partial encoding only once when there are a plurality of active sites (N 1 > 2).
  • FIG. 17 is a diagram showing a configuration of the MCU 305B according to the second embodiment of the present invention.
  • the MCU 305B illustrated in FIG. 17 is different from the MCU 305A according to Embodiment 1 in that the processing of the downmix substream combining unit 504B and the parameter substream combining unit 506B is performed by the downmix substream combining unit 504 and the parameter substream combining unit 506. It is different from processing.
  • the basic configurations of the downmix substream combining unit 504B and the parameter substream combining unit 506B are the same as those of the downmix substream combining unit 504 and the parameter substream combining unit 506.
  • the MCU 305B further includes an auxiliary information generation unit 507 in addition to the configuration of the MCU 305A.
  • the downmix substream combining unit 504B When the number of active sites is 2 or more, the downmix substream combining unit 504B generates a single combined downmix substream 121 by combining the downmix substreams 115 transmitted from all active sites.
  • the downmix substream combining unit 504B performs partial decoding processing on all active sites, and then combines all the decoded MDCT coefficient sets 710 into a single combined MDCT coefficient set 712. Next, the downmix substream combining unit 504B partially encodes the combined MDCT coefficient set 712 to generate a single combined downmix substream 121 that is distributed to all sites.
  • the parameter substream combining unit 506B When the number of active sites is 2 or more, the parameter substream combining unit 506B generates a single combined parameter substream 122 by combining the parameter substreams 113 transmitted from all the active sites.
  • the auxiliary information generation unit 507 generates a plurality of auxiliary information 123 corresponding to each active site.
  • the auxiliary information 123 identifies a signal component corresponding to the coded bitstream 116 transmitted by the corresponding active site among the signal components of the single combined downmix substream 121 and the single combined parameter substream 122. It is information to do.
  • the auxiliary information 123 will be described later.
  • the transmission unit 508 transmits the single combined downmix substream 121 and the single combined parameter substream 122 to all the sites 301. In addition, the transmission unit 508 transmits each of the plurality of auxiliary information 123 to the corresponding active site.
  • FIG. 18 is a diagram schematically showing processing of the MCU 305B when three sites 301A, 301B, and 301D among the four sites 301 are active in the telecommunications system 300B according to Embodiment 2 of the present invention. As shown in FIG.
  • the MCU 305B performs downmix substream Dmx A and parameter substream Paras A , downmix substream Dmx B and parameter substream Paras B , and down by combining the mixed sub-stream Dmx D and parameters substreams Paras D, and generates a combined down-mix sub-streams Dmx ABD and binding parameters substreams Paras ABD, the binding downmix substream Dmx ABD and binding parameters substreams Paras
  • the ABD is transmitted to all the sites 301A to 301D.
  • the MCU 305B transmits auxiliary information 123A, 123B, and 123D to the sites 301A, 301B, and 301D, which are active sites, respectively.
  • the auxiliary information 123A, 123B, and 123D are auxiliary information 123 corresponding to the sites 301A, 301B, and 301D, respectively.
  • FIG. 19 is a flowchart of the combining process of the MCU 305B according to the second embodiment of the present invention.
  • FIG. 20 is a diagram showing the amount of calculation between MCUs 305A and 305B according to Embodiments 1 and 2 of the present invention and a normal MCU.
  • steps S101 to S104 shown in FIG. 19 is the same as that in FIG.
  • the downmix substream combining unit 504B After step S104, the downmix substream combining unit 504B generates a combined MDCT coefficient set 712 by combining and scaling the MDCT coefficient sets 710 corresponding to all active sites. Next, the downmix substream combining unit 504B generates one combined downmix substream 121 by encoding and quantizing the generated combined MDCT coefficient set 712. Also, the parameter substream combining unit 506B generates one combined parameter substream 122 by combining the parameter substreams 113 transmitted from all the active sites (S205).
  • the transmission unit 508 transmits one combined downmix substream 121 and combined parameter substream 122 generated in step S205 to all sites (S206).
  • the number N 1 of the active site is two or more (No in S102), as shown in FIG. 20, the number of partial decoding process, the number N 1 becomes active site, the number of binding processing and The number of partial encoding processes is one. That is, the partial decoding process for the inactive site is reduced, and the number of combining processes and the number of partial encoding processes are reduced to one.
  • the calculation amount can be reduced to less than 15% with respect to a normal MCU.
  • the purpose of the MCU 305B is to combine the encoded bit stream 116 from all the sites other than the transmission destination site into a single combined bit stream 124 as described in the first embodiment. Therefore, as in the second embodiment, when the combined bitstream 124 is a combination of all the encoded bitstreams 116, each site 301 transmits the interference stream in the combined bitstream 124 (the encoding transmitted by itself). It is necessary to remove the component of the bit stream 116).
  • the MCU 305B generates a common combined parameter substream 122 including all parameter information. Further, each site 301 uses the common combined parameter substream 122 to mute the interference stream in the combined bitstream 124 in the parametric decoding process. Thereby, the telecommunications system 300B according to Embodiment 2 of the present invention realizes the removal of the interference stream in the parameter domain.
  • the common combined parameter substream 122 is constructed through the following steps.
  • the common combined parameter substream 122 is delivered to each site together with the common combined downmix substream 121.
  • the ultimate goal of parametric decoding at each site is to synthesize (ie, upmix) all audio inputs except for the input of the interfering stream from the site.
  • the end goal of parametric audio decoding can be achieved by customizing the drawing matrix. More specifically, in order to remove the interference object from its own site, some new auxiliary information 123 should be generated by the MCU 305B and transmitted to the receiving site.
  • the auxiliary information 123 is, for example, an index of an interference object.
  • the decoding device 200B provided at each site can set a zero gain to the interference object in the drawing matrix of the parametric audio coding. As a result, it is ideal if the interference object is muted.
  • the auxiliary information generation unit 507 sets the parameter corresponding to the parameter substream 113 transmitted by the active site among the parameters included in the single combined parameter substream 122.
  • the auxiliary information generation unit 507 uses the number of objects (N B ) and the start object index (N A +1) included in the common combined parameter substream 122 as the auxiliary information 123 together with the combined parameter substream 122 To the site 301B.
  • FIG. 21 is a block diagram showing a configuration of parametric decoding apparatus 200B provided in the site according to Embodiment 2 of the present invention. Elements similar to those in FIG. 2 are denoted by the same reference numerals, and redundant description is omitted.
  • a decoding device 200B illustrated in FIG. 21 further includes a parameter conversion unit 205 in addition to the configuration of the decoding device 200 illustrated in FIG.
  • the decoding apparatus 200B uses the auxiliary information 123 to remove the signal component corresponding to the encoded bit stream 116 transmitted by the site 301 including the decoding apparatus 200B from the signal components of the single combined bit stream 124.
  • the plurality of audio output signals 216 are generated.
  • the parameter conversion unit 205 is a drawing matrix having a size of N speaker ⁇ N total (N speaker represents the number of speakers in the site 301B) arbitrarily designed for subsequent parametric decoding.
  • N speaker represents the number of speakers in the site 301B
  • the matrix elements from column N A +1 to column N A + N B are set to zero. This means that the gain of all objects from N A +1 to N A + N B is zero in N speaker speakers.
  • the interference object at site 301B is muted and the remaining audio objects from other sites are played as desired.
  • the MCU 305B according to Embodiment 2 of the present invention can reduce the amount of calculation by generating only the single combined downmix substream 121 and the combined parameter substream 122.
  • the MCU 305B according to Embodiment 2 of the present invention generates auxiliary information 123 for each active site. Thereby, each site 301 can exclude the signal component of the coded bit stream 116 transmitted by the own site from the single combined downmix substream 121.
  • parameter substreams 113 from different sites may have different parameter representation criteria. This is because each site 301 can use different bit rates and express different object characteristics.
  • the MCU 305C according to the third embodiment of the present invention can support the combination of parameters expressed by different parameter expression standards.
  • the parameter expression standard is specifically a parameter tile dividing method (division interval).
  • two parameters substreams 113 for example, an example in which the parameter sub-stream Paras B from the site 301B, and a parameter sub-stream Paras C from the site 301C is input to MCU305.
  • the parameter substream Paras B is represented by a total of (P 1 ⁇ Q 1 ) parameter tiles for N 1 objects
  • the parameter substream Paras C is defined for N 2 objects. It is assumed that a total of (P 2 ⁇ Q 2 ) parameter tiles are used.
  • FIG. 23 is a block diagram showing a configuration of MCU 305C according to the third embodiment of the present invention.
  • symbol is attached
  • FIG. 24 is a block diagram showing the configuration of parameter substream combining section 506C according to Embodiment 3 of the present invention.
  • symbol is attached
  • FIG. 24 shows a case where the parameter substreams Paras B and Paras C are combined.
  • the parameter substream combining unit 506C illustrated in FIG. 24 further includes a parameter standard unifying unit 754 in addition to the configuration illustrated in FIG.
  • the parameter standard unifying unit 754 converts the parameter expression standards of the plurality of parameters 761 into a single unified parameter expression standard, A plurality of unified parameters 762 are generated.
  • the parameter combining unit 755 generates a combined parameter 763 by combining all the unified parameters 762.
  • the parameter standard unifying unit 754 integrates the parameter substreams having the hybrid parameter expression standard, the fine parameter band Q 1 out of the parameter bands Q 1 and Q 2 , and the parameter set P 1. And a fine parameter expression standard having a fine parameter set P 2 among P 2 can be adopted.
  • the parameter standard unifying unit 754 employs a fine standard using (P 2 ⁇ Q 1 ) tiles as a standard.
  • the parameter standard unifying unit 754 integrates the coarse parameter band Q 2 out of the parameter bands Q 1 and Q 2 , the parameter set P 1 and the parameter set P 1 in order to integrate the parameter substreams having the hybrid parameter expression standard. it can be employed parameter representation criteria moderate with a fine parameter set P 2 of P 2.
  • the parameter standard unification unit 754 employs a medium standard using (P 2 ⁇ Q 2 ) tiles as the uniform standard.
  • the parameter standard unifying unit 754 integrates the coarse parameter band Q 2 out of the parameter bands Q 1 and Q 2 , the parameter set P 1, A coarse parameter expression criterion having a coarse parameter set P 1 out of P 2 can be adopted.
  • the parameter standard unifying unit 754 employs a rough standard using (P 1 ⁇ Q 2 ) tiles as a standard.
  • parameter standard unifying unit 754 needs to expand or contract all the parameters of the standard different from the standard after the standardization until it corresponds to the standard after the standardization.
  • the parameter standard unifying unit 754 refines the parameter expression standard from the old large parameter tile standard to the new small tile standard, that is, from FIG. 26A to FIG. 26B. If the old tile (l, m) covers a new small tile from (l ', m') to (l '+ ⁇ l, m' + ⁇ m), the parameters defined for the old tile are replicated to the new tile. For example, the parameter standard unifying unit 754 calculates a new OLD using the following (formula 20).
  • parameters having other parameter types such as IOC, NRG and DMG can be refined similarly.
  • the parameter expression criterion is averaged from multiple old small tiles to one new large tile, ie from FIG. 26B to FIG. 26A.
  • different parameter types are averaged with different averaging methods.
  • the parameter standard unifying unit 754 can calculate a new NRG parameter on the tile (l, m) using the following (formula 21).
  • the parameter standard unifying unit 754 can calculate a new OLD parameter using the following (formula 22).
  • the parameter standard unifying unit 754 can calculate a new IOC parameter using the following (formula 23).
  • the parameter standard unifying unit 754 can calculate a new DMG parameter by using one of the following (Expression 24) and (Expression 25).
  • the parameter standard unifying unit 754 can calculate a new DMG parameter using the following (formula 25).
  • S (u, v) represents the area of tile (u, v).
  • the MCU 305C according to the third embodiment of the present invention can combine parameters expressed by different criteria.
  • FIG. 27 is a block diagram showing a configuration of MCU 305D according to the fourth embodiment of the present invention. Note that the same elements as those in FIG. 23 are denoted by the same reference numerals, and redundant description is omitted.
  • the MCU 305D illustrated in FIG. 27 further includes a parameter reference selection unit 502 in addition to the configuration illustrated in FIG. Also, the configuration of parameter substream combining unit 506D is different from parameter substream combining unit 506C shown in FIG.
  • the parameter criterion selection unit 502 selects one of a plurality of parameter expression criteria, and outputs a selection signal 511 indicating the selected parameter expression criterion to the parameter substream combining unit 506. For example, the parameter criterion selection unit 502 selects one of the three parameter expression standards (detailed parameter expression standard, medium parameter expression standard, and coarse parameter expression standard) shown in FIGS. 25A to 25C.
  • the parameter criterion selection unit 502 can use a criterion switching mechanism, for example, a current bit rate 510 that can be used for transmission from the MCU 305D to the plurality of sites 301, or a bit of the corresponding combined parameter substream 122. It can be decided according to the cost. This can be achieved through the following three steps.
  • the parameter criterion selection unit 502 sets a detailed parameter expression criterion. select. This is expressed as (Equation 26) below.
  • br represents the actual MCU delivery bit rate
  • b 0 represents a pre-defined high bit rate for combined stream delivery
  • b 1 represents a pre-defined low bit rate value
  • c is pre- Represents a defined threshold, eg, a real number between 1.5 and 2.0.
  • the parameter criterion selection unit 502 determines whether the bit rate condition allowed for MCU distribution is too strict or whether moderate bit consumption is reasonable. Testing. That is, the parameter criterion selection unit 502 determines whether or not the following (Expression 27) is satisfied.
  • the parameter criterion selection unit 502 selects a medium parameter expression criterion.
  • the parameter standard selection unit 502 selects a rough parameter expression standard as the unified parameter expression standard.
  • the parameter criterion selection unit 502 may select the parameter expression criterion based on both the bit rate and the bit cost, or may select the parameter expression criterion based only on one of the bit rate and the bit cost. .
  • FIG. 28 is a diagram illustrating a configuration of the parameter substream combining unit 506D. Elements similar to those in FIG. 24 are denoted by the same reference numerals, and redundant description is omitted. Further, in the remote conference system connecting four sites, it is assumed that there are three active sites 301A, 301B and 301D. FIG. 28 shows only a configuration for generating one combined parameter substream 122 to be transmitted to the site 301A.
  • the configuration of the parameter standard unifying unit 754D is different from that of the parameter standard unifying unit 754 shown in FIG.
  • the parameter standard unifying unit 754D generates a unified parameter 762 by converting a plurality of parameters 761 into the parameter expression standard indicated by the selection signal 511.
  • the MCU 305D according to Embodiment 4 of the present invention can efficiently integrate the parameter substreams 113 having different parameter expression criteria by considering the bit rate or the bit cost.
  • the downmix substream combining unit 504 or 504B described an example in which a plurality of downmix substreams 115 are combined in the MDCT domain (spectral domain).
  • multiple downmix substreams 115 may be combined in the time domain.
  • each processing unit included in the combining device, the encoding device, and the decoding device according to the first to fourth embodiments is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • circuits are not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • a processor such as a CPU executing a program.
  • the present invention may be the above program or a recording medium on which the above program is recorded.
  • the program can be distributed via a transmission medium such as the Internet.
  • the above-described coupling method using the coupling device is for illustrative purposes only, and the coupling method using the coupling device according to the present invention is not limited to the above.
  • the order in which the above steps are executed is for illustration in order to specifically describe the present invention, and may be in an order other than the above. Also, some of the above steps may be executed simultaneously (in parallel) with other steps.
  • the present invention can be applied to a coupling device. Further, the present invention can be applied to a remote conference system using the coupling device.

Abstract

 本発明に係る結合装置(305)は、複数の符号化ビットストリーム(116)のうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部(501)と、複数のダウンミックスサブストリーム(115)のうち、複数のアクティブ符号化ビットストリームに含まれる複数のダウンミックスサブストリーム(115)のみを結合することにより、結合ダウンミックスサブストリーム(121)を生成する第1結合部(504)と、複数のパラメータサブストリーム(113)のうち、複数のアクティブ符号化ビットストリームに含まれる複数のパラメータサブストリーム(113)のみを結合することにより、結合パラメータサブストリーム(122)を生成する第2結合部(506)とを備える。

Description

結合装置、遠隔通信システム及び結合方法
 本発明は、結合装置、遠隔通信システム及び結合方法に関し、特に、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含み、複数のサイトの各々から送信される複数の符号化ビットストリームを結合する結合装置に関する。
 近年、パラメトリック符号化技術は、その高い符号化効率及び音像再生という利点のため、オーディオ符号化分野において非常に積極的に発展している。伝統的な波形符号化方法と比較すると、パラメトリック符号化方法は、人間の聴覚システムの限界を広げるだけでなく、サウンドシーン特性を捉えることによってオーディオ入力信号をモデル化できる。当該技術分野において周知の技術には、パラメトリックステレオ及びMPEGサラウンドに関連する符号化方法等がある。
 典型的なパラメトリック符号化装置100を図1に示す。図1に示すパラメトリック符号化装置100は、T-F(時間-周波数)変換部101と、アナライザ102と、F-T(周波数-時間)変換部103と、ダウンミックスエンコーダ104とを備える。
 T-F変換部101は、時間信号である複数のオーディオ入力信号110を複数の周波数信号111に変換する。
 アナライザ102は、変換された周波数信号111を2つの方法で分析する。このアナライザ102は、ダウンミックス部102Aと、パラメータ抽出部102Bとを備える。
 ダウンミックス部102Aは、複数の周波数信号111からモノラル又はステレオの中間ダウンミックス信号112を生成する。パラメータ抽出部102Bは、複数の周波数信号111からパラメータを抽出し、抽出したパラメータを含むパラメータサブストリーム113を出力する。
 F-T変換部103は、中間ダウンミックス信号112を、時間ドメインに逆変換することにより、ダウンミックス時間信号114を生成する。
 ダウンミックスエンコーダ104は、ダウンミックス時間信号114を圧縮し、圧縮した信号を含むダウンミックスサブストリーム115を出力する。
 このように、当該パラメトリック符号化されたオーディオストリームは、ダウンミックスサブストリーム115とそれに対応するパラメータサブストリーム113とを含む。
 なお、実際には、この2つのサブストリームは、単一のオーディオストリームに多重化される。しかし、後述の説明を分かりやすくするために、エンコーダにおける多重化処理及びデコーダにおける逆多重化処理については説明を省略する。
 典型的なパラメトリック復号装置200を図2に示す。このパラメトリック復号装置200は、ダウンミックスデコーダ201と、T-F変換部202と、パラメータ合成部203と、F-T変換部204とを備える。
 ダウンミックスデコーダ201は、受信したダウンミックスサブストリーム115を、モノラル又はステレオの時間信号213に復号する。
 T-F変換部202は、時間信号213を、パラメトリック分析ドメインに再度変換することにより周波数信号214を生成する。
 パラメータ合成部203は、受信したパラメータサブストリーム113から導かれる情報に従って周波数信号214を合成することにより複数の変換信号215を生成する。
 F-T変換部204は、変換信号215を、時間ドメインへ逆変換することにより複数のオーディオ出力信号216を生成する。この複数のオーディオ出力信号216は、単一の信号入力としての同一の空間的音像を知覚的に表す。
 上述の符号化手順は、パラメトリックエンコーダの2つの特徴を示す。すなわちそれらは、送信チャネル数の削減から得られる高い符号化効率と、空間的に関連するパラメータの合成によって実現されるリアルなアコースティックシーンの再構築である。
 これら2つの特徴のため、パラメトリックエンコーダは、遠隔通信システムにおいて特に好んで採用される。そのようなシステムにおける各通信サイトは、複数話者からの複数のオーディオ入力信号110を入力とし、通常、遠隔地においてもリアルな臨場感が得られる効果を期待できる。
 図3は、4つの遠隔会議サイト301A~301Dを含む遠隔通信システム300を示す図である。なお、サイト301A~301Dを特に区別しない場合には、サイト301と記す。
 各サイト301(例えば、サイト301A)で、パラメトリックコーデックが採用される。当該サイト301は、取得したオーディオ入力信号110の全てをパラメトリック符号化することにより、符号化ビットストリーム116(ダウンミックスサブストリームDmx及びパラメータサブストリームParasを含む)を生成する。また、生成された符号化ビットストリーム116は、他の3つのサイト301B~301Dに送信される。
 一方、各サイト301は、受信した符号化ビットストリーム116をそれぞれパラメトリック復号する(当該符号化ビットストリーム116は、3つのダウンミックスサブストリームDmx、Dmx、及びDmxと、3つのパラメータサブストリームParas、Paras、及びParasとを含む)。
 しかしながら、一般的に、セットアップ要求を満たしつつ送信帯域を妥当な程度に低く保つためには、複数の送信サイトから複数の符号化ビットストリーム116を単一の受信サイトへの直接送信することは困難である。よって、各サイト301が確実に単一のオーディオストリームのみを受信し送信するために、結合装置(多地点接続装置:MCU305)が導入されて全サイト301A~301Dに接続されている。
 このMCU305は、各サイト301のために、演算上効率がよい方法で、受信した複数の符号化ビットストリーム116を単一の結合ビットストリーム124に結合する。理想的には、結合ビットストリーム124は、あたかも、他のサイト301からの複数の符号化ビットストリーム116の全てが、単一の仮想サイトにおいて符号化されたようなストリームに近似されるべきである。
 これを実現するため、図4に示すような単純な結合方法を設計可能である。図4は、MCU305の機能構成を示すブロック図である。図4に示すようにMCU305は、3つの独立したパラメトリックデコーダ401~403と、加算部404と、パラメトリックエンコーダ405とを備える。
 3つのパラメトリックデコーダ401~403は、各サイト301(例えば、サイト301A)のために、他のサイト301(サイト301B、301C及び301D)からの符号化ビットストリーム116の全てを復号することにより、時間ドメインの復号信号411B、411C及び411Dを生成する。
 加算部404は、生成された復号信号411B、411C及び411D加算することにより加算信号412を生成する。
 パラメトリックエンコーダ405は、加算信号412を再符号化することにより結合ビットストリーム124を生成する。
 このような単純なケースでさえも、N個のサイトを接続する遠隔通信システムにおいて、MCU305がN個の独立したタンデムパラメトリック復号及び符号化するプロセスを必要とすることが分かる。その結果、MCU305の演算量が多くなり、これにより信号伝送の遅延量が増加する。また、この演算量は、サイト数の増加にともなって線形的に増加する。よって、MCU305で、リアルタイム処理を要するアプリケーションを実行することが困難である。
 また、遅延時間が少なく演算量が少ないMCU305を設計するには、パラメトリック符号化の利点をさらに利用する必要がある。つまり、そのオーディオストリームフォーマットは、演算上効率的な方法で2つ以上のストリームを単一の信号ストリームに結合する機能を実現可能にする。より詳しくは、当該ダウンミックスサブストリームをダウンミックス符号化ドメインにおいて結合することが可能であり、パラメータサブストリームをパラメータ分析ドメインにおいて結合することが可能である。
 効率的なMCUの設計を扱う同様の方法が従来技術にもいくつかある。
 例えば、特許文献1は、複数のパラメトリック符号化オーディオ信号を効率的に結合する方法を提案している。しかしながら、特許文献1においては、簡潔さを追求するために、ダウンミックス結合とパラメータ結合とは独立している。さらに、当該ダウンミックス結合方法においては、非常におおざっぱな結合方法を用いた偏った方法が示されているだけである。また、当該パラメータ結合方法においては、異なるパラメータ分析ドメインを用いる際の課題への対処がなされていない。
米国特許出願公開第2008/0008323号明細書
S.-W.Huangら、 「A low complexity design of psycho-acoustic model for MPEG-2/4 advanced audio coding」、IEEE Trans. on consumer electronics, Nov. 2004 T-H Tsaiら、 「An MDCT-based psychoacou-stic model co-processor design for MPEG-2/4 AAC audio encoder」、Proc. Of the 7th Int. Conference on digital audio effects,2004 I.Dimkoviaeら、「Fast software implemen-tation of MPEG advanced audio encoder」、 14th Int.Conference on DSP,2002
 パラメトリックオーディオ符号化方法は、その高い符号化効率及びサウンドシーン再生という特徴のために、実際の通信システムにおいて好まれる。このシナリオを実現するためには、ある実務的な課題に取り組まなければならない。すなわち、パラメトリック符号化された複数のオーディオストリームを、いかにして低演算量で単一のストリームに結合するかという課題である。
 そこで、本発明は、演算量を低減できる結合装置を提供することを目的とする。
 上記目的を達成するために、本発明の一形態に係る結合装置は、複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合装置であって、前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備える。
 この構成によれば、本発明の一形態に係る結合装置は、非アクティブな符号化ビットストリームに対しては結合処理を行わない。このように、本発明の一形態に係る結合装置は、各サイトがアクティブであるか否かを考慮することによって演算量を低減できる。
 また、前記第1結合部は、前記複数のダウンミックスサブストリームのうち、前記アクティブ符号化ビットストリームに含まれる前記ダウンミックスサブストリームのみを復号することにより複数の復号ダウンミックスサブストリームを生成する復号部と、前記複数の復号ダウンミックスサブストリームを加算することにより1以上の中間結合ダウンミックスサブストリームを生成する加算部と、前記1以上の中間結合ダウンミックスサブストリームを符号化することにより1以上の前記結合ダウンミックスサブストリームを生成する符号化部とを備えてもよい。
 この構成によれば、本発明の一形態に係る結合装置は、非アクティブな符号化ビットストリームに対しては復号処理を行わない。これにより、本発明の一形態に係る結合装置は、演算量を低減できる。
 また、前記第1結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のダウンミックスサブストリームのうち、当該サイト以外のサイトから送信された複数のダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合ダウンミックスサブストリームを生成し、前記第2結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のパラメータサブストリームのうち、当該サイト以外のサイトから送信された複数のパラメータダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合パラメータサブストリームを生成し、前記送信部は、前記結合ダウンミックスサブストリーム及び前記結合パラメータサブストリームを含む結合ビットストリームを、対応するサイトへ送信し、前記複数の符号化ビットストリームのうち、前記アクティブ符号化ビットストリーム以外の符号化ビットストリームである非アクティブ符号化ビットストリームの数が2以上の場合、(1)前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のダウンミックスサブストリームを結合することにより共通結合ダウンミックスサブストリームを生成し、(2)前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のパラメータサブストリームを結合することにより共通結合パラメータサブストリームを生成し、(3)前記送信部は、前記共通結合ダウンミックスサブストリーム及び前記共通結合パラメータサブストリームを含む共通結合ビットストリームを、前記2以上の非アクティブ符号化ビットストリームの送信元のサイトへ送信してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、非アクティブなサイトが複数存在する場合、当該複数の非アクティブなサイトに対して、共通の結合ビットストリームを送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
 また、前記アクティブ符号化ビットストリームの数が2の場合、前記送信部は、前記2個のアクティブ符号化ビットストリームの一方である第1符号化ビットストリームをそのまま、前記2個のアクティブ符号化ビットストリームの他方である第2符号化ビットストリームの送信元のサイトへ送信し、前記第2符号化ビットストリームをそのまま前記第1符号化ビットストリームの送信元のサイトへ送信してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、アクティブサイトが2個の場合、当該アクティブサイトから送信された符号化ビットストリームをそのまま送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
 また、前記アクティブ符号化ビットストリームの数が1の場合、前記送信部は、前記アクティブ符号化ビットストリームをそのまま、当該アクティブ符号化ビットストリームの送信元のサイト以外のサイトへ送信してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、アクティブサイトが1個の場合、当該アクティブサイトから送信された符号化ビットストリームをそのまま送信する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量を低減できる。
 また、前記検出部は、前記複数のパラメータサブストリームに含まれる情報を用いて、前記アクティブ符号化ビットストリームを検出してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、パラメータストリームに含まれる情報を用いて、アクティブ符号化ビットストリームを容易に検出できる。
 また、前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームを結合することにより、前記単一の結合ダウンミックスサブストリームを生成し、前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームを結合することにより、前記単一の結合パラメータサブストリームを生成し、前記送信部は、前記単一の結合ダウンミックスサブストリーム及び前記単一の結合パラメータサブストリームとを含む単一の結合ビットストリームを、前記複数のサイトの全てへ送信してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、全サイトで共用される単一の結合ビットストリームのみを生成する。これにより、本発明の一形態に係る結合装置は、結合処理の回数を削減できるので、演算量をさらに低減できる。
 また、前記結合装置は、さらに、前記アクティブ符号化ビットストリームの送信元であるアクティブサイトの各々に対して、前記単一の結合ビットストリームの信号成分のうち、当該アクティブサイトにより送信された前記符号化ビットストリームに対応する信号成分を特定するための補助情報を生成する補助情報生成部を備え、前記送信部は、複数の前記補助情報の各々を、対応するアクティブサイトへ送信してもよい。
 この構成によれば、各サイトは、本発明の一形態に係る結合装置により送信された補助情報を用いて、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
 また、前記補助情報生成部は、前記アクティブサイトの各々に対して、前記単一の結合パラメータサブストリームに含まれるパラメータのうち、当該アクティブサイトにより送信された前記パラメータサブストリームに対応するパラメータを特定するための前記補助情報を生成してもよい。
 この構成によれば、各サイトは、本発明の一形態に係る結合装置により送信された補助情報を用いてパラメータを更新することにより、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
 また、前記第2結合部は、前記複数のパラメータサブストリームが、異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一部を備え、前記第2結合部は、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、複数のパラメータサブストリームが異なるパラメータ表現基準で表現されている場合でも、効率的に結合パラメータサブストリームを生成できる。
 また、前記結合装置は、さらに、当該結合装置から前記複数のサイトへの送信に用いることができる現在のビットレートに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備えてもよい。
 この構成によれば、本発明の一形態に係る結合装置は、ビットレートを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリームを効率的に統合できる。
 また、前記結合装置は、さらに、前記結合パラメータサブストリームのビット数を示すビットコストに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備えてもよい。
 この構成によれば、本発明の一形態に係る結合装置は、ビットコストを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリームを効率的に統合できる。
 また、前記ダウンミックスサブストリームは、前記複数のオーディオ入力信号がダウンミックスされた後、スペクトルドメインに変換されたうえで、符号化されており、前記復号部は、前記ダウンミックスサブストリームを復号することにより、前記スペクトルドメインの前記復号ダウンミックスサブストリームを生成し、前記加算部は、前記スペクトルドメインの前記複数の復号ダウンミックスサブストリームを加算することにより前記1以上の中間結合ダウンミックスサブストリームを生成してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、符号化ビットストリームを時間ドメインまで復号しない。つまり、本発明の一形態に係る結合装置は、時間-周波数変換及びその逆変換を行わない。これにより、本発明の一形態に係る結合装置は、演算量を低減できる。
 また、前記第1結合部は、さらに、前記複数の復号ダウンミックスサブストリームのスペクトルパワーが前記中間結合ダウンミックスサブストリームにおいて保存されるように、前記中間結合ダウンミックスサブストリームをスケーリングするスケーリング部を備え、前記符号化部は、前記スケーリング部によりスケーリングされた前記中間結合ダウンミックスサブストリームを符号化することにより前記結合ダウンミックスサブストリームを生成してもよい。
 この構成によれば、本発明の一形態に係る結合装置は、複数の復号ダウンミックスサブストリームのスペクトルパワーを中間結合ダウンミックスサブストリームにおいて保存できる。
 また、前記第2結合部は、複数のパラメータサブストリームを逆量子化することにより複数の逆量子化パラメータを生成する逆量子化部と、前記逆量子化パラメータを結合することにより結合パラメータを生成するパラメータ結合部と、前記結合パラメータに含まれるパラメータのうち一部のパラメータを更新することにより更新パラメータを生成するパラメータ更新部と、前記結合パラメータに含まれるパラメータのうち前記一部以外のパラメータと、前記更新パラメータとを量子化することにより、前記結合パラメータサブストリームを生成する量子化部とを備えてもよい。
 この構成によれば、本発明の一形態に係る結合装置は、パラメータのうちのいくつかを、パラメトリック分析ドメインにおいて結合するとともに更新する。これにより、本発明の一形態に係る結合装置では、パラメータはダウンミックスサブストリームの結合方法と合致する。
 また、本発明の一形態に係る遠隔通信システムは、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する前記結合装置とを含み、前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含む。
 この構成によれば、本発明の一形態に係る遠隔通信システムは、非アクティブな符号化ビットストリームに対しては結合処理を行わない。これにより、本発明の一形態に係る遠隔通信システムは、結合装置の演算量を低減できる。
 また、本発明の一形態に係る遠隔通信システムは、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する前記結合装置とを含み、前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含み、前記復号装置は、前記補助情報を用いて、前記単一の結合ビットストリームの信号成分のうち、当該復号装置を備えるサイトにより送信された前記符号化ビットストリームに対応する信号成分を除去した前記オーディオ出力信号を生成する。
 この構成によれば、本発明の一形態に係る遠隔通信システムでは、各サイトは、結合装置により送信された補助情報を用いて、自サイトが送信した符号化ビットストリームの信号成分を除外できる。
 なお、本発明は、このような結合装置及び遠隔通信システムとして実現できるだけでなく、結合装置に含まれる特徴的な手段をステップとする結合方法として実現したり、そのような特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD-ROM等の記録媒体及びインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
 さらに、本発明は、このような結合装置又は遠隔通信システムの機能の一部又は全てを実現する半導体集積回路(LSI)として実現できる。
 以上より、本発明は、少ない遅延と少ない演算量を実現しながら複数のパラメトリック符号化オーディオストリームを結合する結合装置を提供できる。この特徴は、複数のサイトを接続する遠隔会議システムのような複数サイト間通信システムをリアルタイムで利用するには非常に魅力的な特徴である。
図1は、一般的なパラメトリック符号化装置のブロック図である。 図2は、一般的なパラメトリック復号装置のブロック図である。 図3は、従来の遠隔通信システムの構成を示す図である。 図4は、従来のMCUのブロック図である。 図5は、本発明の実施の形態1に係る遠隔通信システムの構成を示す図である。 図6は、本発明の実施の形態1に係る、パラメトリックオーディオ符号化におけるパラメータ表現基準を示す図である。 図7は、本発明の実施の形態1に係るダウンミックスエンコーダのブロック図である。 図8は、本発明の実施の形態1に係るMCUのブロック図である。 図9は、本発明の実施の形態1に係るダウンミックスサブストリーム結合部のブロック図である。 図10は、本発明の実施の形態1に係るQMFドメインからMDCTドメインへの周波数マッピング方法を示す図である。 図11は、本発明の実施の形態1に係るパラメータサブストリーム結合部のブロック図である。 図12は、本発明の実施の形態1に係るMCUの処理量を示す図である。 図13は、本発明の実施の形態1に係るMCUによる結合処理のフローチャートである。 図14は、本発明の実施の形態1に係るMCUのアクティブサイトが1個の場合の動作を示す図である。 図15は、本発明の実施の形態1に係るMCUのアクティブサイトが2個の場合の動作を示す図である。 図16は、本発明の実施の形態1に係るMCUのアクティブサイトが3個の場合の動作を示す図である。 図17は、本発明の実施の形態2に係るMCUのブロック図である。 図18は、本発明の実施の形態2に係るMCUの動作を示す図である。 図19は、本発明の実施の形態2に係るMCUによる結合処理のフローチャートである。 図20は、本発明の実施の形態2に係るMCUの処理量を示す図である。 図21は、本発明の実施の形態2に係るパラメトリック復号装置のブロック図である。 図22Aは、本発明の実施の形態2に係る、パラメータ基準の一例を示す図である。 図22Bは、本発明の実施の形態2に係る、パラメータ基準の一例を示す図である。 図23は、本発明の実施の形態3に係るMCUのブロック図である。 図24は、本発明の実施の形態3に係るパラメータサブストリーム結合部のブロック図である。 図25Aは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図25Bは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図25Cは、本発明の実施の形態3に係る、統一パラメータ基準の一例を示す図である。 図26Aは、本発明の実施の形態3に係る、パラメータ基準を示す図である。 図26Bは、本発明の実施の形態3に係る、パラメータ基準を示す図である。 図27は、本発明の実施の形態4に係るMCUのブロック図である。 図28は、本発明の実施の形態4に係るパラメータサブストリーム結合部のブロック図である。
 以下に記載する実施の形態は、本発明に係るさまざまな進歩性の原理を単に例示するものである。ここに記載する詳細な内容を多様に変形しうることは当業者にとって自明であると解釈される。それゆえ、本発明の範囲は、ここに記載する具体的かつ説明的な内容によってではなく、請求の範囲によってのみ限定されるものである。
 本発明に係るMCUを用いた方法を、4つのサイトを接続する遠隔会議システム(遠隔通信システム)を例にとって以下に説明する。さらに多くのサイトを接続する遠隔会議システムをおこなう場合のMCUについては、このケースから簡単に一般化することができる。
 また、以下に記載する実施の形態においては、従来のパラメトリック符号化方法によって符号化されたオーディオストリームの結合について詳細に述べる。説明を簡単にするため、ダウンミックス信号は、AACエンコーダで符号化されるモノラル信号であるとする。なお、以下に示す複数の実施の形態は、他のパラメトリック符号化ビットストリームフォーマットをサポートするために一般化できる。
 (実施の形態1)
 図5は、本発明の実施の形態1に係る遠隔通信システム300Aの構成を示す図である。
 遠隔通信システム300Aは、例えば、遠隔会議システムである。この遠隔通信システム300Aは、4つのサイト301(301A~301D)と、多地点接続装置である結合装置(MCU305A)とを含む。また、4つのサイト301と、MCU305Aとは、ネットワークを介して接続されている。
 各サイト301は、それぞれ、図1に示す符号化装置100及び図2に示す復号装置200を備える。
 各符号化装置100は、当該サイト301に接続された複数のマイクにより取得された複数のオーディオ入力信号110をパラメトリック符号化することにより、ダウンミックスサブストリーム115と、パラメータサブストリーム113とを含む符号化ビットストリーム116を生成する。ダウンミックスサブストリーム115は、複数のオーディオ入力信号110がダウンミックスされた信号であり、パラメータサブストリーム113は、ダウンミックスサブストリーム115を複数のオーディオ入力信号に復元するための情報である。
 また、各符号化装置100は、生成した符号化ビットストリーム116をMCU305Aへ送信する。
 例えば、複数のオーディオ入力信号110の各々は、複数の話者の各々の音声に対応する。
 MCU305Aは、複数のサイト301により送信された複数の符号化ビットストリーム116を結合することにより結合ビットストリーム124を生成する。この結合ビットストリーム124は、結合ダウンミックスサブストリーム121と結合パラメータサブストリーム122とを含む。また、MCU305Aは、生成した結合ビットストリーム124を複数のサイト301へ送信する。
 具体的には、MCU305Aは、各サイト301に対して、当該サイト301以外のサイトから送信された符号化ビットストリーム116を結合することにより結合ビットストリーム124を生成し、生成した結合ビットストリーム124を当該サイト301へ送信する。
 例えば、MCU305Aは、サイト301Aに対して、サイト301B~301Dから送信された符号化ビットストリーム116を結合することにより、結合ビットストリーム124(結合ダウンミックスサブストリームDmxBCD及び結合パラメータサブストリームParasBCDを含む)を生成し、当該結合ビットストリーム124をサイト301Aへ送信する。また、MCU305Aは、サイト301Bに対しては、サイト301A、301C及び301Dから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxACD及び結合パラメータサブストリームParasACDを生成し、MCU305Aは、サイト301Cに対しては、サイト301A、301B及び301Dから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを生成し、MCU305Aは、サイト301Dに対しては、サイト301A、301B及び301Cから送信された符号化ビットストリーム116を結合することにより、結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを生成する。
 また、各サイト301の復号装置200は、MCU305Aから送信された結合ビットストリーム124を復号することにより、複数のオーディオ出力信号216を生成する。この複数のオーディオ出力信号216は、当該サイト301に接続された複数のスピーカにより出力される。
 図1に示される符号化装置100を以下詳細に説明する。
 図1に示す符号化装置100は、複数のオーディオ入力信号110をパラメトリック符号化することにより、モノラルのダウンミックスサブストリーム115とパラメータサブストリーム113とを含む符号化ビットストリーム116を生成する。
 この符号化装置100は、T-F(時間-周波数)変換部101と、アナライザ102と、F-T(周波数-時間)変換部103と、ダウンミックスエンコーダ104とを備える。
 T-F変換部101は、時間ドメインの複数のオーディオ入力信号110をハイブリッドドメインの複数の周波数信号111に変換する。
 例えば、サイト301Aから、N個のオーディオ入力信号110がパラメトリック符号化装置100に入力されるとする。T-F変換部101は、N個のオーディオ入力信号110を、効率のよい非均一周波数解像度を用いて、下記(式1)で表されるハイブリッドドメインのN個の周波数信号111に変換する。
Figure JPOXMLDOC01-appb-M000001
 ここで、nは、時間を示すタイムスロットインデックスである。また、kは、周波数を示すハイブリッドバンドインデックスである。
 アナライザ102は、変換された周波数信号111を2つの方法で分析する。このアナライザ102は、ダウンミックス部102Aと、パラメータ抽出部102Bとを備える。
 ダウンミックス部102Aは、複数の周波数信号111からモノラルの中間ダウンミックス信号112を生成する。
 パラメータ抽出部102Bは、複数の周波数信号111からオブジェクトパラメータを抽出する。また、パラメータ抽出部102Bは、抽出したオブジェクトパラメータを量子化することによりパラメータサブストリーム113を生成する。
 具体的には、パラメータ抽出部102Bは、オブジェクトパラメータを、聴覚心理モデルに基づいて決定した時間周波数解析の解像度で、時間-周波数関数として分析する。例えば、パラメータ抽出部102Bは、ハイブリッドドメイン全体を、図6に示されるように、P×Q個のパラメータタイルにグループ化する。また、人間の聴覚システムの周波数解像度に近似させるためには、全周波数帯域をカバーするパラメータバンドmの数Qは、2、3個のみ(低いビットレートを適用する場合)から28個まで(高品質処理をおこなう場合)の任意の数に設定できる。また、過渡的なふるまいを改善するために分離されたパラメータセットlは、固定時間セグメント(約20~30ms)をカバーする。
 また、ダウンミックス部102Aは、中間ダウンミックス信号112に含まれる、パラメータタイル(l,m)(l=1,・・・,P;m=1,・・・,Q)ごとのダウンミックス信号成分を、下記(式2)に従って生成する。
Figure JPOXMLDOC01-appb-M000002
 ここで、d(l,m)は、各オーディオ入力信号110(各周波数信号111)用に予め決定されたスケールファクタである。また、ファクタe(l,m)は、信号成分のパワーを調整するために用いられる。すなわち、中間ダウンミックス信号112における信号成分のパワーが、スケーリング済みの全周波数信号111のパワーと概ね同じになるように演算される。つまり、下記(式3)の関係が満たされるようにe(l,m)が決定される。
Figure JPOXMLDOC01-appb-M000003
 F-T変換部103は、中間ダウンミックス信号112の全信号成分を、時間ドメインに逆変換することにより、ダウンミックス時間信号114を生成する。
 ダウンミックスエンコーダ104は、ダウンミックス時間信号114を符号化することによりダウンミックスサブストリーム115を生成する。
 また、パラメータ抽出部102Bは、パラメータタイル(l,m)ごとに、オブジェクトパラメータを抽出する。典型的には、このオブジェクトパラメータはそれぞれ以下を含む。
 (a)オブジェクトレベル差(OLD):複数の周波数信号111間の、対応するパラメータタイルにおけるパワー比を示す。
 (b)絶対エネルギーパラメータ(NRG):複数の周波数信号111のうち、最大エネルギーを有する周波数信号111の絶対オブジェクトエネルギーを示す。
 (c)オブジェクト間の相互相関(IOC):複数の周波数信号間の、対応するパラメータタイルの類似度を示す。
 (d)ダウンミックスゲイン(DMG):対応するパラメータタイルをダウンミックス処理する際のゲインを示す。
 例えば、パラメータ抽出部102Bは、これらのパラメータを、下記(式5)~(式9)を用いて算出する。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 また、パラメータ抽出部102Bは、このオブジェクトパラメータを、他のヘッダ情報とともに量子化することによりパラメータサブストリーム113を生成する。
 同様の符号化手順に従って、他のサイト301(サイト301B、301C及び301D)も、ダウンミックスサブストリーム115とそれに対応するパラメータサブストリーム113とを生成する。
 次に、ダウンミックスエンコーダ104の構成を説明する。図7は、ダウンミックスエンコーダ104の構成を示すブロック図である。
 図7に示されるように、ダウンミックスエンコーダ104は、MDCT(Modified Discrete Cosine Transform)変換部601と、符号化部602と、制御部603とを備える。
 MDCT変換部601は、時間ドメインのダウンミックス時間信号114を、MDCTドメイン(スペクトルドメイン)のMDCT係数セット611に変換する。
 制御部603は、実際の時間に依存するマスク済み閾値(音響心理学モデル)の推定値を、音響心理学で既知のルールを用いて算出する。
 符号化部602は、量子化ノイズが制御部603により算出されたマスク済み閾値以下に保たれるように、MDCT係数セット611を効率的に量子化及び符号化する。これにより、符号化部602は、ダウンミックスサブストリーム115を生成する。
 なお、MCU305Aが、複数の符号化ビットストリーム116を結合するためには、各サイト301A~301Dが備える符号化装置100は、以下にあげる2つの追加要求を満たす必要がある。
 (1)NRGパラメータをMCU305Aへ送信する。
 (2)ダウンミックスサブストリーム115は、固定的なブロックタイプ(つまり、ロングブロックタイプ)を用いるAAC方式によって符号化する。
 なお、ダウンミックスサブストリーム115を符号化する方式としてAAC方式を用いる場合を述べたが、これに限ったものではなく、AAC-LD方式又はHE-AAC方式を用いてもよい。また、それ以外にも高効率なステレオ・モノラルの音声符号化方式であれば、CELP方式を用いてもよいが、MDCTなどの直行変換技術を用いた符号化方式を用いる場合の方が、本発明の効果がより高くなる。
 また、ここでは、直行変換技術の代表としてMDCT方式を用いた例を述べているが、もちろんこれに限ったものではなく、FFT方式又はMDST(Modified Discrete Sine Transform)方式を用いてもよい。
 次に、本発明の実施の形態1に係るMCU305Aの構成を説明する。
 図8は、MCU305Aの構成を示すブロック図である。
 図8に示すようにMCU305Aは、検出部501と、ダウンミックスサブストリーム結合部504(第1結合部)と、パラメータサブストリーム結合部506(第2結合部)と、送信部508とを備える。
 検出部501は、所定の時間間隔ごとに、当該時間間隔内において、複数のサイト301のうちアクティブサイト及び非アクティブサイトを検出する。ここで、アクティブサイトとは、有効な符号化ビットストリーム116を送信しているサイトであり、非アクティブサイトとは、アクティブサイト以外のサイトである。具体的には、アクティブサイトとは、現在音声が送信されているサイトであり、非アクティブサイトとは、現在音声が送信されていないか、所定の閾値以下の音声信号がやりとりされているか、あるいは音声信号をやりとりしていないと制御信号などで明示的に指定されているサイトである。例えば、アクティブサイトで取得される複数のオーディオ入力信号110の最大の音量は所定の閾値以上であり、非アクティブサイトで取得される複数のオーディオ入力信号110の全ての音量は所定の閾値未満である。
 例えば、検出部501は、複数のパラメータサブストリーム113に含まれる情報を用いて各サイト301がアクティブサイトであるか非アクティブサイトであるかを検出する。例えば、検出部501は、NRGパラメータが所定の値未満のパラメータサブストリーム113の送信元のサイトを非アクティブサイトと判定する。
 なお、検出部501は、その他のパラメータ、又はダウンミックスサブストリーム115を参照することにより、各サイト301がアクティブサイトであるか非アクティブサイトであるかを判定してもよい。例えば、検出部501は、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の最大の音量が所定の閾値以上である場合、当該符号化ビットストリーム116の送信元のサイト301をアクティブサイトであると判定し、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の最大の音量が所定の閾値未満である場合、当該符号化ビットストリーム116の送信元のサイト301を非アクティブサイトであると判定してもよい。また、検出部501は、対応する符号化ビットストリーム116に含まれる複数のオーディオ入力信号110の音量差又は音量の変化率に応じて、当該符号化ビットストリーム116の送信元のサイト301がアクティブサイトであるか非アクティブサイトであるかを判定してもよい。
 また、検出部501は、検出結果に基づき、アクティブサイトの数及び非アクティブサイトの数を算出する。
 ダウンミックスサブストリーム結合部504は、検出部501により検出されたアクティブサイトの数(非アクティブサイトの数)に応じて、複数のダウンミックスサブストリーム115を結合することにより、複数の結合ダウンミックスサブストリーム121を生成する。
 具体的には、非アクティブサイトが存在する場合、ダウンミックスサブストリーム結合部504は、アクティブサイトから送信されたダウンミックスサブストリーム115のみを結合することにより、結合ダウンミックスサブストリーム121を生成する。
 より具体的には、ダウンミックスサブストリーム結合部504は、複数のサイト301の各々に対して、複数のアクティブサイトから送信された複数のダウンミックスサブストリーム115のうち、当該サイト301以外のサイト301から送信された複数のダウンミックスサブストリーム115を結合することにより、当該サイト301に対応する結合ダウンミックスサブストリーム121を生成する。
 パラメータサブストリーム結合部506は、検出部501により検出されたアクティブサイトの数(非アクティブサイトの数)に応じて、複数のパラメータサブストリーム113を結合することにより、複数の結合パラメータサブストリーム122を生成する。
 具体的には、非アクティブサイトが存在する場合、パラメータサブストリーム結合部506は、アクティブサイトから送信されたパラメータサブストリーム113のみを結合することにより、結合パラメータサブストリーム122を生成する。
 さらに具体的には、パラメータサブストリーム結合部506は、複数のサイト301の各々に対して、複数のアクティブサイトから送信された複数のパラメータサブストリーム113のうち、当該サイト301以外のサイト301から送信された複数のパラメータサブストリーム113を結合することにより、当該サイト301に対応する結合パラメータサブストリーム122を生成する。
 送信部508は、結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を含む結合ビットストリーム124を、対応するサイト301へ送信する。
 以下、ダウンミックスサブストリーム結合部504の構成を説明する。
 図9は、ダウンミックスサブストリーム結合部504の構成を示すブロック図である。図9に示すようにダウンミックスサブストリーム結合部504は、復号部700と、加算部704と、スケーリング部705と、符号化部706とを備える。なお、図9では、サイト301Aへ送信する一つの結合ダウンミックスサブストリーム121を生成する場合を示している。
 復号部700は、複数のダウンミックスサブストリーム115(Dmx、Dmx及びDmx)を復号(逆符号化及び逆量子化)することによって、それぞれに対応する、MDCTドメイン(スペクトルドメイン)のMDCT係数セット710(coef、coef及びcoef)を生成する。ここで、逆符号化及び逆量子化とは、図7に示す符号化部602により行われたAAC符号化の逆演算である。また、復号部700は、ダウンミックスサブストリームDmx、Dmx及びDmxを逆符号化及び逆量子化する逆符号化部701~703を備える。
 なお、復号部700は、図9に示すように3つの逆符号化部701~703を備え、3つのダウンミックスサブストリーム115を当該3つの逆符号化部701~703により並列に処理してもよいし、1又は2の逆符号化部を備え、3つのダウンミックスサブストリーム115を時分割で処理してもよい。
 また、復号部700は、複数のダウンミックスサブストリーム115のうち、アクティブサイトから送信されたダウンミックスサブストリーム115のみを復号する。
 加算部704は、全MDCT係数セット710(復号ダウンミックスサブストリーム)を加算することにより結合MDCT係数セット711(中間結合ダウンミックスサブストリーム)を生成する。
 スケーリング部705は、加算された結合MDCT係数セット711をスケーリングすることにより結合MDCT係数セット712(coefBCD)を生成する。具体的には、スケーリング部705は、複数のMDCT係数セット710のスペクトルパワーが結合MDCT係数セット712において保存されるように、結合MDCT係数セット711をスケーリングする。
 ここで、本発明においては、結合ダウンミックスサブストリーム121は、異なる周波数範囲で異なる結合ゲインを伴って、全ダウンミックスサブストリーム115を線形結合した結果として得られる。
 注意を喚起すべき点は、ハイブリッドドメインは時間-周波数解像度を有するが、MDCTドメインは周波数解像度のみを有するということである。その結果、結合ゲインをMDCT係数セットに適用する場合、ハイブリッドドメインにおける値をMDCTドメインにおける値に近似する必要がある。
 本発明において適用される近似方法は、ハイブリッドドメインにおけるパラメータセットの分離を無視し、パラメータバンド分離方法をMDCTドメインに直接マッピングする方法である(なお、異なるパラメータバンドの分離方法を単一の統一パラメータバンド分離方法に統合する方法については、後述する)。言い換えると、図10に示されるように、パラメトリック符号化プロセスに用いられるパラメータバンドの数がQ(パラメータサブストリームに含まれるヘッダ情報)であるならば、MDCT周波数サブセットIの数は、(m=1,2,・・・,Q)であり、パラメータバンドmは、サブセットI、例えば(qm-,qm+)と同じ周波数範囲をカバーする。
 上記MDCTスペクトル分割に基づけば、分割ダウンミックス係数セットの結合ゲインは、異なる応用例に応じて、以下のように柔軟に設計することができる。
 実施の形態1では、複数の符号化オーディオオブジェクトの全てが重要である場合、信号成分の増幅も減衰も好ましくない。そのような場合には、結合ダウンミックス係数を均一化するための共通スケーリングファクタを適用するパワー保存技術を採用する。
 すなわち、結合MDCT係数セットcoefBCDは下記(式8)で表される。
Figure JPOXMLDOC01-appb-M000008
  ここで、iはMDCT係数インデックスであり、mはサブセットインデックスである。つまり、iは、下記(式9)となる。
Figure JPOXMLDOC01-appb-M000009
  また、上付き記号は、対応するパラメータのサイトインデックスを表す。
 また、結合ゲインは、スペクトルパワーを保存するように、下記(式10)を用いて算出される。
Figure JPOXMLDOC01-appb-M000010
  符号化部706は、結合MDCT係数セットcoefBCDを、量子化及び符号化することにより送信用の結合ダウンミックスサブストリーム121(DmxBCD)を生成する。
 なお、一般的に、知覚エンコーダ(例えば、AACエンコーダ)は、音響心理学の見地から知られるルールに従って、時間ドメインシーケンスにおける複素FFTから導かれる音響心理学マスカを用いて、信号間の無関連性について検証する。しかしながら、本発明に係るMCU305Aにおいては、演算量が少なく遅延時間が短いことという要求事項を満たすために、ダウンミックス結合は、MDCTドメインに限っておこなわれる。つまり、MDCTドメインから時間ドメインへのドメイン変換はどのようなものであっても認められない。
 当該課題は、いくつかの従来技術によって解決される。例えば、従来技術において、演算量が少なく高品質な、MDCTに基づく音響心理学モデルを求めることができる。主要なアイデアは、複素FFTスペクトルを実数のMDCTスペクトルに置き換えること、及び、スペクトラム・フラットネス測定によってトーン性を求めることである。
 従来技術については、例えば、上記非特許文献1~3に詳述されている。
 上記技術に従って、次のように符号化部706を設計することができる。まず、MDCTドメインにおいて、結合MDCT係数セット用の正確な音響心理学マスカを算出する。また、AACエンコーダと類似の方法で、残りの量子化及び符号化を実施する。出力結果は、結合ダウンミックスサブストリーム121として、サイト301Aのパラメトリック復号装置200へ送信される。同様の手順が、他の全サイトに対しても実行される。つまり、この手順は、N個のサイトを接続するシステム対して、N回実施される。
 次に、パラメータサブストリーム結合部506の構成を説明する。
 図11は、パラメータサブストリーム結合部506の構成を示すブロック図である。図11に示すようにダウンミックスサブストリーム結合部504は、逆量子化部750と、パラメータ結合部755と、パラメータ更新部756と、量子化部757とを備える。また、図11では、サイト301Aへ送信する一つの結合パラメータサブストリーム122を生成する構成のみを示している。
 逆量子化部750は、複数のパラメータサブストリーム113(Paras、Paras及びParas)を逆量子化することによって、それぞれ対応するパラメータ761に復元する。ここで、逆量子化とは、図1に示すパラメータ抽出部102Bにより行われた量子化の逆演算である。
 パラメータ結合部755は、全パラメータ761を結合することにより結合パラメータ763及び764を生成する。
 パラメータ更新部756は、結合パラメータ764を更新することにより更新パラメータ765を生成する。
 また、パラメータ結合部755は、全パラメータ761に対して同一の結合ゲインを用いて結合する。その結果として、このダウンミックス結合プロセスは付加的パラメータに影響されない。よって、アクティブサイトが複数である場合、パラメータ更新部756は、結合パラメータ764としてNRGパラメータ及びOLDパラメータのみを更新する。
 例えば、サイト301A、301B及び301Dがアクティブサイトである場合を例に説明を行う。この場合、パラメータサブストリーム結合部506は、サイト301B及び301Dから送信されたパラメータサブストリーム113を結合する。
 更新後のNRGパラメータは、サイトk(k=B,D)における最大NRGパラメータである。つまり、パラメータ更新部756は、下記(式11)を用いて更新後のNRGパラメータを算出する。
Figure JPOXMLDOC01-appb-M000011
  また、パラメータ更新部756は、更新後のOLDパラメータを、下記(式12)を用いて全オブジェクトについて算出する。なお、オブジェクトとは、複数のオーディオ入力信号110のそれぞれを示す。
Figure JPOXMLDOC01-appb-M000012
  ここで、オブジェクトインデックスiは、i=1,・・・N,N+1,・・・,N+Nである。
 量子化部757は、結合パラメータ763及び更新パラメータ765を量子化することにより結合パラメータサブストリーム122を生成する。
 なお、N個のサイトを接続する遠隔会議システムでは、通常、(効率的に送信されたビットストリームを有する)アクティブサイトはN個(N≦N)のみであり、残りの(N-N)個のサイトは非アクティブである。
 また、そのようなシステムにおいて、MCU305Aは、部分的復号処理をN回、結合処理をN回、部分的符号化処理をN回おこなう必要がある。しかしながら、この場合、それらの非アクティブサイトには同一の結合ダウンミックスサブストリーム121が配信される。つまり、非アクティブサイトが通常存在する場合には、当該結合方法は冗長性をともなうことを意味する。
 よって、本発明の実施の形態1に係るMCU305Aでは、結合及び符号化処理の前にアクティブサイトの数を考慮することにより、MCU305Aの演算量をさらに削減する。
 具体的には、送信部508は、アクティブサイトが1つ又は2つのみであるときは、受信した符号化ビットストリーム116を配信先サイトへ直接切り替え送信する。これにより、MCU305Aの演算量をさらに削減することができる。
 より詳細には、非アクティブサイトの数が2以上の場合、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトから送信された複数のダウンミックスサブストリーム115を結合することにより、全ての非アクティブサイトに対して共通の結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、全てのアクティブサイトから送信された複数のパラメータサブストリーム113を結合することにより、全ての非アクティブサイトに対して共通の結合パラメータサブストリーム122を生成する。また、送信部508は、上記共通の結合ダウンミックスサブストリーム121及び共通の結合パラメータサブストリーム122を含む共通の結合ビットストリーム124を、全ての非アクティブサイトへ送信する。
 また、アクティブサイトの数が2の場合、送信部508は、2個のアクティブサイトのうち一方から送信された符号化ビットストリーム116をそのまま、2個のアクティブサイトの他方へ送信する。また、送信部508は、2個のアクティブサイトのうち他方から送信された符号化ビットストリーム116をそのまま、2個のアクティブサイトの一方へ送信する。
 また、アクティブサイトの数が1の場合、送信部508は、アクティブサイトから送信された符号化ビットストリーム116をそのまま、全ての非アクティブサイトへ送信する。
 図12は、本発明に係るMCU305Aと、通常のMCUとの演算量を示す図である。また、図13は、MCU305Aによる結合処理のフローチャートである。
 図13に示すように、まず、検出部501は、アクティブサイトの数Nを検出する(S101)。
 次に、検出部501は、アクティブサイトの数Nが1であるか否かを判定する(S102)。
 アクティブサイトの数Nが1である場合(S102でYes)、送信部508は、アクティブサイトから送信された符号化ビットストリーム116をそのまま全ての非アクティブサイトへ送信する(S103)。つまり、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506は、結合処理を行わない。また、送信部508は、1個のアクティブサイトへは、符号化ビットストリーム116及び結合ビットストリーム124を送信しない。
 なお、アクティブサイトの数が0の場合も、送信部508は、符号化ビットストリーム116及び結合ビットストリーム124を送信しない。
 このように、アクティブサイトの数Nが1である場合(S102でYes)、図12に示すように、部分的復号処理の数、結合処理の数及び部分的符号化処理の数は、全てゼロとなる。
 図14は、4つのサイト301のうち1つのサイト301Aのみがアクティブな場合のMCU305Aの処理を模式的に示す図である。図14に示すように、サイト301Aのみがアクティブな場合、MCU305Aは、サイト301Aから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasを非アクティブなサイト301B、301C及び301Dへ送信する。
 一方、アクティブサイトの数Nが2以上の場合(S102でNo)、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトから送信された複数のダウンミックスサブストリーム115に部分的復号処理を行うことにより、複数のMDCT係数セット710を生成する(S104)。
 次に、検出部501は、アクティブサイトの数Nが2であるか否かを判定する(S105)。
 アクティブサイトの数Nが2の場合(S105でYes)、ダウンミックスサブストリーム結合部504は、当該2つのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより非アクティブサイト用の1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、当該2つのアクティブサイトに対応するパラメータサブストリーム113を結合することにより、非アクティブサイト用の1つの結合パラメータサブストリーム122を生成する(S106)。
 次に、送信部508は、ステップS106で生成した1つの結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を全ての非アクティブサイトへ送信する(S107)。
 また、送信部508は、2個のアクティブサイトのうち、一方のアクティブサイトから送信された符号化ビットストリーム116をそのまま他方のアクティブサイトへ送信し、他方のアクティブサイトから送信された符号化ビットストリーム116をそのまま一方のアクティブサイトへ送信する(S108)。
 このように、アクティブサイトの数Nが2である場合(S105でYes)、図12に示すように、部分的復号処理の数は、アクティブサイトの数Nと同じ2となり、結合処理の数及び部分的符号化処理の数は1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、結合処理の数及び部分的符号化処理の数が1回に削減される。
 図15は、4つのサイト301のうち2つのサイト301A及び301Bのみがアクティブな場合のMCU305Aの処理を模式的に示す図である。図15に示すように、サイト301A及びサイト301Bのみがアクティブな場合、MCU305Aは、サイト301Aから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasをアクティブなサイト301Bへ送信し、サイト301Bから送信されたダウンミックスサブストリームDmx及びパラメータサブストリームParasをアクティブなサイト301Aへ送信する。また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを生成し、当該結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを非アクティブなサイト301C及び301Dへ送信する。
 一方、アクティブサイトの数Nが3以上の場合(S105でNo)、ダウンミックスサブストリーム結合部504は、当該3以上のアクティブサイトに対応するMDCT係数セット710を全て結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより非アクティブサイト用の1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、当該3以上のアクティブサイトに対応するパラメータサブストリーム113を結合することにより、非アクティブサイト用の1つの結合パラメータサブストリーム122を生成する(S109)。
 次に、送信部508は、ステップS109で生成した1つの結合ダウンミックスサブストリーム121及び1つの結合パラメータサブストリームを全ての非アクティブサイトへ送信する(S110)。
 次に、MCU305Aは、3個以上のアクティブサイトのそれぞれへ送信する結合ビットストリーム124を生成する。
 まず、MCU305Aは、3個以上のアクティブサイトのうち1つのアクティブサイトを選択し、選択したアクティブサイトへ送信する結合ビットストリーム124を生成する。
 具体的には、ダウンミックスサブストリーム結合部504は、選択したアクティブサイト以外の全てのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504は、生成した結合MDCT係数セット712を符号化及び量子化することにより選択したアクティブサイト用の結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506は、選択したアクティブサイト以外の全てのアクティブサイトに対応するパラメータサブストリーム113を結合することにより選択したアクティブサイト用の結合パラメータサブストリーム122を生成する(S111)。
 次に、送信部508は、ステップS111で生成した結合ダウンミックスサブストリーム121及び結合パラメータサブストリームを、選択したアクティブサイトへ送信する(S112)。
 次に、ダウンミックスサブストリーム結合部504は、アクティブサイトの数Nから1を減算することにより、新たなアクティブサイトの数Nを算出し(S113)、新たなアクティブサイトの数Nが0より大きい場合(S114でYes)、次のアクティブサイトを選択し、選択したアクティブサイトに対してステップS111以降の処理を行う。つまり、ダウンミックスサブストリーム結合部504は、全てのアクティブサイトに対して、ステップS111~S114の処理を繰り返す。
 このように、非アクティブサイトが2個以上存在し、かつアクティブサイトの数Nが3以上である場合(S105でNo)、図12に示すように、部分的復号処理の数は、アクティブサイトの数Nとなり、結合処理の数及び部分的符号化処理の数はN+1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、非アクティブサイトへの送信用の結合処理の数及び部分的符号化処理の数が削減される。
 なお、非アクティブサイトが存在しない場合、つまり、アクティブサイトの数Nが全サイト数Nに等しい場合には、ステップS109及びS110の処理は行われない。つまり、図12に示すように、部分的復号処理の数、結合処理の数及び部分的符号化処理の数はN回となる。
 図16は、4つのサイト301のうち3つのサイト301A、301B及び301Cがアクティブな場合のMCU305Aの処理を模式的に示す図である。図16に示すように、サイト301A、301B及び301Cがアクティブな場合、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを生成し、当該結合ダウンミックスサブストリームDmxABC及び結合パラメータサブストリームParasABCを非アクティブなサイト301へ送信する。
 また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxBC及び結合パラメータサブストリームParasBCを生成し、当該結合ダウンミックスサブストリームDmxBC及び結合パラメータサブストリームParasBCをサイト301Aへ送信する。
 また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAC及び結合パラメータサブストリームParasACを生成し、当該結合ダウンミックスサブストリームDmxAC及び結合パラメータサブストリームParasACをサイト301Bへ送信する。
 また、MCU305Aは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABを生成し、当該結合ダウンミックスサブストリームDmxAB及び結合パラメータサブストリームParasABをサイト301Cへ送信する。
 以上のように、本発明の実施の形態1に係るMCU305Aは、アクティブサイトの数Nが1の場合には、復号処理、結合処理及び符号化処理を行わない。また、MCU305Aは、アクティブサイトの数Nが2の場合には、アクティブサイトへ送信する結合ビットストリーム124を生成しない。これにより、MCU305Aは、演算量を削減できる。
 また、本発明の実施の形態1に係るMCU305Aは、非アクティブサイトが存在する場合には、当該非アクティブサイトから送信された符号化ビットストリーム116を結合しない。具体的には、MCU305Aは、非アクティブサイトから送信されたダウンミックスサブストリーム115の復号処理を行わない。これにより、MCU305Aは、演算量を削減できる。
 また、本発明の実施の形態1に係るMCU305Aは、非アクティブサイトが複数存在する場合には、当該複数の非アクティブサイトに対して共通の結合ビットストリーム124を生成する。これにより、MCU305Aは、非アクティブサイトへの送信用の結合ビットストリーム124を生成する処理を省略できるので演算量を削減できる。
 このように、本発明の実施の形態1に係るMCU305Aは、アクティブサイトの数が1又は2という特別なケースを考慮に入れることにより、演算量を削減できる。
 例えば、本発明の実施の形態1の効果を説明するために、複数のサイト(例えば、8つ)を接続する遠隔会議システムの例をあげる。実際には、通信期間のほとんどにおいて、同時にアクティブ状態になる通信サイトはせいぜい3つ程度である場合が多い。この場合、本発明に係るMCU305Aを採用すれば、従来のMCUに対して演算量を15%~40%にまで削減することができる。
 (実施の形態2)
 MCU305Aが行う処理の中で、部分的符号化処理は、音響マスカの生成処理とダブルループの量子化処理とを含むため、演算量が最も多い。よって、実施の形態2に係るMCU305Bは、アクティブサイトが複数(N>2)である場合、部分的な符号化を1回のみおこなうことによって、演算量をさらに削減することができる。
 図17は、本発明の実施の形態2に係るMCU305Bの構成を示す図である。
 図17に示すMCU305Bは、実施の形態1に係るMCU305Aに対して、ダウンミックスサブストリーム結合部504B及びパラメータサブストリーム結合部506Bの処理が、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506の処理と異なる。なお、ダウンミックスサブストリーム結合部504B及びパラメータサブストリーム結合部506Bの基本構成は、ダウンミックスサブストリーム結合部504及びパラメータサブストリーム結合部506と同様である。
 また、MCU305Bは、MCU305Aの構成に加え、さらに、補助情報生成部507を備える。
 ダウンミックスサブストリーム結合部504Bは、アクティブサイトの数が2以上の場合、全てのアクティブサイトから送信されたダウンミックスサブストリーム115を結合することにより単一の結合ダウンミックスサブストリーム121を生成する。
 具体的には、ダウンミックスサブストリーム結合部504Bは、全てのアクティブサイトに関して部分的復号処理を行った後、復号された全MDCT係数セット710を単一の結合MDCT係数セット712に結合する。次に、ダウンミックスサブストリーム結合部504Bは、当該結合MDCT係数セット712を部分的に符号化することにより、全サイトに配信される単一の結合ダウンミックスサブストリーム121を生成する。
 パラメータサブストリーム結合部506Bは、アクティブサイトの数が2以上の場合、全てのアクティブサイトから送信されたパラメータサブストリーム113を結合することにより単一の結合パラメータサブストリーム122を生成する。
 補助情報生成部507は、アクティブサイトのそれぞれに対応する、複数の補助情報123を生成する。この補助情報123は、単一の結合ダウンミックスサブストリーム121及び単一の結合パラメータサブストリーム122の信号成分のうち、対応するアクティブサイトにより送信された符号化ビットストリーム116に対応する信号成分を特定するための情報である。なお、補助情報123に関しては後述する。
 送信部508は、上記単一の結合ダウンミックスサブストリーム121、及び単一の結合パラメータサブストリーム122を全てのサイト301へ送信する。また、送信部508は、複数の補助情報123の各々を、対応するアクティブサイトへ送信する。
 図18は、本発明の実施の形態2に係る遠隔通信システム300Bにおける、4つのサイト301のうち3つのサイト301A、301B及び301Dがアクティブな場合のMCU305Bの処理を模式的に示す図である。図18に示すように、サイト301A、301B及び301Dがアクティブな場合、MCU305Bは、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasと、ダウンミックスサブストリームDmx及びパラメータサブストリームParasとを結合することにより、結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを生成し、当該結合ダウンミックスサブストリームDmxABD及び結合パラメータサブストリームParasABDを全てのサイト301A~301Dへ送信する。
 また、MCU305Bは、アクティブサイトであるサイト301A、301B及び301Dへ、それぞれ補助情報123A、123B及び123Dを送信する。なお、補助情報123A、123B及び123Dは、それぞれ、サイト301A、301B及び301Dに対応する補助情報123である。
 図19は、本発明の実施の形態2に係るMCU305Bの結合処理のフローチャートである。また、図20は、本発明の実施の形態1及び実施の形態2に係るMCU305A及び305Bと、通常のMCUとの演算量を示す図である。
 なお、図19に示すステップS101~S104の処理は、図13と同様なので、説明は省略する。
 ステップS104の後、ダウンミックスサブストリーム結合部504Bは、全てのアクティブサイトに対応するMDCT係数セット710を結合及びスケーリングすることにより、結合MDCT係数セット712を生成する。次に、ダウンミックスサブストリーム結合部504Bは、生成した結合MDCT係数セット712を符号化及び量子化することにより1つの結合ダウンミックスサブストリーム121を生成する。また、パラメータサブストリーム結合部506Bは、全てのアクティブサイトから送信されたパラメータサブストリーム113を結合することにより、1つの結合パラメータサブストリーム122を生成する(S205)。
 次に、送信部508は、ステップS205で生成した1つの結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122を全てのサイトへ送信する(S206)。
 このように、アクティブサイトの数Nが2以上である場合(S102でNo)、図20に示すように、部分的復号処理の数は、アクティブサイトの数Nとなり、結合処理の数及び部分的符号化処理の数は1回となる。つまり、非アクティブサイトに対する部分的復号処理が削減されるとともに、結合処理の数及び部分的符号化処理の数が1回に削減される。
 本発明の実施の形態2の効果を説明するために、8つのサイトを接続する遠隔会議の例を再度参照する。この場合、実施の形態2に係るMCU305Bを採用すれば、通常のMCUに対して演算量を15%未満にまで削減することができる。
 以下、補助情報123について説明する。
 MCU305Bの目的は、実施の形態1で説明したように、送信先のサイト以外の他の全てのサイトからの符号化ビットストリーム116を単一の結合ビットストリーム124に結合することである。よって、実施の形態2のように、結合ビットストリーム124が全ての符号化ビットストリーム116を結合したものである場合、各サイト301は、結合ビットストリーム124内の干渉ストリーム(自身が送信した符号化ビットストリーム116の成分)を除去する必要がある。
 本発明においては、MCU305Bは、全パラメータ情報を含む共通の結合パラメータサブストリーム122を生成する。また、各サイト301は、当該共通の結合パラメータサブストリーム122を用いて、パラメトリック復号処理において、結合ビットストリーム124内の干渉ストリームをミュートする。これにより、本発明の実施の形態2に係る遠隔通信システム300Bは、干渉ストリームの除去をパラメータドメインで実現する。
 例えば、上述の4つのサイト301を接続する遠隔会議システムの例において、アクティブサイトはサイト301A、301B及び301Dの3つであるとする。共通の結合パラメータサブストリーム122は、次にあげるステップを通して構築される。
 (1)オブジェクト数は、サイト301A、301B及び301Dのオブジェクト数が合計されたものである。つまり、共通の結合パラメータサブストリーム122に含まれる全オブジェクトの数は、Ntotal=N+N+Nで表される。
 (2)結合されるパラメータは、A、B、Dの順に並べられる。例えば、オブジェクトレベル差は、i=1,・・・N,N+1,・・・,N+NB,+N+1,・・・,Ntotalであるとき、OLD(l,m)で表される。
 また、共通の結合パラメータサブストリーム122は、共通の結合ダウンミックスサブストリーム121とともに各サイトへ配信される。各サイトにおけるパラメトリック復号の最終目的は、自サイトからの干渉ストリームの入力を除く全オーディオ入力を合成(つまりアップミックス)することである。
 描画マトリックスをカスタマイズ設計することにより、パラメトリックオーディオ復号の最終目的を達成することができる。より詳しくは、自サイトからの干渉オブジェクトを除去するためには、MCU305Bで何らかの新たな補助情報123が生成され、当該受信サイトに送信されるべきである。この補助情報123とは、例えば、干渉オブジェクトのインデックスである。各サイトが備える復号装置200Bは、この補助情報123を用いることにより、パラメトリックオーディオ符号化の描画マトリックスにおいて、干渉オブジェクトにはゼロゲインを設定することができる。結果的に干渉オブジェクトがミュートされれば理想的である。
 具体的には、補助情報生成部507は、アクティブサイトの各々に対して、単一の結合パラメータサブストリーム122に含まれるパラメータのうち、当該アクティブサイトにより送信されたパラメータサブストリーム113に対応するパラメータを特定するための補助情報123を生成する。
 より詳細には、補助情報生成部507は、補助情報123として、共通の結合パラメータサブストリーム122に含まれるオブジェクト数(N)及び開始オブジェクトインデックス(N+1)を、結合パラメータサブストリーム122とともに、サイト301Bへ送信する。
 図21は、本発明の実施の形態2に係るサイトが備えるパラメトリック復号装置200Bの構成を示すブロック図である。なお、図2と同様の要素には同一の符号を付しており、重複する説明は省略する。図21に示す復号装置200Bは、図2に示す復号装置200の構成に加え、さらに、パラメータ変換部205を備える。
 この復号装置200Bは、補助情報123を用いて、単一の結合ビットストリーム124の信号成分のうち、当該復号装置200Bを備えるサイト301により送信された符号化ビットストリーム116に対応する信号成分を除去した複数のオーディオ出力信号216を生成する。
 具体的には、パラメータ変換部205は、後続のパラメトリック復号化のために、任意に設計されたNspeaker×Ntotal(Nspeakerはサイト301Bにおけるスピーカの数を表す)サイズの描画マトリックスのうち、補助情報123を用いてコラムN+1からコラムN+Nまでのマトリックス要素をゼロに設定する。このことは、N+1からN+Nの全オブジェクトのゲインがNspeaker個のスピーカにおいてゼロであることを意味する。その結果、サイト301Bにおける干渉オブジェクトはミュートされ、他のサイトからの残りのオーディオオブジェクトが要望に応じて再生される。
 以上より、本発明の実施の形態2に係るMCU305Bは、単一の結合ダウンミックスサブストリーム121及び結合パラメータサブストリーム122のみを生成することにより、演算量を低減できる。
 また、本発明の実施の形態2に係るMCU305Bは、アクティブサイトごとに補助情報123を生成する。これにより、各サイト301は、単一の結合ダウンミックスサブストリーム121から、自サイトが送信した符号化ビットストリーム116の信号成分を除外できる。
 (実施の形態3)
 パラメータの結合にあたり、実際には、異なるサイトからのパラメータサブストリーム113は異なるパラメータ表現基準を有していてもよい。なぜなら、各サイト301は、異なるビットレートを利用可能であり、異なるオブジェクト特性が表現されているからである。本発明に係る実施の形態3に係るMCU305Cは、異なるパラメータ表現基準で表現されたパラメータの結合をサポート可能である。
 なお、パラメータ表現基準とは、具体的には、パラメータタイルの分割方法(分割間隔)である。
 以下では、2つのパラメータサブストリーム113、例えば、サイト301BからのパラメータサブストリームParasと、サイト301CからのパラメータサブストリームParasとがMCU305に入力される例を説明する。ここで、パラメータサブストリームParasは、N個のオブジェクトに対し、合計で(P×Q)個のパラメータタイルで表され、パラメータサブストリームParasは、N個のオブジェクトに対し、合計で(P×Q)個のパラメータタイルで表されるとする。
 ここで一般的には、下記(式13)が成り立つ。
Figure JPOXMLDOC01-appb-M000013
  なぜなら、2つの独立した符号化サイトにおいては、信号特性及び利用可能なビットレートが異なるからである。ここでは、図22A及び図22Bに示すように、普遍性を失うことなく、下記(式14)が成り立つと仮定する。
Figure JPOXMLDOC01-appb-M000014
  図23は、本発明の実施の形態3に係るMCU305Cの構成を示すブロック図である。なお、図8と同様の要素には同一の符号を付しており、重複する説明は省略する。
 図23に示すMCU305Cは、パラメータサブストリーム結合部506Cの構成が、図8に示すパラメータサブストリーム結合部506と異なる。
 図24は、本発明の実施の形態3に係るパラメータサブストリーム結合部506Cの構成を示すブロック図である。なお、図11と同様の要素には同一の符号を付しており、重複する説明は省略する。また、図24では、上記パラメータサブストリームParasとParasとを結合する場合を示している。
 図24に示すパラメータサブストリーム結合部506Cは、図11に示す構成に加え、さらに、パラメータ基準統一部754を備える。
 このパラメータ基準統一部754は、複数のパラメータサブストリーム113が、異なるパラメータ表現基準で表現されている場合、複数のパラメータ761のパラメータ表現基準を、単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータ762を生成する。
 パラメータ結合部755は、全統一パラメータ762を結合することにより結合パラメータ763を生成する。
 本発明において、そのようなハイブリッドパラメータ表現基準を持つストリームの結合プロセスは、次に述べる2原則に従って設計される。
 (1)過渡的なふるまいを可能な限り捉えること。
 (2)ダウンミックス信号の品質を劣化させないために、結合パラメータサブストリーム122のビット消費を妥当な値に保つこと。
 第2原則を利用するためには、パラメータサブストリーム113のビット消費の概算値を導き出す必要がある。N個のオブジェクトに対するパラメータ表現を含むParasの例を検討する。この場合、OLDが(N×P×Q)個、NRGが(P×Q)個、IOCが(N×(N-1)×P×Q/2)個、DMGが(N×P×Q)個ある。パラメータタイプにかかわらず、同一のビットコストが当該パラメータに適用されるとする。結果的には、ヘッダ情報を無視することにより、Parasの総ビット消費bit_countを下記(式15)のように近似することができる。
Figure JPOXMLDOC01-appb-M000015
  ゆえに、ハイブリッドパラメータ表現基準に対し、総ビット消費bit_countorigは、下記(式16)で表される。
Figure JPOXMLDOC01-appb-M000016
  同様の方法で、以下のような異なる構成で表現される全パラメータに対し、考えうる3つのビットコストが下記(式17)~(式19)を用いて算出される。
 (1)最大ビット消費(精細なパラメータ表現基準)
Figure JPOXMLDOC01-appb-M000017
  (2)中程度のビット消費(パラメータセットを細分割する場合のみのパラメータ表現基準)
Figure JPOXMLDOC01-appb-M000018
 (3)最小ビット消費(粗いパラメータ表現基準)
Figure JPOXMLDOC01-appb-M000019
 上記に基づいて異なるパラメータ表現基準を統一するために、パラメータ表現基準間に知能スイッチを備える3つの統一方法を提案する。
 第1の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち精細なパラメータバンドQと、パラメータセットP及びPのうち精細なパラメータセットPとを有する精細なパラメータ表現基準を採用することができる。
 この例では、図25Aに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる精細な基準を統一基準として採用する。
 第2の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち粗いパラメータバンドQと、パラメータセットP及びPのうち精細なパラメータセットPを有する中程度のパラメータ表現基準を採用することができる。
 この例では、図25Bに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる中程度の基準を統一基準として採用する。
 第3の統一方法として、パラメータ基準統一部754は、ハイブリッドパラメータ表現基準を持つパラメータサブストリームを統合するために、パラメータバンドQ及びQのうち粗いパラメータバンドQと、パラメータセットP及びPのうち粗いパラメータセットPを有する粗いパラメータ表現基準を採用することができる。
 この例では、図25Cに示されるとおり、パラメータ基準統一部754は、(P×Q)個のタイルを用いる粗い基準を統一基準として採用する。
 当然のことながら、パラメータ基準統一部754は、統一後のものと異なる基準のパラメータの全てを、統一後の基準に相当するまで拡大又は縮小する必要がある。
 パラメータ基準統一部754は、パラメータを拡大する場合、パラメータ表現基準を、古い大きなパラメータタイル基準から新しい小さなタイル基準へと、つまり、図26Aから図26Bへと精細化する。古いタイル(l,m)が(l’,m’)から(l’+Δl,m’+Δm)の新しい小さいタイルをカバーする場合、古いタイルに定義されたパラメータは、新しいタイルへ複製される。例えば、パラメータ基準統一部754は、下記(式20)を用いて新しいOLDを算出する。
Figure JPOXMLDOC01-appb-M000020
 ここで、iはオブジェクトインデックスである。
 また、IOC、NRG及びDMG等、他のパラメータタイプを有するパラメータも同様に精細化することができる。
 一方、パラメータを縮小するには、パラメータ表現基準を、複数の古い小さなタイルから1つの新しい大きなタイルへ、つまり図26Bから図26Aへ平均化する。この場合、異なるパラメータタイプは異なる平均化方法で平均化される。
 例えば、パラメータ基準統一部754は、タイル(l,m)上の新しいNRGパラメータを、下記(式21)を用いて算出できる。
Figure JPOXMLDOC01-appb-M000021
  これに基づき、パラメータ基準統一部754は、新しいOLDパラメータを、下記(式22)を用いて算出できる。
Figure JPOXMLDOC01-appb-M000022
 
  また、パラメータ基準統一部754は、新しいIOCパラメータを、下記(式23)を用いて算出できる。
Figure JPOXMLDOC01-appb-M000023
 
 また、パラメータ基準統一部754は、新しいDMGパラメータを、下記(式24)及び(式25)のいずれかを用いて算出できる。
Figure JPOXMLDOC01-appb-M000024
  あるいは、加重平均を用いる場合は、パラメータ基準統一部754は、下記(式25)を用いて新しいDMGパラメータを算出できる。
Figure JPOXMLDOC01-appb-M000025
 
  ここで、S(u,v)は、タイル(u,v)の領域を表す。
 以上により、本発明の実施の形態3に係るMCU305Cは、異なる基準で表現されたパラメータを結合できる。
 (実施の形態4)
 本発明の実施の形態4では、実施の形態3に係るMCU305Cの変形例について説明する。本発明の実施の形態4に係るMCU305Dは、統一されたパラメータ表現基準を相互作用的に切り替える能力を有する。
 図27は、本発明の実施の形態4に係るMCU305Dの構成を示すブロック図である。なお、図23と同様の要素には同一の符号を付しており、重複する説明は省略する。
 図27に示すMCU305Dは、図23の構成に加え、さらに、パラメータ基準選択部502を備える。また、パラメータサブストリーム結合部506Dの構成が、図23に示すパラメータサブストリーム結合部506Cと異なる。
 パラメータ基準選択部502は、複数のパラメータ表現基準のうち一つを選択し、選択したパラメータ表現基準を示す選択信号511をパラメータサブストリーム結合部506へ出力する。例えば、パラメータ基準選択部502は、図25A~図25Cに示す3つのパラメータ表現基準(詳細なパラメータ表現基準、中程度のパラメータ表現基準及び粗いパラメータ表現基準)のうち一つを選択する。
 具体的には、パラメータ基準選択部502は、基準切り替えのメカニズムを、例えば、MCU305Dから複数のサイト301への送信に用いることができる現在のビットレート510、又は対応する結合パラメータサブストリーム122のビットコストに応じて決定することができる。これは、以下にあげる3つのステップを通して実現可能である。
 (1)まず、MCU305Dが結合ストリームを受信サイトに配信する際、高いビットレートを利用可能な場合、又は最大ビット消費が妥当である場合は、パラメータ基準選択部502は、詳細なパラメータ表現基準を選択する。これは、下記(式26)のように表される。
Figure JPOXMLDOC01-appb-M000026
 
  ここで、brは実際のMCU配信ビットレートを表し、bは結合ストリーム配信のために予め定義された高いビットレートを表し、bは予め定義された低いビットレート値を表し、cは予め定義された閾値、例えば、1.5~2.0の間の実数を表す。
 (2)上記条件が満たされなかった場合には、パラメータ基準選択部502は、MCU配信のために認められたビットレート条件が厳しすぎるかどうか、又は、中程度のビット消費が妥当かどうかをテストする。すなわち、パラメータ基準選択部502は、下記(式27)が満たされるか否かを判定する。
Figure JPOXMLDOC01-appb-M000027
  上記に当てはまる場合、パラメータ基準選択部502は、中程度のパラメータ表現基準を選択する。
 (3)上記条件のいずれも満たさない場合は、統一パラメータ表現基準は、パラメータ基準選択部502は、粗いパラメータ表現基準を選択する。
 なお、パラメータ基準選択部502は、ビットレート及びビットコストの両方に基づき、パラメータ表現基準を選択してもよいし、ビットレート及びビットコストの一方のみに基づき、パラメータ表現基準を選択してもよい。
 図28は、パラメータサブストリーム結合部506Dの構成を示す図である。なお、図24と同様の要素には同一の符号を付しており、重複する説明は省略する。また、4つのサイトを接続する遠隔会議システムにおいて、アクティブサイトがサイト301A、301B及び301Dの3つであるとする。また、図28は、サイト301Aへ送信する一つの結合パラメータサブストリーム122を生成する構成のみを示している。
 図28に示すパラメータサブストリーム結合部506Dでは、パラメータ基準統一部754Dの構成が、図24に示すパラメータ基準統一部754と異なる。
 パラメータ基準統一部754Dは、選択信号511で示されるパラメータ表現基準に、複数のパラメータ761を変換することにより統一パラメータ762を生成する。
 以上より、本発明の実施の形態4に係るMCU305Dは、ビットレート又はビットコストを考慮することによって、異なるパラメータ表現基準を持つパラメータサブストリーム113を効率的に統合できる。
 以上、本発明の実施の形態に係る結合装置及び遠隔通信システムについて説明したが、本発明は、この実施の形態に限定されるものではない。
 例えば、上記実施の形態1~4では、ダウンミックスサブストリーム結合部504又は504Bが、複数のダウンミックスサブストリーム115をMDCTドメイン(スペクトルドメイン)において結合する例を述べたが、図4に示す従来例のように、複数のダウンミックスサブストリーム115を時間ドメインで結合してもよい。
 また、上記実施の形態1~4に係る結合装置、符号化装置及び復号装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又はすべてを含むように1チップ化されてもよい。
 また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 また、本発明の実施の形態1~4に係る、結合装置、符号化装置及び復号装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
 さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
 また、上記実施の形態1~4に係る、遠隔通信システム、結合装置、符号化装置、復号装置、及びその変形例の機能のうち少なくとも一部を組み合わせてもよい。
 また、上記で用いた数字は、すべて本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。
 また、上記の結合装置による結合方法は、本発明を具体的に説明するために例示するためのものであり、本発明に係る結合装置による結合方法は、上記に限定されるものではない。例えば、上記のステップが実行される順序は、本発明を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 更に、本発明の主旨を逸脱しない限り、本実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本発明に含まれる。
 本発明は、結合装置に適用できる。また、本発明は、当該結合装置を用いる遠隔会議システムに適用できる。
 100 符号化装置
 101、202 T-F変換部
 102 アナライザ
 102A ダウンミックス部
 102B パラメータ抽出部
 103、204 F-T変換部
 104 ダウンミックスエンコーダ
 110 オーディオ入力信号
 111 周波数信号
 112 中間ダウンミックス信号
 113、Paras、Paras、Paras、Paras パラメータサブストリーム
 114 ダウンミックス時間信号
 115、Dmx、Dmx、Dmx、Dmx ダウンミックスサブストリーム
 116 符号化ビットストリーム
 121、DmxABC、DmxABD、DmxACD、DmxBCD、DmxAB、DmxAC、DmxBC 結合ダウンミックスサブストリーム
 122、ParasABC、ParasABD、ParasACD、ParasBCD、ParasAB、ParasAC、ParasBC 結合パラメータサブストリーム
 123、123A、123B、123D 補助情報
 124 結合ビットストリーム
 200、200B 復号装置
 201 ダウンミックスデコーダ
 203 パラメータ合成部
 205 パラメータ変換部
 213 時間信号
 214 周波数信号
 215 変換信号
 216 オーディオ出力信号
 300、300A、300B 遠隔通信システム
 301、301A、301B、301C、301D サイト
 305、305A、305B、305C、305D MCU
 401、402、403 パラメトリックデコーダ
 404、704 加算部
 405 パラメトリックエンコーダ
 411B、411C、411D 復号信号
 412 加算信号
 501 検出部
 502 パラメータ基準選択部
 504、504B ダウンミックスサブストリーム結合部
 506、506B、506C、506D パラメータサブストリーム結合部
 507 補助情報生成部
 508 送信部
 510 ビットレート
 511 選択信号
 601 MDCT変換部
 602 符号化部
 603 制御部
 611、710、coef、coef、coef MDCT係数セット
 700 復号部
 701、702、703 逆符号化部
 705 スケーリング部
 706 符号化部
 711、712、coefBCD 結合MDCT係数セット
 750 逆量子化部
 754、754D パラメータ基準統一部
 755 パラメータ結合部
 756 パラメータ更新部
 757 量子化部
 761 パラメータ
 762 統一パラメータ
 763、764 結合パラメータ
 765 更新パラメータ

Claims (20)

  1.  複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合装置であって、
     前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、
     複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、
     複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、
     前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備える
     結合装置。
  2.  前記第1結合部は、
     前記複数のダウンミックスサブストリームのうち、前記アクティブ符号化ビットストリームに含まれる前記ダウンミックスサブストリームのみを復号することにより複数の復号ダウンミックスサブストリームを生成する復号部と、
     前記複数の復号ダウンミックスサブストリームを加算することにより1以上の中間結合ダウンミックスサブストリームを生成する加算部と、
     前記1以上の中間結合ダウンミックスサブストリームを符号化することにより1以上の前記結合ダウンミックスサブストリームを生成する符号化部とを備える
     請求項1記載の結合装置。
  3.  前記第1結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のダウンミックスサブストリームのうち、当該サイト以外のサイトから送信された複数のダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合ダウンミックスサブストリームを生成し、
     前記第2結合部は、前記複数のサイトの各々に対して、前記複数のアクティブ符号化ビットストリームに含まれる前記複数のパラメータサブストリームのうち、当該サイト以外のサイトから送信された複数のパラメータダウンミックスサブトストリームを結合することにより、当該サイトに対応する結合パラメータサブストリームを生成し、
     前記送信部は、前記結合ダウンミックスサブストリーム及び前記結合パラメータサブストリームを含む結合ビットストリームを、対応するサイトへ送信し、
     前記複数の符号化ビットストリームのうち、前記アクティブ符号化ビットストリーム以外の符号化ビットストリームである非アクティブ符号化ビットストリームの数が2以上の場合、
     (1)前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のダウンミックスサブストリームを結合することにより共通結合ダウンミックスサブストリームを生成し、
     (2)前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数のパラメータサブストリームを結合することにより共通結合パラメータサブストリームを生成し、
     (3)前記送信部は、前記共通結合ダウンミックスサブストリーム及び前記共通結合パラメータサブストリームを含む共通結合ビットストリームを、前記2以上の非アクティブ符号化ビットストリームの送信元のサイトへ送信する
     請求項1又は2記載の結合装置。
  4.  前記アクティブ符号化ビットストリームの数が2の場合、前記送信部は、前記2個のアクティブ符号化ビットストリームの一方である第1符号化ビットストリームをそのまま、前記2個のアクティブ符号化ビットストリームの他方である第2符号化ビットストリームの送信元のサイトへ送信し、前記第2符号化ビットストリームをそのまま前記第1符号化ビットストリームの送信元のサイトへ送信する
     請求項1~3のいずれか1項に記載の結合装置。
  5.  前記アクティブ符号化ビットストリームの数が1の場合、前記送信部は、前記アクティブ符号化ビットストリームをそのまま、当該アクティブ符号化ビットストリームの送信元のサイト以外のサイトへ送信する
     請求項1~4のいずれか1項に記載の結合装置。
  6.  前記検出部は、前記複数のパラメータサブストリームに含まれる情報を用いて、前記アクティブ符号化ビットストリームを検出する
     請求項1~5のいずれか1項に記載の結合装置。
  7.  前記第1結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームを結合することにより、前記単一の結合ダウンミックスサブストリームを生成し、
     前記第2結合部は、全てのアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームを結合することにより、前記単一の結合パラメータサブストリームを生成し、
     前記送信部は、前記単一の結合ダウンミックスサブストリーム及び前記単一の結合パラメータサブストリームとを含む単一の結合ビットストリームを、前記複数のサイトの全てへ送信する
     請求項1又は2記載の結合装置。
  8.  前記結合装置は、さらに、
     前記アクティブ符号化ビットストリームの送信元であるアクティブサイトの各々に対して、前記単一の結合ビットストリームの信号成分のうち、当該アクティブサイトにより送信された前記符号化ビットストリームに対応する信号成分を特定するための補助情報を生成する補助情報生成部を備え、
     前記送信部は、複数の前記補助情報の各々を、対応するアクティブサイトへ送信する
     請求項7記載の結合装置。
  9.  前記補助情報生成部は、前記アクティブサイトの各々に対して、前記単一の結合パラメータサブストリームに含まれるパラメータのうち、当該アクティブサイトにより送信された前記パラメータサブストリームに対応するパラメータを特定するための前記補助情報を生成する
     請求項8記載の結合装置。
  10.  前記第2結合部は、
     前記複数のパラメータサブストリームが、異なるパラメータ表現基準で表現されている場合、当該複数のパラメータサブストリームのパラメータ表現基準を、単一の統一パラメータ表現基準に変換することにより、複数の統一パラメータを生成するパラメータ基準統一部を備え、
     前記第2結合部は、前記複数の統一パラメータを結合することにより、前記結合パラメータサブストリームを生成する
     請求項1~9のいずれか1項に記載の結合装置。
  11.  前記結合装置は、さらに、
     当該結合装置から前記複数のサイトへの送信に用いることができる現在のビットレートに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備える
     請求項10記載の結合装置。
  12.  前記結合装置は、さらに、
     前記結合パラメータサブストリームのビット数を示すビットコストに応じて、複数のパラメータ表現基準から前記統一パラメータ表現基準を選択するパラメータ基準選択部を備える
     請求項10記載の結合装置。
  13.  前記ダウンミックスサブストリームは、前記複数のオーディオ入力信号がダウンミックスされた後、スペクトルドメインに変換されたうえで、符号化されており、
     前記復号部は、前記ダウンミックスサブストリームを復号することにより、前記スペクトルドメインの前記復号ダウンミックスサブストリームを生成し、
     前記加算部は、前記スペクトルドメインの前記複数の復号ダウンミックスサブストリームを加算することにより前記1以上の中間結合ダウンミックスサブストリームを生成する
     請求項2記載の結合装置。
  14.  前記第1結合部は、さらに、
     前記複数の復号ダウンミックスサブストリームのスペクトルパワーが前記中間結合ダウンミックスサブストリームにおいて保存されるように、前記中間結合ダウンミックスサブストリームをスケーリングするスケーリング部を備え、
     前記符号化部は、前記スケーリング部によりスケーリングされた前記中間結合ダウンミックスサブストリームを符号化することにより前記結合ダウンミックスサブストリームを生成する
     請求項13記載の結合装置。
  15.  前記第2結合部は、
     複数のパラメータサブストリームを逆量子化することにより複数の逆量子化パラメータを生成する逆量子化部と、
     前記逆量子化パラメータを結合することにより結合パラメータを生成するパラメータ結合部と、
     前記結合パラメータに含まれるパラメータのうち一部のパラメータを更新することにより更新パラメータを生成するパラメータ更新部と、
     前記結合パラメータに含まれるパラメータのうち前記一部以外のパラメータと、前記更新パラメータとを量子化することにより、前記結合パラメータサブストリームを生成する量子化部とを備える
     請求項13記載の結合装置。
  16.  複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、
     前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する請求項1記載の結合装置とを含み、
     前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含む
     遠隔通信システム。
  17.  複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む符号化ビットストリームを生成する符号化装置を含む複数のサイトと、
     前記複数のサイトにより送信された複数の前記符号化ビットストリームを結合することにより結合ビットストリームを生成し、生成した前記結合ビットストリームを前記複数のサイトへ送信する請求項8記載の結合装置とを含み、
     前記複数のサイトの各々は、さらに、前記結合ビットストリームを復号することにより、オーディオ出力信号を生成する復号装置を含み、
     前記復号装置は、前記補助情報を用いて、前記単一の結合ビットストリームの信号成分のうち、当該復号装置を備えるサイトにより送信された前記符号化ビットストリームに対応する信号成分を除去した前記オーディオ出力信号を生成する
     遠隔通信システム。
  18.  複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する結合方法であって、
     前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出ステップと、
     複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合ステップと、
     複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合ステップと、
     前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信ステップとを含む
     結合方法。
  19.  請求項18記載の結合方法をコンピュータに実行させる
     プログラム。
  20.  複数のサイトの各々から送信された、複数のオーディオ入力信号がダウンミックスされたダウンミックスサブストリームと、当該ダウンミックスサブストリームを複数のオーディオ入力信号に復元するためのパラメータサブストリームとを含む複数の符号化ビットストリームを結合する集積回路であって、
     前記複数の符号化ビットストリームのうち、所定の時間内において、有効な符号化ビットストリームであるアクティブ符号化ビットストリームを検出する検出部と、
     複数の前記ダウンミックスサブストリームのうち、複数の前記アクティブ符号化ビットストリームに含まれる複数の前記ダウンミックスサブストリームのみを結合することにより、結合ダウンミックスサブストリームを生成する第1結合部と、
     複数の前記パラメータサブストリームのうち、前記複数のアクティブ符号化ビットストリームに含まれる複数の前記パラメータサブストリームのみを結合することにより、結合パラメータサブストリームを生成する第2結合部と、
     前記結合ダウンミックスサブストリームと前記結合パラメータサブストリームとを含む結合ビットストリームを前記複数のサイトへ送信する送信部とを備える
     集積回路。
PCT/JP2010/000666 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法 WO2010090019A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201080001336.XA CN102016982B (zh) 2009-02-04 2010-02-04 结合装置、远程通信系统以及结合方法
JP2010532766A JP5377505B2 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法
US12/935,797 US8504184B2 (en) 2009-02-04 2010-02-04 Combination device, telecommunication system, and combining method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009024304 2009-02-04
JP2009-024304 2009-10-16

Publications (1)

Publication Number Publication Date
WO2010090019A1 true WO2010090019A1 (ja) 2010-08-12

Family

ID=42541928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/000666 WO2010090019A1 (ja) 2009-02-04 2010-02-04 結合装置、遠隔通信システム及び結合方法

Country Status (4)

Country Link
US (1) US8504184B2 (ja)
JP (1) JP5377505B2 (ja)
CN (1) CN102016982B (ja)
WO (1) WO2010090019A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2633520A1 (en) * 2010-11-03 2013-09-04 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040086B1 (ko) * 2009-05-20 2011-06-09 전자부품연구원 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치
CN104428835B (zh) * 2012-07-09 2017-10-31 皇家飞利浦有限公司 音频信号的编码和解码
KR101660004B1 (ko) * 2012-08-03 2016-09-27 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법
AU2013301864B2 (en) 2012-08-10 2016-04-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
WO2014148848A2 (ko) * 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 오디오 신호 크기 제어 방법 및 장치
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US9883309B2 (en) 2014-09-25 2018-01-30 Dolby Laboratories Licensing Corporation Insertion of sound objects into a downmixed audio signal
JP7297740B2 (ja) * 2017-10-04 2023-06-26 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002501710A (ja) * 1997-06-02 2002-01-15 ノーテル・ネットワークス・リミテッド 表示のための媒体ストリームの動的選択
JP2007025375A (ja) * 2005-07-19 2007-02-01 Matsushita Electric Ind Co Ltd 中継装置、通信端末装置、信号復号化装置、信号処理方法、および信号処理プログラム
JP2007228506A (ja) * 2006-02-27 2007-09-06 Tokyo Univ Of Agriculture & Technology 多者間通話システム、多者間通話システムにおける通話端末および通話サーバ、多者間通話方法
WO2008039039A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2009001887A1 (ja) * 2007-06-27 2008-12-31 Nec Corporation 多地点接続装置、信号分析及び装置と、その方法及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000174909A (ja) * 1998-12-08 2000-06-23 Nec Corp 会議端末制御装置
US6934906B1 (en) * 1999-07-08 2005-08-23 At&T Corp. Methods and apparatus for integrating external applications into an MPEG-4 scene
US7505889B2 (en) * 2002-02-25 2009-03-17 Zoran Corporation Transcoding media system
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
FR2859495B1 (fr) * 2003-09-09 2005-10-07 Technip France Methode d'installation et de connexion d'une conduite sous-marine montante
US20060156531A1 (en) * 2005-01-14 2006-07-20 Dwileski Mark D Jr Pipe aligning device and method of use thereof
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
WO2006091139A1 (en) 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
CA2656867C (en) 2006-07-07 2013-01-08 Johannes Hilpert Apparatus and method for combining multiple parametrically coded audio sources
JP4582238B2 (ja) 2006-08-30 2010-11-17 日本電気株式会社 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム
CN101529898B (zh) 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
EP2437257B1 (en) * 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
WO2008100098A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8644970B2 (en) * 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JPWO2010005050A1 (ja) * 2008-07-11 2012-01-05 日本電気株式会社 信号分析装置、信号制御装置及びその方法と、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002501710A (ja) * 1997-06-02 2002-01-15 ノーテル・ネットワークス・リミテッド 表示のための媒体ストリームの動的選択
JP2007025375A (ja) * 2005-07-19 2007-02-01 Matsushita Electric Ind Co Ltd 中継装置、通信端末装置、信号復号化装置、信号処理方法、および信号処理プログラム
JP2007228506A (ja) * 2006-02-27 2007-09-06 Tokyo Univ Of Agriculture & Technology 多者間通話システム、多者間通話システムにおける通話端末および通話サーバ、多者間通話方法
WO2008039039A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2009001887A1 (ja) * 2007-06-27 2008-12-31 Nec Corporation 多地点接続装置、信号分析及び装置と、その方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2633520A1 (en) * 2010-11-03 2013-09-04 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
EP2633520A4 (en) * 2010-11-03 2013-09-04 Huawei Tech Co Ltd PARAMETRIC ENCODER FOR ENCODING A MULTI-CHANNEL AUDIO SIGNAL

Also Published As

Publication number Publication date
US8504184B2 (en) 2013-08-06
CN102016982A (zh) 2011-04-13
JP5377505B2 (ja) 2013-12-25
JPWO2010090019A1 (ja) 2012-08-09
US20110029113A1 (en) 2011-02-03
CN102016982B (zh) 2014-08-27

Similar Documents

Publication Publication Date Title
JP5377505B2 (ja) 結合装置、遠隔通信システム及び結合方法
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
CA2645912C (en) Methods and apparatuses for encoding and decoding object-based audio signals
AU2005328264B2 (en) Near-transparent or transparent multi-channel encoder/decoder scheme
Herre et al. MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
JP2013083986A (ja) 符号化装置
WO2006041137A1 (ja) 音響信号符号化装置及び音響信号復号装置
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
US20190096410A1 (en) Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding
JP2023541250A (ja) パラメトリックに符号化されたオーディオの処理
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec
KR20080033841A (ko) 믹스 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080001336.X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2010532766

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12935797

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10738360

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10738360

Country of ref document: EP

Kind code of ref document: A1