WO2006022124A1 - オーディオデコーダ、方法及びプログラム - Google Patents

オーディオデコーダ、方法及びプログラム Download PDF

Info

Publication number
WO2006022124A1
WO2006022124A1 PCT/JP2005/014128 JP2005014128W WO2006022124A1 WO 2006022124 A1 WO2006022124 A1 WO 2006022124A1 JP 2005014128 W JP2005014128 W JP 2005014128W WO 2006022124 A1 WO2006022124 A1 WO 2006022124A1
Authority
WO
WIPO (PCT)
Prior art keywords
phase
signal
cos
signals
phase difference
Prior art date
Application number
PCT/JP2005/014128
Other languages
English (en)
French (fr)
Inventor
Shuji Miyasaka
Yoshiaki Takagi
Naoya Tanaka
Mineo Tsushima
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006531500A priority Critical patent/JP4936894B2/ja
Priority to US11/660,094 priority patent/US8046217B2/en
Publication of WO2006022124A1 publication Critical patent/WO2006022124A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Definitions

  • Audio decoder method and program
  • the present invention relates to a decoder for decoding an original signal from auxiliary information representing a relation between the original signal and a downmixed signal of a plurality of original signals, and in particular, the auxiliary information is a phase difference between the original signals. And a technique for decoding the original signal with high accuracy when expressing the gain ratio.
  • Spatial Codec spatial coding
  • Patent Document 1 states that by coding the phase difference and gain ratio between channels, the sense of reality can be compressed and coded with a small amount of information.
  • phase difference between the channels and the force described to encode the gain ratio are based on such information and how to accurately
  • the specific decoding process of what can be separated into multi-channel signals with is disclosed! ,,,.
  • no technology is disclosed as to how to handle phase difference directional information.
  • the phase difference is quantized with binary quantization accuracy for each of a plurality of frequency bands. .
  • the directional information of the phase difference can not be expressed, and only the force phase difference of 0 ° and 180 ° can be expressed, which causes the sound quality to deteriorate.
  • the present invention has been made in view of such conventional problems, and it is desirable to quantize the downmix signal of the original signal and the inter-channel phase difference information and the gain ratio information for each frequency band.
  • the purpose is to provide an audio decoder that can reproduce the original signal accurately from the information obtained by
  • an audio decoder is characterized in that first code data representing a downmix signal obtained by downmixing two audio signals, and between the two audio signals.
  • the two audio signals are decoded by decoding a bit stream including second code data representing a gain ratio D and third code data representing a phase difference ⁇ ⁇ between the two audio signals.
  • the ratio of the lengths of adjacent two sides is equal to the gain ratio D represented by the second code data, and the depression angle thereof is the third code data.
  • the two audio signals are The relative phase difference between the signals compared to the prior art, which only reproduced the The reproduction accuracy is improved.
  • the determination means determines two complex numbers e- ja and e j / 3 or their conjugate complex numbers e ja and e- j /?
  • the separation means may be generated by multiplying the signal of the frequency domain generated by the conversion means by each complex number determined as the phase rotator.
  • bit stream further includes a fourth code representing phase polarity information S indicating which phase of the two audio signals is advanced
  • the separation means is configured to By multiplying one of the two complex numbers and their conjugate complex number in accordance with the phase polarity information S represented by the fourth encoded data by the signal in the frequency domain generated by the conversion means, The two separated signals may be generated.
  • the determining means may determine the angle ⁇ and the angle
  • the two phase rotators may be determined using cos ⁇ and cos ⁇ determined according to
  • the absolute phase of the two audio signals with respect to the downmix signal is geometrically strictly reproduced.
  • the phase rotator is expressed not by a direct phase rotation angle but by using a trigonometric function of the phase rotation angle, the latter configuration makes it possible to carry out a large amount of computation without performing arccos arithmetic.
  • the phase rotor can be determined efficiently.
  • the third encoded data represents the phase difference 2 between the two audio signals in a range of 0 ° force 180 ° using a value of co s ⁇ , and the determination means
  • the two phase rotators may be determined using the value of cos ⁇ represented by the third coded data.
  • the determination means has a table storing function values represented by at least using a trigonometric function of phase differences corresponding to each of the plurality of phase differences, and the third code i
  • the phase rotator may be determined by referring to the function value corresponding to the phase difference ⁇ represented by ⁇ ⁇ data. Further, even if the table stores the values of sin ⁇ and the values of cos ⁇ ⁇ corresponding to the plurality of phase differences ⁇ , preferably, the table preferably corresponds to the same phase difference ⁇ . It is good to store the value of sin ⁇ and the value of cos ⁇ in the adjacent area.
  • the table corresponds to each of a plurality of combinations of gain ratio D and phase difference ⁇ ,
  • the determination means stores the gain ratio D represented by the second encoded data and the phase difference .rho. Represented by the third code data.
  • the phase rotator may be determined by referring to the four function values corresponding to combinations from the table, and preferably, the above corresponding to combinations of the same gain ratio D and phase difference ⁇ .
  • Four function values may be stored in adjacent areas. Further, the table stores values obtained by further correcting the four function values in accordance with the gain ratio D. Good.
  • the separation means performs reverberation processing for adding reverberation to the signal in the frequency domain generated by the conversion means to generate a reverberation signal, and the signal in the frequency domain and the generated reverberation signal And the two separate signals may be generated by mixing at a rate determined according to the phase rotator.
  • the above-described signal phase can be strictly reproduced as a technology that separates the signal by adding reverberation corresponding to the phase rotor to generate a sense of auditory spread. Can be synergistic.
  • the bit stream includes, for each of a plurality of frequency bands, a second code data representing a gain ratio D in the frequency band of the two audio signals and a phase difference ⁇ .
  • the conversion means converts the downmix signal into a signal in the frequency domain for each of the frequency bands, and the determination means determines the length of the adjacent two sides for each of the frequency bands.
  • the depression angle is Two phase rotators are determined, each having a phase rotation angle obtained by dividing by diagonal lines ⁇ and j8, and the separation means determines the signal from the frequency domain for each of the frequency bands.
  • the two phase rotators and the gain ratio D are used to generate two separated signals, and the inverse transformation unit converts each of the two separated signals into a time domain signal for each frequency band.
  • the two audio signals may be reproduced from the time domain signal obtained by inverse transformation and obtained for all frequency bands.
  • the bit stream is lower than a predetermined frequency for at least one of the frequency bands, or only for the frequency band, the phase difference between the two audio signals is that frequency.
  • the fourth band includes a fourth code representing phase polarity information S indicative of ⁇ ⁇ or ⁇ ⁇ , and the determining means is configured to determine two or more signals for each of the frequency bands. Any one of prime numbers e- ja and e j / 3 or their conjugate complex numbers e ja and e- j /?
  • the separation means determines the fourth encoded data In the frequency band not including !, the frequency determined by multiplying each of the determined complex numbers by the frequency domain signal generated by the conversion means, and including the fourth encoded data, For the band, one of the two determined complex numbers and their conjugate complex numbers, which corresponds to the phase polarity information S represented by the fourth code data, is generated by the conversion means.
  • the two separated signals are generated by multiplying the signal of.
  • phase polarity information S is lower than a predetermined frequency in consideration of the fact that the sensitivity to the phase delay of the human auditory sense is relatively high, and decreases in the frequency band.
  • the present invention may also be implemented as an audio decoding method and computer program including steps of processing executed by the characteristic means included in the above-described audio decoder which can not only be implemented as an audio decoder. it can . It can also be realized as an integrated circuit device for audio decoding.
  • the downmix signal obtained by downmixing two audio signals, and the downmix signal from the gain ratio D and the phase difference ⁇ ⁇ between the two audio signals Since the absolute phase of the two audio signals relative to the reference is reproduced, the reproduction accuracy of the signal is improved as compared to the prior art in which only the relative phase difference ⁇ between the two audio signals is reproduced.
  • FIG. 1 is a diagram showing a configuration of an audio decoder according to a first embodiment.
  • FIG. 2 is a diagram briefly showing the configuration of a bit stream to be input to the present audio decoder.
  • FIG. 3 is a diagram showing how gain ratio information, phase difference information and phase polarity information are stored.
  • FIG. 4 is a diagram showing an example of the state of gain ratio D and phase difference ⁇ .
  • FIG. 5 is a view showing a concept for geometrically obtaining phase differences a and ⁇ .
  • FIG. 6 shows the relationship between the downmix signal and the original two-channel signal.
  • Fig. 6 (b) shows the downmix signal and the signal when phase rotation is completed.
  • FIG. 2 is a diagram showing the relationship between 1 and signal 2;
  • FIG. 7 is a diagram showing a configuration of an audio encoder according to a second embodiment.
  • FIG. 8 is a diagram showing a codebook for coding a phase difference.
  • FIG. 9 is a diagram showing a codebook for coding phase differences at low bit rates.
  • FIG. 10 is a diagram showing another way of thinking for geometrically obtaining the phase differences ⁇ and j8.
  • FIG. 11 is a diagram showing the configuration of an audio decoder in a modification.
  • FIG. 1 is a diagram showing the configuration of the audio decoder according to the first embodiment.
  • the audio decoder shown in FIG. 1 is a first encoded data representing a downmix signal obtained by downmixing two audio signals, and a second representing a gain ratio D between the two audio signals.
  • An audio decoder that decodes a bit stream including fourth code data and reproduces the two audio signals and includes a decoding unit 100, a conversion unit 101, a phase rotator determination unit 102, and separation.
  • a section 103 and an inverse transform section 104 are provided.
  • the decoding unit 100 decodes the first encoded data into the downmix signal, and the conversion unit 101 converts the downmix signal generated by the decoding unit 100 into a signal in the frequency domain. Do.
  • the phase rotator determination unit 102 determines that the adjacent two sides have the same ratio of the length of the adjacent two sides and the second adjacent side have a ratio of the length of the second side.
  • the gain ratio D represented by the encoded data of d is equal to a parallelogram, and the angles ex and ⁇ obtained by dividing the depression angle by a diagonal are respectively; Determine the phase rotator.
  • the separation unit 103 generates the two signals from the frequency domain signal generated by the conversion unit 101.
  • the two separated signals are separated using the phase rotator and the gain ratio D, and the inverse conversion unit 104 inversely converts the two separated signals into a time domain signal to reproduce the two audio signals. .
  • FIG. 2 is a diagram briefly showing the configuration of a bit stream to be input to the present audio decoder.
  • this bit stream the above-described first to fourth code data are stored for each frame provided at a predetermined time interval, and only two frames are illustrated in FIG.
  • the first encoded data storage area 200, the second encoded data storage area 201, the third encoded data storage area 202, and the fourth encoded data storage area 203 are shown in FIG.
  • the corresponding data for the first frame is stored, and the same configuration is repeated for the second frame.
  • the first code data storage area 200 for example, a signal obtained by compressing a signal obtained by down-mixing two channels of signals according to the MPEG standard AAC method is stored.
  • the process of vector combining signals is referred to as downmixing.
  • the second encoded data storage area 201 stores a value representing the gain ratio D between the audio signals of the two channels.
  • the third code data storage area 202 stores a value representing a phase difference ⁇ between the audio signals of the two channels.
  • a value representing phase polarity information S indicating whether the phase of the shifted signal advances among the audio signals of the two channels is stored.
  • the value representing the phase difference ⁇ does not necessarily have to be a direct sign of the phase difference ⁇ ⁇ ⁇ .
  • a value such as cos ⁇ The data may be In that case, the value of cos ⁇ ⁇ ⁇ can express the phase difference ° within the range of 0 ° force and 180 °.
  • FIG. 3 shows gain ratio information in each of the second code data storage area 201, the third coded data storage area 202, and the fourth code data storage area 203. It is a figure showing whether information, phase difference information, and phase polarity information are stored.
  • Figure 3 shows that the gain ratio information is stored every 22 frequency bands.
  • the gain ratio information of the eye is the gain ratio information of the band from 0.000000 kHz to 0.086133 kHz
  • the second gain ratio information is the gain ratio information of the band from 0.086133 kHz to 0.172266 kHz, and so on.
  • a total of 22 gain ratio information is stored.
  • it is shown that 19 pieces of phase difference information are stored.
  • 11 pieces of phase polarity information are stored.
  • the manner of division of the frequency band shown in FIG. 3 and the number of divisions are merely examples, and may be other values.
  • the number of pieces of phase difference information is less than the number of pieces of gain ratio information. 1S. This is a characteristic of hearing and generally has high sensitivity to gain ratio information. Depending on the bit rate of compression and the sampling frequency of the audio signal to be handled, the number of pieces of phase difference information and the number of pieces of gain ratio information may not be the same.
  • phase polarity information up to about 1 kHz is not stored for a band higher than the stored power. Also, if the compression bit rate is low, no phase polarity information is stored. This is due to the fact that the sensitivity of phase polarity information is not so high in auditory characteristics. Of course, when there is room in the compression bit rate, it is better to store it across the entire frequency band. Sound quality, needless to say.
  • the decoding unit 100 decodes the first code data stored in the bit stream. As shown in FIG. 2, in the first encoded data, one audio signal obtained by downmixing two channels of audio signals (simply called an original signal) is encoded with AAC. Since it is code data, the decoding unit 100 can be realized by an ordinary AAC decoder for decoding a bit stream of the AAC system.
  • transform section 101 transforms the signal decoded by decoding section 100 into a signal in the frequency domain.
  • the signal decoded by the decoding unit 100 is converted into a complex Fourier series in the frequency domain by Fourier transform.
  • the transformed complex Fourier series are divided into groups of 22 frequency bands as shown in the left column of FIG. [0046]
  • a QMF filter bank or the like with complex numbers that do not necessarily have to have the power exemplified by the Fourier transform as an example may be used!,.
  • phase rotator determination unit 102 determines a phase rotator having a phase rotation angle of a and ⁇ according to the second encoded data and the third encoded data.
  • the second encoded data is a value representing a gain ratio for each frequency band between the original signals of two channels, and as shown in FIG. 3, the gain ratio D is a bit for every 22 bands. Because they are stored in the stream, gain ratio information can be obtained by extracting them.
  • the third encoded data is a value representing the phase difference for each frequency band between the original signals of the two channels, and as shown in FIG. Since they are stored, phase difference information can be obtained by taking them out.
  • FIG. 4 shows an example of the state of the gain ratio D and the phase difference ⁇ ⁇ . Since the downmix signal is a signal in the direction of the diagonal of a parallelogram having two arrows representing the original signal on two sides, the phase difference ⁇ and j8 between the downmix signal and each original signal is shown in FIG. It appears in the place shown in.
  • FIG. 5 is a view showing a concept for geometrically obtaining the phase differences a and B.
  • Fig. 5 shows a triangle in which the parallelograms in Fig. 4 are separated by diagonal lines, but assuming that the diagonal length is X, the triangle has a side length of 1, D, X, and each side.
  • the angle formed is ⁇ , 180- ⁇ , ⁇ . If we use the cosine theorem of trigonometric functions here,
  • phase differences OC and ⁇ are obtained according to the equations 4 and 5, and the phase rotator corresponding thereto is obtained.
  • the above description is a description of mathematical support, and it goes without saying that the actual calculation process may be performed by approximate calculation, table lookup of trigonometric functions, or the like.
  • phase rotation angles a and ⁇ are obtained from the phase difference ⁇ and the gain ratio D between the original two audio signals
  • the phase rotation angles ⁇ and j8 are set such that the ratio of the adjacent two sides is D and the depression angle It suffices to obtain the angle obtained by dividing the above-mentioned recording angle of a parallelogram whose ⁇ is ⁇ by being divided by the diagonal of the parallelogram.
  • the phase rotator determination unit 102 determines the phase rotation angles oc and ⁇ .
  • the values of the phase rotation angles a and ⁇ themselves are not necessary. Since it is necessary to use a rotor e ja and e ⁇ j /? Or their conjugate complex numbers e ⁇ j “and e j /? It is necessary to obtain the following trigonometric function values, and conversely, it is sufficient to obtain the following trigonometric function values.
  • separation section 103 separates the signal in the frequency domain converted by conversion section 101 into two signals using the two phase rotation angles ⁇ and j 8 and the fourth code data. Do. This process will be described using FIGS. 6 (a) and (b).
  • FIG. 6 (a) is a diagram showing the relationship between the decoded signal, ie, the downmix signal obtained by downmixing the two channel original signals, and the original signal to be separated.
  • the long arrow in the center is the decoded signal, and in this embodiment the decoded signal is converted to a Fourier series, so this arrow is a vector on the complex plane.
  • this vector is C
  • a complex number e- ja is provided, and multiplication of a complex number represented by C * e- j "can be performed.
  • 8 minutes set the complex number e j /? And multiply the complex number represented by C * ej / ? .
  • a correction value of l / ((l + D 2 + 2D cos ⁇ ) is obtained for the vector of the signal 1 rotated a.
  • This correction is performed by setting the ratio of adjacent two sides to D And the length of the parallelogram diagonal where the included angle is ⁇ ⁇ ⁇ , based on ((1 + D 2 + 2 D cos ⁇ ). 5 ).
  • the gain of the first signal before encoding is 1, the gain of the second signal is D, and the phase difference is ⁇ , the energy of the signal before downmixing is (1 It is expressed as + D 2 ) ° 5 .
  • the energy of the signal after downmixing is expressed as (l + D 2 + 2D cos ⁇ ) ° ⁇ 5
  • the energy of the downmix signal is the energy of the original signal according to ⁇ ⁇ . It differs from D 2 5 .
  • the energy (l + D 2 + 2Dcos ⁇ ) ° ⁇ 5 downmix signal after is has the original No. signal, Ru energy (compared to 1 + D 2 5, the phase difference When the angle is 90 degrees, they match, but the phase difference becomes larger as it approaches 0 degrees, and becomes smaller as the phase difference approaches 180 degrees. That is, according to this expression, the in-phase signal power can be obtained down The energy of the mix signal becomes too large, and the energy of the downmix signal, which can also obtain the negative phase signal power, becomes too small.
  • the downmix signal can be separated into two signals of signal 1 and signal 2 as shown in FIG. 6 (a).
  • Demultiplexing section 103 performs the above processing for each frequency band shown in FIG. It should be noted here that in the high frequency band, the phase difference information power is used with respect to two pieces of gain ratio information. In this case, it is necessary to share one phase difference information, since there may be only one.
  • the phase rotations are set to ⁇ and + j8 (that is, it is assumed that the rotors e ⁇ j “and e j /? Are used). Depending on the relationship of delay, it may be + a and ⁇ .
  • the relationship between the decoded signal and the original signal to be separated is the parallel quadrilateral obtained by reversing the parallelogram shown in FIG.
  • the rotators to be used at this time are represented by shapes (not shown), and conjugate complex numbers e ja and e ⁇ j / 3 .
  • phase polarity information Information power for accurately processing the fourth coded data, that is, the phase polarity information, and as shown in FIG. 3, a bit stream for 11 lower frequency bands. It exists inside. This information can be used to accurately determine the direction of phase rotation.
  • the separating unit 103 separates the two signals using one of the two complex numbers determined by the phase rotator determination unit 102 and their complex conjugate numbers according to the phase polarity information.
  • the phase polarity information is not necessary in the frequency band in which human hearing is less sensitive to the phase polarity, and may not necessarily exist in all frequency bands.
  • the separation unit 103 separates the two signals using the two complex numbers determined by the phase rotator determination unit 102 as they are.
  • the audio decoder according to this modification In the case where the bit rate is low, it is possible to consider a modification in which there is no such phase polarity information.
  • One configuration example of the audio decoder according to such a modification is shown in FIG.
  • the fourth code data (S) is omitted compared to the audio decoder handling phase polarity information (see FIG. 1), and the separation unit 103a is used in all frequency bands. The difference is that the two complex numbers determined by the phase rotator determination unit 102 are used as they are to separate the two signals.
  • phase difference ⁇ is 180 degrees, ie, when the original two signals are in or out of phase with each other, the downmix signal is provided with Since it is clear that the state of the phase of the signal with the higher energy of the original two signals is shown, both ⁇ and j8 may be 0 degrees. In that case, the signal that was originally 180 degrees out of phase will be out of phase, but at least The phase of the stronger signal is kept accurate.
  • the inverse transform unit 104 inversely transforms the frequency domain signal generated by the separation unit 103 into a time domain signal.
  • the transform unit 101 is a unit for obtaining a complex Fourier series by Fourier transform, so the inverse transform unit 104 performs a process of inverse Fourier transform.
  • the first encoded data representing the downmix signal obtained by downmixing two audio signals, and the gain ratio D between the two audio signals An audio decoder for decoding a bit stream including second code data representing the second data and third code data representing the phase difference ⁇ between the two audio signals to reproduce the two audio signals
  • decoding means for decoding the first encoded data into the downmix signal, and conversion means for converting the downmix signal decoded by the decoding means into a signal in the frequency domain.
  • a ratio of the lengths of adjacent two sides is equal to the gain ratio D represented by the second code data, and the phase difference ⁇ of which the included angle is represented by the third code data.
  • Determining means for determining two phase rotators, wherein angles OC and ⁇ respectively obtained by dividing the depression angle by a diagonal line in the parallelogram, and the signals in the frequency domain, Using the phase rotator and the gain ratio D represented by the second code data, the decoded downmix signal is separated into two separated signals having phase differences ex and ⁇ , respectively.
  • Audio signal of two channels by providing the separating means and the inverse converting means for converting the two separated signals into time domain signals and reproducing the two audio signals.
  • the downmix signal is derived from the downmix signal obtained by downmixing the signal and the small amount of auxiliary information representing the phase difference between the audio signal and the gain ratio. Since the absolute phase of the two audio signals is reproduced, the reproduction accuracy of the signal is improved compared to the prior art in which only the relative phase difference ⁇ between the two audio signals is reproduced.
  • the channel signal is misdirected forward left and backward left, and further forward Even if you downmix the right and back right, and then downmix each of the downmixed signals, separate them left and right, and then separate each one back and forth, as described in this application.
  • the invention may be used.
  • the calculation of the triangular function is required in phase rotator determination section 102 and separation section 103, so that processing is difficult with an inexpensive processor or the like. It will be very easy to handle.
  • phase separation processing is performed when force separation section 103, which has obtained phase differences a and ⁇ from phase difference ⁇ and gain ratio D, performs phase rotation processing.
  • cos ⁇ sin ⁇ cos j 8 and sin ⁇ are decided by the phase difference information ⁇ and the gain ratio information D as desired, two-dimensional addressing is performed using the phase difference information ⁇ and the gain ratio information D. If tapes are provided, they can be retrieved only by the values necessary for the actual operation, cos a sin a cos
  • the process of separating signals is used.
  • the values of cos ⁇ , sin ⁇ , cos j 8 and sin ⁇ for phase rotation processing are multiplied by the length of the vector representing the signal to be separated, that is, the correction value for correcting the gain of the signal. Value.
  • the correction value is represented by a function value of F1 (D,)), F2 (D, ⁇ ), and the values of cos ⁇ , sin ⁇ , cos j8, and sin ⁇ themselves are not stored.
  • the function values F1 (D,,) and F2 (D, ⁇ ) are all function values of D and ⁇ , and the table considered here is also D and ⁇ Since the two-dimensional table is addressed by the above, the corrected value can be stored and referred to in this table without increasing the memory size and the complexity of the access procedure.
  • the method described in the present application determines the phase rotation angle strictly based on the geometric principle, the separation performance is superior to the above-described method. Therefore, the method of the present application is not used for the Enhanced AAC + SBR decoder. If implemented into the implementation, it is possible to obtain high quality sound without changing anything on the bitstream, ie, stream compatibility. In other words, the method described in the embodiment of the present application may be combined with the method using reverberation signals.
  • the gain ratio D is encoded as IIDOnter-channel Intensity Differences.
  • the phase difference ⁇ f is coded as IPD (Inter-channel Phase Differences) or ⁇ 3 ⁇ 4, ICC (Inter-channel Coherence).
  • IPD Inter-channel Phase Differences
  • ICC Inter-channel Coherence
  • the ICC has the above-mentioned features, so that the ICC shows the value of cos ⁇ with respect to the phase difference 2 between two optical signals. is there. If ICC is the value of cos ⁇ ⁇ ⁇ ⁇ itself, the value of cos ⁇ ⁇ ⁇ ⁇ in the above-described (Equation 6) to (Equation 11) etc. can be used by the ICC itself, so that the calculation is extremely simplified. It will be.
  • the sharpness of sound may be lost depending on the nature of the audio signal to be processed. For example, if the phase difference between the two original audio signals is wide, ie, close to the opposite phase, if the gain ratio between the two original audio signals is large, or if the amplitude changes rapidly, It is a strong case. In such a case, the reverberation signal may not be used.
  • a plurality of methods for generating a reverberation signal may be prepared, and which method to select may be switched according to the nature of the audio signal to be processed. At this time, since it is possible to determine the nature of the audio signal to be processed on the decoder side, by switching the control according to the result of the determination, It is also possible to obtain high sound quality with no change, that is, stream compatibility.
  • the decoder side does not need to make a decision, so the decoder is light in weight. Needless to say, it can be done.
  • a flag indicating how to generate the reverberation signal is provided, it is needless to say that the decoder can be implemented in a lightweight manner, since the determination on the decoder side is not necessary.
  • a method of preparing a plurality of methods for generating a reverberation signal for example, there is a method of preparing a plurality of phase shift amounts for generating a reverberation signal.
  • the method of calculating the separation angle described in the present application or the method of simply equally distributing may be switched as appropriate according to the nature of the signal. Also, a flag may be included on the bitstream for switching.
  • the method of calculating the separation angle may be fixed to any force method, and a flag as to whether or not to use a reverberation signal may be included in the bit stream.
  • FIG. 7 is a diagram showing the configuration of the audio encoder according to the second embodiment.
  • This audio encoder is an encoder that generates a bit stream that is favorably decoded by the audio decoder described in the first embodiment, and includes a first coder 700, a first converter 701, and a second encoder 701.
  • the first code section 700 codes a signal obtained by downmixing two audio signals.
  • the first conversion unit 701 converts the first audio signal into a frequency domain signal
  • the second conversion unit 702 converts the second audio signal into a frequency domain signal
  • the first division unit 703 divides the signal of the frequency domain generated by the first conversion unit 701 into a plurality of frequency bands
  • the second division unit 704 divides the signal in the first conversion unit.
  • the signal of the frequency domain generated at 701 is divided in a manner different from that of the first division unit 703.
  • the third division unit 705 divides the signal in the frequency domain generated by the second conversion unit 702 in the same manner as the first division unit 703, and the fourth division unit 706: The signal in the frequency domain generated by the second conversion unit 702 is divided in the same manner as the second division unit 704.
  • Second encoding section 707 is a gain for each frequency band corresponding to each of the frequency band signal divided by first division section 703 and the frequency band signal divided by third division section 705. Detect the ratio and sign.
  • Third encoding section 708 calculates the position of the frequency band signal divided by second division section 704 and the frequency band signal divided by fourth division section 706 for each corresponding frequency band. Information on the phase difference and which signal is leading is detected and coded.
  • a formatter 709 multiplexes the output signals of the first to third encoding units.
  • a signal obtained by downmixing two audio signals is encoded.
  • the method of downmixing may be simply adding, or adding and multiplying a predetermined coefficient.
  • any method can be used as long as vector synthesis of two audio signals can be obtained.
  • the coding method may be any method, but in this embodiment, encoding is performed by the MPEG standard AAC method.
  • the first converter 701 converts the first audio signal into a signal in the frequency domain.
  • an input audio signal is converted into a complex Fourier series using Fourier transform.
  • the second conversion unit 702 converts the second audio signal into a signal in the frequency domain.
  • the signal in the frequency domain generated by the first conversion unit 701 is divided into a plurality of frequency bands.
  • the division method is the table in Figure 3 Obey.
  • the left column shows the start frequency of the frequency band to be divided
  • the second column of left force shows how to actually divide the gain ratio information. That is, in the first division unit 703, the signals in the frequency domain generated by the first conversion unit 701 are shown according to the leftmost column and the second leftmost column of the table in FIG. 3, respectively. Divide by each frequency band.
  • the signal of the frequency domain generated by the first conversion unit 701 is divided into a plurality of frequency bands.
  • the division method follows the table in FIG. In FIG. 3, the left column shows the start frequency of the frequency band to be divided, and the third column from the left shows the actual division method regarding the phase difference information. That is, in the second division unit 704, the signals in the frequency domain generated by the first conversion unit 701 are divided into the leftmost column and the third leftmost column of the table in FIG. 3, respectively. Divide by the indicated frequency band.
  • the third division unit 705 divides the signal of the frequency domain generated by the second conversion unit 702 in the same manner as the first division unit 703.
  • the fourth division unit 706 divides the signal of the frequency domain generated by the second conversion unit 702 in the same manner as the second division unit 704.
  • the second code division unit 707 the corresponding frequencies of the frequency band signal divided by the first division unit 703 and the frequency band signal divided by the third division unit 705.
  • the gain ratio for each band is detected and coded.
  • the method of detecting the gain ratio is a method of comparing the maximum values of the amplitudes of the corresponding bands, a method of comparing the energy levels, and so on.
  • the ratio is encoded in the second code portion 707.
  • the third code division unit 708 transmits the corresponding frequency of the frequency band signal divided by the second division unit 704 and the frequency band signal divided by the fourth division unit 706.
  • the phase difference for each band and the information indicating which signal is leading in phase, that is, the phase polarity information is detected and encoded.
  • the method of detecting the phase difference may be detected by any method such as a method of obtaining the phase difference between the real value and the representative value of the Fourier series in the frequency band.
  • Phase difference and phase polarity information No. 708 is encoded by the
  • phase polarity information is detected and coded only for the 11 frequency bands from the low band side.
  • the aim is to take advantage of the fact that the auditory sensitivity of the phase polarity information becomes very duller in the high region, thereby reducing the bit rate without degrading the sound quality.
  • the output signals of the first to third encoding units are multiplexed to form a bitstream, which may be any method.
  • a first encoding unit that encodes a downmixed signal of two audio signals, and converting the first audio signal into a signal in the frequency domain First converting unit, a second converting unit converting the second audio signal into a signal in the frequency domain, and the frequency domain signals generated by the first converting unit for each of a plurality of frequency bands
  • a second division unit for dividing the signal of the frequency domain generated by the first conversion unit in a manner different from that of the first division unit;
  • a third division unit that divides the signal of the frequency domain generated by the second conversion unit in the same division manner as the first division unit, and the frequency domain generated by the second conversion unit
  • a fourth division unit for dividing the signal in the same manner as the second division unit;
  • a second code for detecting and coding gain ratios for each corresponding frequency band of the frequency band signal divided by the first division unit and the frequency band signal divided by the third division unit Phase difference between the frequency band signal divided by the second division unit and the frequency band signal divided by the fourth division unit for each frequency band and
  • FIG. 8 shows a codebook for coding the phase difference in the present embodiment.
  • FIG. 8 is a table for representing ⁇ as cos ⁇ and encoding the value of cos ⁇ .
  • the leftmost column in FIG. 8 shows the threshold for quantization. That is, FIG. 8 is a table for expressing the value of cos ⁇ by 11 levels of quantization values, for example, when the value of cos ⁇ is between -1.00 and-0.969, the same quantization level is used. It is designed to be encoded as
  • the frequency at which the quantization value of the phase difference becomes a quantization value near 90 ° is It is efficient to set the quantization accuracy around 90 ° roughly to make it high. This is because in the vicinity of a phase difference of 90 °, since the auditory sensitivity is a little diminished in the auditory deterioration due to quantization and the frequency of occurrence of the code with a short code length is increased, the average bit delay is increased. To lower the frequency at which the quantization value of the phase difference becomes a quantization value near 90 ° is It is efficient to set the quantization accuracy around 90 ° roughly to make it high. This is because in the vicinity of a phase difference of 90 °, since the auditory sensitivity is a little diminished in the auditory deterioration due to quantization and the frequency of occurrence of the code with a short code length is increased, the average bit delay is increased. To lower the
  • An audio decoder can be used for an audio reproduction device, and in particular, it can It is suitable for application to receiving equipment in music broadcasting service and music distribution service at bit rate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

 複数の原信号のダウンミックス信号と前記原信号間のゲイン比D及び位相差θを表す補助情報とを含むビットストリームから、前記原信号を再生するオーディオデコーダは、前記ビットストリームから前記ダウンミックス信号を抽出する復号化部100と、抽出されたダウンミックス信号を周波数領域の信号に変換する変換部101と、隣接2辺の長さの比が前記ゲイン比Dと等しくかつその夾角が前記位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する位相回転子決定部102と、前記周波数領域の信号を、前記復号化されたダウンミックス信号との位相差がそれぞれ角度α及びβである2つの分離信号に分離する分離部103と、前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換部104とを備える。

Description

明 細 書
オーディオデコーダ、方法及びプログラム
技術分野
[0001] 本発明は、複数の原信号をダウンミックスした信号と原信号間の関係を表す補助情 報から、原信号を復号化するデコーダに関し、特に、前記補助情報が原信号間の位 相差及びゲイン比を表す場合に、高 ヽ精度で原信号をデコードする技術に関する。 背景技術
[0002] 近年、 Spatial Codec (空間的符号化) t 、われる技術開発が行われて 、る。これは 、非常に少ない情報量でマルチチャネルの臨場感を圧縮'符号ィ匕することを目的とし ており、例えば、既にデジタルテレビの音声方式として広く用いられているマルチチヤ ネルコーデックである AAC方式力 5. lch当り 512kbpsや、 384kbpsというビットレート を要するのに対し、 Spatial Codecでは、 128kbpsや、 64kbps,さらに 48kbpsといった非 常に少な 、ビットレートでマルチチャネル信号を圧縮'符号ィ匕することを目指して 、る
[0003] そのための技術として、例えば特許文献 1に、チャンネル間の位相差及びゲイン比 を符号ィ匕することによって少ない情報量で臨場感を圧縮符号ィ匕できることが述べられ ている。
[0004] 一方、既に広く用いられている圧縮方式においても、チャンネル間の位相差や、ゲ イン比を符号ィ匕する技術を部分的に取り入れているものもある。例えば前述の AAC 方式(ISO/IEC13818- 7)では、 Intensity Stereoと言われる技術が搭載されている。 特許文献 1: UP2003/0236583A1号米国特許公報
発明の開示
発明が解決しょうとする課題
[0005] しカゝしながら、特許文献 1では、チャンネル間の位相差や、ゲイン比を符号化するこ とが述べられている力 そのような情報に基づいてどのようにすれば正確にもとのマ ルチチャネル信号に分離できるかの具体的なデコード処理過程は開示されて!、な 、 。特に位相差の方向性情報をどのように扱うかに関して技術が開示されていない。 [0006] また、 MPEG方式 AAC規格(ISO/IEC13818- 7)における、 Intensity Stereoでは、位 相差は、複数の周波数帯域ごとに、 2値の量子化精度で量子化されることが開示され ている。この場合、位相差の方向性情報は不要である力 位相差 0° と 180° しか表 現出来ないので、そのことに起因して音質劣化が発生する。
[0007] 本発明は、このような従来の問題点に鑑みてなされたものであって、原信号のダウ ンミックス信号と、チャンネル間位相差情報及びゲイン比情報とを、周波数帯域ごと に量子化して得られた情報から、原信号を正確に再生することのできるオーディオデ コーダを提供することを目的とする。
課題を解決するための手段
[0008] 上記の課題を解決するため、本発明のオーディオデコーダは、 2つのオーディオ信 号をダウンミックスして得られたダウンミックス信号を表す第 1の符号ィヒデータと、前記 2つのオーディオ信号間のゲイン比 Dを表す第 2の符号ィヒデータと、前記 2つのォー ディォ信号間の位相差 Θを表す第 3の符号ィ匕データとを含むビットストリームをデコ ードして、前記 2つのオーディオ信号を再生するオーディオデコーダであって、前記 第 1の符号ィヒデータを前記ダウンミックス信号に復号ィヒする復号ィヒ手段と、前記復号 化手段で生成されたダウンミックス信号を周波数領域の信号に変換する変換手段と 、隣接 2辺の長さの比が前記第 2の符号ィ匕データによって表されるゲイン比 Dと等しく 、かつその夾角が前記第 3の符号ィ匕データによって表される位相差 0と等しい平行 四辺形にぉ 、て、前記夾角が対角線で分割されて得られる角度 OC及び βをそれぞ れ位相回転角とする 2つの位相回転子を決定する決定手段と、前記周波数領域の 信号を、前記 2つの位相回転子と前記第 2の符号ィ匕データによって表されるゲイン比 Dとを用いて、前記復号化されたダウンミックス信号に対してそれぞれ位相差 ex及び βを持つ 2つの分離信号に分離する分離手段と、前記 2つの分離信号それぞれを時 間領域の信号に逆変換して、前記 2つのオーディオ信号を再生する逆変換手段とを 備える。
[0009] この構成によれば、角度 α及び j8で表されるところの、前記ダウンミックス信号を基 準とする前記 2つのオーディオ信号の絶対位相が再生されるので、前記 2つのォー ディォ信号間の相対的な位相差 Θのみを再生していた従来技術に比べて、信号の 再生精度が向上する。
[0010] また、前記決定手段は、 2つの複素数 e— ja及び ej /3、又はそれらの共役複素数 eja及 び e—j/?を前記 2つの位相回転子として決定し、前記分離手段は、前記位相回転子とし て決定されたそれぞれの複素数を、前記変換手段で生成された周波数領域の信号 に乗算することによって、前記 2つの分離信号を生成してもよい。
[0011] また、前記ビットストリームは、前記 2つのオーディオ信号のいずれの位相が進んで いるかを示す位相極性情報 Sを表す第 4符合をさらに含んでおり、前記分離手段は、 前記決定された 2つの複素数及びそれらの共役複素数のうちの前記第 4の符号化デ ータによって表される位相極性情報 Sに応じた一方を、前記変換手段で生成された 周波数領域の信号に乗算することによって、前記 2つの分離信号を生成するとしても よい。
[0012] この構成によれば、分離信号を得るための位相差の付与を、周波数領域で正確に 行うことができる。特に、位相極性情報 Sを導入することによって、 2つのオーディオ信 号の位相の進み遅れを正確に再生可能となる。
[0013] また、前記決定手段は、前記角度 α及び角度 |8を
a =arccos((l+Dcos Θ )/((l+D2+2Dcos Θ 5))
β =arccos((D+cos Θ )/((l+D2+2Dcos Θ 5))
に従って求め、求めた α及び j8を用いて前記 2つの位相回転子を決定してもよぐま た、前記角度 aに対応する cos a、及び角度 βに対応する cos βを
cos a =(l+Dcos Θ )/((l+D2+2Dcos Θ†5)
cos β =(D+cos Θ )/((l+D2+2Dcos Θ†5)
に従って求め、求めた cos α及び cos βを用いて前記 2つの位相回転子を決定しても よい。
[0014] この構成によれば、前記ダウンミックス信号に対する前記 2つのオーディオ信号の 絶対位相が、幾何学的に厳密に再生される。位相回転子は一般に、直接的な位相 回転角度ではなく、位相回転角度の三角関数を用 、て表されることを考慮すれば、 特に後者の構成によって、計算量の多い arccos演算を行うことなく効率的に、位相回 転子を決定することができる。 [0015] また、前記第 3の符号化データは、前記 2つのオーディオ信号間の位相差 Θを、 co s Θの値を用いて 0°力 180°の範囲で表し、前記決定手段は、前記第 3の符号化デ ータによって表される cos Θの値を用いて、前記 2つの位相回転子を決定するとしても よい。
[0016] この構成によれば、 cos Θを演算する必要がなくなるので、効率的に位相回転子を 決定することができる。
[0017] また、前記決定手段は、複数の位相差それぞれに対応して、位相差の三角関数を 少なくとも用いて表される関数値を記憶しているテーブルを有し、前記第 3の符号ィ匕 データによって表される位相差 Θに対応する関数値を前記テーブルカゝら参照して、 前記位相回転子を決定してもよい。また、前記テーブルは、前記複数の位相差 Θそ れぞれに対応する sin Θの値と cos Θの値とを記憶しているとしてもよぐ好ましくは、同 一の位相差 Θに対応する sin Θの値と cos Θの値とを、隣接する領域に記憶していると してちよい。
[0018] この構成によれば、前記位相回転子を決定する際に、少なくとも三角関数の処理を 削減できる。さらに、 sin Θの値と cos Θの値とを隣接する領域に記憶すれば、関数値 の効率的な取得が可能となる。
[0019] また、前記テーブルは、ゲイン比 Dと位相差 Θとの複数の組み合わせそれぞれに対 応して、
W(D, Θ ) = (l+Dcos Θ )/((l+D2+2Dcos Θ 5)
X(D, Θ ) = (Dsin Θ )/((l+D2+2Dcos θ 5)
Y(D, Θ ) = (D+cos Θ )/((l+D2+2Dcos Θ†5)
Z(D, Θ ) = sin Θ /((l+D2+2Dcos θ )。·5)
なる 4つの関数値を記憶しており、前記決定手段は、前記第 2の符号化データによつ て表されるゲイン比 Dと第 3の符号ィ匕データによって表される位相差 Θとの組み合わ せに対応する前記 4つの関数値を前記テーブルから参照して、前記位相回転子を決 定してもよぐ好ましくは、同一のゲイン比 Dと位相差 Θとの組み合わせに対応する前 記 4つの関数値を、隣接する領域に記憶しているとしてもよい。また、前記テーブル は、前記 4つの関数値をさらにゲイン比 Dに応じて補正した値を記憶して 、るとしても よい。
[0020] この構成によれば、位相回転子の決定に必要な値の全てを、テーブル引きによつ て得ることが可能となる。特に、同一の D及び Θの組み合わせに対応する前記 4つの 関数値を隣接する領域に記憶すれば、関数値の効率的な取得が可能となる。
[0021] また、前記分離手段は、前記変換手段で生成された周波数領域の信号に残響を 付加するリバーブ処理を施して残響信号を生成し、前記周波数領域の信号と前記生 成された残響信号とを前記位相回転子に応じて定められる割合で混合することによ つて、前記 2つの分離信号を生成してもよい。
[0022] この構成によれば、前記位相回転子に応じた量の残響を付加することで信号を分 離して聴覚上の拡がり感を生ぜしめる技術に、前述した信号位相を厳密に再現する 効果を相乗することが可能となる。
[0023] また、前記ビットストリームは、複数の周波数帯域のそれぞれにつ 、て、前記 2つの オーディオ信号のその周波数帯域におけるゲイン比 Dを表す第 2の符号ィ匕データと 位相差 Θを表す第 3の符号化データとを含んでおり、前記変換手段は、前記ダウンミ ックス信号を前記周波数帯域ごとに周波数領域の信号に変換し、前記決定手段は、 前記周波数帯域ごとに、隣接 2辺の長さの比が前記第 2の符号ィヒデータによって表 されるゲイン比 Dと等しぐかつその夾角が前記第 3の符号ィ匕データによって表される 位相差 0と等しい平行四辺形において、前記夾角が対角線で分割されて得られる 角度 α及び j8をそれぞれ位相回転角とする 2つの位相回転子を決定し、前記分離 手段は、前記周波数帯域ごとに、前記周波数領域の信号から前記決定された 2つの 位相回転子と前記ゲイン比 Dとを用いて、 2つの分離信号を生成し、前記逆変換手 段は、前記周波数帯域ごとに、前記 2つの分離信号それぞれを時間領域の信号に 逆変換し、全ての周波数帯域について得られた前記時間領域の信号から、前記 2つ のオーディオ信号を再生してもよ 、。
[0024] また、前記ビットストリームは、前記周波数帯域の少なくとも 1つについて、若しくは 予め定められた周波数よりも低 、周波数帯域にっ 、てのみ、前記 2つのオーディオ 信号の 、ずれの位相がその周波数帯域にぉ 、て進んで 、るかを示す位相極性情報 Sを表す第 4符合を含んでおり、前記決定手段は、前記周波数帯域ごとに、 2つの複 素数 e— ja及び ej /3、又はそれらの共役複素数 ej a及び e— j/?の何れかを前記 2つの位相 回転子として決定し、前記分離手段は、前記第 4の符号化データを含んでいない周 波数帯域につ!ヽては、前記決定されたそれぞれの複素数を前記変換手段で生成さ れた周波数領域の信号に乗算し、前記第 4の符号化データを含んで 、る周波数帯 域については、前記決定された 2つの複素数及びそれらの共役複素数のうちの前記 第 4の符号ィ匕データによって表される位相極性情報 Sに応じた一方を前記変換手段 で生成された周波数領域の信号に乗算することによって、前記 2つの分離信号を生 成してちょい。
[0025] この構成によれば、信号の周波数成分ごとに適切な位相回転による分離がなされ ることによって、全体としてより高い精度で、信号の再生が行われる。特に、人間の聴 覚の位相の進み遅れに関する感度が比較的高 、周波数帯域にお!、て低下すること を考慮すれば、前記位相極性情報 Sを、予め定められた周波数よりも低い周波数帯 域についてのみ取り扱うことで、聴覚上の音質を劣化させることなぐ符号化される情 報量を削減できる。
[0026] さらに、本発明は、オーディオデコーダとして実現することができるだけでなぐ上述 したオーディオデコーダが備える特徴的な手段によって実行される処理をステップと するオーディオデコード方法、及びコンピュータプログラムとして実現することもできる 。また、オーディオデコード用の集積回路装置として実現することもできる。
発明の効果
[0027] 本発明のオーディオデコーダによれば、 2つのオーディオ信号をダウンミックスして 得られたダウンミックス信号と、前記 2つのオーディオ信号間のゲイン比 Dと位相差 Θ とから、前記ダウンミックス信号を基準とする前記 2つのオーディオ信号の絶対位相を 再生するので、前記 2つのオーディオ信号間の相対的な位相差 Θのみを再生してい た従来技術に比べて、信号の再生精度が向上する。
図面の簡単な説明
[0028] [図 1]図 1は、本実施の形態 1におけるオーディオデコーダの構成を示す図である。
[図 2]図 2は、本オーディオデコーダの入力となるビットストリームの構成を簡単に示し た図である。 [図 3]図 3は、ゲイン比情報、位相差情報、位相極性情報がどのように格納される力を 示した図である。
[図 4]図 4は、ゲイン比 Dと位相差 Θとの様子の一例を示した図である。
[図 5]図 5は、位相差 aと βとを幾何学的に求めるための考え方を示した図である。
[図 6]図 6 (a)は、ダウンミックス信号ともとの 2チャンネル信号との関係を示した図であ り、図 6 (b)は、ダウンミックス信号と位相回転が完了した時点の信号 1及び信号 2との 関係を示した図である。
[図 7]図 7は、本実施の形態 2におけるオーディオエンコーダの構成を示す図である。 圆 8]図 8は、位相差を符号ィ匕するために符号帳を示した図である。
[図 9]図 9は、低ビットレート時に位相差を符号ィ匕するために符号帳を示した図である
[図 10]図 10は、位相差 αと j8とを幾何学的に求めるための別の考え方を示した図で ある。
[図 11]図 1 1は、変形例におけるオーディオデコーダの構成を示す図である。
符号の説明
100 復号化手段
101 変換手段
102 位相回転子決定手段
103 位相回転手段
104 逆変換手段
200 第 1の符号化データ格納領域
201 第 2の符号化データ格納領域
202 第 3の符号化データ格納領域
203 第 4の符号化データ格納領域
700 第 1の符号化手段
701 第 1の変換手段
702 第 2の変換手段
703 第 1の分割手段 704 第 2の分割手段
705 第 3の分割手段
706 第 4の分割手段
707 第 2の符号化手段
708 第 3の符号化手段
709 フォーマッタ
発明を実施するための最良の形態
[0030] (実施の形態 1)
以下本発明の実施の形態 1におけるオーディオデコーダについて図面を参照しな がら説明する。
[0031] 図 1は本実施の形態 1におけるオーディオデコーダの構成を示す図である。図 1に 示されるオーディオデコーダは、 2つのオーディオ信号をダウンミックスして得られた ダウンミックス信号を表す第 1の符号化データと、前記 2つのオーディオ信号間のゲイ ン比 Dを表す第 2の符号化データと、前記 2つのオーディオ信号間の位相差 Θを表 す第 3の符号化データと、前記 2つのオーディオ信号のうちいずれの信号の位相が 進んでいるかを示す位相極性情報 Sを表す第 4の符号ィ匕データとを含むビットストリ ームをデコードして、前記 2つのオーディオ信号を再生するオーディオデコーダであ り、復号化部 100、変換部 101、位相回転子決定部 102、分離部 103、及び逆変換 部 104から構成される。
[0032] 復号化部 100は、前記第 1の符号化データを前記ダウンミックス信号に復号化し、 変換部 101は、前記復号ィ匕部 100で生成されたダウンミックス信号を周波数領域の 信号に変換する。
[0033] 位相回転子決定部 102は、隣接 2辺の夾角が前記第 3の符号ィ匕データによって表 される位相差 Θと等しぐかつ前記隣接 2辺の長さの比が前記第 2の符号化データに よって表されるゲイン比 Dと等 、平行四辺形にお 、て、前記夾角が対角線で分割 されて得られる角度 ex及び βをそれぞ; m立相回転角とする 2つの位相回転子を決定 する。
[0034] 分離部 103は、前記変換部 101で生成された周波数領域の信号から、前記 2つの 位相回転子と前記ゲイン比 Dとを用いて 2つの分離信号を分離し、逆変換部 104は、 前記 2つの分離信号を時間領域の信号に逆変換して、前記 2つのオーディオ信号を 再生する。
[0035] 図 2は、本オーディオデコーダの入力となるビットストリームの構成を簡単に示した 図である。本ビットストリームには、所定の時間間隔で設けられるフレームごとに前述 した第 1から第 4の符号ィ匕データが格納されており、図 2では、 2フレーム分のみ例示 されている。
[0036] 図 2において、第 1の符号化データ格納領域 200、第 2の符号化データ格納領域 2 01、第 3の符号化データ格納領域 202、及び第 4の符号化データ格納領域 203にそ れぞれ第 1フレームに関する対応データが格納され、第 2フレームについても同様の 構成が繰り返される。
[0037] 前記第 1の符号ィ匕データ格納領域 200には、例えば 2チャンネルの信号をダウンミ ッタスした信号を MPEG規格 AAC方式で圧縮した信号が格納されているものとする 。ここでは、信号をベクトル合成する処理をダウンミックスと言う。
[0038] 前記第 2の符号化データ格納領域 201には、前記 2チャンネルのオーディオ信号 間のゲイン比 Dを表す値が格納されて 、る。前記第 3の符号ィ匕データ格納領域 202 には、前記 2チャンネルのオーディオ信号間の位相差 Θを表す値が格納されている 。前記第 4の符号ィ匕データ格納領域 203には、前記 2チャンネルのオーディオ信号 のうち 、ずれの信号の位相が進んで 、るかを示す位相極性情報 Sを表す値が格納さ れている。
[0039] ここで注意するべきことは、前記位相差 Θを表す値は、必ずしも位相差 Θを直接的 に符号ィ匕したものである必要はなぐ例えば、 cos Θのような値を符号ィ匕したデータで もよい。その場合、 cos Θの値によって前記位相差 Θを 0°力も 180°の範囲で表すこと ができる。
[0040] 図 3は、前記第 2の符号ィヒデータ格納領域 201、前記第 3の符号化データ格納領 域 202、前記第 4の符号ィ匕データ格納領域 203に、それぞれどのような、ゲイン比情 報、位相差情報、位相極性情報が格納されているかを示した図である。図 3は、ゲイ ン比情報は、 22個の周波数帯域ごと格納されていることを示している。例えば、 1個 目のゲイン比情報は、 0.000000kHzから 0.086133kHzまでの帯域のゲイン比情報であ り、 2個目のゲイン比情報は、 0.086133kHzから 0.172266kHzまでの帯域のゲイン比 情報である、というように、計 22個のゲイン比情報が格納されている。同様に位相差 情報は、 19個格納されていることが示されている。同様に位相極性情報は、 11個格 納されて ヽることが示されて 、る。勿論図 3で示されて ヽる周波数帯域の分割の仕方 や、分割の個数などは、一例に過ぎず、他の値であってもよい。
[0041] また、図 3では、位相差情報の個数がゲイン比情報の個数よりもすくなくなっている 1S これは聴覚の特性において、一般的にゲイン比情報に対する感度が高いのでこ のようにしている力 圧縮のビットレートや、扱うオーディオ信号のサンプリング周波数 によっては、位相差情報の個数とゲイン比情報の個数を同じにしてもょ 、ことは 、うま でもない。
[0042] また、位相極性情報にっ 、ても同様である。本実施の形態では、約 1kHz程度まで の位相極性情報は格納されている力 それ以上の帯域については、格納していない 。また、圧縮のビットレートが低い場合は、位相極性情報は 1つも格納しない。これは 、聴覚の特性において、位相極性情報感度がそれほど高くないということに起因する 。勿論圧縮のビットレートに余裕があるときは、全帯域に渡って格納する方力 音質 的によりよ 、ことは言うまでもな 、。
[0043] 以上のように構成されたオーディオデコーダの動作について以下説明する。
[0044] まず、復号ィ匕部 100は、前記ビットストリームに格納されている前記第 1の符号ィ匕デ 一タを復号化する。図 2に示すように、当該第 1の符号化データは、 2チャンネルのォ 一ディォ信号 (簡略に原信号と呼ぶ)をダウンミックスして得られた一つのオーディオ 信号を AACで符号ィ匕した符号ィ匕データであるので、復号ィ匕部 100は、 AAC方式の ビットストリームをデコードする通常の AACデコーダで実現できる。
[0045] 次に、変換部 101は、復号ィ匕部 100で復号ィ匕した信号を周波数領域の信号に変 換する。本実施の形態では、例えば、フーリエ変換によって、前記復号化部 100で復 号化した信号を周波数領域の複素フーリエ級数に変換する。さらに、変換された複 素フーリエ級数は、図 3の左の列に示すような 22個の周波数帯域ごとにグループィ匕 され分割される。 [0046] ここでは、一例としてフーリエ変換を例示した力 必ずしもその必要はなぐ複素数 による QMFフィルタバンクなどを用いてもよ!、。
[0047] また、位相回転子決定部 102は、前記第 2の符号化データと前記第 3の符号化デ ータに応じて、位相回転角が aと βとである位相回転子を求める。
[0048] ここで、前記第 2の符号化データは、 2チャンネルの原信号間の周波数帯域ごとの ゲイン比を表す値であり、図 3に示すように、 22帯域ごとにゲイン比 Dがビットストリー ムに格納されているので、それらを取り出すことによってゲイン比情報が得られる。ま た、前記第 3の符号化データは、 2チャンネルの原信号間の周波数帯域ごとの位相 差を表す値であり、図 3に示すように、 19帯域ごとに位相差 0がビットストリームに格 納されているので、それらを取り出すことによって位相差情報が得られる。
[0049] このようにして得られたゲイン比 Dと位相差 Θとから、 V、かにして、ダウンミックス信号 と、 2チャンネルそれぞれの原信号との位相差 α及び |8が求まるかを、以下、図 4と 図 5とを用いて説明する。
[0050] 図 4は、ゲイン比 Dと位相差 Θとの様子の一例をしめすものである。ダウンミックス信 号は、原信号を表す 2つの矢印を 2辺とする平行四辺形の対角線の方向の信号なの で、ダウンミックス信号と、それぞれの原信号との位相差 α及び j8は、図 4に示した場 所に現れる。
[0051] 図 5は、位相差 aと Bとを幾何学的に求めるための考え方を示した図である。図 5 は、図 4の平行四辺形を対角線で分離した三角形を示しているが、対角線の長さを X とした場合、当該三角形は、辺の長さが、 1、 D、 X、各辺が成す角度が、 α、 180- θ、 β、となる。ここで三角関数の余弦定理を利用すれば、
X2 = 1 + D2 - 2Dcos(180- Θ ) = 1 + D2 + 2Dcos Θ (式 1)
1 = X2 + D2 - 2DXcos β (式 2)
D2 = 1 + X2 - 2Xcos a (式 3)
となる。
[0052] 式 1より、 X = (1 + D2 + 2Dcos Θ 5
これを、式 2、式 3に代入することにより、
a = arccos((l+Dcos Θ )/((l+D2+2Dcos θ )。·¾ (式 4) β =arccos((D+cos Θ )/((l+D2+2Dcos θ )。 5)) (式 5)
が得られる。つまり、前記位相回転子決定部 102では、上記式 4及び式 5に沿って、 位相差 OC、 βをもとめ、それに応じた位相回転子を求める。勿論、上記の説明は、数 学的裏付けの説明であって、実際の演算過程においては、近似計算や、三角関数 のテーブル引きなどによって行われてもよいことは言うまでもない。
[0053] また、余弦定理を直接的に用いる必要もない。例えば、前記 α、 j8を解く問題を図 10に示すような幾何学的な問題と捉え、
=atan(Dsin( Θ )/(l+Dcos( θ )))
β =atan(sin( θ )/(D+cos( θ )))
というように求めてもよいことはいうまでもない。要するに、もともとの 2つのオーディオ 信号間の位相差 Θとゲイン比 Dとから位相回転角 aと βとを求める際に、前記位相 回転角 αと j8を、隣接 2辺の比が Dでその夾角が Θであるところの平行四辺形の前 記夾角が当該平行四辺形の対角線によって分割されて得られる角度として求められ ればよい。
[0054] また、上記説明では、前記位相回転子決定部 102は、位相回転角 oc、 βをもとめる 、としたが、実際的には、位相回転角 a、 βそのものの値は必要ではなぐ位相を回 転させる為の回転子 eja及び e— j/?か、又はそれらの共役複素数である e— j"及び ej/?が必 要であるので、前記位相回転子決定部 102は、下記三角関数値をもとめることが必 要である。逆にいうと、下記三角関数値をもとめるだけで十分である。必要な三角関 数値は、
cos a · · · (e】aの実数部)
sin a · · · (ejaの虚数部)
C0S J8— 13の実数部)
sin iS…(^の虚数部)
である。つまり、先に示した a、 j8を求める演算では、 arccos演算を用いて、わざわ ざ α、 βそのものを求めていた力 それは不要であり、
cos a =(l+Dcos Θ )/((l+D2+2Dcos θ )0·5) (式 6)
cos β =(D+cos θ )/((l+D2+2Dcos θ )。 5) (式 7) として、右辺の演算を行えばよいことになる。
[0055] sin α、 sin j8につ!/、ては、三平方の定理 ((cosX)2 + (sinX)2 = 1)などを用いれば簡単 に求められることは言うまでもない。
[0056] さらに、分離部 103は、変換部 101で変換した周波数領域の信号を前記 2つの位 相回転角 α、 j8と、前記第 4の符号ィ匕データとを用いて 2つの信号に分離する。この 過程を、図 6 (a)及び (b)を用いて説明する。
[0057] 図 6 (a)は、復号信号、すなわち 2チャンネルの原信号をダウンミックスして得られた ダウンミックス信号と、分離されるべき原信号との関係を示した図である。中心の長い 矢印が、復号信号であり、本実施の形態では、復号信号をフーリエ級数に変換して いるので、この矢印は、複素平面上でのベクトルである。このベクトルを Cとした時、 C の位相を— α分だけ回転させるには、複素数 e— jaを設け、 C * e— j "で表される複素数 の乗算を行えばよい。同様に、ベクトル Cの位相を |8分だけ回転させるには、複素数 ej/?を設け、 C * ej/?で表される複素数の乗算を行えばよい。
[0058] このような位相回転子の乗算が行われた時点では、復号信号を表すベクトル Cに α、 + j8の角度だけ位相の回転が施される結果、図 6 (b)に示されるように、位相回 転が完了した時点の信号 1及び信号 2を表す 2つのベクトルが得られる。これらのベタ トルの長さは、ベクトル Cの長さと等しい。
[0059] 次に、分離される信号の振幅に応じたゲイン補正を行うために、 a回転した信号 1のベクトルに対しては l/((l+D2+2Dcos θ Γ)なる補正値を乗じ、 + β回転した信号 2 のベクトルに対しては D/((l+D2+2Dcos θ )°·5)なる補正値を乗じる。この補正は、隣接 2 辺の長さの比が Dで、かつその夾角が Θであるところの平行四辺形の対角線の長さ が ((l+D2+2Dcos θ )。·5)であることに基づく。
[0060] なお、上記説明においては、対角線の長さが ((l+D2+2Dcos θ )°·5)であるので、その ことに基づいて、それぞれの信号に l/((l+D2+2Dcos θ )°·5)あるいは D/((l+D2+2Dcos θ Γ)を乗じることによってゲインを補正することを述べたが、符号化時に、位相差 Θ に基づ!/、てダウンミックス信号そのものに対してゲインの調整が行われて 、るような場 合は、その限りではない。例えば、符号化時に以下のような処理が行われる場合があ る。 [0061] すなわち、符号化前の、 1つ目の信号のゲインが 1で 2つ目の信号のゲインが Dで、 その位相差が Θである場合、ダウンミックス前の信号のエネルギーは (1+D25と表現 される。一方、ダウンミックス後の信号のエネルギーを (l+D2+2Dcos θ )°·5と表現すると 、上記 Θに応じて、ダウンミックス信号のエネルギーはもともとの信号が持っているェ ネルギー (1+D2 5と異なってしまう。
[0062] 具体的に、ダウンミックス後の信号のエネルギー (l+D2+2Dcos θ )°·5は、もともとの信 号が持って 、るエネルギー (1+D2 5と比べて、位相差が 90度である場合には一致す るものの、位相差が 0度に近づくほど大きくなり、位相差が 180度に近づくほど小さく なる。つまり、この表現によれば、同相信号力 得られるダウンミックス信号のェネル ギ一が大きくなり過ぎ、また、逆相信号力も得られるダウンミックス信号のエネルギー が小さくなり過ぎる。
[0063] そこで、ダウンミックス信号のエネルギー力 位相差によらず、もともとの信号が持つ ているエネルギーと一致するように、ダウンミックス信号に (l+D25/(l+D2+2Dcos θ )°·5 を乗じる調整が行われることがある。
[0064] 符号ィ匕時にそのような調整が行われて 、る場合、復号ィ匕時には、まず、上記の符 号ィ匕時のダウンミックス信号そのものに対するエネルギー調整を解除して元のゲイン に戻すために、 (l+D2+2Dcos Θ )° 5/(l+D2 5をダウンミックス信号に乗じ、その後の位 相角による分離時に、分離されるそれぞれの信号に、前述した l/((l+D2+2DcOS θ Γ) あるいは D/((l+D2+2Dcos θ Γ)を乗じる。
[0065] この連続する乗算によって、分母、分子の (l+D2+2DcOS θ )°·5は相殺され、 1/((1+D2)° うあるいは D/((1+D2 5)が、ゲイン比の補正の乗数として処理される。このような場合 には、図 6 (b)に示されている、位相回転が完了した時点の信号 1及び信号 2に、ゲイ ン比 Dのみに依存する乗数 1/((1+D2 5)あるいは D/((l+D25)を乗じゲインを補正する
[0066] このようなベクトルの回転と長さの補正によって、図 6 (a)に示されるように、ダウンミ ックス信号を信号 1及び信号 2の 2つの信号に分離できる。
[0067] 分離部 103では、図 3に示した周波数帯域ごとに上記の処理をおこなう。ここで注 意することは、高域側の周波数帯域では、ゲイン比情報 2個に対して位相差情報力 個しか存在しない場合があるので、その場合は、 1つの位相差情報を共有すること〖こ なる。
[0068] また、上記の説明では、一例として、位相の回転を αと + j8とした (すなわち、回 転子 e— j "及び ej /?を用いるとした)力 原信号の位相の進み遅れの関係によっては + aと βである場合もあり得る。その場合の復号信号と分離されるべき原信号との関 係は、図 6 (a)に示される平行四辺形を裏返した平行四辺形 (不図示)によって表さ れ、このとき用いるべき回転子は共役複素数 ej a及び e—j /3である。
[0069] そのことを正確に処理するための情報力 前記第 4の符号化データ、すなわち前記 位相極性情報であり、図 3に示すように、低域側の 1 1個の周波数帯域についてビット ストリーム内に存在している。この情報を用いて、位相の回転方向を正確に定めること ができる。分離部 103は、位相回転子決定部 102によって決定された 2つの複素数、 及びそれらの共役複素数のうちの、位相極性情報に応じた一方を用いて 2つの信号 を分離する。
[0070] この位相極性情報は、人間の聴覚が位相極性に感度の低い周波数帯域では不要 であるので、必ずしも全ての周波数帯域について存在しなくてもよい。位相極性情報 が存在しない周波数帯域について、分離部 103は位相回転子決定部 102によって 決定された 2つの複素数をそのまま用いて 2つの信号を分離する。
[0071] ビットレートが低い場合は、この位相極性情報が 1つも存在しない変形例を考えるこ ともできる。そのような変形例に係るオーディオデコーダの一構成例を図 1 1に示す。 この変形例に係るオーディオデコーダは、位相極性情報を取り扱うオーディオデコー ダ(図 1を参照)と比べて、第 4の符号ィ匕データ(S)が省かれ、分離部 103aが全ての 周波数帯域において位相回転子決定部 102によって決定された 2つの複素数をそ のまま用いて 2つの信号を分離する点が異なる。
[0072] 前記位相極性情報が存在しな ヽ場合で、位相差 Θが 180度、即ちもともとの 2つの 信号が逆位相の場合あるいはそれに近 、場合は、ダウンミックス信号が備えて 、る位 相の状態力 もともとの 2つの信号のうちのエネルギーの強い方の信号の位相の状態 をしめしていることが明らかであるので、前記 αと j8とをともに 0度としてもよい。その 場合、本来 180度の位相であった方の信号は逆相になってしまうが、少なくともェネル ギ一の強い方の信号の位相は正確に保たれることとなる。
[0073] 最後に、逆変換部 104は、分離部 103で生成された周波数領域の信号を時間領 域の信号に逆変換する。本実施の形態では、前記変換部 101を、フーリエ変換によ つて複素フーリエ級数を求める部であるとしたので、前記逆変換部 104は、逆フーリ ェ変換の処理と 、うことになる。
[0074] 以上のように本実施の形態によれば、 2つのオーディオ信号をダウンミックスして得 られたダウンミックス信号を表す第 1の符号化データと、前記 2つのオーディオ信号間 のゲイン比 Dを表す第 2の符号ィヒデータと、前記 2つのオーディオ信号間の位相差 Θを表す第 3の符号ィ匕データとを含むビットストリームをデコードして、前記 2つのォ 一ディォ信号を再生するオーディオデコーダにお 、て、前記第 1の符号化データを 前記ダウンミックス信号に復号ィ匕する復号ィ匕手段と、前記復号化手段で復号化され たダウンミックス信号を周波数領域の信号に変換する変換手段と、隣接 2辺の長さの 比が前記第 2の符号ィ匕データによって表されるゲイン比 Dと等しぐかつその夾角が 前記第 3の符号ィ匕データによって表される位相差 Θと等しい平行四辺形において、 前記夾角が対角線で分割されて得られる角度 OC及び βをそれぞれ位相回転角とす る 2つの位相回転子を決定する決定手段と、前記周波数領域の信号を、前記 2つの 位相回転子と前記第 2の符号ィ匕データによって表されるゲイン比 Dとを用いて、前記 復号化されたダウンミックス信号に対してそれぞれ位相差 ex及び βを持つ 2つの分 離信号に分離する分離手段と、前記 2つの分離信号それぞれを時間領域の信号に 逆変換して、前記 2つのオーディオ信号を再生する逆変換手段とを備えることによつ て、 2チャンネルのオーディオ信号を 1チャンネルにダウンミックスして得られるダウン ミックス信号と、前記オーディオ信号間の位相差及びゲイン比を表す少量の補助情 報とから、前記ダウンミックス信号を基準とする前記 2つのオーディオ信号の絶対位 相が再生されるので、前記 2つのオーディオ信号間の相対的な位相差 Θのみを再生 していた従来技術に比べて、信号の再生精度が向上する。
[0075] 本実施の形態では、 2チャンネルの信号を 1チャンネルにダウンミックスした信号を 処理するように記載したが、必ずしもそうではなぐ例えば、前方左、前方右、後方左 、後方右、の 4チャンネルの信号を、まず、前方左と後方左をダウンミスクし、さらに前 方右、後方右をダウンミックスし、さらにそれぞれダウンミックスされた信号をさらにダウ ンミックスしたような場合でも、まず左右に分離し、その後それぞれを前後に分離する ような際に、本願に記載した発明を用いればよい。
[0076] また、本実施の形態では、位相回転子決定部 102と分離部 103において、三角関 数の演算を必要としたので、安価なプロセッサなどでは処理が困難である力 以下の ように工夫することで、非常に簡単に処理できることになる。
[0077] まず、位相回転子決定部 102では、位相差 Θとゲイン比 Dとから、位相差 aと βを 求めることを行った力 分離部 103が位相回転処理を行う際には、位相差 αと |8その ものを用いるわけではなぐ実際に用いる値は、 e + i e(_/+)j/3の値である。すなわち、 e = cos (+/-) jsin
i
e = cos β (-/+) jsin β
なので、実際に必要な値は、 cos α sin α cos j8、及び sin であり、それらは、 cos a =(l+Dcos Θ )/((l+D2+2Dcos θ f5) (式 8)
sin a = (Dsin Θ )/((l+D2+2Dcos Θ 5) (式 9)
cos β =(D+cos Θ )/((l+D2+2Dcos Θ )。 5) (式 10)
sin 13 =sin Θ /((l+D2+2Dcos Θ 5) (式 11)
であるので、位相差情報 Θをアドレスとして、 cos Θと sin Θとが参照できるテーブルを 備えておけば、三角関数の処理は不要となり、加算、乗算、除算、平方根演算のみ の演算となる。さらにこのとき、 cos Θと sin Θとをテーブルの隣接する領域に書いてお けば、簡単なアドレシングで双方の値を取り出せる。特に近年のプロセッサでは、 64 ビット幅のデータ転送経路(データバス)を備えているものが多いので、 cos Θと sin Θ とを隣接する領域に書 、ておけば、 1マシンサイクルで双方の値を取り出せる。
[0078] さらに、 cos α sin α cos j8、及び sin βは、位相差情報 Θとゲイン比情報 Dとで 意に確定するので、位相差情報 Θとゲイン比情報 Dとをアドレスとする 2次元テープ ルを備えておけば、実際の演算に必要な値、 cos a sin a cos |8、及び sin β力 テ ブルアクセスだけで取り出せることになる。勿論この場合も、同一の位相差情報 Θ とゲイン比情報 Dと組み合わせに関する cos a sin a cos |8、及び sin βの値を隣接 する領域に書 、ておけば、簡単なアドレシングで全ての値を取り出せることになる。 [0079] さらに現実的には、上記で図 6 (a)及び (b)を参照して信号の分離処理過程につい て詳細に説明したように、信号の分離に最終的に使用する値は、位相回転処理を行 うための cos α、 sin α、 cos j8、及び sin βの値に対し、分離される信号を表すベクトル の長さ、すなわち信号のゲインを補正するための補正値を掛け合わせた値である。
[0080] そこで、前記補正値を F1(D, Θ ), F2(D, θ )なる関数値で表し、 cos α、 sin α、 cos j8、 及び sin βそのものの値を格納するのではなぐ補正後の値
cos * F1(D, θ )
sin a * F1(D, θ )
cos β * F2(D, θ )
sin 13 * F2(D, Θ )
をテーブルに格納することが望ましい。ここで、都合のよいことには、関数値 F1(D, Θ ) 、 F2(D, θ )は何れも Dと Θとの関数値であり、今ここで考えているテーブルも Dと Θと でアドレスされる 2次元テーブルなので、前記補正後の値を、メモリサイズの増加ゃァ クセスの手続きの複雑さの増加を招くことなぐこのテーブルに格納し参照することが できる。
[0081] ここで、前述の信号の分離処理過程の説明にお 、ては、関数値 F1(D, Θ ), F2(D, θ )をそれぞれ、
F1(D, Θ ) = l/((l+D2+2Dcos θ )。·5)
F2(D, θ ) = D/((l+D2+2Dcos θ )。 5)
であるとしたが、現実の符号化規格では
F1(D, 0 ) = 1/((1+D2)0-5)
Figure imgf000020_0001
として処理される場合もあるので、適宜現実の符号化規格に合わせて上記のように補 正値を調整すればょ 、ことは言うまでもな 、。
[0082] 尚、近年開示された、 MPEG方式 Enhanced AAC+SBR方式(ISO 14496- 3:AMEND MENT2)では、 2つのオーディオ信号間の位相差 0とゲイン比 Dのみならず、当該ダ ゥンミックス信号に対しオールパスフィルタの手法を用いて作成した残響信号を用い 、 2つのオーディオ信号をダウンミックスした信号をもとの 2つのオーディオ信号に分 離する方法が開示されている。し力しながらここでは、位相回転角 αと j8は、 + 0 /2、 - Θ /2というように、単純に均等配分している。
[0083] 本願で述べている手法は、幾何学的原理に基づいて厳密に位相回転角を求める ので、上記手法よりも分離性能が優れているので、本願の手法を Enhanced AAC+SB Rデコーダの実装に取り入れれば、ビットストリーム上は何も変更なぐ即ちストリーム 互換で、高音質を得ることができる。言い換えると、本願の実施の形態で述べた手法 は、残響信号を用いる手法と組み合わせてもよ 、と 、うことである。
[0084] MPEG方式 Enhanced AAC+SBR方式(ISO 14496- 3:AMENDMENT2)では、ゲイン 比 Dは、 IIDOnter- channel Intensity Differences)として符号化されている。また、位相 差 Θ fま、 IPD(Inter— channel Phase Differences)或 ヽ ί¾、 ICC(Inter— channel Coheren ce)として符号ィ匕されている。特に ICCは、 2つのオーディオ信号間の相関の強さを示 す指数であるので、この値が正の大きな値である場合、相関が強い、つまり位相差が 少ない、ということになる。また、この値が 0に近い場合、相関がない、つまり位相差が 90度に近い、ということになる。また、この値が負で絶対値が大きい場合、負の相関 が強い、つまり位相差が 180度に近い、ということになる。このように ICCは 2つのォー ディォ信号間の位相差を示すパラメータとして利用できるのである。
[0085] さらに都合の良いことには、 ICCは前記のような特徴をもっため、 ICCは、 2つのォ 一ディォ信号間の位相差 Θに対して cos Θの値を示しているということである。 ICCが cos Θの値そのものであれば、上記説明した(式 6)から(式 11)などにおける cos Θの 値は、 ICCそのものを使えばよいことになるので、計算が極めて簡易化されることとな る。
[0086] また、前記残響信号を用いる場合、処理対象のオーディオ信号の性質によっては、 音のシャープさが失われる場合がある。例えば、もともとの 2つのオーディオ信号間の 位相差が広い場合、即ち逆相に近い場合や、もともとの 2つのオーディオ信号間のゲ イン比が大きい場合、或いは、振幅が急峻に変化するアタック成分の強い場合など である。そのような場合は、残響信号を用いないようにすればよい。或いは残響信号 を生成する方法を複数通り用意しておき、処理対象のオーディオ信号の性質に応じ て、何れの方法を選択するかを切り替えればよい。 [0087] この時、処理対象のオーディオ信号の性質を判定することは、デコーダ側で実施で きることであるので、当該判定結果に応じて制御を切り替えるようにすることによって、 ビットストリーム上は何も変更なぐ即ちストリーム互換で、高音質を得ることができる。
[0088] 勿論、新しい符号ィ匕方式の規格ではビットストリーム上に残響信号を利用する力否 かのフラグを設けておけば、デコーダ側での判断が不要になるので、デコーダが軽 量に実装できることは言うまでもない。或いは、どのような方法で残響信号を生成する かを示すフラグを設けておけば、デコーダ側での判断が不要になるので、デコーダが 軽量に実装できることは言うまでもな 、。
[0089] ここで、残響信号を生成するため方法を複数通り用意する方法として、例えば、残 響信号を生成するための位相シフト量を複数通り用意するなどの方法がある。
[0090] また、本願で述べた分離角を計算する手法や、単純に均等配分する手法を、信号 の性質に応じて適宜切り替えてもよい。また切り替えのためにフラグをビットストリーム 上に盛り込んでもよい。
[0091] また、分離角を計算する手法は、何れ力の方法に固定し、残響信号を用いるか否 かのフラグをビットストリーム上に盛り込んでもよい。
[0092] (実施の形態 2)
以下本発明の実施の形態 2におけるオーディオエンコーダについて図面を参照し ながら説明する。
[0093] 図 7は本実施の形態 2におけるオーディオエンコーダの構成を示す図である。この オーディオエンコーダは、実施の形態 1で説明したオーディオデコーダにて良好にデ コードされるビットストリームを生成するエンコーダであり、第 1の符号ィ匕部 700、第 1 の変換部 701、第 2の変換部 702、第 1の分割部 703、第 2の分割部 704、第 3の分 割部 705、第 4の分割部 706、第 2の符号ィ匕部 707、第 3の符号ィ匕部 708、及びフォ 一マッタ 709から構成される。
[0094] 第 1の符号ィ匕部 700は、 2つのオーディオ信号をダウンミックスした信号を符号ィ匕す る。
[0095] 第 1の変換部 701は、第 1のオーディオ信号を周波数領域の信号に変換し、第 2の 変換部 702は、第 2のオーディオ信号を周波数領域の信号に変換する。 [0096] 第 1の分割部 703は、第 1の変換部 701で生成された前記周波数領域の信号を複 数の周波数帯域ごとに分割し、第 2の分割部 704は、第 1の変換部 701で生成され た前記周波数領域の信号を第 1の分割部 703とは異なる分割の仕方で分割する。
[0097] 第 3の分割部 705は、第 2の変換部 702で生成された前記周波数領域の信号を第 1の分割部 703と同じ分割の仕方で分割し、第 4の分割部 706は、第 2の変換部 702 で生成された前記周波数領域の信号を第 2の分割部 704と同じ分割の仕方で分割 する。
[0098] 第 2の符号化部 707は、第 1の分割部 703で分割された周波数帯域信号と第 3の 分割部 705で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの ゲイン比を検出し符号ィ匕する。
[0099] 第 3の符号化部 708は、第 2の分割部 704で分割された周波数帯域信号と第 4の 分割部 706で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの 位相差および、どちらの信号の位相が進んでいるかという情報を検出し符号ィ匕する。
[0100] フォーマッタ 709は、前記第 1から第 3の符号化部の出力信号を多重化する。
[0101] 以上のように構成されたオーディオエンコーダの動作にっ 、て以下説明する。
[0102] まず、第 1の符号ィ匕部 700において、 2つのオーディオ信号をダウンミックスした信 号を符号化する。ここでダウンミックスの方法は、単に加算してもよいし、加算して所 定の係数をかけるような方法でもよい。要するに、 2つのオーディオ信号のベクトル合 成が得られる方法であればよい。符号ィ匕の方法もどのようなものでもよいが、本実施 の形態では、 MPEG規格 AAC方式で符号化するものとする。
[0103] 次に、第 1の変換部 701では、第 1のオーディオ信号を周波数領域の信号に変換 する。本実施の形態では、フーリエ変換を用いて入力のオーディオ信号を複素フーリ ェ級数に変換するものとする。
[0104] 第 2の変換部 702では、第 2のオーディオ信号を周波数領域の信号に変換する。
本実施の形態では、フーリエ変換を用いて入力のオーディオ信号を複素フーリエ級 数に変換するものとする。
[0105] 次に、第 1の分割部 703では、第 1の変換部 701で生成された前記周波数領域の 信号を複数の周波数帯域ごとに分割する。この時、分割の仕方は、図 3のテーブル に従う。図 3において、左の列は分割する周波数帯域の開始周波数を示しており、左 力 2番目の列は、ゲイン比情報に関する実際の分割の仕方をしめしている。すなわ ち、第 1の分割部 703では、前記第 1の変換部 701で生成された前記周波数領域の 信号を図 3のテーブルの一番左の列と左から 2番目の列に従って、それぞれ示され ている周波数帯域ごとに分割する。
[0106] 同様に、第 2の分割部 704でも、第 1の変換部 701で生成された前記周波数領域 の信号を複数の周波数帯域ごとに分割する。この時、分割の仕方は、図 3のテープ ルに従う。図 3において、左の列は分割する周波数帯域の開始周波数を示しており、 左から 3番目の列は、位相差情報に関する実際の分割の仕方をしめしている。すな わち、第 2の分割部 704では、第 1の変換部 701で生成された前記周波数領域の信 号を図 3のテーブルの一番左の列と左から 3番目の列に従って、それぞれ示されてい る周波数帯域ごとに分割する。
[0107] 第 3の分割部 705では、第 2の変換部 702で生成された前記周波数領域の信号を 前記第 1の分割部 703と同じ分割の仕方で分割する。
[0108] 第 4の分割部 706では、第 2の変換部 702で生成された前記周波数領域の信号を 前記第 2の分割部 704と同じ分割の仕方で分割する。
[0109] 次に、第 2の符号ィ匕部 707では、第 1の分割部 703で分割された周波数帯域信号 と第 3の分割部 705で分割された周波数帯域信号との、それぞれ対応する周波数帯 域ごとのゲイン比を検出し符号ィ匕する。ここでゲイン比を検出する方法は、対応する 帯域ごとの振幅の最大値どうしを比較する方法や、エネルギーレベルを比較する方 法など、どのような方法でもよぐそのようにして検出されたゲイン比を第 2の符号ィ匕部 707で符号化する。
[0110] 次に、第 3の符号ィ匕部 708は、第 2の分割部 704で分割された周波数帯域信号と 第 4の分割部 706で分割された周波数帯域信号との、それぞれ対応する周波数帯 域ごとの位相差、及びどちらの信号の位相が進んでいるかという情報、すなわち位相 極性情報を検出し符号化する。ここで、位相差を検出する方法は、当該周波数帯域 内の、フーリエ級数の、実数値と虚数値の代表値力も位相差を求める方法など、どの ような方法でもよぐそのようにして検出された位相差及び位相極性情報を第 3の符 号化部 708で符号化する。
[0111] ここで、図 3の位相極性情報の欄 (右端)に注意されたい。位相極性情報は、低域 側から 11個の周波数帯域に対してのみ検出し符号ィ匕するようにしている。これは、位 相極性情報の聴覚的感度が、高域では非常に鈍くなるという特性を活用し、それに よって音質の劣化なぐビットレートを削減する狙いがある。
[0112] ビットレートが低い場合は、位相極性情報は 1つも符号ィ匕しない。
最後に、フォーマッタ 709において、前記第 1から第 3の符号化部の出力信号を多 重化し、ビットストリームを形成するが、それはどのような方法であってもよい。
[0113] 以上のように本実施の形態によれば、 2つのオーディオ信号をダウンミックスした信 号を符号化する第 1の符号化部と、前記第 1のオーディオ信号を周波数領域の信号 に変換する第 1の変換部と、前記第 2のオーディオ信号を周波数領域の信号に変換 する第 2の変換部と、前記第 1の変換部で生成された前記周波数領域の信号を複数 の周波数帯域ごとに分割する第 1の分割部と、前記第 1の変換部で生成された前記 周波数領域の信号を前記第 1の分割部とは異なる分割の仕方で分割する第 2の分 割部と、前記第 2の変換部で生成された前記周波数領域の信号を前記第 1の分割部 と同じ分割の仕方で分割する第 3の分割部と、前記第 2の変換部で生成された前記 周波数領域の信号を前記第 2の分割部と同じ分割の仕方で分割する第 4の分割部と 、前記第 1の分割部で分割された周波数帯域信号と前記第 3の分割部で分割された 周波数帯域信号との、それぞれ対応する周波数帯域ごとのゲイン比を検出し符号ィ匕 する第 2の符号化部と、前記第 2の分割部で分割された周波数帯域信号と前記第 4 の分割部で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの 位相差および、どちらに信号の位相が進んでいるかという情報を検出し符号ィ匕する 第 3の符号化部と、前記第 1から第 3の符号化部の出力信号を多重化するフォーマツ タとを備えることによって、元々は 2チャンネルの信号であるにも関わらず、 1チャンネ ルにダウンミックスした信号を符号ィ匕したものと、それを 2チャンネルに分離するため の非常に少ない情報を符号ィ匕したものとビットストリームを形成できるので、高圧縮を 実現できることとなる。そして、このビットストリームは、実施の形態 1で説明したオーデ ィォデコーダに適合し、前記オーディオデコーダによって、高い精度で本来の 2チヤ ンネル信号に再生される。
[0114] 図 8に、本実施の形態における位相差を符号ィ匕するために符号帳を示す。
位相差を Θとしたとき、図 8は、 Θを cos Θとして表して、 cos Θの値を符号化するた めのテーブルである。図 8の一番左の列は、量子化における閾値を示している。すな わち図 8は、 cos Θの値を 11レベルの量子化値で表すためのテーブルであり、例えば 、 cos Θの値が、 -1.000から- 0.969の間のものは、同じ量子化レベルとして符号化する ようにしている。
[0115] 図 8からも明らかなように、 cos Θの値が 0近傍 (位相差 90° 近傍)は、 + 1近傍 (位 相差 0° 近傍)や 1近傍 (位相差 180° 近傍)に比べて量子化の精度を粗く設定し ている。これは、位相差 90° 近傍においては、位相差の変動の検知感度が低ぐ位 相差 0° 近傍や位相差 180° 近傍は、位相差の変動の検知感度が高いという聴覚 の特性を考慮したものである。
[0116] また、このような量子化の閾値を設ければ、当然位相差 90° 近傍の量子化値が発 生する頻度が高くなるので、可変長符号すなわちハフマン符号を用いると符号化効 率が向上する。図 8の中央に列は、それぞれの量子化レベルのハフマン符号長をし めしており、右側の列は、対応するハフマン符号をしめした。図から明らかなように、 9 0° 近辺の量子化値に対する符号長は非常に短 、ものになって 、る。
[0117] また、この性質をさらに利用すれば、エンコードにおけるビットレートを低くしたい場 合は、図 9に示すように、位相差の量子化値が、 90° 近傍の量子化値になる頻度を 高くするために、 90° 近辺の量子化の精度を粗く設定することが効率的である。なぜ ならば、位相差 90° 近辺は、聴覚的な感度が鈍ぐ量子化による聴感上の劣化が少 なく抑えられ、し力も、短い符号長の符号の発生頻度が上がるので、平均のビットレ ートが低くなるためである。
[0118] 勿論図 8に示したものは、単なる一例であり、 11値の量子化レベルは、必ずしもそう でなくてもよいし、ハフマン符号長の割り当て方も、図に示したとおりでなくてもよいこ とは言うまでもない。
産業上の利用可能性
[0119] 本発明に係るオーディオデコーダは、オーディオ再生装置に利用でき、とりわけ低 ビットレートでの音楽放送サービスや音楽配信サービスにおける受信機器への応用 に好適である。

Claims

請求の範囲
[1] 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第 1の 符号化データと、前記 2つのオーディオ信号間のゲイン比 Dを表す第 2の符号化デ ータと、前記 2つのオーディオ信号間の位相差 Θを表す第 3の符号化データとを含 むビットストリームをデコードして、前記 2つのオーディオ信号を再生するオーディオ デコーダであって、
前記第 1の符号ィヒデータを前記ダウンミックス信号に復号ィヒする復号ィヒ手段と、 前記復号ィ匕手段で生成されたダウンミックス信号を周波数領域の信号に変換する 変換手段と、
隣接 2辺の長さの比が前記第 2の符号ィ匕データによって表されるゲイン比 Dと等しく 、かつその夾角が前記第 3の符号ィ匕データによって表される位相差 0と等しい平行 四辺形にぉ 、て、前記夾角が対角線で分割されて得られる角度 OC及び βをそれぞ れ位相回転角とする 2つの位相回転子を決定する決定手段と、
前記周波数領域の信号を、前記 2つの位相回転子と前記第 2の符号化データによ つて表されるゲイン比 Dとを用いて、前記復号ィ匕されたダウンミックス信号との位相差 がそれぞれ角度 oc及び βである 2つの分離信号に分離する分離手段と、
前記 2つの分離信号それぞれを時間領域の信号に逆変換して、前記 2つのオーデ ィォ信号を再生する逆変換手段と
を備えることを特徴とするオーディオデコーダ。
[2] 前記決定手段は、 2つの複素数 e— ja及び ej /3、又はそれらの共役複素数 ei a及び e— j /? を前記 2つの位相回転子として決定し、
前記分離手段は、前記位相回転子として決定されたそれぞれの複素数を、前記変 換手段で生成された周波数領域の信号に乗算することによって、前記 2つの分離信 号を生成する
ことを特徴とする請求項 1に記載のオーディオデコーダ。
[3] 前記ビットストリームは、前記 2つのオーディオ信号の 、ずれの位相が進んで 、るか を示す位相極性情報 Sを表す第 4符合をさらに含んでおり、
前記分離手段は、前記決定された 2つの複素数及びそれらの共役複素数のうちの 前記第 4の符号ィ匕データによって表される位相極性情報 Sに応じた一方を、前記変 換手段で生成された周波数領域の信号に乗算することによって、前記 2つの分離信 号を生成する
ことを特徴とする請求項 2に記載のオーディオデコーダ。
[4] 前記決定手段は、前記角度 α及び角度 13を
a =arccos((l+Dcos Θ )/((l+D2+2Dcos θ )0 5))
β =arccos((D+cos Θ )/((l+D2+2Dcos Θ 5))
に従って求め、求めた α及び j8を用いて前記 2つの位相回転子を決定する ことを特徴とする請求項 1に記載のオーディオデコーダ。
[5] 前記決定手段は、前記角度 aに対応する cos a、及び角度 βに対応する cos βを cos a =(l+Dcos Θ )/((l+D2+2Dcos θ )。 5)
cos β =(D+cos Θ )/((l+D2+2Dcos Θ†5)
に従って求め、求めた cos α及び cos βを用いて前記 2つの位相回転子を決定する ことを特徴とする請求項 1に記載のオーディオデコーダ。
[6] 前記第 3の符号化データは、前記 2つのオーディオ信号間の位相差 Θを、 cos Θの 値を用いて 0°力 180°の範囲で表し、
前記決定手段は、前記第 3の符号化データによって表される cos Θの値を用いて、 前記 2つの位相回転子を決定する
ことを特徴とする請求項 1に記載のオーディオデコーダ。
[7] 前記決定手段は、
複数の位相差それぞれに対応して、位相差の三角関数を少なくとも用いて表される 関数値を記憶して ヽるテーブルを有し、
前記第 3の符号ィ匕データによって表される位相差 Θに対応する関数値を前記テー ブルから参照して、前記位相回転子を決定する
ことを特徴とする請求項 1に記載のオーディオデコーダ。
[8] 前記テーブルは、前記複数の位相差 Θそれぞれに対応する sin Θの値と cos Θの値 とを記憶している
ことを特徴とする請求項 7に記載のオーディオデコーダ。
[9] 前記テーブルは、同一の位相差 Θに対応する sin Θの値と cos Θの値とを、隣接す る領域に記憶している
ことを特徴とする請求項 8に記載のオーディオデコーダ。
[10] 前記テーブルは、ゲイン比 Dと位相差 Θとの複数の組み合わせそれぞれに対応し て、
W(D, Θ ) = (l+Dcos Θ )/((l+D2+2Dcos θ )0·5)
X(D, θ ) = (Dsin θ )/((l+D2+2Dcos θ 5)
Y(D, Θ ) = (D+cos Θ )/((l+D2+2Dcos Θ f5)
Z(D, Θ ) = sin Θ /((l+D2+2Dcos Θ )。 5)
なる 4つの関数値を記憶しており、
前記決定手段は、前記第 2の符号化データによって表されるゲイン比 Dと第 3の符 号化データによって表される位相差 Θとの組み合わせに対応する前記 4つの関数値 を前記テーブルから参照して、前記位相回転子を決定する
ことを特徴とする請求項 7に記載のオーディオデコーダ。
[11] 前記テーブルは、同一のゲイン比 Dと位相差 Θとの組み合わせに対応する前記 4 つの関数値を、隣接する領域に記憶している
ことを特徴とする請求項 10に記載のオーディオデコーダ。
[12] 前記テーブルは、前記 4つの関数値をさらにゲイン比 Dに応じて補正した値を記憶 している
ことを特徴とする請求項 10記載のオーディオデコーダ。
[13] 前記分離手段は、前記変換手段で生成された周波数領域の信号に残響を付加す るリバーブ処理を施して残響信号を生成し、前記周波数領域の信号と前記生成され た残響信号とを前記位相回転子に応じて定められる割合で混合することによって、前 記 2つの分離信号を生成する
ことを特徴とする請求項 1記載のオーディオデコーダ。
[14] 前記ビットストリームは、複数の周波数帯域のそれぞれについて、前記 2つのォー ディォ信号のその周波数帯域におけるゲイン比 Dを表す第 2の符号ィ匕データと位相 差 Θを表す第 3の符号化データとを含んでおり、 前記変換手段は、前記ダウンミックス信号を前記周波数帯域ごとに周波数領域の 信号に変換し、
前記決定手段は、前記周波数帯域ごとに、隣接 2辺の長さの比が前記第 2の符号 化データによって表されるゲイン比 Dと等しぐかつその夾角が前記第 3の符号ィ匕デ ータによって表される位相差 Θと等しい平行四辺形において、前記夾角が対角線で 分割されて得られる角度 ex及び βをそれぞれ位相回転角とする 2つの位相回転子を 決定し、
前記分離手段は、前記周波数帯域ごとに、前記周波数領域の信号から前記決定さ れた 2つの位相回転子と前記ゲイン比 Dとを用いて、 2つの分離信号を生成し、 前記逆変換手段は、前記周波数帯域ごとに、前記 2つの分離信号それぞれを時間 領域の信号に逆変換し、全ての周波数帯域にっ 、て得られた前記時間領域の信号 から、前記 2つのオーディオ信号を再生する
ことを特徴とする請求項 1に記載のオーディオデコーダ。
[15] 前記ビットストリームは、前記周波数帯域の少なくとも 1つについて、前記 2つのォー ディォ信号の 、ずれの位相がその周波数帯域にぉ 、て進んで 、るかを示す位相極 性情報 Sを表す第 4符合を含んでおり、
前記決定手段は、前記周波数帯域ごとに、 2つの複素数 e— ja及び ej /3、又はそれら の共役複素数 ej a及び e—j /3の何れかを前記 2つの位相回転子として決定し、
前記分離手段は、前記第 4の符号化データを含んで 、な 、周波数帯域につ!、て は、前記決定されたそれぞれの複素数を前記変換手段で生成された周波数領域の 信号に乗算し、前記第 4の符号ィ匕データを含んでいる周波数帯域については、前記 決定された 2つの複素数及びそれらの共役複素数のうちの前記第 4の符号化データ によって表される位相極性情報 Sに応じた一方を前記変換手段で生成された周波数 領域の信号に乗算することによって、前記 2つの分離信号を生成する
ことを特徴とする請求項 14に記載のオーディオデコーダ。
[16] 前記ビットストリームは、予め定められた周波数よりも低い周波数帯域についてのみ 、前記第 4の符号化データを含んでいる
ことを特徴とする請求項 15に記載のオーディオデコーダ。
[17] 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第 1の 符号化データと、前記 2つのオーディオ信号間のゲイン比 Dを表す第 2の符号化デ ータと、前記 2つのオーディオ信号間の位相差 Θを表す第 3の符号化データとを含 むビットストリームをデコードして、前記 2つのオーディオ信号を再生するオーディオ デコード方法であって、
前記第 1の符号ィヒデータを前記ダウンミックス信号に復号ィヒする復号化ステップと、 前記復号化ステップで生成されたダウンミックス信号を周波数領域の信号に変換す る変換ステップと、
隣接 2辺の長さの比が前記第 2の符号ィ匕データによって表されるゲイン比 Dと等しく 、かつその夾角が前記第 3の符号ィ匕データによって表される位相差 0と等しい平行 四辺形にぉ 、て、前記夾角が対角線で分割されて得られる角度 OC及び βをそれぞ れ位相回転角とする 2つの位相回転子を決定する決定ステップと、
前記変換ステップで生成された周波数領域の信号から、前記決定された 2つの位 相回転子と前記ゲイン比 Dとを用いて、 2つの分離信号を生成する分離ステップと、 前記 2つの分離信号それぞれを時間領域の信号に逆変換して、前記 2つのオーデ ィォ信号を再生する逆変換ステップと、
を含むことを特徴とするオーディオデコード方法。
[18] 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第 1の 符号化データと、前記 2つのオーディオ信号間のゲイン比 Dを表す第 2の符号化デ ータと、前記 2つのオーディオ信号間の位相差 Θを表す第 3の符号化データとを含 むビットストリームをデコードして、前記 2つのオーディオ信号を再生するオーディオ デコード処理を行うためのコンピュータ実行可能なプログラムであって、
前記第 1の符号ィヒデータを前記ダウンミックス信号に復号ィヒする復号化ステップと、 前記復号化ステップで生成されたダウンミックス信号を周波数領域の信号に変換す る変換ステップと、
隣接 2辺の長さの比が前記第 2の符号ィ匕データによって表されるゲイン比 Dと等しく 、かつその夾角が前記第 3の符号ィ匕データによって表される位相差 0と等しい平行 四辺形にぉ 、て、前記夾角が対角線で分割されて得られる角度 a及び 13をそれぞ れ位相回転角とする 2つの位相回転子を決定する決定ステップと、
前記変換ステップで生成された周波数領域の信号から、前記決定された 2つの位 相回転子と前記ゲイン比 Dとを用いて、 2つの分離信号を生成する分離ステップと、 前記 2つの分離信号それぞれを時間領域の信号に逆変換して、前記 2つのオーデ ィォ信号を再生する逆変換ステップと、
をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2005/014128 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム WO2006022124A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006531500A JP4936894B2 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム
US11/660,094 US8046217B2 (en) 2004-08-27 2005-08-02 Geometric calculation of absolute phases for parametric stereo decoding

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004248989 2004-08-27
JP2004-248989 2004-08-27
JP2005-110192 2005-04-06
JP2005110192 2005-04-06

Publications (1)

Publication Number Publication Date
WO2006022124A1 true WO2006022124A1 (ja) 2006-03-02

Family

ID=35967343

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/014128 WO2006022124A1 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム

Country Status (3)

Country Link
US (1) US8046217B2 (ja)
JP (1) JP4936894B2 (ja)
WO (1) WO2006022124A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1906705A1 (en) * 2005-07-15 2008-04-02 Matsushita Electric Industrial Co., Ltd. Signal processing device
WO2009142465A2 (en) * 2008-05-23 2009-11-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US20100087938A1 (en) * 2007-03-16 2010-04-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8081764B2 (en) 2005-07-15 2011-12-20 Panasonic Corporation Audio decoder
US8359113B2 (en) 2007-03-09 2013-01-22 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8422688B2 (en) 2007-09-06 2013-04-16 Lg Electronics Inc. Method and an apparatus of decoding an audio signal
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
CN105103229B (zh) * 2013-01-29 2019-07-23 弗劳恩霍夫应用研究促进协会 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0621857A (ja) * 1991-12-11 1994-01-28 Nokia Mobile Phones Ltd スペースダイバーシチ受信のための方法
JPH09501286A (ja) * 1993-08-03 1997-02-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 両立性マトリックス復号信号用多重チャンネル送・受信機装置及び方法
JPH10512114A (ja) * 1994-12-29 1998-11-17 モトローラ・インコーポレーテッド マルチアクセス・デジタルアップコンバータ/変調器および方法
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU671952B2 (en) * 1991-06-11 1996-09-19 Qualcomm Incorporated Variable rate vocoder
GB9211756D0 (en) * 1992-06-03 1992-07-15 Gerzon Michael A Stereophonic directional dispersion method
JP2827777B2 (ja) 1992-12-11 1998-11-25 日本ビクター株式会社 音像定位制御における中間伝達特性の算出方法並びにこれを利用した音像定位制御方法及び装置
US7630500B1 (en) * 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
US5602874A (en) 1994-12-29 1997-02-11 Motorola, Inc. Method and apparatus for reducing quantization noise
US5854813A (en) 1994-12-29 1998-12-29 Motorola, Inc. Multiple access up converter/modulator and method
US6009130A (en) 1995-12-28 1999-12-28 Motorola, Inc. Multiple access digital transmitter and receiver
US6167161A (en) * 1996-08-23 2000-12-26 Nec Corporation Lossless transform coding system having compatibility with lossy coding
US5724429A (en) * 1996-11-15 1998-03-03 Lucent Technologies Inc. System and method for enhancing the spatial effect of sound produced by a sound system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
WO2003090208A1 (en) 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
EP1500082B1 (en) 2002-04-22 2007-02-14 Koninklijke Philips Electronics N.V. Signal synthesizing
CN100546233C (zh) * 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0621857A (ja) * 1991-12-11 1994-01-28 Nokia Mobile Phones Ltd スペースダイバーシチ受信のための方法
JPH09501286A (ja) * 1993-08-03 1997-02-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 両立性マトリックス復号信号用多重チャンネル送・受信機装置及び方法
JPH10512114A (ja) * 1994-12-29 1998-11-17 モトローラ・インコーポレーテッド マルチアクセス・デジタルアップコンバータ/変調器および方法
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8081764B2 (en) 2005-07-15 2011-12-20 Panasonic Corporation Audio decoder
EP1906705A1 (en) * 2005-07-15 2008-04-02 Matsushita Electric Industrial Co., Ltd. Signal processing device
EP1906705A4 (en) * 2005-07-15 2011-09-28 Panasonic Corp SIGNAL PROCESSING DEVICE
US8284961B2 (en) 2005-07-15 2012-10-09 Panasonic Corporation Signal processing device
US8594817B2 (en) 2007-03-09 2013-11-26 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8359113B2 (en) 2007-03-09 2013-01-22 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US20100106271A1 (en) * 2007-03-16 2010-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US20100087938A1 (en) * 2007-03-16 2010-04-08 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CN101636917B (zh) * 2007-03-16 2013-07-24 Lg电子株式会社 用于处理音频信号的方法和装置
US8712060B2 (en) 2007-03-16 2014-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8725279B2 (en) * 2007-03-16 2014-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US9373333B2 (en) 2007-03-16 2016-06-21 Lg Electronics Inc. Method and apparatus for processing an audio signal
US8422688B2 (en) 2007-09-06 2013-04-16 Lg Electronics Inc. Method and an apparatus of decoding an audio signal
US8532306B2 (en) 2007-09-06 2013-09-10 Lg Electronics Inc. Method and an apparatus of decoding an audio signal
US8060042B2 (en) 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2009142465A3 (en) * 2008-05-23 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
WO2009142465A2 (en) * 2008-05-23 2009-11-26 Lg Electronics Inc. A method and an apparatus for processing a signal

Also Published As

Publication number Publication date
JP4936894B2 (ja) 2012-05-23
JPWO2006022124A1 (ja) 2008-07-31
US8046217B2 (en) 2011-10-25
US20070255572A1 (en) 2007-11-01

Similar Documents

Publication Publication Date Title
WO2006022124A1 (ja) オーディオデコーダ、方法及びプログラム
US10741187B2 (en) Encoding of multi-channel audio signal to generate encoded binaural signal, and associated decoding of encoded binaural signal
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
US8433583B2 (en) Audio decoding
US8036904B2 (en) Audio encoder and method for scalable multi-channel audio coding, and an audio decoder and method for decoding said scalable multi-channel audio coding
JP5311597B2 (ja) マルチチャンネル・エンコーダ
JP5122681B2 (ja) パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
RU2376654C2 (ru) Параметрическое совместное кодирование аудиоисточников
JP5032978B2 (ja) ステレオコーディング及びデコーディングの方法及び装置
US8666752B2 (en) Apparatus and method for encoding and decoding multi-channel signal
JP4794448B2 (ja) オーディオエンコーダ
EP1906705B1 (en) Signal processing device
JP5053849B2 (ja) マルチチャンネル音響信号処理装置およびマルチチャンネル音響信号処理方法
CN101410889A (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
WO2007037613A1 (en) Method and apparatus for encoding/decoding multi-channel audio signal
WO2007109338A1 (en) Low bit rate audio encoding and decoding
JP2022010239A (ja) マルチチャネル・オーディオ・コンテンツの符号化
CN107771346B (zh) 实现低复杂度格式转换的内部声道处理方法和装置
KR20170078663A (ko) 오디오 신호의 파라메트릭 믹싱
CN101010726A (zh) 音频解码器、方法以及程序

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2006531500

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11660094

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580028930.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 11660094

Country of ref document: US