WO2013038937A1 - 音声処理装置および方法、並びにプログラム - Google Patents

音声処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2013038937A1
WO2013038937A1 PCT/JP2012/072353 JP2012072353W WO2013038937A1 WO 2013038937 A1 WO2013038937 A1 WO 2013038937A1 JP 2012072353 W JP2012072353 W JP 2012072353W WO 2013038937 A1 WO2013038937 A1 WO 2013038937A1
Authority
WO
WIPO (PCT)
Prior art keywords
gain
amount
audio signal
input
amplification
Prior art date
Application number
PCT/JP2012/072353
Other languages
English (en)
French (fr)
Inventor
光行 畠中
徹 知念
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to BR112014005295A priority Critical patent/BR112014005295A2/pt
Priority to RU2014108818/08A priority patent/RU2014108818A/ru
Priority to US14/239,797 priority patent/US9294062B2/en
Priority to AU2012309702A priority patent/AU2012309702A1/en
Priority to CN201280043659.4A priority patent/CN103782515A/zh
Priority to CA2844915A priority patent/CA2844915A1/en
Priority to EP12831214.7A priority patent/EP2757685A1/en
Publication of WO2013038937A1 publication Critical patent/WO2013038937A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/12Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices
    • H03G9/14Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers having semiconductor devices for gain control and tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/001Digital control of analog signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/02Manually-operated control
    • H03G5/025Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/02Manually-operated control
    • H03G5/04Manually-operated control in untuned amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements

Definitions

  • the present technology relates to an audio processing device, method, and program, and more particularly, to an audio processing device, method, and program that can suppress deterioration in sound quality when gain amplification of an audio signal is performed.
  • pre-gain control processing and auto gain control processing are known.
  • the pre-gain control process a gain amount to be clipped in advance is assumed, and after the music signal is attenuated based on the gain amount, the music signal is input to the equalizer. At this time, the attenuation amount of the music signal is determined by the user manually operating the attenuation knob.
  • the gain control of the music signal is adaptively performed immediately before the input to the equalizer or immediately after the output from the equalizer so that clipping is not caused by the gain operation of the music signal by the equalizer. It is. That is, in a section where clip distortion occurs, the signal waveform is forcibly deformed with respect to the music signal so that the amplitude of the signal does not exceed the recording range.
  • the music signal having the waveform indicated by the arrow Q11 is input to the equalizer 11, the gain adjustment of the specific frequency band is performed, and the music signal having the waveform indicated by the arrow Q12 is obtained as an output.
  • the waveform indicated by the arrow Q12 since the amplitude is excessively amplified, a part of the waveform, that is, the portion indicated by the dotted line is clipped, and the waveform is distorted. When such clip distortion occurs, the sound is crushed during the reproduction of the music signal, and the sound quality is deteriorated.
  • an attenuation circuit 12 is provided in front of the equalizer 11 as shown in the lower side of the figure, and a music signal to be processed with a waveform indicated by an arrow Q21 is provided. Input to the attenuation circuit 12.
  • a music signal having a waveform with a gain attenuated as shown by an arrow Q22 is obtained, and the music signal is supplied to the equalizer 11 to adjust the gain.
  • the music signal having the waveform indicated by the arrow Q23 is obtained as an output. Since the gain of the music signal obtained in this way is attenuated in advance by the attenuation circuit 12 to the extent that the gain is excessively amplified by the equalizer 11, the occurrence of clip distortion can be suppressed.
  • the user in the pre-gain control process, it is difficult for the user to adjust the gain attenuation amount by sensibly operating the attenuation knob, so it is difficult to specify the optimal attenuation amount.
  • the operation is cumbersome and inconvenient. If the amount of attenuation specified by the user is not appropriate, clip distortion will occur in the music signal, or the amplitude of the music signal will become too small.
  • the attenuation of the gain is automatically adjusted according to the change in the amplitude of the music signal. Therefore, it is not necessary for the user to specify an appropriate attenuation every time.
  • the gain is attenuated, that is, the signal waveform is deformed. For this reason, a section in which the signal waveform is deformed and a section in which the signal waveform is not formed are generated, resulting in an unnatural gain fluctuation in the music signal, and the reproduced music signal is unstable in terms of hearing. Becomes uncomfortable for the user.
  • the present technology has been made in view of such a situation, and is capable of suppressing deterioration in sound quality when gain amplification of an audio signal is performed.
  • An audio processing device includes an input attenuation amount calculation unit that calculates an input attenuation amount that attenuates an audio signal based on a gain setting value indicating an adjustment amount of a gain of each frequency band of the audio signal in equalizer processing.
  • an estimated gain amplification that calculates an estimated gain amplification amount that is an estimated value of the gain of the audio signal amplified by the equalizer processing based on the weighting coefficient obtained for each frequency band and the gain setting value
  • An amount calculation unit a gain correction amount calculation unit that calculates a gain correction amount based on the input attenuation amount and the estimated gain amplification amount; an input gain attenuation unit that attenuates the audio signal based on the input attenuation amount; , Performing the equalizer process on the audio signal attenuated by the input gain attenuation unit based on the gain setting value, Comprising an equalizer processor for adjusting the gain of the frequency band, based on the gain correction amount, and a gain correction unit for correcting the gain of said audio signal, wherein the equalizer processing has been performed.
  • the voice processing device may further include a coefficient calculation unit that calculates the weighting coefficient based on a frequency energy distribution of a voice signal prepared in advance.
  • the coefficient calculation unit for each frequency band, an energy change amount of the voice signal prepared in advance that changes when a gain of the frequency band of the voice signal prepared in advance is amplified by a predetermined value.
  • the weight coefficient of the specific frequency band can be calculated based on the sum of the energy change amounts of the frequency bands and the ratio of the energy change amounts of the specific frequency bands.
  • the estimated gain amplification amount calculation unit can calculate the sum of the gain setting values multiplied by the weighting factor as the estimated gain amplification amount.
  • the gain correction amount calculation unit can calculate the gain correction amount by obtaining a difference between the input attenuation amount and the estimated gain amplification amount.
  • the gain correction unit can perform non-linear amplification processing on the audio signal based on the gain correction amount so that the gain of the audio signal is amplified.
  • the gain correction unit performs a linear amplification process on the audio signal so that the gain of the audio signal is amplified by a predetermined amount of the gain correction amount, and then performs the predetermined amount from the gain correction amount.
  • the non-linear amplification process can be performed on the audio signal so that the gain of the audio signal after the linear amplification process is amplified by the subtracted amount.
  • An audio processing method or program provides an input attenuation amount for calculating an input attenuation amount for attenuating an audio signal based on a gain setting value indicating an adjustment amount of a gain of each frequency band of the audio signal in the equalizer process.
  • estimation for calculating an estimated gain amplification amount that is an estimated value of the gain of the audio signal amplified by the equalizer processing A gain amplification amount calculating step; a gain correction amount calculating step for calculating a gain correction amount based on the input attenuation amount and the estimated gain amplification amount; and an input gain attenuation for attenuating the audio signal based on the input attenuation amount. And the audio signal attenuated by the process of the input gain attenuation step based on the gain setting value.
  • An equalizer processing step for adjusting the gain of each frequency band of the audio signal by performing the equalizer processing, and a gain for correcting the gain of the audio signal subjected to the equalizer processing based on the gain correction amount A correction step.
  • the input attenuation amount for attenuating the audio signal is calculated based on a gain setting value indicating the gain adjustment amount of each frequency band of the audio signal in the equalizer process, and is obtained for each frequency band.
  • an estimated gain amplification amount that is an estimated value of the gain of the audio signal amplified by the equalizer processing is calculated, and the input attenuation amount and the estimated gain amplification amount
  • a gain correction amount is calculated based on the input attenuation amount, the audio signal is attenuated based on the input attenuation amount, the equalizer processing is performed on the attenuated audio signal based on the gain setting value, and the audio signal
  • the gain of each of the frequency bands is adjusted, and based on the gain correction amount, the gain of the audio signal subjected to the equalizer processing is Is Tadashisa.
  • deterioration of sound quality can be suppressed.
  • the horizontal direction indicates the order of each process performed on the input signal
  • the vertical direction indicates the amplitude of the input signal.
  • Each of the arrows U11 to U14 indicates the amplitude of the input signal, the amplitude of the input signal subjected to attenuation processing, the amplitude of the input signal subjected to equalizer processing, and the amplitude of the input signal after gain correction processing, that is, the amplitude of the output signal. ing.
  • Attenuation processing is first performed on the input signal having the amplitude indicated by the arrow U11 based on the input attenuation amount G_ATN, and the input signal having the amplitude indicated by the arrow U12 is obtained.
  • the input attenuation amount G_ATN indicates a rough gain amount of the input signal amplified by the equalizer processing for the input signal.
  • gain adjustment is performed on components of each frequency band of the input signal based on a gain setting value designated by the user for each frequency band.
  • the gain setting value of the predetermined frequency band F k (where 1 ⁇ k ⁇ N) is a value indicating the amount of gain amplification of the component of the frequency band F k of the input signal.
  • each frequency of the input signal The gains of the band components are amplified by the gain setting values of those frequency bands.
  • the input attenuation amount G_ATN is calculated based on the gain setting value of each frequency band specified by the user. More specifically, the input attenuation amount G_ATN is the maximum of the gain amplification amount estimated values of the frequency band components of the input signal by the equalizer process. The value is shown.
  • the input signal having the amplitude indicated by the arrow U13 is obtained.
  • the amplitude (gain) of this input signal is amplified by the difference between the amplitude indicated by the arrow U13 and the amplitude indicated by the arrow U12, compared to the input signal before the equalizer processing.
  • an estimated value of the gain amount amplified by the equalizer processing that is, an estimated gain amplification amount G_EST that is an estimated value of the energy amplification amount of the entire input signal, is obtained from the weighting coefficient CR k and gain for each frequency band F k. Based on the set value EQ k , it is calculated in advance before the equalizer processing.
  • the weight coefficient CR k of each frequency band F k is, for example standard audio signal (hereinafter, also model music signal referred to) are those calculated by the estimation from statistics of the energy distribution of each frequency.
  • the value of the weight coefficient CR k increases as the gain adjustment by the gain setting value EQ k greatly contributes to the amplification of the energy of the entire model music signal.
  • the difference between the absolute values of the estimated gain amplification amount G_EST and the input attenuation amount G_ATN calculated in this way is used as a gain correction amount G_CMP at the time of gain correction processing performed on the input signal subjected to the equalizer processing. Desired. Based on the gain correction amount G_CMP, gain correction processing is performed on the input signal having the amplitude indicated by the arrow U13 after the equalizer processing, and an output signal having the amplitude indicated by the arrow U14 is generated.
  • the gain correction amount G_CMP is the difference between the input attenuation amount G_ATN and the estimated gain amplification amount G_EST, the amplitude (gain) of the input signal is almost the same as the amplitude of the input signal input to the audio processing device in the gain correction processing. It will be amplified as follows. Also in FIG. 2, the amplitude of the output signal indicated by the arrow U14 is the same as the amplitude of the input signal indicated by the arrow U11, and it can be seen that an output signal having substantially the same gain as the input signal is obtained.
  • the attenuation process is performed on the input signal, and the equalizer process is performed on the resulting signal. Then, a gain correction process is performed on the signal obtained by the equalizer process to obtain an output signal.
  • the weight coefficient CR k is fixedly determined based on the energy distribution of each frequency of a general audio signal, and gain correction is performed using the gain correction amount G_CMP calculated using the weight coefficient CR k. Therefore, it is possible to prevent the uncomfortable fluctuation in sound pressure that occurs in the conventional auto gain control processing from occurring, and to improve the sound quality.
  • the gain characteristics of these frequency bands F k are obtained based on the gain setting values EQ k of the respective frequency bands F k specified by the user.
  • the horizontal direction indicates the frequency
  • the vertical direction indicates the gain of each frequency.
  • letters f 1 to f 4 arranged in the horizontal direction indicate the center frequencies of the frequency bands F 1 to F 4 .
  • the curve L11 or curve L14 indicates the gain characteristics of the frequency band F 1 to the frequency band F 4.
  • the curve L11 showing the gain characteristics of the frequency band F 1 occurs when amplified gain of the frequency f 1 based on the gain set value EQ 1 frequency band F 1, the gain of each frequency The amount of amplification is shown.
  • the gain setting value EQ 1 frequency band F 1 is, when an amount to amplify the gain of the frequency f 1 of the center frequency band F 1, the value at the frequency f 1 of the curve L11, the gain setting value EQ 1 is set.
  • Curve L11 has a positive value even at the position of the frequency of the frequency band F 2 adjacent to the frequency band F 1, the gain amplification by the gain setting value of each frequency band, to the gain of the other frequency bands It turns out that it has an influence.
  • the frequency amplification of the frequency f m by the gain setting value of the frequency band F m affects the frequency f k at the center of the frequency band F k (where 1 ⁇ k ⁇ N).
  • the amount of gain received and amplified will be referred to as gain amplification amount G km .
  • the gain amplification amount G km can be obtained from the gain setting value EQ m of the frequency band F m .
  • the gain of the frequency f k is the sum of the gain amplification amounts G km , that is, gain amplification.
  • Amplification is performed by the sum of the quantities G k1 to G kN .
  • the gain amplification amount of the frequency f k obtained by the sum of the gain amplification amounts G km is also referred to as gain amplification amount G (k).
  • the arrows G (1) to G (4) represent the gain amplification amounts G (1) to G (4) of the frequencies f 1 to f 4 (frequency bands F 1 to F 4 ).
  • the gain amplification amount G (2) contribution to the gain amplification amount G (2) it can be seen that the gain amplification amount G 22 of frequency f 2 is the highest.
  • G_ATN ⁇ MAX ( ⁇ G km ) (1)
  • ⁇ G km represents the sum of gain amplification amounts G km (where 1 ⁇ m ⁇ N). That is, ⁇ G km represents the gain amplification amount G (k).
  • MAX ( ⁇ G km ) represents a function that outputs the maximum value of the gain amplification amount G (k) (where 1 ⁇ k ⁇ N). Therefore, the input attenuation amount G_ATN is obtained by multiplying the maximum value of the gain amplification amounts G (k) in each frequency band by “ ⁇ 1”.
  • the gain amplification amount of each frequency band to be amplified when the equalizer processing is performed based on the gain setting value is obtained by estimation, and the sign of the maximum value of the gain amplification amount estimation value is inverted.
  • the value obtained in this way is the input attenuation amount G_ATN.
  • the input attenuation amount G_ATN is not limited to the above-described example and can be calculated by any method as long as a rough estimate of the energy (gain) amount of the entire input signal amplified by the equalizer process can be obtained. May be.
  • the estimated gain amplification amount G_EST is calculated from the weight coefficient CR k and the gain setting value EQ k of the frequency band F k . Specifically, the estimated gain amplification amount G_EST is calculated by obtaining the sum of each gain setting value EQ k multiplied by the weighting coefficient CR k as shown in the following equation (2).
  • G_EST (CR 1 ⁇ EQ 1 ) + (CR 2 ⁇ EQ 2 ) +... + (CR N ⁇ EQ N ) (2)
  • the weight coefficient CR k (where 1 ⁇ k ⁇ N) used for calculating the estimated gain amplification amount G_EST changes when the gain of the frequency band F k of the audio signal (model music signal) is amplified by 1 dB.
  • the amount of energy of the entire audio signal, that is, the gain amplification amount of the entire audio signal is shown.
  • the gain setting value EQ k multiplied by the weight coefficient CR k is the gain amplification amount of the entire audio signal generated when the gain of the frequency band F k is amplified by the gain setting value EQ k .
  • the estimated gain amplification amount G_EST is the sum of the gain amplification amounts of the entire audio signal generated by the frequency band gain adjustment obtained for each frequency band. Therefore, the estimated gain amplification amount of the entire audio signal amplified by the equalizer processing is estimated. It can be called a value.
  • the weight coefficient CR k of each frequency band F k is calculated by the estimation from statistics of the energy distribution of each frequency, as described above, for example, the model music signal.
  • FIG. 4 a model music signal with energy distribution shown on the left side of FIG. 4 is prepared in advance.
  • the horizontal axis indicates the frequency
  • the vertical axis indicates the amplitude (energy).
  • a curved line MD11 indicates the amplitude of each frequency of the model music signal. From this curve MD11, it can be seen that the model music signal, that is, a general music signal, contains more low frequency components and less high frequency components. Therefore, even if the gain of each frequency is amplified with the same gain setting value, it can be seen that the contribution rate to the amplification of the energy of the entire model music signal is higher at the lower frequency than at the higher frequency. Therefore, in the present technology, the weight coefficient CR k is calculated so that the weight of the frequency band F k having a higher contribution ratio to the energy amplification of the entire model music signal becomes larger.
  • the energy variation Gk shows the variation of the energy of the entire model music signal in a case where the gain of the frequency band F k of the model music signal + A dB is only amplified.
  • the energy of the entire model music signal here is, for example, the root mean square (RMS) of the sample value of each sample of the model music signal.
  • Equation (3) A indicates the amount of gain amplification in each frequency band, and SUM (G1: GN) indicates the sum of energy change amounts G1 to GN.
  • the weighting coefficient CR k of the frequency band F k multiplies the energy change amount GA to changed energy Gk in divided by the sum of the energy change amount of each frequency band, the amount of amplification to further the resultant value It is obtained by dividing by A.
  • the gain amplification amount of the entire signal to be processed by the equalizer process can be predicted with higher accuracy. Can do.
  • FIG. 5 is a diagram illustrating a configuration example of an embodiment of a speech processing device to which the present technology is applied.
  • 5 includes a coefficient calculation unit 51, a gain setting value holding unit 52, an input attenuation amount calculation circuit 53, an estimated gain amplification amount calculation circuit 54, a gain correction amount calculation circuit 55, an input gain attenuation circuit 56, and an equivalent. And a gain correction circuit 58.
  • Coefficient calculation unit 51 based on the model music signal is recorded in advance, and calculates the weight coefficient CR k of each frequency band, and supplies the estimated gain amplification amount calculation circuit 54.
  • the gain setting value holding unit 52 temporarily holds the gain setting value supplied in accordance with the user's input operation, and stores the gain setting value in the input attenuation amount calculation circuit 53, the estimated gain amplification amount calculation circuit 54, and the equivalent. Supply to the device 57.
  • the input attenuation amount calculation circuit 53 calculates the input attenuation amount G_ATN based on the gain setting value supplied from the gain setting value holding unit 52, and supplies it to the gain correction amount calculation circuit 55 and the input gain attenuation circuit 56.
  • the estimated gain amplification amount calculation circuit 54 calculates the estimated gain amplification amount G_EST based on the weighting coefficient from the coefficient calculation unit 51 and the gain setting value from the gain setting value holding unit 52, and sends it to the gain correction amount calculation circuit 55. Supply.
  • the gain correction amount calculation circuit 55 calculates the gain correction amount G_CMP based on the estimated gain amplification amount from the estimated gain amplification amount calculation circuit 54 and the input attenuation amount from the input attenuation amount calculation circuit 53, and the gain correction circuit 58. To supply.
  • the input gain attenuation circuit 56 attenuates the gain of the supplied input signal based on the input attenuation amount supplied from the input attenuation amount calculation circuit 53 and supplies it to the equalizer 57.
  • the equalizer 57 performs an equalizer process on the input signal from the input gain attenuation circuit 56 based on the gain setting value supplied from the gain setting value holding unit 52 and supplies it to the gain correction circuit 58.
  • the gain correction circuit 58 performs gain correction on the input signal supplied from the equalizer 57 based on the gain correction amount supplied from the gain correction amount calculation circuit 55, and outputs the output signal obtained as a result.
  • the gain correction circuit 58 includes a linear amplification circuit 71 and a nonlinear amplification circuit 72.
  • the linear amplification circuit 71 performs linear amplification processing on the input signal supplied from the equalizer 57 and supplies the input signal to the nonlinear amplification circuit 72.
  • the non-linear amplification circuit 72 performs non-linear amplification processing on the input signal supplied from the linear amplification circuit 71 and outputs an output signal obtained as a result.
  • step S11 the coefficient calculation unit 51, pre-recorded to on the basis of the model music signal and performs calculation of formula (3) described above, it calculates the weight coefficient CR k of each frequency band, resulting weighting factor Is supplied to the estimated gain amplification amount calculation circuit 54.
  • the weighting coefficient may be calculated in advance and recorded in the coefficient calculating unit 51.
  • the coefficient calculation unit 51 reads out the recorded weight coefficient and supplies it to the estimated gain amplification amount calculation circuit 54.
  • step S12 the input attenuation amount calculation circuit 53 calculates the input attenuation amount G_ATN by calculating the above equation (1) based on the gain setting value supplied from the gain setting value holding unit 52, and the gain correction amount. This is supplied to the calculation circuit 55 and the input gain attenuation circuit 56.
  • step S13 the estimated gain amplification amount calculation circuit 54 calculates the above equation (2) based on the weighting coefficient CR k from the coefficient calculation unit 51 and the gain setting value EQ k from the gain setting value holding unit 52. Then, the estimated gain amplification amount G_EST is calculated. The estimated gain amplification amount calculation circuit 54 supplies the calculated estimated gain amplification amount to the gain correction amount calculation circuit 55.
  • step S14 the gain correction amount calculation circuit 55 obtains the gain correction amount G_CMP by obtaining the difference between the estimated gain amplification amount from the estimated gain amplification amount calculation circuit 54 and the input attenuation amount from the input attenuation amount calculation circuit 53. This is calculated and supplied to the gain correction circuit 58. More specifically, the gain correction amount is the difference between the absolute value of the estimated gain amplification amount and the absolute value of the input attenuation amount.
  • an appropriate input attenuation amount G_ATN, estimated gain amplification amount G_EST, and gain correction amount G_CMP are calculated with respect to the gain setting value designated by the user.
  • step S15 the voice processing device 41 determines whether or not to end the process. For example, the equalizer process is performed on all the samples of the supplied input signal, and when all the samples of the output signal are generated, it is determined that the process is finished. That is, when processing is performed on all samples of the input signal, it is determined that the processing is to be terminated.
  • step S16 the sound processing device 41 determines whether or not the gain setting value has been changed by the user. For example, when a new gain setting value is supplied to the gain setting value holding unit 52, it is determined that the gain setting value has been changed.
  • step S16 If it is determined in step S16 that the gain setting value has been changed, the process returns to step S11 and the above-described process is repeated. That is, an appropriate input attenuation amount, estimated gain amplification amount, and gain correction amount are calculated for the newly specified gain setting value.
  • step S16 determines whether the gain setting value has been changed. If it is determined in step S16 that the gain setting value has not been changed, the process proceeds to step S17.
  • step S17 the input gain attenuation circuit 56 attenuates the gain of the supplied input signal by the input attenuation amount G_ATN supplied from the input attenuation amount calculation circuit 53, and supplies it to the equalizer 57.
  • step S18 the equalizer 57 performs an equalizer process on the input signal from the input gain attenuation circuit 56 based on the gain setting value supplied from the gain setting value holding unit 52, and linearly amplifies the input signal subjected to the equalizer process. This is supplied to the circuit 71. In the equalizer processing, the gain of each frequency band of the input signal is amplified by the gain setting value.
  • step S ⁇ b> 19 the linear amplification circuit 71 performs linear amplification processing on the input signal supplied from the equalizer 57 and supplies the input signal to the nonlinear amplification circuit 72.
  • the gain correction circuit 58 distributes the gain correction amount G_CMP supplied from the gain correction amount calculation circuit 55 to the linear amplification circuit 71 and the nonlinear amplification circuit 72 at a predetermined ratio.
  • the linear amplification circuit 71 linearly amplifies the amplitude of the input signal so that the gain of the input signal from the equalizer 57 is amplified by the amount distributed to the linear amplification circuit 71 in the gain correction amount G_CMP. And supplied to the nonlinear amplifier circuit 72. That is, linear amplitude conversion is performed on the input signal.
  • step S20 the nonlinear amplifier circuit 72 performs nonlinear amplification processing on the input signal supplied from the linear amplifier circuit 71, and outputs the output signal obtained as a result.
  • the non-linear amplification circuit 72 increases the input signal so that the gain of the input signal from the linear amplification circuit 71 is amplified by the amount distributed to the non-linear amplification circuit 72 in the gain correction amount G_CMP. Is amplified nonlinearly to obtain an output signal. That is, nonlinear amplitude conversion is performed on the input signal.
  • the correction amount distributed to the linear amplification process in the gain correction amount G_CMP is ⁇
  • the value obtained by subtracting the correction amount ⁇ from the gain correction amount G_CMP is distributed to the nonlinear amplification process. Correction amount.
  • the output signal obtained as a result becomes a signal amplified to an amplitude close to the input signal, and the occurrence of clip distortion is suppressed.
  • the amplification characteristic in the nonlinear amplification process for the input signal is an amplification characteristic that makes it difficult for clipping of the output signal to occur.
  • the gain amplification amount of the input signal when the equalizer processing is actually performed on the input signal is larger than the estimated gain amplification amount G_EST, only the linear gain amplification processing is performed on the input signal. If the gain is amplified by the gain correction amount, clip distortion occurs in the output signal.
  • the nonlinear amplification process is performed on the input signal after the linear amplification process to generate the third harmonic, an output signal with reduced clip distortion can be obtained.
  • the linear amplification processing and the nonlinear amplification processing are performed on the input signal, only one of the processing may be performed on the input signal.
  • the distribution of the gain correction amount G_CMP for the linear amplification processing and the nonlinear amplification processing may be performed at a predetermined ratio, or the distribution ratio of the gain correction amount is determined based on the characteristics of the input signal and the like. You may do it.
  • step S20 When the output signal is generated in step S20, the process returns to step S15, and the above-described process is repeated. That is, an unprocessed sample of the input signal is processed and an output signal is generated.
  • step S15 when all the samples of the input signal are processed and it is determined in step S15 that the processing is to be ended, the sound processing is ended.
  • the sound processing device 41 calculates the input attenuation amount G_ATN and the gain correction amount G_CMP from the model music signal prepared in advance and the gain setting value designated by the user. Then, the sound processing device 41 attenuates the input signal by the input attenuation amount, performs the equalizer processing, and performs linear amplification processing and nonlinear amplification processing on the resulting signal, thereby obtaining the signal corresponding to the gain correction amount. Is amplified to obtain an output signal.
  • the equalizer process is performed, and the input signal is amplified by the gain correction amount after the equalizer process, thereby preventing the occurrence of clip distortion and obtaining an output signal having an amplitude close to that of the input signal. And deterioration of sound quality can be suppressed.
  • the estimated gain amplification amount G_EST is uniquely obtained from the gain setting value, and the same input attenuation amount G_ATN and gain correction amount G_CMP are fixed throughout one piece of music unless the gain setting value is changed by the user. Used for.
  • the audio processing device 41 does not perform the forced amplitude correction depending on the fluctuation of the amplitude of the input signal unlike the conventional auto gain control processing. Therefore, an unnatural amplitude fluctuation does not occur in the output signal, and the user does not feel uncomfortable hearing.
  • the energy distribution of each frequency of the model music signal used for calculating the weighting factor may be obtained based on the music signals of a plurality of music pieces.
  • the representative value of the energy of each frequency of the music signal is obtained, and the distribution of the obtained representative value of each frequency is set as the energy distribution of each frequency of the model music signal.
  • the energy distribution of the frequency of the music signal of the music is obtained, and the energy distribution of the model music signal when the energy distribution thus obtained is used as the input signal. You may make it use as.
  • a more appropriate estimated gain amplification amount G_EST can be obtained as compared with the case of obtaining the representative value described above.
  • a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a program recording medium in a general-purpose personal computer or the like.
  • FIG. 7 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 205 is further connected to the bus 204.
  • the input / output interface 205 includes an input unit 206 including a keyboard, a mouse, and a microphone, an output unit 207 including a display and a speaker, a recording unit 208 including a hard disk and a nonvolatile memory, and a communication unit 209 including a network interface.
  • a drive 210 for driving a removable medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is connected.
  • the CPU 201 loads, for example, the program recorded in the recording unit 208 to the RAM 203 via the input / output interface 205 and the bus 204, and executes the program. Is performed.
  • Programs executed by the computer (CPU 201) are, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.), a magneto-optical disk, or a semiconductor.
  • the program is recorded on a removable medium 211 that is a package medium composed of a memory or the like, or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 208 via the input / output interface 205 by attaching the removable medium 211 to the drive 210.
  • the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the recording unit 208.
  • the program can be installed in the ROM 202 or the recording unit 208 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can be configured as follows.
  • An input attenuation amount calculating unit that calculates an input attenuation amount for attenuating the audio signal, based on a gain setting value indicating an adjustment amount of a gain of each frequency band of the audio signal in the equalizer process; Estimated gain amplification amount calculation for calculating an estimated gain amplification amount that is an estimated value of the gain of the audio signal amplified by the equalizer processing based on the weighting coefficient obtained for each frequency band and the gain setting value And A gain correction amount calculation unit that calculates a gain correction amount based on the input attenuation amount and the estimated gain amplification amount; An input gain attenuation unit for attenuating the audio signal based on the input attenuation amount; An equalizer processing unit that adjusts the gain of each frequency band of the audio signal by performing the equalizer processing on the audio signal attenuated by the input gain attenuation unit based on the gain setting value; A sound processing apparatus comprising: a gain correction unit that corrects a gain of the sound signal that has been subject
  • the audio processing apparatus further including a coefficient calculation unit that calculates the weighting coefficient based on an energy distribution of a frequency of the audio signal prepared in advance.
  • the coefficient calculation unit obtains, for each of the frequency bands, an energy change amount of the prepared audio signal that changes when a gain of the frequency band of the prepared audio signal is amplified by a predetermined value.
  • the audio processing device wherein the weighting coefficient of the specific frequency band is calculated based on a ratio of the energy change amount of each frequency band and the ratio of the energy change amount of the specific frequency band.
  • [4] The speech processing apparatus according to any one of [1] to [3], wherein the estimated gain amplification amount calculation unit calculates a sum of the gain setting values multiplied by the weighting coefficient as the estimated gain amplification amount.
  • the gain correction amount calculation unit calculates the gain correction amount by obtaining a difference between the input attenuation amount and the estimated gain amplification amount.
  • the gain correction unit performs nonlinear amplification processing on the audio signal based on the gain correction amount so that the gain of the audio signal is amplified. .
  • the gain correction unit performs a linear amplification process on the audio signal so that the gain of the audio signal is amplified by a predetermined amount of the gain correction amount, and then subtracts the predetermined amount from the gain correction amount.
  • the audio processing device according to [6], wherein the non-linear amplification processing is performed on the audio signal so that the gain of the audio signal after the linear amplification processing is amplified by the amount obtained.

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができる音声処理装置および方法、並びにプログラムに関する。 入力信号の各周波数帯域のゲインをゲイン設定値に基づいて調整するイコライザ処理を行なう場合に、ゲイン設定値から求まる入力減衰量だけ入力信号を減衰させ、減衰された入力信号に対してイコライザ処理を行なう。また、予め用意された一般的な音楽信号から求められた各周波数帯域の重み係数と、ゲイン設定値とに基づいて、イコライザ処理による入力信号のゲインの増幅量が推定され、その推定値と入力減衰量との差分がゲイン補正量として算出される。さらに、実際にイコライザ処理された入力信号がゲイン補正量だけ増幅されるように、入力信号に対して非線形増幅処理が行なわれ、出力信号とされる。本技術は、音声処理装置に適用することができる。

Description

音声処理装置および方法、並びにプログラム
 本技術は音声処理装置および方法、並びにプログラムに関し、特に、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにした音声処理装置および方法、並びにプログラムに関する。
 従来、等価器(イコライザ)を用いて、音楽信号の各周波数帯域のゲインを操作することが一般的に行なわれている。その際、特定の周波数帯域のゲインを増幅させることにより、等価器から出力される信号、すなわちゲイン操作された音楽信号の振幅が記録レンジを超えてしまい、結果として聴感上、不快なクリップ歪みが生じることがある。
 このようなクリップ歪みを低減させる技術として、プリゲイン制御処理とオートゲイン制御処理が知られている。
 プリゲイン制御処理では、予めクリップされるゲイン量が想定され、そのゲイン量に基づいて音楽信号が減衰されてから、音楽信号の等価器への入力が行なわれる。このとき、音楽信号の減衰量は、ユーザが手動で減衰つまみを操作することで決定される。
 また、オートゲイン制御処理では、等価器による音楽信号のゲイン操作でクリップが生じないように、等価器への入力直前、または等価器からの出力直後に、適応的に音楽信号のゲイン制御が行なわれる。すなわち、クリップ歪みが発生する区間では、信号の振幅が記録レンジを超えないように、音楽信号に対して強制的に信号波形の変形が行なわれる。
 例えば、図1の上側に示すように、矢印Q11に示す波形の音楽信号が等価器11に入力されて、特定周波数帯域のゲイン調整が行なわれ、矢印Q12に示す波形の音楽信号が出力として得られたとする。矢印Q12に示す波形では、振幅が増幅され過ぎたため波形の一部、すなわち点線で示される部分がクリップされて波形に歪みが生じている。このようなクリップ歪みが生じると、音楽信号の再生時に音がつぶれてしまい、音質が劣化してしまうことになる。
 そこで、プリゲイン制御処理やオートゲイン制御処理を行なう装置では、図中、下側に示すように等価器11の前段に減衰回路12が設けられ、矢印Q21に示す波形の処理対象となる音楽信号が減衰回路12に入力される。減衰回路12で音楽信号に対する減衰処理が行なわれると、矢印Q22に示すようにゲインが減衰された波形の音楽信号が得られ、この音楽信号が等価器11に供給されてゲイン調整が行なわれる。
 そして等価器11による音楽信号のゲイン調整により、矢印Q23に示す波形の音楽信号が出力として得られる。このようにして得られる音楽信号のゲインは、等価器11によりゲインが過剰に増幅されてしまう分だけ、予め減衰回路12で減衰されているので、クリップ歪みの発生を抑制することができる。
 また、クリップ歪みを低減させる技術として、異なる周波数帯域のピーキングフィルタを直列に接続するものもある(例えば、特許文献1参照)。この技術では、より後段においてより高い周波数のピーキングフィルタにより信号に対するフィルタ処理が行なわれるので、信号のクリップにより発生した歪みの高調波成分が後段のフィルタで増長されにくくなっている。
特開平8-23250号公報
 しかしながら、上述した技術では、音楽信号のゲイン増幅を行う場合に生じる音質の劣化を充分に抑制することが困難であった。
 例えば、プリゲイン制御処理では、ユーザが減衰つまみを感覚的に操作してゲインの減衰量を調整する必要があるため、最適な減衰量を指定することが困難であり、最適な減衰量も楽曲ごとに異なるので操作が煩わしく、不便であった。ユーザにより指定される減衰量が適切でないと、音楽信号にクリップ歪みが生じたり、音楽信号の振幅が小さくなり過ぎたりしてしまうことになる。
 また、オートゲイン制御処理では、音楽信号の振幅変化によりゲインの減衰量が自動的に調整されるので、ユーザがいちいち適切な減衰量を指定する必要はないが、クリップが生じる区間では強制的にゲインの減衰、つまり信号波形の変形が行なわれてしまう。そのため、信号波形の変形が行なわれた区間と、行なわれていない区間とが生じて音楽信号に不自然なゲイン変動が発生することになり、再生される音楽信号は聴感上、不安定なものとなってユーザに不快感を与えてしまう。
 本技術は、このような状況に鑑みてなされたものであり、音声信号のゲイン増幅を行なう場合に、音質の劣化を抑制することができるようにするものである。
 本技術の一側面の音声処理装置は、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部とを備える。
 音声処理装置には、予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに設けることができる。
 前記係数算出部には、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求めさせ、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出させることができる。
 前記推定ゲイン増幅量算出部には、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出させることができる。
 前記ゲイン補正量算出部には、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出させることができる。
 前記ゲイン補正部には、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なわせることができる。
 前記ゲイン補正部には、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なわせることができる。
 本技術の一側面の音声処理方法またはプログラムは、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップとを含む。
 本技術の一側面においては、イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量が算出され、前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量が算出され、前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量が算出され、前記入力減衰量に基づいて前記音声信号が減衰され、前記ゲイン設定値に基づいて、減衰された前記音声信号に対する前記イコライザ処理が行なわれて、前記音声信号の各前記周波数帯域のゲインが調整され、前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインが補正される。
 本技術の一側面によれば、音質の劣化を抑制することができる。
従来のイコライザ処理について説明する図である。 本技術を適用したイコライザ処理について説明する図である。 入力減衰量の算出について説明する図である。 周波数帯域ごとの重み係数の算出について説明する図である。 本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。 音声処理について説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
[本技術の概要]
 まず、本技術の概要について説明する。本技術は、音楽信号等の音声信号に対して等価器によるイコライザ処理を行なう際に、イコライザ処理の前後において適切に音声信号のゲイン調整を行なうことで、クリップ歪み等による音質の劣化を抑制するものである。なお、以下、処理対象となる音声信号は、楽曲の信号、つまり音楽信号であるものとし、処理対象の音楽信号を入力信号と称する。また、入力信号に対してイコライザ処理等が施され、最終的に得られた音声信号を出力信号と称することとする。
 本技術を適用した音声処理装置では、図2に示すように、入力信号が入力されると、入力信号に対する減衰処理が行なわれ、減衰処理された入力信号に対してイコライザ処理が施される。そして、イコライザ処理された入力信号に対して、ゲイン補正処理が行われて出力信号が生成される。
 なお、図2において横方向は入力信号に対して行なわれる各処理の順序を示しており、縦方向は入力信号の振幅の大きさを示している。また、矢印U11乃至矢印U14のそれぞれは、入力信号の振幅、減衰処理された入力信号の振幅、イコライザ処理された入力信号の振幅、およびゲイン補正処理後の入力信号、つまり出力信号の振幅を示している。
 図2の例では、まず矢印U11に示す振幅の入力信号に対して、入力減衰量G_ATNに基づいて減衰処理が行なわれ、矢印U12に示す振幅の入力信号が得られる。
 ここで、入力減衰量G_ATNは、入力信号に対するイコライザ処理により増幅される、入力信号の大まかなゲイン量を示している。
 例えば、入力信号に対するイコライザ処理では、周波数帯域ごとにユーザにより指定されたゲイン設定値に基づいて、入力信号の各周波数帯域の成分に対するゲイン調整が行なわれる。所定の周波数帯域F(但し、1≦k≦N)のゲイン設定値は、入力信号の周波数帯域Fの成分のゲインの増幅量を示す値であり、イコライザ処理では、入力信号の各周波数帯域の成分のゲインが、それらの周波数帯域のゲイン設定値の分だけ増幅される。
 入力減衰量G_ATNは、ユーザにより指定された各周波数帯域のゲイン設定値に基づいて算出され、より詳細には、イコライザ処理による入力信号の各周波数帯域成分のゲイン増幅量の推定値のうちの最大値を示している。
 また、減衰処理後、矢印U12に示す振幅の入力信号に対して、ユーザにより設定されたゲイン設定値に基づいてイコライザ処理が施されると、矢印U13に示す振幅の入力信号が得られる。この入力信号の振幅(ゲイン)は、イコライザ処理前の入力信号と比べて、矢印U13に示す振幅と矢印U12に示す振幅の差の分だけ増幅されている。
 音声処理装置では、イコライザ処理で増幅されるゲイン量の推定値、すなわち入力信号全体のエネルギの増幅量の推定値である推定ゲイン増幅量G_ESTが、周波数帯域Fごとの重み係数CRkとゲイン設定値EQとに基づいて、イコライザ処理前に予め算出される。
 ここで、各周波数帯域Fの重み係数CRkは、例えば一般的な音楽信号(以下、モデル音楽信号とも称する)の各周波数のエネルギ分布の統計量から推定により算出されるものである。この重み係数CRkの値は、ゲイン設定値EQによるゲイン調整がモデル音楽信号全体のエネルギの増幅に対して大きく寄与するほど、大きくなる。
 音声処理装置では、このようにして算出された推定ゲイン増幅量G_ESTと入力減衰量G_ATNの絶対値の差分が、イコライザ処理された入力信号に対して行なわれるゲイン補正処理時のゲイン補正量G_CMPとして求められる。そして、ゲイン補正量G_CMPに基づいて、イコライザ処理後の矢印U13に示す振幅の入力信号に対してゲイン補正処理が行なわれ、矢印U14に示す振幅の出力信号が生成される。
 ゲイン補正量G_CMPは、入力減衰量G_ATNと推定ゲイン増幅量G_ESTの差分であるから、ゲイン補正処理では入力信号の振幅(ゲイン)が、音声処理装置に入力された入力信号の振幅とほぼ同じになるように増幅されることになる。図2においても、矢印U14に示される出力信号の振幅は、矢印U11に示される入力信号の振幅と同じ大きさとなっており、入力信号とほぼ同じゲインの出力信号が得られることが分かる。
 以上のように、音声処理装置では、クリップ歪みの発生を抑制するために、入力信号に対する減衰処理が行なわれ、その結果得られた信号に対してイコライザ処理が行なわれる。そして、イコライザ処理により得られた信号に対してゲイン補正処理が行なわれ、出力信号とされる。
 これにより、イコライザ処理によるゲイン増幅特性を反映しながら、ゲイン増幅にともない発生するクリップ歪みを抑制することができ、歪み感のない音声の再生が可能となる。また、一般的な音声信号の各周波数のエネルギの分布に基づいて固定的に重み係数CRkを求め、その重み係数CRkが用いられて算出されたゲイン補正量G_CMPによりゲイン補正を行なうことで、従来のオートゲイン制御処理で生じるような不快な音圧の変動が発生しないようにすることができ、音質を向上させることができる。
[入力減衰量の算出について]
 次に、以上において説明した、出力信号を生成する音声処理で用いられる入力減衰量G_ATNと推定ゲイン増幅量G_ESTの具体的な算出方法の一例について説明する。
 まず、入力減衰量G_ATNの算出では、例えば図3に示すように、ユーザにより指定された各周波数帯域Fのゲイン設定値EQに基づいて、それらの周波数帯域Fのゲイン特性が求められる。なお、図3において、図中、横方向は周波数を示しており、縦方向は各周波数のゲインを示している。特に、図中、横方向に並ぶ文字f乃至fは、周波数帯域F乃至Fの中心の周波数を示している。
 図3の例では、曲線L11乃至曲線L14は、周波数帯域F乃至周波数帯域Fのゲイン特性を示している。
 具体的には、例えば周波数帯域Fのゲイン特性を示す曲線L11は、周波数帯域Fのゲイン設定値EQに基づいて周波数fのゲインを増幅させたときに生じる、各周波数のゲインの増幅量を示している。ここで、例えば周波数帯域Fのゲイン設定値EQが、周波数帯域Fの中心の周波数fのゲインを増幅させる量であるとすると、曲線L11の周波数fにおける値は、ゲイン設定値EQとなる。
 曲線L11は、周波数帯域Fに隣接する周波数帯域Fの周波数の位置においても正の値を有しており、各周波数帯域のゲイン設定値によるゲイン増幅は、他の周波数帯域のゲインにも影響を与えることが分かる。
 いま、周波数帯域F(但し、1≦m≦N)のゲイン設定値による周波数fのゲイン増幅により、周波数帯域F(但し、1≦k≦N)の中心の周波数fが影響を受けて増幅されるゲインの量をゲイン増幅量Gkmと呼ぶこととする。ゲイン増幅量Gkmは、周波数帯域Fのゲイン設定値EQから求めることができる。
 この場合、周波数帯域ごとに指定されたゲイン設定値に基づいてイコライザ処理を行なって、各周波数帯域のゲインを増幅させると、周波数fのゲインは各ゲイン増幅量Gkmの総和、つまりゲイン増幅量Gk1乃至GkNの和の分だけ増幅することになる。以下、ゲイン増幅量Gkmの総和により求められる周波数fのゲインの増幅量を、ゲイン増幅量G(k)とも称することとする。
 図3では、各矢印G(1)乃至G(4)が、周波数f乃至f(周波数帯域F乃至F)のゲイン増幅量G(1)乃至G(4)を表している。例えば、周波数fに注目すると、ゲイン増幅量G(2)に対する寄与率は、周波数fのゲイン増幅量G22が最も高くなっていることが分かる。また、周波数fを含む周波数帯域Fに隣接する周波数帯域Fおよび周波数帯域Fによるゲイン増幅量G21およびゲイン増幅量G23のゲイン増幅量G(2)への寄与率も他の周波数帯域のゲイン増幅量と比べて高いことが分かる。
 このようにして、各周波数帯域Fについてゲイン増幅量G(k)が算出されると、これらのゲイン増幅量G(k)に基づいて次式(1)が計算され、入力減衰量G_ATNが算出される。
 G_ATN=-MAX(ΣGkm)  ・・・(1)
 なお、式(1)においてΣGkmは、ゲイン増幅量Gkm(但し、1≦m≦N)の総和を示している。つまり、ΣGkmはゲイン増幅量G(k)を示している。また、式(1)において、MAX(ΣGkm)は、ゲイン増幅量G(k)(但し、1≦k≦N)のうちの最大値を出力する関数を示している。したがって、入力減衰量G_ATNは、各周波数帯域のゲイン増幅量G(k)のうちの最大値に「-1」を乗算することにより求められる。
 以上のように、ゲイン設定値に基づいてイコライザ処理を行なったときに増幅する各周波数帯域のゲインの増幅量が推定により求められ、それらのゲイン増幅量の推定値の最大値の符号を反転させて得られる値が入力減衰量G_ATNとされる。なお、入力減衰量G_ATNは、イコライザ処理により増幅される入力信号全体のエネルギ(ゲイン)量の大まかな推定値が得られる方法であれば、上述した例に限らず、どのような方法で算出されてもよい。
[推定ゲイン増幅量の算出について]
 また、推定ゲイン増幅量G_ESTは、上述したように周波数帯域Fの重み係数CRkとゲイン設定値EQとから算出される。具体的には、推定ゲイン増幅量G_ESTは次式(2)に示すように、重み係数CRkが乗算された各ゲイン設定値EQの和を求めることにより算出される。
 G_EST=(CR×EQ)+(CR×EQ)+・・・+(CR×EQ) ・・・(2)
 推定ゲイン増幅量G_ESTの算出に用いられる重み係数CRk(但し、1≦k≦N)は、音声信号(モデル音楽信号)の周波数帯域Fのゲインを1dBだけ増幅させたときに変化する、音声信号全体のエネルギの量、つまり音声信号全体のゲイン増幅量を示している。
 したがって、重み係数CRkが乗算されたゲイン設定値EQは、ゲイン設定値EQにより周波数帯域Fのゲインを増幅させたときに生じる音声信号全体のゲイン増幅量となる。
推定ゲイン増幅量G_ESTは、周波数帯域ごとに求めた、周波数帯域のゲイン調整により生じる音声信号全体のゲイン増幅量の総和であるから、イコライザ処理により増幅される音声信号全体のゲインの増幅量の推定値ということができる。
 なお、各周波数帯域Fの重み係数CRkは、上述したように、例えばモデル音楽信号の各周波数のエネルギ分布の統計量から推定により算出される。
 具体的には、例えば図4の左側に示すエネルギ分布のモデル音楽信号が予め用意されているとする。なお、図4において、横軸は周波数を示しており、縦軸は振幅(エネルギ)を示している。
 図4において曲線MD11は、モデル音楽信号の各周波数の振幅を示している。この曲線MD11から、モデル音楽信号、つまり一般的な音楽信号には、低い周波数の成分がより多く含まれ、高い周波数の成分はあまり含まれていないことが分かる。したがって、同じゲイン設定値で各周波数のゲインを増幅させても、モデル音楽信号全体のエネルギの増幅に対する寄与率は、高い周波数よりも低い周波数のほうが高いことが分かる。そこで、本技術では、モデル音楽信号全体のエネルギの増幅に対する寄与率がより高い周波数帯域Fの重みがより大きくなるように、重み係数CRkが算出される。
 例えば、まず矢印C1乃至矢印CNに示すように、モデル音楽信号の周波数帯域F乃至Fのゲインを+AdBだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギの増幅量であるエネルギ変化量Gk(但し、1≦k≦N)が算出される。
 すなわち、エネルギ変化量Gkは、モデル音楽信号の周波数帯域Fのゲインを+AdBだけ増幅させた場合におけるモデル音楽信号全体のエネルギの変化量を示している。なお、ここでいうモデル音楽信号全体のエネルギとは、例えばモデル音楽信号の各サンプルのサンプル値の二乗平均平方根(RMS(Root Mean Square))などである。
 また、矢印CAに示すように、モデル音楽信号の各周波数帯域F乃至Fのゲインをそれぞれ+AdBだけ増幅させた場合を考え、そのときのモデル音楽信号全体のエネルギ変化量GAが算出される。
 このようにしてエネルギ変化量Gkとエネルギ変化量GAが得られると、次式(3)の計算が行なわれ、周波数帯域Fの重み係数CRkが算出される。
 CRk=GA×(Gk/SUM(G1:GN))/A   ・・・(3)
 なお、式(3)において、Aは各周波数帯域のゲインの増幅量を示しており、SUM(G1:GN)は、エネルギ変化量G1乃至エネルギ変化量GNの総和を示している。
 したがって、周波数帯域Fの重み係数CRkは、エネルギ変化量Gkを各周波数帯域のエネルギ変化量の総和で除算したものにエネルギ変化量GAを乗算し、さらにその結果得られた値を増幅量Aで除算することで得られる。
 このように、モデル音楽信号の各周波数のエネルギ分布に基づいて、周波数帯域ごとの重み係数CRkを求めることで、イコライザ処理による処理対象の信号全体のゲイン増幅量をより高精度に予測することができる。
[音声処理装置の構成例]
 次に、以上において説明した処理を行なう音声処理装置の具体的な実施の形態について説明する。図5は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
 図5の音声処理装置41は、係数算出部51、ゲイン設定値保持部52、入力減衰量算出回路53、推定ゲイン増幅量算出回路54、ゲイン補正量算出回路55、入力ゲイン減衰回路56、等価器57、およびゲイン補正回路58から構成される。
 係数算出部51は、予め記録しているモデル音楽信号に基づいて、各周波数帯域の重み係数CRkを算出し、推定ゲイン増幅量算出回路54に供給する。ゲイン設定値保持部52は、ユーザの入力操作に応じて供給されたゲイン設定値を一時的に保持するとともに、ゲイン設定値を入力減衰量算出回路53、推定ゲイン増幅量算出回路54、および等価器57に供給する。
 入力減衰量算出回路53は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて入力減衰量G_ATNを算出し、ゲイン補正量算出回路55、および入力ゲイン減衰回路56に供給する。推定ゲイン増幅量算出回路54は、係数算出部51からの重み係数と、ゲイン設定値保持部52からのゲイン設定値とに基づいて推定ゲイン増幅量G_ESTを算出し、ゲイン補正量算出回路55に供給する。
 ゲイン補正量算出回路55は、推定ゲイン増幅量算出回路54からの推定ゲイン増幅量と、入力減衰量算出回路53からの入力減衰量とに基づいてゲイン補正量G_CMPを算出し、ゲイン補正回路58に供給する。
 入力ゲイン減衰回路56は、入力減衰量算出回路53から供給された入力減衰量に基づいて、供給された入力信号のゲインを減衰させ、等価器57に供給する。等価器57は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路56からの入力信号に対してイコライザ処理を施し、ゲイン補正回路58に供給する。
 ゲイン補正回路58は、ゲイン補正量算出回路55から供給されたゲイン補正量に基づいて、等価器57から供給された入力信号に対するゲイン補正を行い、その結果得られた出力信号を出力する。ゲイン補正回路58は、線形増幅回路71と非線形増幅回路72を備えている。
 線形増幅回路71は、等価器57から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路72に供給する。非線形増幅回路72は、線形増幅回路71から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。
[音声処理の説明]
 このような音声処理装置41に処理対象となる入力信号が供給され、入力信号に対するゲイン調整が指示されると、音声処理装置41は音声処理を行って、入力信号を出力信号に変換し、出力する。以下、図6のフローチャートを参照して、音声処理装置41による音声処理について説明する。
 ステップS11において、係数算出部51は、予め記録しているモデル音楽信号に基づいて上述した式(3)の計算を行い、各周波数帯域の重み係数CRkを算出するとともに、得られた重み係数を推定ゲイン増幅量算出回路54に供給する。
 なお、重み係数が予め算出されて係数算出部51に記録されておくようにしてもよい。そのような場合、係数算出部51は、記録している重み係数を読み出して、推定ゲイン増幅量算出回路54に供給する。
 ステップS12において、入力減衰量算出回路53は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて上述した式(1)を計算することで入力減衰量G_ATNを算出し、ゲイン補正量算出回路55、および入力ゲイン減衰回路56に供給する。
 ステップS13において、推定ゲイン増幅量算出回路54は、係数算出部51からの重み係数CRkと、ゲイン設定値保持部52からのゲイン設定値EQとに基づいて上述した式(2)を計算し、推定ゲイン増幅量G_ESTを算出する。推定ゲイン増幅量算出回路54は、算出した推定ゲイン増幅量をゲイン補正量算出回路55に供給する。
 ステップS14において、ゲイン補正量算出回路55は、推定ゲイン増幅量算出回路54からの推定ゲイン増幅量と、入力減衰量算出回路53からの入力減衰量との差分を求めることでゲイン補正量G_CMPを算出し、ゲイン補正回路58に供給する。より詳細には、推定ゲイン増幅量の絶対値と入力減衰量の絶対値との差分がゲイン補正量とされる。
 以上の処理により、ユーザが指定したゲイン設定値に対して、適切な入力減衰量G_ATN、推定ゲイン増幅量G_EST、およびゲイン補正量G_CMPが算出される。
 ステップS15において、音声処理装置41は、処理を終了するか否かを判定する。例えば、供給された入力信号の全てのサンプルについてイコライザ処理を行い、出力信号の全てのサンプルが生成された場合、処理を終了すると判定される。すなわち、入力信号の全サンプルに対する処理が行われた場合、処理を終了すると判定される。
 ステップS15において、まだ処理を終了しないと判定された場合、ステップS16において、音声処理装置41は、ユーザによりゲイン設定値が変更されたか否かを判定する。例えば、ゲイン設定値保持部52に新たなゲイン設定値が供給された場合、ゲイン設定値が変更されたと判定される。
 ステップS16において、ゲイン設定値が変更されたと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、新たに指定されたゲイン設定値に対して、適切な入力減衰量、推定ゲイン増幅量、およびゲイン補正量が算出される。
 これに対して、ステップS16において、ゲイン設定値が変更されていないと判定された場合、処理はステップS17に進む。
 ステップS17において、入力ゲイン減衰回路56は、入力減衰量算出回路53から供給された入力減衰量G_ATNだけ、供給された入力信号のゲインを減衰させ、等価器57に供給する。
 ステップS18において、等価器57は、ゲイン設定値保持部52から供給されたゲイン設定値に基づいて、入力ゲイン減衰回路56からの入力信号に対するイコライザ処理を行ない、イコライザ処理された入力信号を線形増幅回路71に供給する。イコライザ処理では、入力信号の各周波数帯域のゲインが、ゲイン設定値の分だけ増幅される。
 ステップS19において、線形増幅回路71は、等価器57から供給された入力信号に対して線形増幅処理を施し、非線形増幅回路72に供給する。
 例えばゲイン補正回路58は、ゲイン補正量算出回路55から供給されたゲイン補正量G_CMPを、所定の割合で線形増幅回路71と非線形増幅回路72に分配する。線形増幅回路71は、ゲイン補正量G_CMPのうちの線形増幅回路71に対して分配された分だけ、等価器57からの入力信号のゲインが増幅されるように、入力信号の振幅を線形に増幅させ、非線形増幅回路72に供給する。すなわち、入力信号に対する線形振幅変換が行なわれる。
 ステップS20において、非線形増幅回路72は、線形増幅回路71から供給された入力信号に対して非線形増幅処理を施し、その結果得られた出力信号を出力する。
 具体的には、非線形増幅回路72は、ゲイン補正量G_CMPのうちの非線形増幅回路72に対して分配された分だけ、線形増幅回路71からの入力信号のゲインが増幅されるように、入力信号の振幅を非線形に増幅させ、出力信号とする。すなわち、入力信号に対する非線形振幅変換が行なわれる。ここで例えば、ゲイン補正量G_CMPのうちの線形増幅処理に分配された補正量がαであるとすると、ゲイン補正量G_CMPから補正量αが減算されて得られる値が、非線形増幅処理に分配された補正量となる。
 入力信号に対する非線形増幅処理が行なわれると、その結果得られた出力信号は、入力信号に近い振幅まで増幅された信号となり、クリップ歪みの発生が抑制される。
 なお、入力信号に対する非線形増幅処理での増幅特性は、出力信号のクリップ歪みが生じにくくなるような増幅特性とされる。例えば、入力信号に対して実際にイコライザ処理を施したときの入力信号のゲイン増幅量が、推定ゲイン増幅量G_ESTよりも大きくなる場合には、入力信号に対して線形ゲイン増幅処理のみを行なってゲイン補正量だけゲインを増幅させると、出力信号にクリップ歪みが生じてしまう。しかしながら、線形増幅処理後、入力信号に対して非線形増幅処理を行なって3次高調波を発生させれば、クリップ歪みが低減された出力信号を得ることができる。
 このように、入力信号に対して線形増幅処理を行なってから非線形増幅処理を行い、合計してゲイン補正量G_CMPだけ入力信号のゲインが増幅されるようにすることで、出力信号の波形の歪みを抑制し、高音質な音声を得ることができる。
 なお、ここでは入力信号に対して、線形増幅処理と非線形増幅処理の両方の処理が施されると説明したが、何れか一方の処理のみが入力信号に対して行なわれるようにしてもよい。また、線形増幅処理と非線形増幅処理に対するゲイン補正量G_CMPの分配は、予め定められた比で行なわれるようにしてもよいし、入力信号の特性等に基づいてゲイン補正量の分配比が定められるようにしてもよい。
 ステップS20において出力信号が生成されると、処理はステップS15に戻り、上述した処理が繰り返される。すなわち、入力信号の未処理のサンプルに対する処理が行われ、出力信号が生成される。
 また、入力信号の全てのサンプルに対する処理が行なわれ、ステップS15において処理を終了すると判定された場合、音声処理は終了する。
 以上のように、音声処理装置41は、予め用意されたモデル音楽信号と、ユーザにより指定されたゲイン設定値とから、入力減衰量G_ATNやゲイン補正量G_CMPを算出する。そして、音声処理装置41は、入力信号を入力減衰量だけ減衰させてからイコライザ処理を行い、その結果得られた信号に対して線形増幅処理と非線形増幅処理を行なうことで、ゲイン補正量だけ信号のゲインを増幅させて出力信号とする。
 このように入力減衰量だけ減衰させてからイコライザ処理を行い、イコライザ処理後にゲイン補正量だけ入力信号を増幅させることで、クリップ歪みの発生を防止するとともに、入力信号に近い振幅の出力信号を得ることができ、音質の劣化を抑制することができる。
 特に、音声処理装置41では、推定ゲイン増幅量G_ESTはゲイン設定値により一意に求められ、ユーザによりゲイン設定値が変更されない限り、1つの楽曲を通して同じ入力減衰量G_ATNとゲイン補正量G_CMPが固定的に用いられる。換言すれば、音声処理装置41では、従来のオートゲイン制御処理のように、入力信号の振幅の変動に依存した強制的な振幅補正は行なわれない。したがって、出力信号に不自然な振幅変動が生じることがなく、ユーザに聴感上の不快感を与えてしまうこともない。
 なお、重み係数の算出に用いるモデル音楽信号の各周波数のエネルギ分布は、複数の楽曲の音楽信号に基づいて求められてもよい。そのような場合、例えば、それらの音楽信号の各周波数のエネルギの代表値が求められ、得られた各周波数の代表値の分布がモデル音楽信号の各周波数のエネルギ分布とされる。
 また、各楽曲について、楽曲の音楽信号の周波数のエネルギ分布を求め、そのようにして得られたエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、処理対象となる入力信号自体のエネルギ分布を用いるので、上述した代表値を求める場合と比べて、より適正な推定ゲイン増幅量G_ESTを得ることができるようになる。これにより、後段のゲイン補正処理において、推定ゲイン増幅量G_ESTの不足による出力ゲインの低下や、非線形増幅処理による出力信号の波形の変形を低減することができ、音質を向上させることができる。
 さらに、単一の楽曲内でも、音楽信号の振幅が大きくクリップが生じ易い区間がある場合には、そのような区間を抽出し、抽出した区間の信号の各周波数のエネルギ分布を、その楽曲の音楽信号を入力信号とする場合における、モデル音楽信号の周波数のエネルギ分布として用いるようにしてもよい。この場合、単一の楽曲全体の信号を用いる場合と比べて、クリップ歪みが発生する可能性が高い区間に対して、より適正な推定ゲイン増幅量を求めることができるようになる。
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図7は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インターフェース205が接続されている。入出力インターフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記録部208、ネットワークインターフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記録部208に記録されているプログラムを、入出力インターフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
 そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インターフェース205を介して、記録部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記録部208にインストールすることができる。その他、プログラムは、ROM202や記録部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 さらに、本技術は、以下の構成とすることも可能である。
[1]
 イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
 前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
 前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
 前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
 前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
 前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
 を備える音声処理装置。
[2]
 予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
 [1]に記載の音声処理装置。
[3]
 前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
 [2]に記載の音声処理装置。
[4]
 前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
 [1]乃至[3]の何れかに記載の音声処理装置。
[5]
 前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
 [1]乃至[4]の何れかに記載の音声処理装置。
[6]
 前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
 [1]乃至[5]の何れかに記載の音声処理装置。
[7]
 前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
 [6]に記載の音声処理装置。
 41 音声処理装置, 51 係数算出部, 53 入力減衰量算出回路, 54 推定ゲイン増幅量算出回路, 55 ゲイン補正量算出回路, 56 入力ゲイン減衰回路, 57 等価器, 71 線形増幅回路, 72 非線形増幅回路

Claims (9)

  1.  イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出部と、
     前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出部と、
     前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出部と、
     前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰部と、
     前記ゲイン設定値に基づいて、前記入力ゲイン減衰部により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理部と、
     前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正部と
     を備える音声処理装置。
  2.  予め用意された音声信号の周波数のエネルギ分布に基づいて、前記重み係数を算出する係数算出部をさらに備える
     請求項1に記載の音声処理装置。
  3.  前記係数算出部は、各前記周波数帯域について、前記予め用意された音声信号の前記周波数帯域のゲインを所定の値だけ増幅させた場合に変化する前記予め用意された音声信号のエネルギ変化量を求め、各前記周波数帯域の前記エネルギ変化量の和と、特定周波数帯域の前記エネルギ変化量の比に基づいて、前記特定周波数帯域の前記重み係数を算出する
     請求項2に記載の音声処理装置。
  4.  前記推定ゲイン増幅量算出部は、前記重み係数が乗算された前記ゲイン設定値の和を前記推定ゲイン増幅量として算出する
     請求項3に記載の音声処理装置。
  5.  前記ゲイン補正量算出部は、前記入力減衰量と前記推定ゲイン増幅量との差分を求めることで前記ゲイン補正量を算出する
     請求項4に記載の音声処理装置。
  6.  前記ゲイン補正部は、前記音声信号のゲインが増幅されるように、前記ゲイン補正量に基づいて前記音声信号に対する非線形増幅処理を行なう
     請求項5に記載の音声処理装置。
  7.  前記ゲイン補正部は、前記ゲイン補正量のうちの所定量だけ前記音声信号のゲインが増幅されるように、前記音声信号に対する線形増幅処理を行なった後、前記ゲイン補正量から前記所定量だけ減算した量だけ、前記線形増幅処理後の前記音声信号のゲインが増幅されるように、前記音声信号に対する前記非線形増幅処理を行なう
     請求項6に記載の音声処理装置。
  8.  イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
     前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
     前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
     前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
     前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
     前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
     を含む音声処理方法。
  9.  イコライザ処理における音声信号の各周波数帯域のゲインの調整量を示すゲイン設定値に基づいて、音声信号を減衰させる入力減衰量を算出する入力減衰量算出ステップと、
     前記周波数帯域ごとに求められた重み係数と、前記ゲイン設定値とに基づいて、前記イコライザ処理により増幅される前記音声信号のゲインの推定値である推定ゲイン増幅量を算出する推定ゲイン増幅量算出ステップと、
     前記入力減衰量と前記推定ゲイン増幅量とに基づいてゲイン補正量を算出するゲイン補正量算出ステップと、
     前記入力減衰量に基づいて前記音声信号を減衰させる入力ゲイン減衰ステップと、
     前記ゲイン設定値に基づいて、前記入力ゲイン減衰ステップの処理により減衰された前記音声信号に対する前記イコライザ処理を行って、前記音声信号の各前記周波数帯域のゲインを調整するイコライザ処理ステップと、
     前記ゲイン補正量に基づいて、前記イコライザ処理が施された前記音声信号のゲインを補正するゲイン補正ステップと
     を含む処理をコンピュータに実行させるプログラム。
PCT/JP2012/072353 2011-09-15 2012-09-03 音声処理装置および方法、並びにプログラム WO2013038937A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
BR112014005295A BR112014005295A2 (pt) 2011-09-15 2012-09-03 aparelho e método de processamento de som, e, programa
RU2014108818/08A RU2014108818A (ru) 2011-09-15 2012-09-03 Устройство обработки звука, способ и программа
US14/239,797 US9294062B2 (en) 2011-09-15 2012-09-03 Sound processing apparatus, method, and program
AU2012309702A AU2012309702A1 (en) 2011-09-15 2012-09-03 Speech processing device and method, and program
CN201280043659.4A CN103782515A (zh) 2011-09-15 2012-09-03 声音处理设备、方法以及程序
CA2844915A CA2844915A1 (en) 2011-09-15 2012-09-03 Sound processing apparatus, method, and program
EP12831214.7A EP2757685A1 (en) 2011-09-15 2012-09-03 Speech processing device and method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011202168A JP5845760B2 (ja) 2011-09-15 2011-09-15 音声処理装置および方法、並びにプログラム
JP2011-202168 2011-09-15

Publications (1)

Publication Number Publication Date
WO2013038937A1 true WO2013038937A1 (ja) 2013-03-21

Family

ID=47883168

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/072353 WO2013038937A1 (ja) 2011-09-15 2012-09-03 音声処理装置および方法、並びにプログラム

Country Status (9)

Country Link
US (1) US9294062B2 (ja)
EP (1) EP2757685A1 (ja)
JP (1) JP5845760B2 (ja)
CN (1) CN103782515A (ja)
AU (1) AU2012309702A1 (ja)
BR (1) BR112014005295A2 (ja)
CA (1) CA2844915A1 (ja)
RU (1) RU2014108818A (ja)
WO (1) WO2013038937A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
JP6174129B2 (ja) 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
BR112014004127A2 (pt) 2012-07-02 2017-04-04 Sony Corp dispositivo e método de decodificação, programa, e, dispositivo e método de codificação
IL287218B (en) 2013-01-21 2022-07-01 Dolby Laboratories Licensing Corp Audio encoder and decoder with program loudness and boundary metada
IN2015MN01766A (ja) 2013-01-21 2015-08-28 Dolby Lab Licensing Corp
EP2959479B1 (en) 2013-02-21 2019-07-03 Dolby International AB Methods for parametric multi-channel encoding
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9635417B2 (en) 2013-04-05 2017-04-25 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
WO2014175076A1 (ja) 2013-04-26 2014-10-30 ソニー株式会社 音声処理装置および音声処理システム
EP2991384B1 (en) 2013-04-26 2021-06-02 Sony Corporation Audio processing device, method, and program
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN105379311B (zh) 2013-07-24 2018-01-16 索尼公司 信息处理设备以及信息处理方法
CN110675884B (zh) 2013-09-12 2023-08-08 杜比实验室特许公司 用于下混合音频内容的响度调整
CN109903776B (zh) 2013-09-12 2024-03-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
AU2014371411A1 (en) 2013-12-27 2016-06-23 Sony Corporation Decoding device, method, and program
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
EP3518236B8 (en) 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6541364B2 (ja) * 2015-02-16 2019-07-10 クラリオン株式会社 音場補正装置、音場補正方法及び音場補正プログラム
JP6556463B2 (ja) * 2015-03-02 2019-08-07 クラリオン株式会社 フィルタ生成装置、フィルタ生成方法およびフィルタ生成プログラム
US9729118B2 (en) * 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
JPWO2017061218A1 (ja) 2015-10-09 2018-07-26 ソニー株式会社 音響出力装置、音響生成方法及びプログラム
JP6688141B2 (ja) 2016-04-19 2020-04-28 クラリオン株式会社 音響処理装置および音響処理方法
KR102483222B1 (ko) * 2017-11-17 2023-01-02 삼성전자주식회사 오디오 시스템 및 그 제어 방법
CN108091330B (zh) * 2017-12-13 2020-11-27 北京小米移动软件有限公司 输出声强调节方法、装置、电子设备及存储介质
CN113411724B (zh) * 2021-05-07 2023-03-31 佳禾智能科技股份有限公司 基于骨导耳机通话的回音消除方法、计算机程序介质、骨导耳机

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276911A (ja) * 1991-03-04 1992-10-02 Fujitsu Ten Ltd 音質調整装置
JPH0823250A (ja) 1994-07-05 1996-01-23 Matsushita Electric Ind Co Ltd 信号等価器
JPH09102719A (ja) * 1995-10-03 1997-04-15 Sony Corp 音響再生装置
JPH10261928A (ja) * 1997-03-18 1998-09-29 Fujitsu Ten Ltd グラフィックイコライザ装置およびその調整方法
JP2001203551A (ja) * 2000-01-21 2001-07-27 Matsushita Electric Ind Co Ltd イコライザ装置およびイコライザの調整方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4016206B2 (ja) * 2003-11-28 2007-12-05 ソニー株式会社 音声信号処理装置及び音声信号処理方法
CN105811910B (zh) * 2007-03-20 2018-08-28 联想创新有限公司(香港) 电子设备用声音处理系统、方法以及便携电话终端
CN102165792A (zh) * 2008-09-24 2011-08-24 雅马哈株式会社 环路增益推定装置以及啸叫防止装置
US9053697B2 (en) * 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
US8965756B2 (en) * 2011-03-14 2015-02-24 Adobe Systems Incorporated Automatic equalization of coloration in speech recordings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04276911A (ja) * 1991-03-04 1992-10-02 Fujitsu Ten Ltd 音質調整装置
JPH0823250A (ja) 1994-07-05 1996-01-23 Matsushita Electric Ind Co Ltd 信号等価器
JPH09102719A (ja) * 1995-10-03 1997-04-15 Sony Corp 音響再生装置
JPH10261928A (ja) * 1997-03-18 1998-09-29 Fujitsu Ten Ltd グラフィックイコライザ装置およびその調整方法
JP2001203551A (ja) * 2000-01-21 2001-07-27 Matsushita Electric Ind Co Ltd イコライザ装置およびイコライザの調整方法

Also Published As

Publication number Publication date
BR112014005295A2 (pt) 2017-04-04
CN103782515A (zh) 2014-05-07
CA2844915A1 (en) 2013-03-21
RU2014108818A (ru) 2015-09-20
JP2013065952A (ja) 2013-04-11
AU2012309702A1 (en) 2014-02-27
EP2757685A1 (en) 2014-07-23
US9294062B2 (en) 2016-03-22
US20140205111A1 (en) 2014-07-24
JP5845760B2 (ja) 2016-01-20

Similar Documents

Publication Publication Date Title
JP5845760B2 (ja) 音声処理装置および方法、並びにプログラム
US7577263B2 (en) System for audio signal processing
JP5149991B2 (ja) 音声再生装置、音声再生方法及びプログラム
US8130126B2 (en) Analog to digital conversion system
JP4881918B2 (ja) 適応性時間制御を用いるフィードバックリミッタ
JP5602309B2 (ja) オーディオ信号の臨界周波数帯域における歪みを制御する方法とシステム
US8634578B2 (en) Multiband dynamics compressor with spectral balance compensation
US20070136050A1 (en) System and method for audio signal processing
CN105612692B (zh) 用于压缩音频信号的数字压缩器
US20060233408A1 (en) Hearing aid with adaptive compressor time constants
JP4016206B2 (ja) 音声信号処理装置及び音声信号処理方法
CN101048935A (zh) 计算和调节音频信号的感觉响度和/或感觉频谱平衡
JP2008504783A (ja) 音声信号のラウドネスを自動的に調整する方法及びシステム
US7260209B2 (en) Methods and apparatus for improving voice quality in an environment with noise
CN105900335A (zh) 用于压缩音频信号的音频压缩系统
KR101093280B1 (ko) 음성 처리 회로, 음성 처리 장치 및 음성 처리 방법
EP3651355A1 (en) Load box and sound quality improving method
US20100189283A1 (en) Tone emphasizing device, tone emphasizing method, tone emphasizing program, and recording medium
JP2008148179A (ja) 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
KR20190056486A (ko) 오디오 시스템 및 그 제어 방법
US20070019833A1 (en) Hearing device and method for setting an amplification characteristic
JP2001228893A (ja) 音声認識装置
WO2018167834A1 (ja) 音響信号処理装置
JP3287199B2 (ja) トーンコントロール装置
US8737644B2 (en) Reproducing apparatus and reproducing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12831214

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2844915

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2012831214

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14239797

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2012309702

Country of ref document: AU

Date of ref document: 20120903

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2014108818

Country of ref document: RU

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112014005295

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112014005295

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20140307