WO2009119460A1 - オーディオ信号処理装置及びオーディオ信号処理方法 - Google Patents
オーディオ信号処理装置及びオーディオ信号処理方法 Download PDFInfo
- Publication number
- WO2009119460A1 WO2009119460A1 PCT/JP2009/055513 JP2009055513W WO2009119460A1 WO 2009119460 A1 WO2009119460 A1 WO 2009119460A1 JP 2009055513 W JP2009055513 W JP 2009055513W WO 2009119460 A1 WO2009119460 A1 WO 2009119460A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- level
- adjustment value
- level adjustment
- audio signal
- frame
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 title claims description 81
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000001228 spectrum Methods 0.000 claims abstract description 81
- 238000009499 grossing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims description 72
- 230000009467 reduction Effects 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 44
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 230000003321 amplification Effects 0.000 claims description 15
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000011946 reduction process Methods 0.000 claims description 11
- 230000001965 increasing effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 11
- 239000012536 storage buffer Substances 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 5
- 238000011410 subtraction method Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 239000003623 enhancer Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008825 perceptual sensitivity Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3089—Control of digital or coded signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/35—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
- H04R25/356—Amplitude, e.g. amplitude shift or compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
Definitions
- the present invention relates to an audio signal processing device and an audio signal processing method for reducing noise components included in an audio signal.
- a spectral subtraction method is known as a method of reducing a noise component by analyzing an input audio signal in real time and adjusting a frequency domain signal.
- the spectrum subtraction method makes it easy to hear the audio signal after the inverse Fourier transform by subtracting the noise spectrum estimated based on the spectrum signal divided by the Fourier transform from the audio signal containing the noise component.
- the noise model is specified by determining the presence or absence of an audio signal according to the assumption that the noise component is stationary. It is also possible to adjust the noise spectrum to be subtracted depending on the strength of the signal component and the type of signal (vowel, consonant, friction sound, etc.).
- the least mean square error method or the like is used to estimate the noise spectrum.
- iterative calculation is performed to minimize the mean square error value of different signals in a specific observation interval, and a considerably large amount of calculation is required.
- the spectral subtraction method requires the extraction of stationary noise components.
- it can be used for receiving sound signals from microphones in mobile phones that have almost constant ambient noise, and for video teleconference systems. Is suitable.
- Patent Document 1 discloses a technique for suppressing (quantization noise based on the above).
- Japanese Patent Application Laid-Open No. 2004-133620 discloses a technique for quickly deriving the above reduction amount by controlling the reduction amount of the noise component for each conversion section according to the signal characteristics and referring to a table set in advance for reducing the calculation amount. Has been.
- Patent Document 2 discloses a method for smoothing a noise component adjustment amount controlled for each conversion interval in a time direction in response to a transient signal and suppressing generation of quantization noise as much as possible, and for each analysis interval. A technique for applying a weight is disclosed.
- a voice enhancement technique for enhancing a predetermined frequency band has been known so that even an elderly person whose hearing has deteriorated can be clearly heard in an audio signal, and is used in an audio reproduction device, a hearing aid, or the like. Yes.
- Patent Document 3 in order to avoid a phenomenon in which a high frequency component is excessively emphasized when voice enhancement is applied, or a sound volume is excessively increased when an input sound pressure is high in the first place, an input audio signal is described.
- a technique for improving the clarity of speech by analyzing and giving an appropriate gain adjustment amount based on the result is disclosed.
- Patent Document 4 in order to avoid the phenomenon that, as in Patent Document 3, only a specific frequency band is overemphasized when voice enhancement is applied, and the balance of the original sound is lost, making it difficult to hear.
- the set volume value in the audio signal playback device By comparing the set volume value in the audio signal playback device with the signal level of the input signal and giving a gain amount according to the input sound pressure, it emphasizes that vocals and lines can be heard clearly at low volumes, A technique for appropriately emphasizing while maintaining the balance of the original sound at medium volume or higher is disclosed. JP-A-8-221093 JP-T-2004-502977 JP 2002-359899 A JP 2005-86462 A
- Patent Documents 1 and 2 described above are optimized on the premise of the usage form of a mobile phone as a main application destination. Therefore, a method for reducing the noise component of audio in other applications, particularly in a broadcast receiver such as a radio receiver or a television receiver in which a noise component is often added to a signal source while reproducing a wideband audio signal. As it was insufficient.
- a voice band emphasis device such as a voice enhancer has an effect of amplifying a specific frequency band of an input audio signal.
- a noise component in the frequency band may be amplified to deteriorate sound quality.
- the adverse effect of the voice enhancer is noticeable.
- the input signal is band-divided by a conventional band division method using IIR filters or FIR filters and the gain amount in a frequency band that cannot be said to be a narrow band is adjusted, the sound component and the noise are reduced.
- Voice enhancement is applied without separating the ingredients. For this reason, in a content to which background music other than voice, such as BGM or natural environment, is added as background sound, the intelligibility of words and vocals is not necessarily improved and is reproduced while being buried in the background sound.
- the present invention has been made in view of the above, and provides an audio signal processing device and an audio signal processing method capable of reducing noise components included in an audio signal by simple calculation without specifying the noise components in advance.
- the purpose is to do.
- a frame dividing unit that divides an input audio signal into frames that are predetermined units, and the audio signal for each frame is a signal in a time domain.
- a frequency conversion unit that converts the frequency signal to a frequency signal that is a frequency domain signal
- a level detection unit that detects the level of the spectrum of each frequency from the frequency signal for each frame
- a first threshold and the first threshold
- Level adjustment for performing reduction amount setting processing for setting a level adjustment value for reducing the level of a spectrum having a level within a level range between a second threshold value set to a level lower than the threshold value for each frame.
- the value setting unit and the level adjustment value set in the frame currently targeted for noise reduction processing are more temporal than the corresponding frame.
- a level adjustment value smoothing unit that performs a smoothing process that is a smoothing process in a time direction between the level adjustment value used in the previous frame, and a storage unit that stores the level adjustment value after the smoothing process;
- a spectrum adjustment unit that performs level adjustment by multiplying the frequency signal of the frame by the level adjustment value after the smoothing processing of the frame that is the noise reduction processing target, and the frequency that has been level-adjusted by the spectrum adjustment unit
- an audio signal processing apparatus comprising an inverse frequency conversion unit that converts a signal into an audio signal in a time domain.
- the input audio signal is divided into frames which are predetermined units by the frame dividing unit, and the audio signal for each frame is divided in the time domain by the frequency converting unit.
- the signal is converted into a frequency signal that is a frequency domain signal
- the level detection unit detects the level of the spectrum of each frequency from the frequency signal for each frame
- the level adjustment setting unit detects the first threshold value
- Reduction amount setting processing for setting, for each frame, a level adjustment value for reducing the level of a spectrum having a level within a level range between the second threshold set to a level lower than the first threshold.
- the level adjustment value smoothing unit performs the above-mentioned level setting in the frame currently targeted for noise reduction processing.
- the smoothing process which is a smoothing process in the time direction, is performed between the level adjustment value and the level adjustment value used in the frame immediately before the current frame, and the storage unit performs the smoothing process after the smoothing process.
- the level adjustment value of the frame is stored, and the spectrum adjustment unit performs level adjustment by multiplying the frequency signal of the frame by the level adjustment value after the smoothing processing of the frame that is the noise reduction processing target, and vice versa.
- An audio signal processing method is provided, wherein the frequency signal is converted into a time-domain audio signal by the frequency conversion unit.
- FIG. 1 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating a level adjustment section for noise reduction processing.
- FIG. 3 is a diagram illustrating frequency characteristics of human hearing.
- FIG. 4 is a diagram illustrating an example of frequency characteristics of the amplification amount in the speech enhancement process.
- FIG. 5 is a diagram showing the relationship between the input signal level and the smoothed output signal level after level adjustment in the noise reduction processing.
- FIG. 6 is a diagram showing the relationship between the input signal level and the smoothed output signal level after level adjustment in the speech enhancement process.
- FIG. 1 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating a level adjustment section for noise reduction processing.
- FIG. 3 is a diagram illustrating frequency characteristics of human hearing.
- FIG. 4 is a diagram illustrating an example of frequency characteristics of the amplification amount in the speech enhancement
- FIG. 7 is a diagram illustrating the relationship between the input signal level when the noise reduction process and the voice enhancement process are performed, and the smoothed output signal level after the level adjustment.
- FIG. 8 is a conceptual diagram showing levels at the time of input / output for each frequency spectrum when noise reduction processing and speech enhancement processing are performed.
- FIG. 8A is a diagram showing levels at the time of input
- FIG. b) is a diagram showing the level after the noise reduction process and the voice enhancement process are performed.
- FIG. 1 is a block diagram showing a configuration of an audio signal processing apparatus according to an embodiment of the present invention.
- the audio signal processing device includes a frame dividing unit 1, a frequency converting unit 2, a level detecting unit 3, a threshold comparing unit 4, a level adjustment value setting unit 5, A level adjustment value smoothing unit 6, a level adjustment value storage buffer 7, a spectrum adjustment unit 8, an inverse frequency conversion unit 9, a frame synthesis unit 10, and a control unit 11 are provided.
- the frame dividing unit 1 divides an audio signal of a digital signal input from the outside into frame units divided by a predetermined number of samples.
- the frequency conversion unit 2 converts the audio signal input from the frame division unit 1 from a time domain signal to a frequency domain signal, and supplies the obtained frequency signal to the level detection unit 3 and the spectrum adjustment unit 8. .
- the frequency signal converted by the frequency conversion unit 2 can be reproduced as the original audio signal as long as the calculation accuracy is maintained by performing an inverse frequency conversion process while taking an overlap structure.
- Examples of typical frequency conversion methods used in the frequency conversion unit 2 include a method of performing frequency conversion and inverse conversion while superimposing half of the block length, such as FFT (Fast Fourier Transform) and MDCT (Modified Discrete Cosine Transform). is there.
- a multi-stage filter bank such as a polyphase filter may be used for the frequency conversion method.
- a multi-stage filter bank such as a polyphase filter may be used for the frequency conversion method.
- signal components slightly leak in adjacent bands, attention should be paid since it affects the vicinity of the corresponding frequency when the level of a signal after band division, which will be described later, is adjusted.
- the level detection unit 3 detects the spectrum level of each frequency from the frequency signal input from the frequency conversion unit 2, and outputs the detection result to the threshold comparison unit 4.
- the threshold comparison unit 4 compares the level of each spectrum detected by the level detection unit 3 with thresholds T1 and T2 set as the upper limit value and lower limit value of typical noise component levels.
- the threshold comparison unit 4 compares the level of each spectrum detected by the level detection unit 3 with thresholds T3 and T4 set as the upper limit value and the lower limit value of the level giving the voice enhancement effect.
- Threshold values T1 to T4 are given from the control unit 11.
- the threshold values T1 to T4 are set so as to satisfy the relationship of minimum signal level ⁇ T2 ⁇ T1 ⁇ T4 ⁇ T3 ⁇ maximum signal level.
- the minimum signal level and the maximum signal level are levels set in advance as the lower limit and the upper limit of the input audio signal, respectively.
- the threshold comparison unit 4 receives a control signal from the control unit 11 that instructs whether to enable or disable the noise reduction processing and the speech enhancement processing. For example, when the threshold comparison unit 4 is instructed to invalidate the noise reduction processing, the threshold comparison unit 4 is instructed to invalidate the speech enhancement processing without comparing the level of each input spectrum with the thresholds T1 and T2. In this case, the input spectrum level is not compared with the thresholds T3 and T4.
- the level adjustment value setting unit 5 assumes that a noise component is included in a spectrum having a level within a range between the threshold T1 and the threshold T2 based on the comparison result in the threshold comparison unit 4, and sets the level. A reduction amount setting process for setting a level adjustment value for reduction for each frame is performed. Further, the level adjustment value setting unit 5 performs speech on a spectrum in a predetermined frequency band including a speech band having a level within a range between the threshold T3 and the threshold T4 based on the comparison result in the threshold comparison unit 4. Assuming that the component is included, an amplification amount setting process for setting a level adjustment value for increasing the level for each frame is performed.
- the level adjustment value setting unit 5 receives a control signal from the control unit 11 instructing whether to enable or disable the noise reduction processing and the speech enhancement processing, respectively, as in the threshold comparison unit 4. For example, the level adjustment value setting unit 5 does not perform the reduction amount setting process when instructed to invalidate the noise reduction process, and performs the amplification amount setting process when instructed to invalidate the voice enhancement process. Absent.
- the level adjustment value smoothing unit 6 reads the level adjustment value used in the frame immediately before the current frame from the level adjustment value storage buffer 7 and sets the level adjustment value in the current frame set by the level adjustment value setting unit 5. The level adjustment value is smoothed in the time direction between the level adjustment value and the level adjustment value used in the immediately previous frame. The level adjustment value smoothing unit 6 outputs the level adjustment value of the current frame after smoothing to the spectrum adjustment unit 8 and stores it in the level adjustment value storage buffer 7.
- the level adjustment value storage buffer 7 stores level adjustment values used for past frames.
- the spectrum adjustment unit 8 performs level adjustment by multiplying the level adjustment value of the current frame after smoothing input from the level adjustment value smoothing unit 6 by the frequency signal of the current frame input from the frequency conversion unit 2. .
- the inverse frequency conversion unit 9 converts the frequency signal level-adjusted by the spectrum adjustment unit 8 into a time domain signal and outputs it.
- the frame synthesis unit 10 restores a continuous audio signal on the time axis by adding half of the overlapping frame lengths in the signal from the inverse frequency conversion unit 9.
- the control unit 11 outputs to the threshold comparison unit 4 and the level adjustment value setting unit 5 a control signal instructing whether to enable or disable the noise reduction processing and the speech enhancement processing, respectively.
- the control signal to the threshold comparison unit 4 includes values of thresholds T1 to T4.
- the thresholds T1 to T4 may be preset values, or the control unit 11 holds a plurality of combinations of the values of the thresholds T1 to T4 and outputs one selected from them to the threshold comparison unit 4. May be.
- the frame dividing unit 1 divides the audio signal into frame units divided by a predetermined number of samples according to the frequency analysis method used in the subsequent frequency converting unit 2. If the frequency analysis method used in the frequency conversion unit 2 is a frequency conversion method such as FFT or MDCT, the number of samples in one frame is a numerical value expressed by a power of two.
- the input audio signal is assumed to be a digital signal. However, when the input audio signal is an analog signal, it is converted into a digital signal by an A / D converter (not shown) and then input to the frame dividing unit 1.
- the frequency converting unit 2 converts the audio signal having the frame configuration divided by the frame dividing unit 1 into a predetermined number of samples from a time domain signal to a frequency domain signal, and converts the converted frequency signal. It outputs to the level detection part 3 and the spectrum adjustment part 8.
- the level detection unit 3 detects the spectrum level of each frequency from the frequency signal input from the frequency conversion unit 2 and outputs the detection result to the threshold comparison unit 4.
- the band division signal corresponds to the spectrum.
- the spectrum refers to a band division signal.
- the threshold value comparison unit 4 compares the level of each spectrum detected by the level detection unit 3 with a threshold value T1 and a threshold value T2 set in advance as upper and lower limits of typical noise component levels. To do.
- the threshold values T1 and T2 will be described.
- hum noise is mixed depending on the reception sensitivity and added to the audio signal.
- various background noises are added to broadcast contents, and noise components vary from broadcast station to program, from program to scene.
- the analog device When a recording / playback system device such as a VTR is connected, the analog device is affected by power noise caused by mechanical driving that occurs when data is read from the recording medium, and the effect of the image signal passing through the device. Covers the signal. Even in a digital device, if it is not a complete digital-only circuit configuration, noise similar to the above analog device is added. Also, quantization noise generated when the audio signal is compressed is one factor that degrades the audio signal.
- a hard disk recorder using a hard disk as a recording medium, periodic noise is generated from fluctuations applied to the power supply by rotation control of an HDD (Hard Disc Drive) or DVD (Digital Versatile Disc) drive. It may be less preferable for hearing than noise and hiss noise. Further, when a low-precision signal processing chip is used, the calculation accuracy is not sufficient, and an annoying quantization noise peculiar to compressed audio is added to the audio signal.
- HDD Hard Disc Drive
- DVD Digital Versatile Disc
- threshold values T1 and T2 are set as upper and lower limits of typical noise component levels, and the signal within the range between the thresholds T1 and T2 is reduced by a certain level (level adjustment). ) And make the noise component less noticeable.
- FIG. 2 is a diagram showing a level adjustment section for noise reduction processing.
- the threshold T1 shown in FIG. 2 corresponds to ⁇ 50 dB
- the threshold T2 corresponds to ⁇ 80 dB
- the range between the threshold T1 and the threshold T2 is a typical noise component level added to the content. It is about the same.
- the level adjustment value setting unit 5 assumes that a noise component is included in the spectrum having a level within the range between the threshold T1 and the threshold T2. Then, a reduction amount setting process for setting a level adjustment value for lowering the level of the spectrum is performed.
- the level adjustment value when the level is lowered by 6 dB, the level adjustment value is set to 0.5.
- the spectrum amplitude value may be reduced in this way, that is, it may be multiplied by a numerical value smaller than 1, and the value after multiplication is halved by about 6 dB.
- This level adjustment value may be a constant value in the entire band when it is desired to reduce the memory usage of the level adjustment value storage buffer 7, but it may be set for each spectrum or for each frequency band. Good. Furthermore, you may set finely for every level of a spectrum.
- the level adjustment is made to a value of 1 or more for a spectrum whose level is equal to or higher than the threshold T1 in order to keep the input power and the output power equal. It may be set as a value.
- the level adjustment is not basically performed.
- the value of 1 or higher may be set as the level adjustment value for the spectrum of the level equal to or lower than the threshold T2.
- the values of the thresholds T1 and T2 may be set commonly for all bands, or may be set individually for each spectrum or frequency band.
- the thresholds T1 and T2 are common to all bands, there are effects of simplification of processing and reduction of a memory (not shown) for storing the thresholds T1 and T2.
- a memory not shown
- the human auditory characteristics differ depending on the frequency, that is, the human being can hear that the volume is different if the frequency is different, even if the sound pressure level is constant.
- the sound pressure level is plotted on the vertical axis and the frequency is plotted on the horizontal axis, and a curve of the sound pressure level of each frequency that can be heard by humans at the same volume is drawn, the characteristics shown in FIG. 3 are obtained.
- the lower curve is a minimum audible limit characteristic curve 21, and sounds below the sound pressure level indicated by the minimum audible limit characteristic curve 21 are not perceived by humans as audibility.
- the threshold T2 is set to a high level, and the frequency band in which the sensitivity is high (for example, 1 kHz to 8 kHz).
- the threshold value T2 is set to a low level, it is expected that the sound becomes more audible and audible.
- the level adjustment value smoothing unit 6 smoothes the level adjustment value in the time direction, and gives a decrease in the degree of influence related to the temporal variation of the spectrum and gives it to the adjacent conversion block.
- the level adjustment value changes slowly to prevent quantization noise.
- the level adjustment value smoothing unit 6 reads the level adjustment value used in the frame immediately before the current frame from the level adjustment value storage buffer 7 which is a buffer for storing data in the time direction, and reads the current frame Smoothing processing is performed for smoothing in the time direction between the level adjustment values at.
- This process has a function of suppressing the quantization noise generated from the difference amount with the original signal of the inter-block spectrum data caused by the rapid level fluctuation described above.
- N is a smoothing time constant.
- the situation in which the error amount ⁇ S is maximized is when the level equal to or higher than the threshold value T1 continues for a long time and then shifts to a level equal to or lower than T1 and close to T1, or vice versa. This is a time after a long period of time, when the level has changed from T1 or lower to a level higher than T1.
- N T1 ⁇ (1 ⁇ ) / P (Formula 4) To calculate the smoothing time constant N.
- time constant N should be considered from both the noise reduction effect and the time response characteristics, and does not necessarily satisfy the above (Equation 4). It may be further reduced.
- the level adjustment value smoothing unit 6 outputs the level adjustment value of the current frame after the smoothing processing obtained by the above processing to the spectrum adjustment unit 8 and stores it in the level adjustment value storage buffer 7.
- the threshold comparison unit 4 compares the level of each spectrum detected by the level detection unit 3 with the threshold T3 and the threshold T4 in the noise reduction process.
- the threshold T3 can be ⁇ 6 dB and the threshold T4 can be ⁇ 40 dB.
- the level adjustment value setting unit 5 determines the level within the range between the threshold T3 and the threshold T4 based on the comparison result by the threshold comparison unit 4.
- Amplification amount setting processing for setting a level adjustment value for increasing the level is performed on the assumption that the spectrum in the predetermined frequency band including the voice band includes the voice component.
- the level adjustment value may be a constant value within a predetermined frequency band, but may be set for each spectrum or may be set for each frequency band. Furthermore, you may set finely for every level of a spectrum.
- the level adjustment value may be set so that the frequency characteristic of the amplification amount based on the level adjustment value changes according to the content genre including the input audio signal.
- the amplification amount of a human voice band (for example, 400 Hz to 4000 Hz) is set larger than the amplification amount of other bands.
- the level adjustment value is set so that the voice is more emphasized.
- the level adjustment value is set so that the audio band is amplified more weakly than other bands as shown by the curve 24 in FIG. 4 so as not to impair the balance as music.
- the genre of the content can be acquired from program information included in the broadcast radio wave.
- the values of the threshold values T3 and T4 may be set in common for all the bands as in the threshold values T1 and T2, or may be set individually for each spectrum or frequency band.
- the level adjustment value smoothing unit 6 performs a smoothing process in the time direction on the level adjustment value set by the level adjustment value setting unit 5.
- the method of the smoothing process is the same as that in the noise reduction process described above, but the smoothing time constant used here is, for example, a value calculated by replacing T1 in (Equation 4) with T3.
- N1 T3 ⁇ (1 ⁇ ) / P1 (Formula 5)
- N1 T3 ⁇ (1 ⁇ ) / P1 (Formula 5)
- N1 T3 ⁇ (1 ⁇ ) / P1 (Formula 5)
- P1 is an allowable noise level value obtained from the curve 22 shown in FIG.
- a curve 22 shows a curve of the sound pressure level of each frequency that can be heard by a human at a predetermined volume larger than the volume corresponding to the minimum audible limit characteristic curve 21.
- FIG. 3 shows that when the sound volume heard by humans increases, the sound pressure level that is not perceived by humans as audibility increases.
- the smoothing process may be performed using a time constant N1 calculated using an allowable noise level value P1 larger than the minimum audible limit level value P.
- the level adjustment value smoothing unit 6 outputs the level adjustment value of the current frame after smoothing processing to the spectrum adjustment unit 8 and stores it in the level adjustment value storage buffer 7 by the above processing.
- the spectrum adjustment unit 8 uses the level adjustment value of the current frame after the smoothing process input from the level adjustment value smoothing unit 6 as the frequency signal of the current frame input from the frequency conversion unit 2 ( Multiply (spectrum) to adjust the level.
- the inverse frequency conversion unit 9 converts the frequency signal level-adjusted by the spectrum adjustment unit 8 into a time domain signal and outputs it.
- the frame synthesis unit 10 restores a continuous audio signal on the time axis by adding half of the overlapping frame lengths in the signal from the inverse frequency conversion unit 9. If necessary, the audio signal on the time axis restored by the frame synthesizing unit 10 is converted to an analog signal by a D / A converter (not shown) and then output to the outside.
- FIG. 5 is a diagram showing the relationship between the input signal level and the smoothed output signal level after the level adjustment in the noise reduction processing
- FIG. 6 is the smoothed output signal after the level adjustment in the speech enhancement processing
- FIG. 7 is a diagram showing the relationship between the input signal level and the smoothed output signal level after the level adjustment when the noise reduction processing and the speech enhancement processing are performed.
- the audio signal with a good S / N ratio that is, when the noise level is T2 or less, the level adjustment does not work, and the original signal is restored. Since it approaches as much as possible, the influence on sound quality can be made extremely small.
- the threshold value T2 as the lower limit value is not set, in the case of an audio signal that rises rapidly after a weak signal continues, the attack feeling inherent in the audio signal is reduced by the noise reduction amount specified by the level adjustment value. It becomes a weak sound.
- the threshold T2 is set and an audio signal with a good S / N ratio is provided to maintain the musicality, while reflecting the minimum audible limit characteristic for each frequency, and according to different perceptual sensitivities depending on the frequency band. Noise reduction control is possible.
- the spectrum level adjustment may be performed independently for each spectrum or may be performed for a frequency band having a certain frequency width obtained by grouping a plurality of spectra.
- a sound source that contains a lot of harmonic components in a single musical instrument such as a stringed instrument
- it is desirable to adjust the level for each spectrum because the peaks of the signal will be lost if they are processed together in a certain frequency band. .
- the capacity of the level adjustment value storage buffer 7 and the memory capacity necessary for storing individual threshold values are reduced or the calculation load of the level adjustment value is desired to be reduced, it is better to group the spectra. .
- the grouping either a frequency band of equal intervals or a critical bandwidth defined from human audibility characteristics that are narrower toward the lower range and wider toward the higher range is adopted.
- level adjustment is performed while smoothing a frequency signal in a level band in which a general noise component considering human auditory characteristics is present in the time direction.
- the noise component included in the audio signal can be reduced by a simple calculation without specifying the noise component in advance with respect to the power supply noise or the like due to the simple driving. Thereby, it is possible to provide a user with an easy-to-hear voice.
- FIG. 8 is a conceptual diagram showing levels at the time of input / output for each frequency spectrum in a certain time when noise reduction processing and speech enhancement processing are performed
- FIG. 8 (a) is a diagram showing levels at the time of input
- FIG. 8B is a diagram showing the level after the noise reduction process and the voice enhancement process are performed.
- the level adjustment value smoothing unit 6 does not immediately set the level adjustment value at a specific time (frame) by weighting the past state.
- T4 The spectrum in the range from T3 to T3 is amplified, and the spectrum in the range from T2 to T1 is attenuated, so that a speech enhancement effect and a noise reduction effect can be obtained by a single process.
- the level adjustment value is such that the attenuation amount GainN for noise reduction satisfies GainN ⁇ (input signal level ⁇ minimum signal level), and the amplification amount GainS for audio amplification is GainS ⁇ (maximum signal level ⁇ input signal level). Must be set to meet. If this condition is not satisfied, the sound quality may be deteriorated due to generation of noise or the like.
- an audio signal is converted from a time domain signal to a frequency domain signal, and noise reduction processing and voice enhancement processing are simultaneously performed on the converted frequency signal, thereby reducing noise components.
- the voice can be enhanced while suppressing the deterioration of the sound quality with respect to the included audio signal.
- finer processing can be performed as compared with a method of performing noise reduction processing and voice enhancement processing in the time domain, and voice that is more natural and easy to hear can be provided in terms of sound quality.
- noise reduction processing and voice enhancement processing are realized with a common configuration, an increase in circuit scale can be suppressed.
- the functions of the audio signal processing apparatus may be realized by a computer by a program.
- This program may be read from a recording medium and loaded into a computer, or may be transmitted via a communication network or the like and loaded into a computer.
- the audio signal processing device of the present invention it is possible to reduce the noise component included in the audio signal by a simple calculation without specifying the noise component in advance.
- the audio signal processing apparatus of the present invention it is possible to enhance the voice while suppressing the deterioration of the sound quality even with respect to the audio signal including the noise component without increasing the circuit scale.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Control Of Amplification And Gain Control (AREA)
- Stereophonic System (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
入力オーディオ信号を時間領域の信号から周波数領域の信号に変換した周波数信号において、レベル調整値設定部5により、ノイズ成分レベルのスペクトルのレベルを低下させるためのレベル調整値を設定し、レベル調整値スムージング部6により、レベル調整値設定部5で設定したレベル調整値を時間方向に平滑化するスムージング処理を行い、スペクトル調整部8により、スムージング後のレベル調整値を周波数信号に乗算してレベル調整を行う。
Description
本発明は、オーディオ信号に含まれるノイズ成分を低減するオーディオ信号処理装置及びオーディオ信号処理方法に関する。
従来、オーディオ信号に含まれるノイズ成分を低減し、音声を聞き取り易くするためのさまざまな技術が提案されている。例えば、入力されるオーディオ信号をリアルタイムで解析し、周波数領域の信号を調整することによってノイズ成分を低減する方法として、スペクトル差し引き法が知られている。
スペクトル差し引き法は、ノイズ成分を含むオーディオ信号から、フーリエ変換によって分割したスペクトル信号を基に推定したノイズスペクトルを差し引くことで、逆フーリエ変換後のオーディオ信号を聞き易くするものである。
スペクトル差し引き法では、ノイズ成分は定常的であるとの仮定に従い、オーディオ信号の有無を判定して雑音モデルを特定している。また、信号成分の強弱や信号の種類(母音、子音、摩擦音など)により、差し引くノイズスペクトルを調整することも可能である。
スペクトル差し引き法において、ノイズスペクトルを推定するためには、最小平均二乗誤差法などが用いられる。一般的に、最小平均二乗誤差法は、特定観測区間における異なる信号の二乗誤差平均値を最小にする繰り返し計算が実行され、かなり大きな演算量を必要とする。
また、スペクトル差し引き法では、定常的ノイズ成分の抽出が必要であり、応用分野としては、ほぼ一定の周囲雑音が存在する携帯電話でのマイクロホンによる受音信号やテレビ電話会議システムなどへの利用に適している。
この方式を応用し、さらに演算量の低減を目的とし、かつ信号成分の大きな変化が存在したときに発生する副作用的なノイズ成分(スペクトル成分のレベル調整や、推定誤差量の差し引きによって生じる誤差量に基づく量子化ノイズ)を抑制する技術が特許文献1に開示されている。
特許文献1では、ノイズ成分の低減量を信号特性に応じて変換区間ごとに制御し、演算量削減のために予め設定されたテーブルを参照することで、速やかに上記低減量を導く手法が開示されている。
また、特許文献2には、過渡的信号に対応し、量子化ノイズの発生をできるだけ抑えるために、変換区間ごとに制御されたノイズ成分調整量を時間方向にスムージングする方法、および分析区間ごとに重み付けを施す手法が開示されている。
また、従来、オーディオ信号において、聴覚の衰えた高齢者等でも音声がはっきり聞き取れるように、所定の周波数帯域を強調するボイスエンハンスの技術が知られており、オーディオ再生装置、補聴器等に利用されている。
例えば、特許文献3には、ボイスエンハンスをかける際に高域成分が強調されすぎたり、そもそも入力音圧が高い場合に音量が大きくなりすぎたりする現象を回避するため、入力される音声信号を分析し、その結果に基づき適度なゲイン調整量を与えることで音声の明瞭度を向上する技術が開示されている。
また、特許文献4には、特許文献3と同様に、ボイスエンハンスをかける際に特定の周波数帯域のみ強調されすぎてしまい、原音のバランスが崩れてかえって聞き難くなってしまう現象を回避するため、オーディオ信号再生装置における設定音量値と入力される信号の信号レベルとを比較し、入力音圧に応じたゲイン量を与えることで、小音量時にはボーカルやセリフが明瞭に聞こえるように強調するとともに、中音量以上では原音のバランスを保ちつつ適正に強調する技術が開示されている。
特開平8-221093号公報
特表2004-502977号公報
特開2002-359899号公報
特開2005-86462号公報
しかしながら、上述の特許文献1,2に開示された技術は、主な応用先として携帯電話の利用形態が前提として最適化されている。このため、他の用途、特に広帯域なオーディオ信号を再生しつつノイズ成分が信号源に加算されることが多い放送受信機、例えばラジオ受信機、テレビ受信機等における音声のノイズ成分を低減する方法としては不十分であった。
特に、テレビ受信機では、放送系の受信感度に起因するノイズ成分に加え、コンテンツそのものに含まれる背景ノイズ、さらにはテレビ受信機に接続した家庭用VTRにおける電源系、記録メディアのテープ走行系またはディスク回転系に起因するノイズ成分など、様々な発生源が組み合わさり、ノイズ成分の特定が難しい。したがって、特許文献1,2のような、定常的ノイズ成分の存在を想定した方法では、十分なノイズ低減効果は期待できない。
また、帯域の狭い音声とは異なる広帯域オーディオ信号では、特に人為的なスペクトルのレベル値変更に伴う量子化ノイズの存在に注意しなければならず、音声向けのノイズ成分低減方法のモデルをそのまま採用することは、聴感的に好ましくない。
さらに、最小平均二乗誤差法やdB値算出時には、log、pow、平方根等の演算を頻繁に行うため、演算量が多くなる。このため、ノイズ低減装置の回路規模が増大し、また、ICに高価格のチップを採用しなければならず、コスト面からもさらなる改良が求められている。
また、上述の特許文献3,4に示されたような時間軸上のフィルタを用いたボイスエンハンサにおいては、強調された周波数帯域のノイズを低減する必要がある場合には、エンハンス回路の前段または後段にノイズ低減回路を設ける必要があり、回路規模の増大を招いていた。また、セリフやボーカル等の強調したい周波数帯域がノイズ低減回路によって結果的にレベルを下げられ、ボイスエンハンスの効果が弱くなることがあった。
そもそも、ボイスエンハンサなどの音声帯域強調装置は、入力オーディオ信号の特定の周波数帯域を増幅する効果がある一方、その周波数帯域のノイズ成分も増幅することで音質を低下させるおそれがある。特に、SN比の小さいオーディオ信号の場合、ボイスエンハンサによる悪影響は顕著にあらわれる。
さらに、従来のようなIIRフィルタやFIRフィルタを用いた数バンドの帯域分割法により入力信号を帯域分割し、決して狭帯域とは言えない周波数帯域のゲイン量を調整しただけでは、音声成分とノイズ成分とを分離しないままボイスエンハンスをかけていることになる。このため、音声以外の例えばBGMや自然界の環境音が背景音として付加されているコンテンツでは、セリフやボーカルの明瞭度が必ずしも向上せず、背景音に埋もれたまま再生されていた。
本発明は上記に鑑みてなされたもので、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減することができるオーディオ信号処理装置及びオーディオ信号処理方法を提供することを目的とする。
さらには、上記のオーディオ信号処理装置及びオーディオ信号処理方法において、回路規模の増大を招くことなく、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することを付加的な目的とする。
上記目的を達成するため、本発明の第一の側面によれば、入力されたオーディオ信号を所定の単位であるフレームに分割するフレーム分割部と、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換する周波数変換部と、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出するレベル検出部と、第1の閾値と、この第1の閾値よりも低いレベルに設定された第2の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行うレベル調整値設定部と、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に1つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行うレベル調整値スムージング部と、前記スムージング処理後の前記レベル調整値を保存する保存部と、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行うスペクトル調整部と、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する逆周波数変換部とを備えたことを特徴とするオーディオ信号処理装置が提供される。
また、本願発明の第二の側面によれば、フレーム分割部によって、入力されたオーディオ信号を所定の単位であるフレームに分割し、周波数変換部によって、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換し、レベル検出部によって、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出し、レベル調整設定部によって、第1の閾値と、この第1の閾値よりも低いレベルに設定された第2の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行い、レベル調整値スムージング部によって、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に1つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行い、保存部に、前記スムージング処理後の前記レベル調整値を保存し、スペクトル調整部によって、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行い、逆周波数変換部によって、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換することを特徴とするオーディオ信号処理方法が提供される。
以下、本発明の一実施形態に係るオーディオ信号処理装置について、図1乃至8を参照して説明する。
図1は、本発明の実施の形態に係るオーディオ信号処理装置の構成を示すブロック図である。図1に示すように本実施の形態に係るオーディオ信号処理装置は、フレーム分割部1と、周波数変換部2と、レベル検出部3と、閾値比較部4と、レベル調整値設定部5と、レベル調整値スムージング部6と、レベル調整値保存バッファ7と、スペクトル調整部8と、逆周波数変換部9と、フレーム合成部10と、制御部11とを備える。
フレーム分割部1は、外部から入力されるデジタル信号のオーディオ信号を所定のサンプル数で区切ったフレーム単位に分割する。
周波数変換部2は、フレーム分割部1から入力されるオーディオ信号を、時間領域の信号から周波数領域の信号へと変換し、得られた周波数信号をレベル検出部3およびスペクトル調整部8に供給する。
周波数変換部2で変換された周波数信号は、オーバーラップ構造を取りながら逆周波数変換処理すれば、演算精度が保たれている限り元のオーディオ信号に再現できる。周波数変換部2で用いる代表的な周波数変換法の例は、FFT(Fast Fourier Transform)やMDCT(Modified Discrete Cosine Transform)などの、ブロック長の半分を重ね合わせながら周波数変換および逆変換を行う方法である。
なお、ポリフェイズフィルタのような多段構成のフィルタバンクを周波数変換法に用いてもよい。ただし、隣接するバンドに信号成分が若干もれるため、後述のバンド分割後の信号をレベル調整する際に該当周波数近傍に対し影響を及ぼすので注意が必要である。
レベル検出部3は、周波数変換部2から入力される周波数信号から、各周波数のスペクトルのレベルを検出し、その検出結果を閾値比較部4に出力する。
閾値比較部4は、レベル検出部3で検出された各スペクトルのレベルと、代表的なノイズ成分レベルの上限値、下限値として設定された閾値T1,T2とを比較する。また、閾値比較部4は、レベル検出部3で検出された各スペクトルのレベルと、音声強調効果を与えるレベルの上限値、下限値として設定された閾値T3,T4とを比較する。
閾値T1~T4は、制御部11より与えられる。閾値T1~T4は、最小信号レベル≦T2≦T1≦T4≦T3≦最大信号レベルの関係を満足するように設定される。最小信号レベル、最大信号レベルは、それぞれ入力オーディオ信号の下限、上限として予め設定されているレベルである。
閾値比較部4には、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号が制御部11から入力される。閾値比較部4は、例えば、ノイズ低減処理を無効とするよう指示された場合、入力された各スペクトルのレベルと閾値T1,T2との比較は行わず、音声強調処理を無効とするよう指示された場合、入力された各スペクトルのレベルと閾値T3,T4との比較は行わない。
レベル調整値設定部5は、閾値比較部4での比較結果に基づいて、閾値T1と閾値T2との間の範囲内のレベルを有するスペクトルにノイズ成分が含まれているものとして、そのレベルを低下させるためのレベル調整値をフレームごとに設定する低減量設定処理を行う。また、レベル調整値設定部5は、閾値比較部4での比較結果に基づいて、閾値T3と閾値T4との間の範囲内のレベルを有する、音声帯域を含む所定周波数帯域内のスペクトルに音声成分が含まれているものとして、そのレベルを増加させるためのレベル調整値をフレームごとに設定する増幅量設定処理を行う。
レベル調整値設定部5には、閾値比較部4と同様に、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号が制御部11から入力される。レベル調整値設定部5は、例えば、ノイズ低減処理を無効とするよう指示された場合、低減量設定処理は行わず、音声強調処理を無効とするよう指示された場合、増幅量設定処理は行わない。
レベル調整値スムージング部6は、現在のフレームの時間的に1つ前のフレームで用いたレベル調整値をレベル調整値保存バッファ7から読み出し、レベル調整値設定部5で設定した、現在のフレームにおけるレベル調整値に対して、時間的に1つ前のフレームで用いたレベル調整値との間で時間方向に平滑化するスムージングを行う。レベル調整値スムージング部6は、スムージング後の現在のフレームのレベル調整値をスペクトル調整部8に出力するとともに、レベル調整値保存バッファ7に格納する。
レベル調整値保存バッファ7は、過去のフレームに対して用いられたレベル調整値を保存する。
スペクトル調整部8は、レベル調整値スムージング部6から入力されるスムージング後の現在のフレームのレベル調整値を、周波数変換部2から入力される現在のフレームの周波数信号に乗算してレベル調整を行う。
逆周波数変換部9は、スペクトル調整部8でレベル調整された周波数信号を時間領域の信号に変換して出力する。
フレーム合成部10は、逆周波数変換部9からの信号においてオーバーラップしているフレーム長の半分ずつを加算することにより時間軸上の連続したオーディオ信号に復元する。
制御部11は、ノイズ低減処理および音声強調処理をそれぞれ有効とするか無効とするかを指示する制御信号を閾値比較部4およびレベル調整値設定部5に出力する。閾値比較部4への制御信号には、閾値T1~T4の値が含まれる。閾値T1~T4は予め設定された値でもよいし、制御部11が閾値T1~T4の値の複数の組み合わせを保持し、その中から選択される1つを閾値比較部4に出力するようにしてもよい。
次に、本実施の形態に係るオーディオ信号処理装置の動作について説明する。
外部からデジタル信号のオーディオ信号が入力されると、フレーム分割部1は、後段の周波数変換部2で用いる周波数分析法に従う所定のサンプル数で区切ったフレーム単位にオーディオ信号を分割する。周波数変換部2で用いる周波数分析法が、FFTやMDCTのような周波数変換法であれば、1フレームのサンプル数は、2のべき乗で表現される数値になる。
なお、入力オーディオ信号はデジタル信号が前提であるが、アナログ信号である場合は、図示しないA/D変換器によりデジタル信号に変換された後、フレーム分割部1に入力される。
次いで、周波数変換部2は、フレーム分割部1で所定のサンプル数に分割されたフレーム構成を有するオーディオ信号を、時間領域の信号から周波数領域の信号へと変換し、この変換後の周波数信号をレベル検出部3およびスペクトル調整部8に出力する。
次いで、レベル検出部3は、周波数変換部2から入力される周波数信号から、各周波数のスペクトルのレベルを検出し、その検出結果を閾値比較部4に出力する。
なお、フィルタバンクを周波数変換法に用いた場合はバンド分割信号がスペクトルに相当する。以降、周波数変換法にポリフェイズフィルタを採用した場合では、スペクトルとはバンド分割信号のことを指すものとする。
本実施の形態のオーディオ信号処理装置では、ノイズ低減処理および音声強調処理のうちの一方のみを行うこともできるし、両方を同時に行うこともできる。まず、ノイズ低減処理における閾値比較部4、レベル調整値設定部5、レベル調整値スムージング部6の動作について説明する。
閾値比較部4は、ノイズ低減処理において、レベル検出部3で検出された各スペクトルのレベルと、代表的なノイズ成分レベルの上限値と下限値として予め設定された閾値T1,閾値T2とを比較する。
ここで、閾値T1,T2について説明する。テレビ等の放送受信機では、アナログ放送の場合、受信感度によってハムノイズが混入し、オーディオ信号に加算されることになる。また、アナログ放送に限らず、放送コンテンツには様々な背景雑音が加わっており、放送局別、番組別、シーン別にノイズ成分も様々である。
また、VTRなどの記録再生系機器を接続した場合は、アナログ機器では記録メディアからデータを読み出す際に発生するメカニカルな駆動に伴う電源ノイズや、画像信号が機器内を通過することによる影響がオーディオ信号に及ぶ。デジタル機器においても、完全なデジタルのみの回路構成でなければ、上記のアナログ機器同様のノイズが加わることになる。また、オーディオ信号を圧縮する際に発生する量子化ノイズもオーディオ信号を劣化させる一因である。
ハードディスクを記録メディアとするハードディスクレコーダにおいては、HDD(Hard Disc Drive)やDVD(Digital Versatile Disc)ドライブの回転制御が電源に与える変動から周期的なノイズを発生させており、従来のVTRでのホワイトノイズやヒスノイズより、聴感上好ましくないこともある。また、低精度な信号処理チップを使用した場合は、演算精度が十分ではなく、圧縮オーディオ特有の耳障りな量子化ノイズをオーディオ信号に加えている。
上記のような複合要因からなるノイズ成分は、その特定が難しく、従来のようなモデルノイズを元にノイズ低減を図る手法は相応しくない。そこで、本実施形態では、代表的なノイズ成分レベルの上限値、下限値として閾値T1,T2を設定し、閾値T1と閾値T2との間の範囲内の信号をある一定レベルだけ低下(レベル調整)させ、ノイズ成分が聴感上目立たなくする。
図2は、ノイズ低減処理のためのレベル調整区間を示す図である。図2に示す閾値T1は-50dB、閾値T2は-80dBに相当し、閾値T1と閾値T2との間の範囲(-50dB~-80dB)は、コンテンツに加算される代表的なノイズ成分レベルと同程度である。
次いで、閾値比較部4で得られた比較結果に基づいて、レベル調整値設定部5は、閾値T1と閾値T2との間の範囲内のレベルを有するスペクトルにノイズ成分が含まれているものとして、そのスペクトルのレベルを低下させるためのレベル調整値を設定する低減量設定処理を行う。
例えば、レベルを6dB低下させる場合は、レベル調整値を0.5に設定する。全帯域に渡り一律のノイズレベル低下効果を得るならば、このようにスペクトルの振幅値を低下させる、すなわち1より小さな数値を乗算すればよく、乗算後の値が半分になることで約6dBづつレベルダウンすることを目安にレベル調整値を設定する。このレベル調整値は、レベル調整値保存バッファ7のメモリ使用量を削減したい場合は全帯域で一定の値としてもよいが、スペクトルごとに設定してもよいし、周波数帯域ごとに設定してもよい。さらには、スペクトルのレベルごとに細かく設定してもよい。
スペクトルのレベルが閾値T1以上の場合は、信号成分のマスキング効果によりノイズ成分は知覚されないと推測できる。このため、ノイズ低減処理のみを行う場合には、閾値T1以上のレベルのスペクトルについては、オーディオ成分が優勢であると見なし、レベル調整は基本的には行わない。ただし、ノイズ低減処理により、オーディオ信号全体のパワーが若干低下するので、入力パワーと出力パワーとを同等に保つために、レベルが閾値T1以上のレベルのスペクトルに対し、1以上の値をレベル調整値として設定してもよい。
また、スペクトルのレベルが閾値T2以下の場合は、ノイズレベルが非常に低いと推測できるため、レベル調整を基本的には行わない。ただし、上記閾値T1以上のレベルのスペクトルと同様に、閾値T2以下のレベルのスペクトルに対しても、1以上の値をレベル調整値として設定してもよい。
なお、閾値T1,T2の値は全帯域共通で設定してもよいし、スペクトルごとまたは周波数帯域ごとに個別設定してもよい。閾値T1,T2が全帯域共通の場合は、処理の簡略化と閾値T1,T2を格納するメモリ(図示せず)の削減効果がある。一方、スペクトルごとまたは帯域ごとに個別設定する場合は、より聴感的に優れたノイズ削減効果を発揮できる。
人間の聴覚特性は周波数によって異なる、つまり、人間は、音圧レベルが一定であっても、周波数が異なれば音量が異なるように聞こえることが知られている。縦軸に音圧レベル、横軸に周波数をとり、同じ音量で人間に聞こえる各周波数の音圧レベルの曲線を描くと、図3に示すような特性となる。図3において下側の曲線は、最小可聴限特性曲線21であり、この最小可聴限特性曲線21で示される音圧レベル以下の音は人間に聴感として感知されない。
そこで、感度が低いとされる周波数帯(例えば1kHz以下の低域と8kHz以上の高域)については閾値T2を高いレベルに設定し、感度が高いとされる周波数帯域(例えば1kHz~8kHzの中域)については閾値T2を低いレベルに設定することで、より聴感的に聴き易い音になることが期待される。
ところで、オーバーラップ構造によりブロック境界における歪を抑制している周波数変換法では、本来とは異なるスペクトルレベルによって正しい逆変換が行われず、その差分成分が量子化ノイズとなり副作用的なノイズが発生してしまう。
この現象を回避するため、本実施形態では、レベル調整値スムージング部6において、レベル調整値に時間方向にスムージングをかけ、スペクトルの時間的変動に関わる影響度の低下と、隣り合う変換ブロックで与えるレベル調整値の変化を緩やかにし、量子化ノイズの発生を防ぐ。
レベル調整値スムージング部6は、時間方向のデータを保存するバッファであるレベル調整値保存バッファ7から、現在のフレームの時間的に1つ前のフレームで用いたレベル調整値を読み出し、現在のフレームにおけるレベル調整値との間で時間方向に平滑化するスムージング処理を行う。この処理は、先に説明した急激なレベル変動によって生じるブロック間スペクトルデータの元信号との差分量から発生する量子化ノイズを抑制する働きを有している。
例えば、前フレームのレベル調整値がAbeforeであり、新たにレベル調整値設定部5で設定された現在のフレームのレベル調整値がAnowのとき、最終的に適用されるレベル調整値Aは、
A=(Abefore×(N-1)+Anow)/N ・・・(式1)
で求めることができる。
A=(Abefore×(N-1)+Anow)/N ・・・(式1)
で求めることができる。
ここで、Nはスムージングの時定数である。信号レベルをSとすると、レベル調整によって発生する誤差量ΔSは、
ΔS=S-S×A=S(1-A) ・・・(式2)
で表される。
ΔS=S-S×A=S(1-A) ・・・(式2)
で表される。
この誤差量ΔSが最大になる状況は、閾値T1以上のレベルが長期にわたって続いた後、T1以下のしかもT1近傍のレベルへと推移したとき、またはその逆で、T1以下でT2以上のレベルが長期に続いた後、T1以下のしかもT1付近からT1以上のレベルへと推移したときである。
この場合の誤差量(最大誤差量)ΔSmaxは、SをT1、Abeforeを値「1」と近似し、(式1),(式2)から導かれる
ΔSmax=T1×(1-α)/N ・・・(式3)
で定義することが可能である。
ΔSmax=T1×(1-α)/N ・・・(式3)
で定義することが可能である。
ここで、αはAnowである。αとT1とを設定し、図3の最小可聴限特性曲線21から、許容されるノイズレベルとして最小可聴限レベル値Pを求め、このPをΔSmaxとして与えることで、(式3)から導かれる
N=T1×(1-α)/P ・・・(式4)
により、スムージングの時定数Nを算出する。
N=T1×(1-α)/P ・・・(式4)
により、スムージングの時定数Nを算出する。
なお、時定数Nは、ノイズ低減効果と時間応答特性の両面から検討すべきであり、必ずしも上記(数式4)を満足するものとは限らず、音の立ち上がりを重視する場合には時定数をさらに小さくしてもよい。
レベル調整値スムージング部6は、上記処理により求めたスムージング処理後の現在のフレームのレベル調整値をスペクトル調整部8に出力するとともに、レベル調整値保存バッファ7に格納する。
次に、音声強調処理における閾値比較部4、レベル調整値設定部5、レベル調整値スムージング部6の動作について説明する。
閾値比較部4は、ノイズ低減処理において、レベル検出部3で検出された各スペクトルのレベルと閾値T3,閾値T4とを比較する。例えば、閾値T3は-6dB、閾値T4は-40dBとすることができる。
次いで、閾値比較部4で得られた比較結果に基づいて、レベル調整値設定部5は、閾値比較部4での比較結果に基づいて、閾値T3と閾値T4との間の範囲内のレベルを有する、音声帯域を含む所定周波数帯域内のスペクトルに音声成分が含まれているものとして、そのレベルを増加させるためのレベル調整値を設定する増幅量設定処理を行う。
レベルを増加させるためには、レベル調整値を1より大きな値に設定する。レベル調整値は、所定周波数帯域内で一定の値としてもよいが、スペクトルごとに設定してもよいし、周波数帯域ごとに設定してもよい。さらには、スペクトルのレベルごとに細かく設定してもよい。
また、レベル調整値に基づく増幅量の周波数特性が、入力オーディオ信号を含むコンテンツのジャンルに応じて変化するように、レベル調整値を設定するようにしてもよい。
例えば、ニュースやドラマ等のジャンルのコンテンツの場合は、図4の曲線23に示すように、人間の音声帯域(例えば、400Hz~4000Hz)の増幅量を他の帯域の増幅量よりも大きくして、音声がより強調されるようにレベル調整値を設定する。
一方、例えば、音楽のジャンルのコンテンツについては、音楽としてのバランスを損なわないように、図4の曲線24に示すように、音声帯域を他の帯域より弱めに増幅するようにレベル調整値を設定する。コンテンツのジャンルは、放送電波に含まれる番組情報等から取得することができる。
なお、閾値T3,T4の値は、閾値T1,T2と同様に、全帯域共通で設定してもよいし、スペクトルごとまたは周波数帯域ごとに個別設定してもよい。
次いで、レベル調整値スムージング部6は、レベル調整値設定部5で設定されたレベル調整値に対して時間方向のスムージング処理を行う。スムージング処理の方法は、前述のノイズ低減処理時と同様であるが、ここで用いるスムージングの時定数は、例えば、(式4)のT1をT3に置き換えて算出したものを用いる。
また、
N1=T3×(1-α)/P1 ・・・(式5)
により算出される時定数N1を用いてもよい。
N1=T3×(1-α)/P1 ・・・(式5)
により算出される時定数N1を用いてもよい。
ここで、P1は、図3に示す曲線22から求められる許容ノイズレベル値である。曲線22は、最小可聴限特性曲線21に対応する音量より大きな所定の音量で人間に聞こえる各周波数の音圧レベルの曲線を示す。図3は、人間に聞こえる音量が大きくなると、人間に聴感として感知されない音圧レベルも大きくなることを示している。
このため、音声成分を強調する音声強調処理においては、ノイズ低減処理の場合と比較して、許容されるノイズレベルが大きくなる。そこで、最小可聴限レベル値Pより大きな許容ノイズレベル値P1を用いて算出される時定数N1を用いてスムージング処理を行ってもよい。
レベル調整値スムージング部6は、上記処理によりスムージング処理後の現在のフレームのレベル調整値をスペクトル調整部8に出力するとともに、レベル調整値保存バッファ7に格納する。
上述のノイズ低減処理における動作と音声強調処理における動作とは、それぞれ独立しているので、制御部11からの制御信号に応じて、いずれか一方のみを行うこともできるし、両方を同時に行うこともできる。
スムージング処理が終了すると、スペクトル調整部8は、レベル調整値スムージング部6から入力されるスムージング処理後の現在のフレームのレベル調整値を、周波数変換部2から入力される現在のフレームの周波数信号(スペクトル)に乗算してレベル調整を行う。
次いで、逆周波数変換部9は、スペクトル調整部8でレベル調整された周波数信号を時間領域の信号に変換して出力する。
そして、フレーム合成部10は、逆周波数変換部9からの信号においてオーバーラップしているフレーム長の半分ずつを加算することにより時間軸上の連続したオーディオ信号に復元する。必要であれば、フレーム合成部10で復元された時間軸上のオーディオ信号を図示しないD/A変換器によりアナログ信号に変換した後、外部に出力する。
図5は、入力信号レベルとノイズ低減処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図、図6は、入力信号レベルと音声強調処理におけるレベル調整後のスムージングされた出力信号レベルとの関係を示す図、図7は、ノイズ低減処理と音声強調処理とを行った場合の入力信号レベルとレベル調整後のスムージングされた出力信号レベルとの関係を示す図である。
従来の方法では、スムージングによって量子化ノイズ成分を緩和することができても、人間の聴感特性に基づく時定数を与えてはおらず、状況によっては知覚されるおそれがあった。また時定数を不必要に長く設定してしまう可能性もあり、この場合は音の立ち上がりが鈍り、音楽性が損なわれていた。
図5乃至7が示すように、本実施形態では、スムージング処理により、レベル調整時に発生する副作用的な量子化ノイズを抑制することができる。また、本実施形態では、図3に示したような人間の聴感特性に基づいてスムージングの時定数を与えるため、量子化ノイズが知覚されるおそれを軽減することができる。
また、例えば図2のように一律にレベル調整を行う場合でも、スムージング処理を行うことで、図5に示すように閾値T1,T2における不連続なレベルの変異を避けることができるため、個々のスペクトルに対して負荷の高いdB演算をしなくともよく、演算量を大きく削減することが可能である。
また、閾値T2以下の微弱な信号(微弱ノイズ成分)のレベルを低下させないようにすれば、SN比が良好なオーディオ信号、つまりノイズレベルがT2以下の場合はレベル調整が働かず、元信号に限りなく近づくため音質に与える影響を極めて小さくすることができる。反対に下限値としての閾値T2を設定しなければ、微弱信号が連続した後に急激に立ち上がるオーディオ信号の場合、オーディオ信号本来が持つアタック感が、レベル調整値により指定されるノイズ削減量分だけ引かれた弱い音になってしまう。
扱うオーディオ信号が音声を主とする携帯電話やTV電話向けの従来のノイズ低減方法では、背景雑音があることが前提であり、入力信号のSN比が様々である広帯域オーディオ信号を扱ったテレビ受信機の場合、常にノイズ削減効果が作用することによって音楽性を維持することがかなり難しかった。本実施形態のように、閾値T2を設定しSN比が良好なオーディオ信号に備えることで音楽性を保ちつつ、周波数別に最小可聴限特性を反映することで、周波数帯によって異なる知覚感度に沿ったノイズ低減制御が可能である。
なお、スペクトルのレベル調整は、スペクトルそれぞれ独立して行っても、複数のスペクトルをグループ化したある周波数幅を持つ周波数帯に対して行ってもよい。特に弦楽器のような単楽器で倍音成分が多く含まれる音源の場合は、ある一定の周波数帯でまとめて処理すると、信号のピークがなまるため、スペクトルそれぞれに対してレベル調整を行う方が望ましい。
一方、レベル調整値保存バッファ7の容量や、個々の閾値を保存するために必要なメモリ容量を削減したり、レベル調整値の算出負荷を削減したい場合には、スペクトルをグループ化する方がよい。グループ化は、等間隔の周波数帯か、低域ほど狭く高域ほど広い人間の聴感特性から定義された臨界帯域幅でまとめるかどちらかを採用する。
このように、本実施の形態によれば、人間の聴感特性を考慮した一般的なノイズ成分が存在するレベル帯の周波数信号を時間方向にスムージングをかけながらレベル調整するので、異なる背景雑音またはメカニカルな駆動に伴う電源ノイズ等に対し、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減できる。これにより、ユーザーに対し聞き易い音声を提供することが可能である。
図8は、ノイズ低減処理と音声強調処理とを行った場合の、ある時間における周波数スペクトルごとの入出力時のレベルを示す概念図であり、図8(a)は入力時のレベルを示す図、図8(b)はノイズ低減処理と音声強調処理とをかけた後のレベルを示す図である。レベル調整値スムージング部6において過去の状態の重み付けによって、特定の時間(フレーム)で即座にレベル調整値が設定されるわけではないが、図8(a),(b)に示すように、T4からT3の範囲にあるスペクトルは増幅され、T2からT1の範囲にあるスペクトルは減衰されており、1回の処理で音声強調効果とノイズ低減効果とを得ることができる。
なお、レベル調整値は、ノイズ低減用の減衰量GainNが、GainN≦(入力信号レベル-最小信号レベル)を満たし、音声増幅用の増幅量GainSが、GainS≦(最大信号レベル-入力信号レベル)を満たすように設定しなければならない。この条件を満たさない場合、ノイズの発生等による音質の低下を招くことがある。
このように、本実施形態によれば、オーディオ信号を時間領域の信号から周波数領域の信号へと変換し、この変換した周波数信号においてノイズ低減処理および音声強調処理を同時に行うことで、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することができる。また、時間領域でノイズ低減処理や音声強調処理を行う方式に比べ、きめ細かい処理をおこなうことができ、音質的にもより自然で聞きやすい音声を提供することができる。
また、ノイズ低減処理と音声強調処理とを共通の構成で実現するので、回路規模の増大を抑えることができる。
なお、本実施形態に係るオーディオ信号処理装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読みとられてコンピュータに取り込まれてもよいし、通信ネットワーク等を介して伝送されてコンピュータに取り込まれてもよい。
本発明のオーディオ信号処理装置によれば、予めノイズ成分を特定することなく、簡易な演算により、オーディオ信号に含まれるノイズ成分を低減することができる。
さらに、本発明のオーディオ信号処理装置によれば、回路規模の増大を招くことなく、ノイズ成分を含むオーディオ信号に対しても音質の低下を抑えつつ音声を強調することができる。
Claims (10)
- 入力されたオーディオ信号を所定の単位であるフレームに分割するフレーム分割部と、
前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換する周波数変換部と、
前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出するレベル検出部と、
第1の閾値と、この第1の閾値よりも低いレベルに設定された第2の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行うレベル調整値設定部と、
現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に1つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行うレベル調整値スムージング部と、
前記スムージング処理後の前記レベル調整値を保存する保存部と、
前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行うスペクトル調整部と、
前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する逆周波数変換部と
を備えることを特徴とするオーディオ信号処理装置。 - 前記レベル調整値設定部は、さらに、前記第1の閾値以上のレベルに設定された第3の閾値と、前記第1の閾値以上かつ前記第3の閾値以下のレベルに設定された第4の閾値との間の範囲内のレベルを有する所定周波数帯域内のスペクトルのレベルを増加させるためのレベル調整値を前記フレームごとに設定する増幅量設定処理を行うことを特徴とする請求項1に記載のオーディオ信号処理装置。
- 前記低減量設定処理および前記増幅量設定処理のうちのいずれか一方を選択して行うように前記レベル調整値設定部を制御する制御部をさらに備えることを特徴とする請求項1又は2に記載のオーディオ信号処理装置。
- 前記第1乃至第4の閾値は、前記フレーム内のスペクトルごとまたは周波数帯域ごとに設定される値であることを特徴とする請求項1乃至3に記載のオーディオ信号処理装置。
- 前記レベル調整値設定部は、前記フレーム内のスペクトルごとまたは周波数帯域ごとに前記レベル調整値を設定することを特徴とする請求項1乃至4のいずれか1項に記載のオーディオ信号処理装置。
- 前記レベル調整値設定部は、前記第1の閾値よりレベルが高いスペクトル、および前記第2の閾値よりレベルが低いスペクトルのレベルを増大させるように前記レベル調整値を設定することを特徴とする請求項1乃至5のいずれか1項に記載のオーディオ信号処理装置。
- 前記レベル調整値設定部は、前記増幅量設定処理において設定する前記レベル調整値に基づく増幅量の周波数特性が、前記オーディオ信号を含むコンテンツのジャンルに応じて変化するように前記レベル調整値を設定することを特徴とする請求項1乃至6のいずれか1項に記載のオーディオ信号処理装置。
- 前記レベル調整値スムージング部は、人間の耳が聞き取ることのできる最小の音圧レベルの周波数特性に基づく最小可聴限レベル値、前記第1の閾値、および前記レベル調整値設定部において前記ノイズ低減処理対象としているフレームに対して前記低減量設定処理で設定した前記レベル調整値を用いて、前記低減量設定処理で設定した前記レベル調整値に対するスムージングの時定数を決定することを特徴とする請求項1乃至7のいずれか1項に記載のオーディオ信号処理装置。
- 前記レベル調整値スムージング部は、所定の音量に対応する人間の聴覚の周波数特性に基づく許容ノイズレベル値、前記第3の閾値、および前記レベル調整値設定部において前記ノイズ低減処理対象としているフレームに対して前記増幅量設定処理で設定した前記レベル調整値を用いて、前記増幅量設定処理で設定した前記レベル調整値に対するスムージングの時定数を決定することを特徴とする請求項1乃至8のいずれか1項に記載のオーディオ信号処理装置。
- フレーム分割部によって、入力されたオーディオ信号を所定の単位であるフレームに分割し、
周波数変換部によって、前記フレームごとの前記オーディオ信号を時間領域の信号から周波数領域の信号である周波数信号へと変換し、
レベル検出部によって、前記フレームごとの前記周波数信号から各周波数のスペクトルのレベルを検出し、
レベル調整設定部によって、第1の閾値と、この第1の閾値よりも低いレベルに設定された第2の閾値との間のレベル範囲内のレベルを有するスペクトルのレベルを低減させるためのレベル調整値を前記フレームごとに設定する低減量設定処理を行い、
レベル調整値スムージング部によって、現在ノイズ低減処理対象としているフレームにおいて設定された前記レベル調整値に対して、当該フレームよりも時間的に1つ前のフレームで用いたレベル調整値との間で時間方向の平滑化処理であるスムージング処理を行い、
保存部に、前記スムージング処理後の前記レベル調整値を保存し、
スペクトル調整部によって、前記ノイズ低減処理対象としているフレームの前記スムージング処理後の前記レベル調整値を、当該フレームの前記周波数信号に乗算してレベル調整を行い、
逆周波数変換部によって、前記スペクトル調整部でレベル調整された前記周波数信号を時間領域のオーディオ信号に変換する
ことを特徴とするオーディオ信号処理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP09725142A EP2172930B1 (en) | 2008-03-24 | 2009-03-19 | Audio signal processing device and audio signal processing method |
JP2010505604A JP5012995B2 (ja) | 2008-03-24 | 2009-03-19 | オーディオ信号処理装置及びオーディオ信号処理方法 |
US12/452,795 US8355908B2 (en) | 2008-03-24 | 2009-03-19 | Audio signal processing device for noise reduction and audio enhancement, and method for the same |
AT09725142T ATE546812T1 (de) | 2008-03-24 | 2009-03-19 | Vorrichtung zur audiosignalverarbeitung und verfahren zur audiosignalverarbeitung |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008076605 | 2008-03-24 | ||
JP2008-076605 | 2008-03-24 | ||
JP2008334908 | 2008-12-26 | ||
JP2008-334908 | 2008-12-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009119460A1 true WO2009119460A1 (ja) | 2009-10-01 |
Family
ID=41113655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/055513 WO2009119460A1 (ja) | 2008-03-24 | 2009-03-19 | オーディオ信号処理装置及びオーディオ信号処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8355908B2 (ja) |
EP (1) | EP2172930B1 (ja) |
JP (1) | JP5012995B2 (ja) |
AT (1) | ATE546812T1 (ja) |
WO (1) | WO2009119460A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318122B2 (en) | 2014-04-18 | 2016-04-19 | Fujitsu Limited | Audio signal processing apparatus and audio signal processing method |
CN106098079A (zh) * | 2015-04-30 | 2016-11-09 | 智原科技股份有限公司 | 音频信号的信号提取方法与装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633667B2 (en) | 2012-04-05 | 2017-04-25 | Nokia Technologies Oy | Adaptive audio signal filtering |
EP3005344A4 (en) * | 2013-05-31 | 2017-02-22 | Nokia Technologies OY | An audio scene apparatus |
CA2953619A1 (en) | 2014-06-05 | 2015-12-10 | Interdev Technologies Inc. | Systems and methods of interpreting speech data |
CN104702343B (zh) * | 2015-02-04 | 2017-05-03 | 中国科学院信息工程研究所 | 声信道信息传输方法和系统 |
US10346125B2 (en) * | 2015-08-18 | 2019-07-09 | International Business Machines Corporation | Detection of clipping event in audio signals |
EP3783912B1 (en) * | 2018-04-17 | 2023-08-23 | The University of Electro-Communications | Mixing device, mixing method, and mixing program |
EP3783913A4 (en) | 2018-04-19 | 2021-06-16 | The University of Electro-Communications | MIXING DEVICE, MIXING PROCESS AND MIXING PROGRAM |
WO2019203127A1 (ja) | 2018-04-19 | 2019-10-24 | 国立大学法人電気通信大学 | 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法 |
US11227610B1 (en) * | 2019-04-16 | 2022-01-18 | Wells Fargo Bank, P.A. | Computer-based systems for administering patterned passphrases |
US11146607B1 (en) * | 2019-05-31 | 2021-10-12 | Dialpad, Inc. | Smart noise cancellation |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03247011A (ja) * | 1990-02-23 | 1991-11-05 | Sony Corp | 雑音除去回路 |
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
JPH08221093A (ja) | 1995-02-17 | 1996-08-30 | Sony Corp | 音声信号の雑音低減方法 |
US5687285A (en) | 1993-12-25 | 1997-11-11 | Sony Corporation | Noise reducing method, noise reducing apparatus and telephone set |
JP2001134287A (ja) * | 1999-11-10 | 2001-05-18 | Mitsubishi Electric Corp | 雑音抑圧装置 |
JP2002527785A (ja) * | 1998-10-13 | 2002-08-27 | エヌシーティー グループ インコーポレーテッド | 情報信号にある休止期間の間にノイズ推定値を更新する方法とシステム |
JP2002359899A (ja) | 2001-05-31 | 2002-12-13 | Canon Electronics Inc | 音声処理装置および補聴器 |
JP2004502977A (ja) | 2000-07-12 | 2004-01-29 | アンドレア エレクトロニクス コーポレイション | サブバンド指数平滑雑音消去システム |
JP2005086462A (ja) | 2003-09-09 | 2005-03-31 | Victor Co Of Japan Ltd | オーディオ信号再生装置のボーカル音帯域強調回路 |
US8133013B2 (en) | 2007-11-13 | 2012-03-13 | Snecma | Stage of a turbine or compressor, particularly for a turbomachine |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US20040078199A1 (en) * | 2002-08-20 | 2004-04-22 | Hanoh Kremer | Method for auditory based noise reduction and an apparatus for auditory based noise reduction |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
DE602004008973T2 (de) * | 2004-05-14 | 2008-05-15 | Loquendo-Società per Azioni | Rauschminderung für die automatische spracherkennung |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
US8180635B2 (en) * | 2008-12-31 | 2012-05-15 | Texas Instruments Incorporated | Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition |
-
2009
- 2009-03-19 US US12/452,795 patent/US8355908B2/en active Active
- 2009-03-19 WO PCT/JP2009/055513 patent/WO2009119460A1/ja active Application Filing
- 2009-03-19 JP JP2010505604A patent/JP5012995B2/ja active Active
- 2009-03-19 AT AT09725142T patent/ATE546812T1/de active
- 2009-03-19 EP EP09725142A patent/EP2172930B1/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03247011A (ja) * | 1990-02-23 | 1991-11-05 | Sony Corp | 雑音除去回路 |
JPH06208395A (ja) * | 1992-10-30 | 1994-07-26 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | ホルマント検出装置及び音声加工装置 |
US5687285A (en) | 1993-12-25 | 1997-11-11 | Sony Corporation | Noise reducing method, noise reducing apparatus and telephone set |
JPH08221093A (ja) | 1995-02-17 | 1996-08-30 | Sony Corp | 音声信号の雑音低減方法 |
JP2002527785A (ja) * | 1998-10-13 | 2002-08-27 | エヌシーティー グループ インコーポレーテッド | 情報信号にある休止期間の間にノイズ推定値を更新する方法とシステム |
JP2001134287A (ja) * | 1999-11-10 | 2001-05-18 | Mitsubishi Electric Corp | 雑音抑圧装置 |
JP2004502977A (ja) | 2000-07-12 | 2004-01-29 | アンドレア エレクトロニクス コーポレイション | サブバンド指数平滑雑音消去システム |
JP2002359899A (ja) | 2001-05-31 | 2002-12-13 | Canon Electronics Inc | 音声処理装置および補聴器 |
JP2005086462A (ja) | 2003-09-09 | 2005-03-31 | Victor Co Of Japan Ltd | オーディオ信号再生装置のボーカル音帯域強調回路 |
US8133013B2 (en) | 2007-11-13 | 2012-03-13 | Snecma | Stage of a turbine or compressor, particularly for a turbomachine |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318122B2 (en) | 2014-04-18 | 2016-04-19 | Fujitsu Limited | Audio signal processing apparatus and audio signal processing method |
CN106098079A (zh) * | 2015-04-30 | 2016-11-09 | 智原科技股份有限公司 | 音频信号的信号提取方法与装置 |
CN106098079B (zh) * | 2015-04-30 | 2019-12-10 | 联咏科技股份有限公司 | 音频信号的信号提取方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2172930B1 (en) | 2012-02-22 |
US20100128882A1 (en) | 2010-05-27 |
EP2172930A1 (en) | 2010-04-07 |
EP2172930A4 (en) | 2010-07-28 |
ATE546812T1 (de) | 2012-03-15 |
JP5012995B2 (ja) | 2012-08-29 |
US8355908B2 (en) | 2013-01-15 |
JPWO2009119460A1 (ja) | 2011-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5012995B2 (ja) | オーディオ信号処理装置及びオーディオ信号処理方法 | |
JP5695677B2 (ja) | 単一再生モードにおいてラウドネス測定値を合成するシステム | |
JP6328627B2 (ja) | 雑音検出及びラウドネス低下検出によるラウドネスコントロール | |
EP1619793B1 (en) | Audio enhancement system and method | |
TWI535299B (zh) | 低音強化系統及其方法 | |
JP5917518B2 (ja) | 知覚スペクトルアンバランス改善のための音声信号動的補正 | |
US9093968B2 (en) | Sound reproducing apparatus, sound reproducing method, and recording medium | |
JP5542122B2 (ja) | ダイナミックサウンド提供システム | |
JP5898534B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
US20120275625A1 (en) | Signal processing device, method thereof, program, and data recording medium | |
US9673770B2 (en) | Frequency domain multiband dynamics compressor with spectral balance compensation | |
US20160210983A1 (en) | Method and electronic device | |
US9735746B2 (en) | Automatic loudness control | |
CN103580632B (zh) | 自动响度控制系统及方法 | |
KR101855969B1 (ko) | 오디오 신호를 압축하는 디지털 압축기 | |
KR20120093934A (ko) | 오디오 녹음의 적응적 동적 범위 강화 | |
JP2009302991A (ja) | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム | |
WO2010013944A2 (en) | A method and an apparatus for processing an audio signal | |
JP2013102411A (ja) | 音声信号処理装置、および音声信号処理方法、並びにプログラム | |
CN103580631B (zh) | 自动响度控制系统及方法 | |
CN108768330B (zh) | 自动响度控制 | |
JP4706666B2 (ja) | 音量制御装置及びコンピュータプログラム | |
JP2001188599A (ja) | オーディオ信号復号装置 | |
US20210384879A1 (en) | Acoustic signal processing device, acoustic signal processing method, and non-transitory computer-readable recording medium therefor | |
US20190074805A1 (en) | Transient Detection for Speaker Distortion Reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09725142 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010505604 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12452795 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2009725142 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |