WO2010146711A1 - 音声信号処理装置及び音声信号処理方法 - Google Patents

音声信号処理装置及び音声信号処理方法 Download PDF

Info

Publication number
WO2010146711A1
WO2010146711A1 PCT/JP2009/061221 JP2009061221W WO2010146711A1 WO 2010146711 A1 WO2010146711 A1 WO 2010146711A1 JP 2009061221 W JP2009061221 W JP 2009061221W WO 2010146711 A1 WO2010146711 A1 WO 2010146711A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
spectrum
noise
frequency
frame
Prior art date
Application number
PCT/JP2009/061221
Other languages
English (en)
French (fr)
Inventor
猛 大谷
太郎 外川
鈴木 政直
大田 恭士
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2011519388A priority Critical patent/JP5293817B2/ja
Priority to PCT/JP2009/061221 priority patent/WO2010146711A1/ja
Priority to EP09846204.7A priority patent/EP2444966B1/en
Priority to CN200980159921.XA priority patent/CN102804260B/zh
Publication of WO2010146711A1 publication Critical patent/WO2010146711A1/ja
Priority to US13/330,100 priority patent/US8676571B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Definitions

  • the embodiment disclosed herein relates to an audio signal processing device and an audio signal processing method.
  • a noise suppressor that suppresses noise included in a received audio signal is mounted on a device that reproduces audio, such as a mobile phone, in order to improve the quality of reproduced sound.
  • the noise suppressor In order to improve the sound quality of the reproduced sound, it is desirable that the noise suppressor accurately distinguish between the sound signal that should be reproduced, such as the voice of the speaker, and the noise.
  • a technique for discriminating the type of sound included in the audio signal by analyzing the frequency spectrum of the audio signal has been developed (see, for example, Patent Documents 1 to 3).
  • This discrimination condition is that the power of the low frequency component included in the frequency range below 1 kHz is high, the power of the high frequency component included in the frequency range higher than 1 kHz is not 0, and the power fluctuation of the high frequency component is normal conversation Higher than the rate associated with.
  • a sound generated from a sound source different from bubble noise may satisfy the above-described determination condition. For example, if there is a sound source that moves at a high speed relative to the microphone that collects the audio signal, such as a car that passes behind a speaker using a mobile phone, the volume of the sound generated by the sound source Fluctuates greatly in the short term. For this reason, the sound generated by a sound source moving at a high speed relative to the microphone, or the sound generated by the sound source and the sound of the speaker's voice satisfies the above-mentioned determination condition, and is mistaken for bubble noise. could be judged. And if the voice different from the bubble noise is erroneously determined as the bubble noise, the noise suppressor cannot appropriately suppress the noise, so that the sound quality of the reproduced sound may be deteriorated.
  • an object of the present specification is to provide an audio signal processing apparatus and an audio signal processing method capable of accurately determining whether or not bubble noise is included in an audio signal.
  • an audio signal processing device performs time-frequency conversion of an audio signal in units of frames, thereby calculating a frequency spectrum of the audio signal, a frequency spectrum of the first frame, and a frequency spectrum before the first frame.
  • a spectrum change amount calculation unit for calculating a change amount of the frequency spectrum between the first frame frequency spectrum and the second frame from the frequency spectrum of the second frame, and a first frame according to the spectrum change amount
  • a determination unit that determines the type of noise included in the audio signal.
  • an audio signal processing method is provided.
  • the frequency spectrum of the audio signal is calculated by time-frequency converting the audio signal in units of frames, and the frequency spectrum of the first frame and the second frame before the first frame are calculated.
  • the amount of change in the frequency spectrum between the first frame and the second frame is calculated from the frequency spectrum of the first frame, and the type of noise included in the audio signal of the first frame is determined according to the amount of change in the spectrum. Including that.
  • the audio signal processing apparatus and audio signal processing method disclosed in this specification can accurately determine whether or not bubble noise is included in the audio signal.
  • FIG. 1 is a schematic configuration diagram of a telephone on which an audio signal processing device according to the first embodiment is mounted.
  • FIG. 2A is a diagram illustrating an example of the time change of the frequency spectrum with respect to the bubble noise
  • FIG. 2B is a diagram illustrating an example of the time change of the frequency spectrum with respect to the stationary noise.
  • FIG. 3 is a schematic configuration diagram of an audio signal processing device according to the first embodiment.
  • FIG. 4 is a diagram showing an operational flowchart of noise reduction processing for an input audio signal.
  • FIG. 5 is a schematic configuration diagram of a telephone on which the audio signal processing apparatus according to the second to fourth embodiments is mounted.
  • FIG. 6 is a schematic configuration diagram of an audio signal processing device according to the second embodiment.
  • FIG. 7 is a diagram showing an operational flowchart of enhancement processing for an input audio signal.
  • FIG. 8 is a schematic configuration diagram of an audio signal processing device according to the third embodiment.
  • FIG. 9 is a schematic configuration diagram of an audio signal processing device according
  • This audio signal processing apparatus determines whether or not bubble noise is included by examining temporal changes in the waveform of the frequency spectrum of the input audio signal. When the sound signal processing apparatus determines that bubble noise is included, the sound signal processing apparatus improves the sound quality of the reproduced sound by reducing the power of the noise included in the sound signal compared to the case where the sound signal includes other noise. Plan.
  • FIG. 1 is a schematic configuration diagram of a telephone on which an audio signal processing device according to the first embodiment is mounted.
  • the telephone 1 includes a call control unit 10, a communication unit 11, a microphone 12, amplifiers 13 and 17, an encoding unit 14, a decoding unit 15, and an audio signal processing device 16. And a speaker 18.
  • the call control unit 10, the communication unit 11, the encoding unit 14, the decoding unit 15, and the audio signal processing device 16 are formed as separate circuits.
  • each of these units may be mounted on the telephone 1 as one integrated circuit in which circuits corresponding to the respective units are integrated.
  • each of these units may be a functional module realized by a computer program executed on a processor included in the telephone 1.
  • the call control unit 10 When call processing is started by a user's operation via an operation unit (not shown) such as a keypad included in the telephone 1, the call control unit 10 establishes a communication between the telephone 1 and the exchange or the Session Initiation Protocol (SIP) server. Call control processing such as calling, answering, and disconnecting is executed. Then, the call control unit 10 instructs the communication unit 11 to start or end the operation according to the result of the call control process.
  • SIP Session Initiation Protocol
  • the communication unit 11 converts the sound signal collected by the microphone 12 and encoded by the encoding 14 into a transmission signal according to a predetermined communication standard. Then, the communication unit 11 outputs the transmission signal to the communication line. In addition, the communication unit 11 receives a signal according to a predetermined communication format from the communication line, and extracts an encoded audio signal from the received signal. Then, the communication unit 11 passes the encoded audio signal to the decoding unit 15.
  • the predetermined communication standard can be, for example, the Internet protocol (Internet Protocol, IP), and the transmission signal and the reception signal can be IP packetized signals.
  • the encoding unit 14 encodes the audio signal collected by the microphone 12, amplified by the amplifier 13, and analog-digital converted by an analog-digital converter (not shown).
  • the encoding unit 14 is, for example, a voice defined in Recommendations G.711, G722.1 or G.729A by the International Telecommunication Union Telecommunication Standardization Sector (ITU-T). Encoding techniques can be used.
  • the encoding unit 14 passes the encoded audio signal to the communication unit 11.
  • the decoding unit 15 decodes the encoded audio signal received from the communication unit 11. Then, the decoding unit 15 passes the decoded audio signal to the audio signal processing device 16.
  • the audio signal processing device 16 analyzes the audio signal received from the decoding unit 15 and suppresses noise included in the audio signal. The audio signal processing device 16 determines whether the noise included in the audio signal received from the decoding unit 15 is bubble noise. Then, the audio signal processing device 16 executes different noise suppression processing according to the type of noise included in the audio signal. The audio signal processing device 16 outputs the audio signal subjected to the noise suppression process to the amplifier 17.
  • FIG. 2A is a diagram illustrating an example of the time change of the frequency spectrum with respect to the bubble noise
  • FIG. 2B is a diagram illustrating an example of the time change of the frequency spectrum with respect to the stationary noise.
  • the horizontal axis represents the frequency
  • the vertical axis represents the intensity of the amplitude of the noise frequency spectrum.
  • a graph 201 represents an example of a waveform of a frequency spectrum of bubble noise at time t.
  • the graph 202 represents an example of the waveform of the frequency spectrum of bubble noise at a time (t ⁇ 1) that is a predetermined time before the time t.
  • a graph 211 represents an example of a waveform of a frequency spectrum of stationary noise at time t.
  • the graph 212 represents an example of a waveform of the frequency spectrum of stationary noise at time (t ⁇ 1).
  • bubble noise is a combination of voices of a plurality of people, a plurality of voice signals having different pitch frequencies are overlapped. Therefore, the frequency spectrum varies greatly in a short time. In particular, the frequency spectrum tends to change greatly as the number of overlapping voices increases. Therefore, as shown in FIG. 2A, the waveform 201 of the bubble noise frequency spectrum at time t and the waveform 202 of the bubble noise frequency spectrum at time (t-1) are significantly different. On the other hand, the stationary noise waveform does not fluctuate very much in a short period of time. Therefore, as shown in FIG. 2B, the waveform 211 of the stationary noise frequency spectrum at time t and the waveform 212 of the stationary noise frequency spectrum at time (t ⁇ 1) are substantially equal.
  • the audio signal processing device 16 can determine whether or not the noise included in the input audio signal is bubble noise by examining the time change of the waveform of the frequency spectrum of the input audio signal.
  • FIG. 3 is a schematic configuration diagram of the audio signal processing device 16.
  • the audio signal processing device 16 includes a time-frequency conversion unit 161, a power spectrum calculation unit 162, a noise estimation unit 163, an audio signal determination unit 164, a gain calculation unit 165, and a filter unit. 166 and a frequency time conversion unit 167.
  • Each of these units included in the audio signal processing device 16 is formed as a separate circuit.
  • these units included in the audio signal processing device 16 may be mounted on the audio signal processing device 16 as one integrated circuit in which circuits corresponding to the respective units are integrated.
  • each of these units included in the audio signal processing device 16 may be a functional module realized by a computer program executed on a processor included in the audio signal processing device 16.
  • the time-frequency converter 161 converts the input audio signal into a frequency spectrum by performing time-frequency conversion of the audio signal input to the audio signal processing device 16 in units of frames.
  • the time-frequency conversion unit 161 can use time-frequency conversion processing such as fast Fourier transform, discrete cosine transform, and modified discrete cosine transform in order to convert the input speech signal into a frequency spectrum.
  • the frame length can be set to 200 msec, for example.
  • the time frequency conversion unit 161 passes the frequency spectrum to the power spectrum calculation unit 162.
  • the power spectrum calculation unit 162 calculates the power spectrum of the frequency spectrum.
  • the power spectrum calculation unit 162 calculates a power spectrum according to the following equation.
  • f is the frequency
  • the function X (f) is a function representing the amplitude of the frequency spectrum with respect to the frequency f.
  • the function S (f) is a function representing the intensity of the power spectrum with respect to the frequency f.
  • the power spectrum calculation unit 162 outputs the calculated power spectrum to the noise estimation unit 163, the audio signal determination unit 164, and the gain calculation unit 165.
  • the noise estimation unit 163 calculates an estimated noise spectrum corresponding to the noise component included in the audio signal from the power spectrum.
  • a distance between a noise source and a microphone that collects a voice signal input to the telephone 1 is longer than a distance between the microphone and a speaker speaking toward the microphone. Therefore, the power of the noise component is smaller than the power of the speaker's voice. Therefore, the noise estimation unit 163 has an average power value for each sub-frequency band obtained by dividing the frequency band including the input signal into a plurality of frames having a small power spectrum among the frames of the audio signal input to the telephone set 1. To calculate the estimated noise spectrum.
  • the width of the sub-frequency band can be, for example, a width obtained by dividing the range of 0 Hz to 8 kHz into 1024 equal parts or 256 equal parts.
  • the noise estimation unit 163 calculates the average value p of the power spectrum of the entire frequency band including the voice signal input to the telephone 1 for the latest frame according to the time order of the frames according to the following equation.
  • M is the number of sub-frequency bands.
  • F low represents the lowest sub-frequency band, and f high represents the highest sub-frequency band.
  • the noise estimation unit 163 compares the average value p of the power spectrum of the latest frame with a threshold value Thr corresponding to the upper limit of the power of the noise component.
  • the threshold value Thr is set to any value in the range of 10 dB to 20 dB, for example. Then, when the average value p is less than the threshold value Thr, the noise estimation unit 163 averages the power spectrum in the time direction according to the following equation for each sub-frequency band, thereby obtaining the estimated noise spectrum N m (f) for the latest frame. calculate. However, N m ⁇ 1 (f) is an estimated noise spectrum for a frame immediately before the latest frame, and is read from a buffer included in the noise estimation unit 163. The coefficient ⁇ is set to any value from 0.9 to 0.99, for example.
  • the audio signal determination unit 164 determines the type of noise included in the frame.
  • the audio signal determination unit 164 includes a spectrum normalization unit 171, a waveform change amount calculation unit 172, a buffer 173, and a determination unit 174.
  • the spectrum normalization unit 171 normalizes the received power spectrum. For example, the spectrum normalization unit 171 normalizes the power spectrum S ′ (f) so that the intensity of the power spectrum S ′ (f) corresponding to the average value of the power spectrum in each sub-frequency band is 1 according to the following equation. f) is calculated. Alternatively, the spectrum normalization unit 171 normalizes the power spectrum S ′ (f) so that the intensity of the power spectrum S ′ (f) corresponding to the maximum value of the power spectrum in each sub-frequency band is 1 according to the following equation. f) may be calculated.
  • the function max (S (f)) is a function that outputs the maximum value of the power spectrum for each sub frequency band included in the range of the sub frequency band f low to f high .
  • the spectrum normalization unit 171 outputs the normalized power spectrum to the waveform change amount calculation unit 172.
  • the spectrum normalization unit 171 stores the normalized power spectrum in the buffer 173.
  • the waveform change amount calculation unit 172 calculates the change amount in the time direction of the waveform of the normalized power spectrum as the waveform change amount. As described with reference to FIGS. 2A and 2B, the waveform of the frequency spectrum of bubble noise varies in a shorter period than the waveform of the frequency spectrum of stationary noise. Therefore, the amount of change in the waveform is useful information for determining the type of noise included in the audio signal. Therefore, the waveform change calculation unit 172 'receives the m (f), normalized power spectrum S of the previous frame from the buffer 173' normalized power spectrum of the latest frame S from the spectrum normalization section 171 m Read -1 (f).
  • the waveform change amount calculation unit 172 calculates the sum of the absolute values of the differences between the two normalized power spectra S ′ m (f) and S ′ m ⁇ 1 (f) in each sub-frequency band according to the following equation as the waveform. It is calculated as a change amount ⁇ .
  • the waveform change amount calculation unit 172 calculates the waveform change amount ⁇ between the normalized power spectrum of the latest frame in each sub-frequency band and the normalized power spectrum of a frame two or more predetermined times before the latest frame. It is good also as the sum total of the absolute value of a difference.
  • the predetermined number can be any one of 2 to 5, for example.
  • the waveform change amount calculation unit 172 uses the waveform change amount ⁇ as the square sum of the differences between the two normalized power spectra S ′ m (f) and S ′ m ⁇ 1 (f) in each sub-frequency band. Also good. The waveform change amount calculation unit 172 outputs the waveform change amount ⁇ to the determination unit 174.
  • the buffer 173 stores the normalized power spectrum from the latest frame to a predetermined number of previous frames. Then, the buffer 173 deletes the normalized power spectrum that is past the predetermined number.
  • the determination unit 174 determines whether bubble noise is included in the audio signal for the latest frame. As described above, the waveform change amount ⁇ is large if bubble noise is included in the audio signal, and the waveform change amount ⁇ is small if bubble noise is not included in the audio signal. Accordingly, the determination unit 174 determines that bubble noise is included in the audio signal for the latest frame when the waveform change amount ⁇ is larger than the predetermined threshold value Thw. On the other hand, when the waveform change amount ⁇ is equal to or smaller than the predetermined threshold value Thw, the determination unit 174 determines that bubble noise is not included in the audio signal for the latest frame.
  • the predetermined threshold Thw is preferably set to a waveform change amount corresponding to one person's voice.
  • the determination unit 174 can accurately detect the bubble noise by setting the threshold value Thw in this way.
  • the predetermined threshold value Thw may be set to an optimum value obtained experimentally.
  • the predetermined threshold value Thw can be any value from 2 dB to 3 dB when the waveform change amount ⁇ is the sum of absolute values of differences between two normalized power spectra in each frequency band.
  • the predetermined threshold value Thw can be any value from 4 dB to 9 dB.
  • the determination unit 174 notifies the gain calculation unit 165 of the determination result of the type of noise included in the audio signal of the latest frame.
  • the gain calculation unit 165 determines a gain to be multiplied by the power spectrum according to the determination result of the type of noise included in the audio signal by the audio signal determination unit 164 and the estimated noise spectrum.
  • the power spectrum corresponding to the noise component is relatively small, and the power spectrum corresponding to the speaker's voice is relatively large. Therefore, when it is determined that the latest frame audio signal includes bubble noise, the gain calculation unit 165 converts the power spectrum S (f) into the noise spectrum N (f) for each sub-frequency band. It is determined whether or not it is smaller than the value (N (f) + Bb) obtained by adding the bias value Bb for use.
  • the gain calculation unit 165 sets the gain value G (f) in the sub frequency band where S (f) is smaller than (N (f) + Bb) to a value at which the power spectrum attenuates, for example, 16 dB.
  • gain calculation section 165 determines gain value G (f) so that the attenuation factor of the frequency spectrum in the sub-frequency band becomes small.
  • the gain calculation unit 165 sets the gain value G (f) to any of 0 dB to 1 dB when S (f) is equal to or greater than (N (f) + Bb).
  • the gain calculator 165 biases the power spectrum S (f) to the noise spectrum N (f) for each sub-frequency band. It is determined whether or not the value is smaller than a value (N (f) + Bc) obtained by adding the value Bc. Then, the gain calculation unit 165 sets the gain value G (f) in the sub frequency band where S (f) is smaller than (N (f) + Bb) to a value at which the power spectrum attenuates, for example, 10 dB.
  • the gain calculation unit 165 sets the gain value G (f) to be small so that the attenuation rate of the frequency spectrum in the sub-frequency band becomes small. For example, it is set to any of 0 dB to 1 dB.
  • Bubble noise has a spectrum waveform that fluctuates greatly in a short period of time, so the power spectrum of bubble noise can take a significantly larger value than the estimated noise spectrum.
  • the bias value Bc is preferably set to a value smaller than the bubble noise bias value Bb.
  • the bias value Bc is set to 6 dB
  • the bubble noise bias value Bb is set to 12 dB.
  • the gain calculation unit 165 determines the gain value when it is determined that bubble noise is included in the audio signal of the latest frame, and when it is determined that bubble noise is not included in the audio signal of the latest frame. It is preferable to set a value larger than the gain value. For example, when it is determined that bubble noise is included in the audio signal of the latest frame, the gain value is set to 16 dB, and gain when it is determined that bubble noise is not included in the audio signal of the latest frame The value is set to 10dB.
  • the gain calculation unit 165 distinguishes the noise component and other components included in the audio signal by another method such as the method disclosed in Japanese Patent Laid-Open No. 2005-165021, and sub-frequency is determined according to each component.
  • the gain value may be determined for each band.
  • the gain calculation unit 165 calculates a pure speech signal that does not include noise from the average value and variance of the power spectrum of the upper 10% of the power spectrum of the most recent predetermined number of frames (for example, 100 frames). Estimate the distribution of the power spectrum.
  • the gain calculation unit 165 determines the gain value so that the gain value increases for each sub-frequency band as the difference between the power spectrum of the audio signal and the estimated power spectrum of the pure audio signal increases.
  • Gain calculation section 165 outputs the gain value determined for each sub-frequency band to filter section 166.
  • the filter unit 166 uses the gain value determined by the gain calculation unit 165 to reduce the frequency spectrum corresponding to noise for each frequency band. Perform filtering. For example, the filter unit 166 performs filter processing according to the following equation for each sub-frequency band. Where X (f) is the frequency spectrum of the audio signal. Y (f) is a frequency spectrum on which the filtering process has been executed. As is clear from equation (7), Y (f) attenuates as the gain value increases. The filter unit 166 outputs the frequency spectrum with reduced noise to the frequency time changing unit 167.
  • the frequency time conversion unit 167 Whenever the frequency time conversion unit 167 receives the frequency spectrum with the noise reduced by the filter unit 166, the frequency time conversion unit 167 performs frequency time conversion on the frequency spectrum to obtain an audio signal with reduced noise. Note that the frequency-time conversion unit 167 uses inverse conversion of the time-frequency conversion process used by the time-frequency conversion unit 161. The frequency time conversion unit 167 outputs the audio signal with reduced noise to the amplifier 17.
  • FIG. 4 shows an operation flowchart of noise reduction processing for an input audio signal.
  • the audio signal processing device 16 repeatedly executes the noise reduction processing shown in FIG. 4 for each frame.
  • the gain values listed in the following flowcharts are examples, and may be other values as described with respect to the gain calculation unit 165.
  • the time frequency conversion unit 161 converts the input sound signal into a frequency spectrum by performing time frequency conversion on the input sound signal in units of frames (step S101).
  • the time frequency conversion unit 161 passes the frequency spectrum to the power spectrum calculation unit 162.
  • the power spectrum calculation unit 162 calculates the power spectrum S (f) of the frequency spectrum received from the time frequency conversion unit 161 (step S102).
  • the power spectrum calculation unit 162 outputs the calculated power spectrum S (f) to the noise estimation unit 163, the audio signal determination unit 164, and the gain calculation unit 165.
  • the noise estimation unit 163 calculates an estimated noise spectrum N (f) by averaging the power spectrum of a frame in which the average value of the power spectrum of all the sub-frequency bands is smaller than the threshold value Thr in the time direction for each sub-frequency band. (Step S103). Then, the noise estimation unit 163 outputs the estimated noise spectrum N (f) to the gain calculation unit 165. The noise estimation unit 163 stores the estimated noise spectrum N (f) for the latest frame in a buffer included in the noise estimation unit 163.
  • the spectrum normalization unit 171 normalizes the received power spectrum (step S104).
  • the spectrum normalization unit 171 then outputs the calculated normalized power spectrum S ′ (f) to the waveform change amount calculation unit 172 and stores it in the buffer 173.
  • the waveform change amount calculation unit 172 is a waveform change amount ⁇ representing the difference between the normalized power spectrum waveform of the latest frame and the normalized power spectrum waveform of a frame a predetermined number before the latest frame read from the buffer 173. Is calculated (step S105). Then, the waveform change amount calculation unit 172 passes the waveform change amount ⁇ to the determination unit 174.
  • the determining unit 174 determines whether or not the waveform change amount ⁇ is larger than the threshold value Thw (step S106). If the waveform change amount ⁇ is larger than the predetermined threshold value Thw (step S106—Yes), the determination unit 174 determines that bubble noise is included in the audio signal of the latest frame, and notifies the gain calculation unit 165 of the determination result. (Step S107). On the other hand, when the waveform change amount ⁇ is equal to or less than the predetermined threshold value Thw (No in step S106), the determination unit 174 determines that bubble noise is not included in the audio signal of the latest frame, and the determination result is used as the gain calculation unit. It notifies to 165 (step S108).
  • the gain calculation unit 165 determines whether or not the power spectrum S (f) is smaller than a value (N (f) + Bb) obtained by adding the bubble noise bias value Bb to the noise spectrum N (f). Determination is made (step S109). When S (f) is smaller than (N (f) + Bb) (step S109—Yes), the gain calculation unit 165 sets the gain value G (f) to 16 dB (step S110). On the other hand, when S (f) is equal to or greater than (N (f) + Bb) (step S109—No), the gain calculation unit 165 sets the gain value G (f) to 0 (step S111).
  • the gain calculation unit 165 determines whether or not the power spectrum S (f) is smaller than a value (N (f) + Bc) obtained by adding the bias value Bc to the noise spectrum N (f). (Step S112).
  • the gain calculation unit 165 sets the gain value G (f) to 10 dB (step S113).
  • the gain calculator 165 sets the gain value G (f) to 0 (step S111). Note that the gain calculation unit 165 executes the processing of steps S109 to S113 for each sub frequency band. Then, the gain calculation unit 165 outputs the gain value G (f) to the filter unit 166.
  • the filter unit 166 For each sub-frequency band, the filter unit 166 performs filter processing on the frequency spectrum so that the frequency spectrum decreases as the gain value G (f) increases (step S114). Then, the filter unit 166 outputs the filtered frequency spectrum to the frequency time conversion unit 167.
  • the frequency time conversion unit 167 converts the frequency spectrum into an output audio signal by performing frequency time conversion on the filtered frequency spectrum (step S115). Then, the frequency time conversion unit 167 outputs the output audio signal with reduced noise to the amplifier 17.
  • the audio signal processing device includes bubble noise in the audio signal when the waveform of the normalized power spectrum of the input audio signal greatly fluctuates in a short period of time. It is possible to accurately detect bubble noise by determining that it is detected. And when this audio
  • This audio signal processing apparatus examines the time change of the waveform of the frequency spectrum of the audio signal obtained by collecting the sound around the telephone on which the audio signal processing apparatus is mounted with a microphone, so that bubble noise is generated in the sound around the telephone. It is determined whether it is included. When this audio signal processing apparatus determines that bubble noise is included, it amplifies the power of a separately acquired audio signal to be reproduced, thereby making it easier for the user of the telephone to hear the reproduced sound.
  • FIG. 5 is a schematic configuration diagram of a telephone on which the audio signal processing device according to the second embodiment is mounted.
  • the telephone 2 includes a call control unit 10, a communication unit 11, a microphone 12, amplifiers 13 and 17, an encoding unit 14, a decoding unit 15, and an audio signal processing device 21. And a speaker 18.
  • the components of the telephone 2 shown in FIG. 5 are given the same reference numerals as the corresponding components of the telephone 1 shown in FIG.
  • the audio signal determination unit 24 included in the audio signal processing device 21 determines whether or not bubble noise is included in the sound collected by the microphone 12, and the audio signal processing device 21 receives the determination result. 1 is different from the telephone 1 shown in FIG. Therefore, hereinafter, the audio signal processing device 21 will be described.
  • the other components of the telephone 2 refer to the description of the telephone 1 shown in FIG.
  • FIG. 6 shows a schematic configuration diagram of the audio signal processing device 21.
  • the audio signal processing device 21 includes time frequency conversion units 22 and 26, a power spectrum calculation unit 23, an audio signal determination unit 24, a gain calculation unit 25, a filter unit 27, a frequency And a time conversion unit 28.
  • Each of these units included in the audio signal processing device 21 is formed as a separate circuit.
  • these units included in the audio signal processing device 21 may be mounted on the audio signal processing device 21 as one integrated circuit in which circuits corresponding to the respective units are integrated.
  • each of these units included in the audio signal processing device 21 may be a functional module realized by a computer program executed on a processor included in the audio signal processing device 21.
  • the time frequency conversion unit 22 converts the input sound signal collected through the microphone 12 corresponding to the sound around the telephone 2 to a frequency spectrum by performing time frequency conversion on a frame basis. To do. Note that the time-frequency conversion unit 22 is a time-frequency conversion process such as fast Fourier transform, discrete cosine transform, and modified discrete cosine transform, similar to the time-frequency transform unit 161 included in the audio signal processing device 16 according to the first embodiment. Can be used. The frame length can be set to 200 msec, for example.
  • the time frequency conversion unit 22 outputs the frequency spectrum of the input audio signal to the power spectrum calculation unit 23.
  • the time frequency conversion unit 26 converts the received audio signal into a frequency spectrum by performing time frequency conversion on the audio signal received via the communication unit 11 in units of frames. The time frequency conversion unit 26 outputs the frequency spectrum of the received audio signal to the filter unit 27.
  • the power spectrum calculation unit 23 calculates the power spectrum of the frequency spectrum.
  • the power spectrum calculation unit 23 can calculate the power spectrum by using the above equation (1).
  • the power spectrum calculation unit 23 outputs the calculated power spectrum to the audio signal determination unit 24.
  • the audio signal discriminating unit 24 discriminates the type of noise included in the input audio signal of each frame every time the power spectrum of each frame is received.
  • the audio signal determination unit 24 includes a spectrum normalization unit 241, a buffer 242, a weight determination unit 243, a waveform change amount calculation unit 244, and a determination unit 245.
  • the spectrum normalization unit 241 normalizes the received power spectrum. For example, the spectrum normalization unit 241 calculates the normalized power spectrum S ′ (f) using the above equation (4) or (5). The spectrum normalization unit 241 outputs the normalized power spectrum to the waveform change amount calculation unit 244. The spectrum normalization unit 241 stores the normalized power spectrum in the buffer 242.
  • the buffer 242 stores the power spectrum.
  • the buffer 242 stores the normalized power spectrum received from the spectrum normalization unit 241.
  • the buffer 242 stores a power spectrum and a normalized power spectrum from the latest frame to a predetermined number of previous frames. Then, the buffer 242 deletes the power spectrum and the normalized power spectrum that are past the predetermined number.
  • the weight determination unit 243 determines a weighting factor for each sub-frequency band used for calculating the waveform change amount. This weighting coefficient is set so as to increase as the sub-frequency band has a high possibility of including a bubble noise component. For example, if a human voice is included in the input voice signal, the intensity of the power spectrum suddenly increases when the person speaks. On the other hand, human voice has a characteristic that it gradually decreases. Therefore, the sub-frequency band in which the power spectrum is larger than the power spectrum of the previous frame by a predetermined offset value is highly likely to contain a bubble noise component. Therefore, the weight determination unit 243 reads the power spectrum S m (f) of the latest frame and the power spectrum S m ⁇ 1 (f) of the previous frame from the buffer 242.
  • the weight determination unit 243 compares the power spectrum S m (f) of the latest frame with the power spectrum S m ⁇ 1 (f) of the previous frame for each sub-frequency band.
  • the weight determining unit 243 calculates the weight coefficient w (f) for the sub frequency band f, For example, set to 1.
  • the weight determining unit 243 calculates the weight coefficient w (f) for the sub frequency band f. For example, set to 0.
  • the offset value S off is set to any value from 0 to 1 dB, for example.
  • the weight determination unit 243 determines the weight coefficient w (f) of a frame in which the average value of the power spectrum of each sub-frequency band is greater than a predetermined threshold value from the weight coefficient of a frame in which the average value is equal to or less than the predetermined threshold value. May be set to a large value.
  • the weight determination unit 243 may determine the weight coefficient w (f) as follows.
  • M is the number of sub-frequency bands.
  • F low represents the lowest sub-frequency band, and f high represents the highest sub-frequency band.
  • the threshold value Thr is set to any value in the range of 10 dB to 20 dB, for example.
  • the weight determination unit 243 may increase the weight coefficient for a frame having a larger average value of the power spectrum of each sub-frequency band.
  • the weight determination unit 243 outputs the weight coefficient w (f) obtained for each sub-frequency band to the waveform change calculation unit 244.
  • the waveform change amount calculation unit 244 calculates a waveform change amount that is a change amount in the time direction of the waveform of the normalized power spectrum.
  • the waveform change amount calculation unit 244 calculates the waveform change amount ⁇ according to the following equation.
  • S ′ m (f) is the normalized power spectrum of the latest frame
  • S ′ m ⁇ 1 (f) is the normality of the previous frame read from the buffer 242.
  • the waveform change amount calculation unit 244 calculates the waveform change amount ⁇ as the sum of absolute values of differences between the normalized power spectrum of the latest frame and the normalized power spectrum of a frame two or more predetermined times before the latest frame. Also good.
  • the waveform change amount calculation unit 244 weights the waveform change amount ⁇ to the square of the difference between the two normalized power spectra S ′ m (f) and S ′ m ⁇ 1 (f) in each sub-frequency band. The sum of values multiplied by the coefficient w (f) may be used.
  • the waveform change amount calculation unit 244 outputs the waveform change amount ⁇ to the determination unit 245.
  • the determination unit 245 determines whether or not bubble noise is included in the audio signal of the latest frame. Similar to the determination unit 174 included in the audio signal processing device 16 according to the first embodiment, the determination unit 245 includes bubble noise in the audio signal of the latest frame when the waveform change amount ⁇ is larger than the predetermined threshold Thw. It is determined that On the other hand, when the waveform change amount ⁇ is equal to or smaller than the predetermined threshold value Thw, the determination unit 245 determines that bubble noise is not included in the audio signal of the latest frame. Also in this embodiment, the predetermined threshold Thw is set, for example, to a value corresponding to the waveform change amount of one person's voice or a value obtained experimentally. The determination unit 245 notifies the gain calculation unit 25 of the determination result of the type of noise included in the audio signal of the latest frame.
  • the gain calculation unit 25 determines a gain to be multiplied by the power spectrum based on the determination result of the noise type by the audio signal determination unit 24.
  • the gain calculation unit 25 uniformly amplifies the frequency spectrum of the received audio signal for all the sub-frequency bands. Determine the value of the gain value G (f). If it is determined that bubble noise is included in the audio signal of the latest frame, the gain calculation unit 25 sets the gain value G (f) to 10 dB, for example. On the other hand, when it is determined that bubble noise is not included in the audio signal of the latest frame, the gain calculation unit 25 sets the gain value G (f) to 0.
  • the gain calculation unit 25 may determine the gain value by another method.
  • the gain calculation unit 25 may determine the gain value so as to emphasize the vocal tract characteristic separated from the received audio signal according to the method disclosed in International Publication No. 2004/040555 pamphlet.
  • the gain calculation unit 25 separates the received audio signal into sound source characteristics and vocal tract characteristics.
  • the gain calculating unit 25 calculates an average vocal tract characteristic based on a weighted average of the autocorrelation of the current frame and the autocorrelation of the past frame.
  • the gain calculation unit 25 obtains a formant frequency and a formant amplitude from the average vocal tract characteristic, and enhances the average vocal tract characteristic by changing the formant amplitude based on the formant frequency and the formant amplitude.
  • the gain calculation unit 25 includes a gain value for amplifying the formant amplitude, and the latest frame audio signal includes bubble noise.
  • the gain value is set to a value larger than the gain value when it is determined that it is not.
  • the gain calculation unit 25 outputs the gain value to the filter unit 27.
  • the filter unit 27 uses the gain value determined by the gain calculation unit 25 to calculate the frequency spectrum for each sub-frequency band.
  • the filter processing to be amplified is executed.
  • the filter unit 27 performs the filter process according to the following equation for each sub-frequency band.
  • X (f) is the frequency spectrum of the received audio signal.
  • Y (f) is a frequency spectrum on which the filtering process has been executed. As is clear from equation (10), Y (f) increases as the gain value increases.
  • the filter unit 27 outputs the frequency spectrum enhanced by the filter process to the frequency time changing unit 28.
  • the frequency time conversion unit 28 performs frequency time conversion on the frequency spectrum to obtain an amplified audio signal.
  • the frequency-time conversion unit 28 uses the inverse conversion of the time-frequency conversion process used by the time-frequency conversion unit 26.
  • the frequency time conversion unit 26 outputs the amplified audio signal to the amplifier 17.
  • FIG. 7 shows an operation flowchart of enhancement processing for an audio signal received via the communication unit 11.
  • the audio signal processing device 21 repeatedly executes the enhancement processing shown in FIG. 7 in units of frames for the input audio signal collected by the microphone 12.
  • the gain values listed in the following flowcharts are examples, and other values may be used.
  • the time-frequency conversion unit 22 converts the input audio signal into a frequency spectrum by performing time-frequency conversion on the input audio signal in units of frames (step S201).
  • the time frequency conversion unit 22 passes the frequency spectrum of the input audio signal to the power spectrum calculation unit 23.
  • the power spectrum calculation unit 23 calculates the power spectrum S (f) of the frequency spectrum of the input audio signal received from the time-frequency conversion unit 22 (step S202).
  • the power spectrum calculation unit 23 outputs the calculated power spectrum S (f) to the audio signal determination unit 24.
  • the audio signal determination unit 24 passes the received power spectrum S (f) to the spectrum normalization unit 241 and stores it in the buffer 242.
  • the spectrum normalization unit 241 of the audio signal determination unit 24 normalizes the received power spectrum (step S203). Then, the spectrum normalization unit 241 outputs the calculated normalized power spectrum S ′ (f) to the waveform change amount calculation unit 244 of the audio signal determination unit 24 and stores it in the buffer 242. Further, the weight determination unit 243 of the audio signal determination unit 24 reads the power spectrum of the latest frame and the power spectrum of the previous frame from the buffer 242. Then, the weight determination unit 243 determines the weighting factor w (f) so that the weighting factor for the sub-frequency band in which the spectrum of the latest frame is larger than the spectrum of the previous frame by a predetermined offset value or larger (step S204). ). The weight determination unit 243 outputs the weight coefficient w (f) to the waveform change amount calculation unit 244.
  • the waveform change amount calculation unit 244 calculates the difference between the normalized power spectrum waveform of the latest frame and the normalized power spectrum waveform of a predetermined number of frames before the latest frame read from the buffer 242. The absolute value of is calculated. Then, the waveform change amount calculation unit 244 calculates the waveform change amount ⁇ by summing the values obtained by multiplying the absolute value of the difference between the waveforms in each sub-frequency band by the weighting coefficient w (f) (step S205). . Then, the waveform change amount calculation unit 244 passes the waveform change amount ⁇ to the determination unit 245 of the audio signal determination unit 24. The determination unit 245 determines whether or not the waveform change amount ⁇ is larger than the threshold value Thw (step S206). Then, the determination unit 245 notifies the gain calculation unit 25 of the determination result.
  • the gain calculation unit 25 sets the gain calculation unit 25 to the gain value G ( f) is set to 10 dB (step S207).
  • the gain calculation unit 25 calculates the gain value G (f). It is set to 0 dB (step S208). After step S207 or S208, the gain calculation unit 25 outputs the gain value G (f) to the filter unit 27.
  • the time-frequency conversion unit 26 converts the received audio signal into a frequency spectrum by performing time-frequency conversion on the received audio signal in units of frames (step S209).
  • the time frequency conversion unit 26 outputs the frequency spectrum of the received audio signal to the filter unit 27.
  • the filter unit 27 performs a filtering process on the frequency spectrum of the received audio signal so that the frequency spectrum becomes larger as the gain value G (f) is larger for each sub-frequency band (step S210). Then, the filter unit 27 outputs the filtered frequency spectrum to the frequency time conversion unit 28.
  • the frequency time conversion unit 28 performs frequency time conversion on the frequency spectrum of the filtered received voice signal, thereby converting the frequency spectrum into an output voice signal (step S211). The frequency time conversion unit 28 then outputs the amplified output audio signal to the amplifier 17.
  • the audio signal processing apparatus includes bubble noise in the audio signal when the waveform of the normalized power spectrum of the input audio signal greatly fluctuates in a short period of time. It is possible to accurately detect bubble noise by determining that it is detected. And if a phone equipped with this audio signal processing device is determined to contain bubble noise, it can amplify the received audio signal to make it easier to hear the received audio even if the surroundings of the phone are noisy Can do.
  • this audio signal processing apparatus changes the time spectrum of the waveform of the frequency spectrum of the audio signal obtained by collecting sounds around the telephone on which the audio signal processing apparatus is mounted with a microphone. Check out.
  • the audio signal processing apparatus appropriately adjusts the volume of the reproduced sound by amplifying the power of the audio signal to be reproduced separately acquired as the waveform change amount increases.
  • the telephone on which the audio signal processing device according to the third embodiment is mounted has the same configuration as the telephone 2 according to the second embodiment shown in FIG.
  • FIG. 8 is a schematic configuration diagram of an audio signal processing device 31 according to the third embodiment.
  • the audio signal processing device 31 includes time-frequency conversion units 22 and 26, a power spectrum calculation unit 23, an audio signal determination unit 24, a gain calculation unit 25, a filter unit 27, a frequency And a time conversion unit 28.
  • the components of the audio signal processing device 31 shown in FIG. 8 are assigned the same reference numerals as the corresponding components of the audio signal processing device 21 shown in FIG.
  • Each of these units included in the audio signal processing device 31 is formed as a separate circuit.
  • these units included in the audio signal processing device 31 may be mounted on the audio signal processing device 31 as one integrated circuit in which circuits corresponding to the respective units are integrated.
  • each of these units included in the audio signal processing device 31 may be a functional module realized by a computer program executed on a processor included in the audio signal processing device 31.
  • the audio signal determination unit 24 does not have the determination unit 245 and the waveform change amount is directly output to the gain calculation unit 25, and the gain calculation unit 25 has the waveform change amount. Is different from the audio signal processing device 21 according to the second embodiment in that the gain is determined based on the above. Therefore, hereinafter, calculation of the gain value will be described.
  • the gain calculation unit 25 determines a gain value according to a gain determination function that represents the relationship between the waveform change amount ⁇ and the gain value G (f).
  • the gain determination function is a function that increases the gain value G (f) as the waveform change amount ⁇ increases. For example, in the gain determination function, when the waveform change amount ⁇ is included in the range from the predetermined lower limit value Thw low to the predetermined upper limit value Thw high , the gain value G (f) also increases linearly as the waveform change amount ⁇ increases. It may be a function.
  • the gain value G (f) when the waveform change amount ⁇ is lower than the lower limit value Thw low , the gain value G (f) is 0, and when the waveform change amount ⁇ is higher than the upper limit value Thw high , the gain value G (f) is the maximum.
  • Gain value G max when the waveform change amount ⁇ is lower than the lower limit value Thw low , the gain value G (f) is 0, and when the waveform change amount ⁇ is higher than the upper limit value Thw high , the gain value G (f) is the maximum.
  • Gain value G max The lower limit value Thw low corresponds to the minimum value of the waveform change amount that may be bubble noise, and is set to 3 dB, for example.
  • the upper limit value Thw high corresponds to an intermediate value between the waveform change amount caused by sound other than noise and the waveform change amount caused by bubble noise, and is set to 6 dB, for example.
  • the maximum gain value G max is a value that amplifies the received voice signal so that the user of the telephone 2 can sufficiently hear the received voice even if a person is talking around the telephone 2, and is set to 10 dB, for example.
  • the gain determination function may be a nonlinear function. For example, when the waveform change amount ⁇ is included in the range from the lower limit value Thw low to the upper limit value Thw high , the gain determination function calculates the gain value G in proportion to the square of the waveform change amount ⁇ or the logarithm of the waveform change amount ⁇ . It may be a function that increases (f).
  • the gain calculation unit 25 applies the gain value determined by the gain determination function only to the frequency band corresponding to the human voice, and sets the gain value for the other frequency bands to the gain determined by the gain determination function. A value smaller than the value, for example, 0 dB may be set. Thereby, the audio signal processing device 3 can selectively amplify only the audio signal in the frequency band corresponding to the human voice among the received audio signals. In particular, the gain calculation unit 25 selectively amplifies the received voice signal corresponding to the high frequency band of the human voice, so that the user can easily hear the received voice signal. Note that the high frequency band of the human voice is, for example, 2 kHz to 4 kHz.
  • the audio signal processing apparatus increases the power of the received audio signal as the waveform of the normalized power spectrum of the input audio signal varies greatly in a short period. . Therefore, this audio signal processing apparatus can appropriately adjust the volume of the received audio signal according to bubble noise around the telephone.
  • This audio signal processing device performs active noise control on the noise around the telephone on which the audio signal processing device is mounted, thereby canceling the anti-phase sound of the sound around the telephone so as to cancel the noise around the telephone. Generate from the speaker. And when this audio
  • the telephone on which the audio signal processing apparatus according to the fourth embodiment is mounted has the same configuration as the telephone 2 according to the second embodiment shown in FIG.
  • FIG. 9 is a schematic configuration diagram of an audio signal processing device 41 according to the fourth embodiment.
  • the audio signal processing device 41 includes a time-frequency conversion unit 22, a power spectrum calculation unit 23, an audio signal determination unit 24, an antiphase sound generation unit 29, and a filter unit 30. .
  • the components of the audio signal processing device 41 shown in FIG. 9 are assigned the same reference numerals as the corresponding components of the audio signal processing device 21 shown in FIG.
  • Each of these units included in the audio signal processing device 41 is formed as a separate circuit.
  • these units included in the audio signal processing device 41 may be mounted on the audio signal processing device 41 as one integrated circuit in which circuits corresponding to the respective units are integrated.
  • each of these units included in the audio signal processing device 41 may be a functional module realized by a computer program executed on a processor included in the audio signal processing device 41.
  • the antiphase sound generation unit 29 generates an antiphase sound of the input audio signal
  • the filter unit 27 superimposes the antiphase sound on the received audio signal. This is different from the audio signal processing device 21 according to the second embodiment. Therefore, the antiphase sound generation unit 29 and the filter unit 30 will be described below.
  • the anti-phase sound generation unit 29 generates an anti-phase sound for the input audio signal corresponding to the sound around the telephone set 2 collected via the microphone 12.
  • the antiphase sound generation unit 29 generates an antiphase sound d [n] by performing a filtering process on the input audio signal x [n] according to the following equation.
  • L is the number of taps, and is set to one of a finite positive integer.
  • the filter ⁇ [i] is a filter used when it is determined that bubble noise is included in the input audio signal, while the filter ⁇ [i] is included in bubble noise in the input audio signal. It is a filter used when it is determined that there is no.
  • the filter ⁇ [i] is such that the absolute value of the antiphase sound d [n] generated using the filter ⁇ [i] is the absolute value of the antiphase sound d [n] generated using the filter ⁇ [i]. It is preferably designed to be smaller than the value.
  • the antiphase sound generator 29 When the filter is designed to produce an antiphase sound d [n] that is completely inverted from the phase and amplitude of the input audio signal x [n], the d [n] The amplitude becomes larger than the amplitude of x [n], and this antiphase sound may become abnormal sound for the user. Therefore, the antiphase sound generator 29 generates the antiphase sound d [n] using the filter ⁇ [i] for the bubble noise whose sound characteristics fluctuate in a short time. By making it smaller than [n], it is possible to prevent the generation of abnormal noise due to the antiphase sound. If the antiphase sound is small, the bubble noise may not be completely canceled. However, if even part of the bubble noise is canceled by the antiphase sound, the user can easily hear the received voice signal.
  • the antiphase sound generator 29 may obtain an FIR type adaptive filter that outputs a signal whose phase is inverted with respect to the input audio signal.
  • the antiphase sound generation unit 29 also has a function as a filter update unit.
  • generation part 29 produces
  • the antiphase sound generation unit 29 can obtain the FIR type adaptive filter according to the steepest descent method or the Filtered-x LMS method so that the error signal measured by an error microphone or the like is minimized, for example.
  • the waveform of the frequency spectrum of the input audio signal greatly varies in a short period. That is, characteristics such as the strength of the input audio signal and the height of the frequency change in a short period. Therefore, when the audio signal discriminating unit 24 determines that bubble noise is included in the input audio signal, the anti-phase sound generation unit 29 indicates the number of taps of the FIR type adaptive filter, and the input audio signal includes bubble noise.
  • the number of taps of the FIR type adaptive filter when it is determined that bubble noise is included in the input audio signal is the number of taps of the FIR type adaptive filter when it is determined that bubble noise is not included in the input audio signal. Set to half of the number.
  • generation part 29 can produce an appropriate FIR type
  • the antiphase sound generation unit 29 outputs the generated antiphase sound to the filter unit 30.
  • the filter unit 30 superimposes an antiphase sound on the received audio signal. Then, the filter unit 30 outputs the received audio signal on which the antiphase sound is superimposed to the amplifier 17.
  • the audio signal processing device is a time change of the waveform of the frequency spectrum of the input audio signal obtained by collecting the sounds around the telephone on which the audio signal processing device is mounted by the microphone. It is determined whether or not bubble noise is included.
  • the amplitude of the antiphase sound when bubble noise is included in the input audio signal is made smaller than the amplitude of the antiphase sound when bubble noise is not included in the input audio signal.
  • the number of taps of the FIR type adaptive filter for generating anti-phase sound is set larger than when the input audio signal does not include bubble noise. shorten.
  • voice signal processing apparatus can produce
  • the audio signal processing apparatus may be implemented in an audio reproduction apparatus that reproduces audio signal data stored in a recording medium.
  • an audio signal reproduced from audio signal data stored in the recording medium is input to the audio signal processing device instead of the received audio signal.
  • the audio signal processing device may include a weight determination unit similar to the weight determination unit included in the audio signal processing device according to the second embodiment.
  • the waveform change amount calculation unit of the audio signal processing device calculates the waveform change amount according to the equation (9).
  • the gain calculation unit of the audio signal processing device according to the first embodiment performs gain so that the gain value increases as the waveform change amount increases, as in the audio signal processing device according to the third embodiment.
  • the value may be determined.
  • only one of the bubble noise bias value Bb or the bias value Bc is used as the bias value added to the estimated noise spectrum. Is done.
  • the audio signal processing device of each of the above embodiments normalizes the frequency spectrum itself instead of the power spectrum, and calculates the waveform change amount between two frames of the normalized frequency spectrum, thereby obtaining the audio signal.
  • the type of noise included in the signal may be determined.
  • the spectrum normalization unit calculates the normalized frequency spectrum by inputting the frequency spectrum instead of the power spectrum into the above equation (4) or (5). Each threshold value determined for the power spectrum is corrected to a value determined for the frequency spectrum. Further, the power spectrum calculation unit is omitted.
  • the audio signal processing device according to each of the above embodiments may execute the noise reduction process, the reception audio amplification process, or the noise cancellation process for each channel when the input audio signal has a plurality of channels. Good.
  • the computer program including the functional modules that realize the functions of the units included in the audio signal processing device according to each of the above embodiments may be distributed in a form stored in a recording medium such as a magnetic recording medium or an optical recording medium. .

Abstract

 音声信号処理装置は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出する時間周波数変換部と、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、そのスペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定する判定部を有する。

Description

音声信号処理装置及び音声信号処理方法
 ここに開示される実施形態は、音声信号処理装置及び音声信号処理方法に関する。
 近年、携帯電話機など、音声を再生する装置には、再生音の音質を向上するために、受信した音声信号に含まれるノイズを抑制するノイズサプレッサが搭載されている。再生音の音質を向上するためには、ノイズサプレッサが、話者の音声など、本来再生されるべき音声信号と、ノイズとを正確に区別することが望ましい。
 そこで、音声信号の周波数スペクトルを解析することにより、音声信号に含まれる音の種別を判別する技術が開発されている(例えば、特許文献1~3を参照)。
 しかし、バックグラウンドにおいて会話する複数の人の話し声が合成されたノイズであるバブルノイズ(babble noise)を検出することは難しい。そのため、音声信号にバブルノイズが含まれている場合、ノイズサプレッサは、バブルノイズを効果的に抑制することができないことがあった。
 そこで、バブルノイズを他のノイズとは別個に検出する技術が提案されている(例えば、特許文献4を参照)。
特開2004-240214号公報 特開2004-354589号公報 特開平9-90974号公報 特開平5-291971号公報
 バブルノイズを検出する公知の技術では、例えば、入力された音声信号の周波数成分が下記の判別条件を満たす場合に、入力された音声信号にバブルノイズが含まれると判定される。この判別条件は、1kHz以下の周波数範囲に含まれる低域成分の電力が高く、1kHzよりも高い周波数範囲に含まれる高域成分の電力が0でなく、かつ高域成分の電力変動が通常会話に関連するレートよりも高いというものである。
 しかしながら、バブルノイズとは異なる音源から発生した音が上記の判別条件を満たすこともある。例えば、携帯電話機を使用する話者の背後を通過する車のように、音声信号を集音するマイクロフォンに対して相対的に高速で移動する音源が存在する場合、その音源が発生する音の音量は短期間に大きく変動する。そのため、マイクロフォンに対して相対的に高速で移動する音源が発生した音、あるいはその音源が発生した音と話者の音声が混合された音が上記の判別条件を満たしてしまい、バブルノイズと誤って判定されるおそれがあった。
 そして、バブルノイズと異なる音声が誤ってバブルノイズと判定されてしまうと、ノイズサプレッサは、適切にノイズを抑制できないので、再生音の音質が低下してしまうおそれがあった。
 そこで、本明細書は、音声信号にバブルノイズが含まれるか否かを正確に判別可能な音声信号処理装置及び音声信号処理方法を提供することを目的とする。
 一つの実施形態によれば、音声信号処理装置が提供される。この音声信号処理装置は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出する時間周波数変換部と、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、そのスペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定する判定部を有する。
 他の実施形態によれば、音声信号処理方法が提供される。この音声信号処理方法は、音声信号をフレーム単位で時間周波数変換することにより、音声信号の周波数スペクトルを算出し、第1のフレームの周波数スペクトルと、第1のフレームよりも前の第2のフレームの周波数スペクトルから、第1のフレームの周波数スペクトルと第2のフレーム間の周波数スペクトルの変化量を算出し、スペクトル変化量に応じて第1のフレームの音声信号に含まれるノイズの種別を判定することを含む。
 本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
 上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
 本明細書に開示された音声信号処理装置及び音声信号処理方法は、音声信号にバブルノイズが含まれるか否かを正確に判別することができる。
図1は、第1の実施形態による音声信号処理装置が実装された電話機の概略構成図である。 図2(a)は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図2(b)は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。 図3は、第1の実施形態による、音声信号処理装置の概略構成図である。 図4は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す図である。 図5は、第2~第4の実施形態による音声信号処理装置が実装された電話機の概略構成図である。 図6は、第2の実施形態による、音声信号処理装置の概略構成図である。 図7は、入力された音声信号に対する強調処理の動作フローチャートを示す図である。 図8は、第3の実施形態による、音声信号処理装置の概略構成図である。 図9は、第4の実施形態による、音声信号処理装置の概略構成図である。
 以下、図を参照しつつ、第1の実施形態による、音声信号処理装置について説明する。
 この音声信号処理装置は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号に含まれるノイズのパワーを低減することで、再生音の音質向上を図る。
 図1は、第1の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図1に示されるように、電話機1は、呼制御部10と、通信部11と、マイクロフォン12と、増幅器13、17と、符号化部14と、復号部15と、音声信号処理装置16と、スピーカ18とを有する。
 このうち、呼制御部10、通信部11、符号化部14、復号部15及び音声信号処理装置16は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として電話機1に実装されてもよい。さらに、これらの各部は、電話機1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
 呼制御部10は、電話機1が有するキーパッドなどの操作部(図示せず)を介したユーザの操作により通話処理が開始されると、電話機1と交換機あるいはSession Initiation Protocol(SIP)サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。そして呼制御部10は、その呼制御処理の結果に応じて、通信部11に対して動作の開始または終了を指示する。
 通信部11は、マイクロフォン12により集音され、符号化14により符号化された音声信号を、所定の通信規格に従った送信用信号に変換する。そして通信部11は、その送信用信号を通信回線へ出力する。また、通信部11は、通信回線から所定の通信形式に従った信号を受信し、その受信した信号から符号化された音声信号を取り出す。そして通信部11は、符号化された音声信号を復号部15へ渡す。なお、所定の通信規格は、例えば、インターネットプロトコル(Internet Protocol、IP)とすることができ、送信用信号及び受信信号は、IPパケット化された信号とすることができる。
 符号化部14は、マイクロフォン12により集音され、増幅器13により増幅され、かつアナログ-デジタル変換器(図示せず)によりアナログ-デジタル変換された音声信号を符号化する。そのために、符号化部14は、例えば、国際電気通信連合 電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
 符号化部14は、符号化された音声信号を通信部11へ渡す。
 復号部15は、通信部11から受け取った符号化された音声信号を復号する。そして復号部15は、復号した音声信号を音声信号処理装置16へ渡す。
 音声信号処理装置16は、復号部15から受け取った音声信号を解析し、その音声信号に含まれるノイズを抑制する。また音声信号処理装置16は、復号部15から受け取った音声信号に含まれるノイズがバブルノイズか否か判定する。そして音声信号処理装置16は、音声信号に含まれるノイズの種別に応じて異なるノイズ抑制処理を実行する。
 音声信号処理装置16は、ノイズ抑制処理が施された音声信号を増幅器17へ出力する。
 増幅器17は、音声信号処理装置16から受け取った音声信号を増幅する。そして増幅器17から出力された音声信号は、デジタル-アナログ変換器(図示せず)によりデジタル-アナログ変換される。そしてアナログ化された音声信号はスピーカ18に入力される。
 スピーカ18は、増幅器17から受け取った音声信号を再生する。
 ここで、バブルノイズの特性と他のノイズ、例えば、定常ノイズの特性の違いについて説明する。
 図2(a)は、バブルノイズに対する周波数スペクトルの時間変化の一例を表す図であり、図2(b)は、定常ノイズに対する周波数スペクトルの時間変化の一例を表す図である。
 図2(a)及び図2(b)において、横軸は周波数を表し、縦軸はノイズの周波数スペクトルの振幅の強度を表す。また図2(a)において、グラフ201は、時刻tにおけるバブルノイズの周波数スペクトルの波形の一例を表す。一方、グラフ202は、時刻tよりも所定時間前の時刻(t-1)におけるバブルノイズの周波数スペクトルの波形の一例を表す。また、図2(b)において、グラフ211は、時刻tにおける定常ノイズの周波数スペクトルの波形の一例を表す。一方、グラフ212は、時刻(t-1)における定常ノイズの周波数スペクトルの波形の一例を表す。
 バブルノイズは、複数の人の声が合成されたものであるため、ピッチ周波数の異なる複数の音声信号が重なり合ったものとなる。そのため、周波数スペクトルは、短期間に大きく変動する。特に、重なり合う人の声が増えるほど、周波数スペクトルも大きく変化する傾向がある。従って、図2(a)に示されるように、時刻tにおけるバブルノイズの周波数スペクトルの波形201と時刻(t-1)におけるバブルノイズの周波数スペクトルの波形202は大きく異なる。
 これに対し、定常ノイズの波形は、短期間の間にはあまり変動しない。そのため、図2(b)に示されるように、時刻tにおける定常ノイズの周波数スペクトルの波形211と時刻(t-1)における定常ノイズの周波数スペクトルの波形212はほぼ等しい。例え、ノイズを生じる音源と、音声を集音するマイクロフォン間の距離が時刻tと時刻(t-1)の間に変化したとしても、周波数スペクトルの強度は全体的に強くなるか弱くなるものの、定常ノイズの周波数スペクトルの波形そのものの変化は少ない。
 そこで、音声信号処理装置16は、入力された音声信号の周波数スペクトルの波形の時間変化を調べることにより、入力された音声信号に含まれるノイズがバブルノイズか否か判定できる。
 図3は、音声信号処理装置16の概略構成図を示す。図3に示されるように、音声信号処理装置16は、時間周波数変換部161と、パワースペクトル算出部162と、ノイズ推定部163と、音声信号判別部164と、ゲイン算出部165と、フィルタ部166と、周波数時間変換部167とを有する。音声信号処理装置16が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置16が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置16に実装されてもよい。さらに、音声信号処理装置16が有するこれらの各部は、音声信号処理装置16が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
 時間周波数変換部161は、音声信号処理装置16に入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。時間周波数変換部161は、入力音声信号を周波数スペクトルに変換するために、例えば、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
 時間周波数変換部161は、周波数スペクトルをパワースペクトル算出部162へ渡す。
 パワースペクトル算出部162は、時間周波数変換部161から周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。
 なお、パワースペクトル算出部162は、次式に従ってパワースペクトルを算出する。
Figure JPOXMLDOC01-appb-M000001
ここでfは周波数であり、関数X(f)は周波数fに対する周波数スペクトルの振幅を表す関数である。また関数S(f)は、周波数fに対するパワースペクトルの強度を表す関数である。
 パワースペクトル算出部162は、算出されたパワースペクトルを、ノイズ推定部163、音声信号判別部164及びゲイン算出部165へ出力する。
 ノイズ推定部163は、各フレームのパワースペクトルを受け取る度に、そのパワースペクトルから、音声信号に含まれるノイズ成分に相当する推定ノイズスペクトルを算出する。一般に、ノイズの音源と電話機1に入力される音声信号を集音するマイクロフォン間の距離は、マイクロフォンとそのマイクロフォンに向かって話す話者間の距離よりも遠い。そのため、ノイズ成分のパワーは、話者の音声のパワーよりも小さい。そこで、ノイズ推定部163は、電話機1に入力された音声信号の各フレームのうち、パワースペクトルが小さいフレームについて、入力信号が含まれる周波数帯域を複数に分割したサブ周波数帯域ごとにパワーの平均値を求めることにより、推定ノイズスペクトルを算出する。なお、サブ周波数帯域の幅は、例えば、0Hz~8kHzの範囲を1024等分あるいは256等分した幅とすることができる。
 具体的には、ノイズ推定部163は、フレームの時間順に従って、最新のフレームについて、電話機1に入力された音声信号が含まれる周波数帯域全体のパワースペクトルの平均値pを次式に従って算出する。
Figure JPOXMLDOC01-appb-M000002
ここでMは、サブ周波数帯域の数である。またflowは、最も低いサブ周波数帯域を表し、fhighは、最も高いサブ周波数帯域を表す。次に、ノイズ推定部163は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。なお、閾値Thrは、例えば、10dB~20dBの範囲の何れかの値に設定される。そしてノイズ推定部163は、平均値pが閾値Thr未満である場合、各サブ周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームに対する推定ノイズスペクトルNm(f)を算出する。
Figure JPOXMLDOC01-appb-M000003
ただし、Nm-1(f)は、最新のフレームよりも一つ前のフレームに対する推定ノイズスペクトルであり、ノイズ推定部163が有するバッファから読み込まれる。また、係数αは、例えば、0.9~0.99の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、ノイズ推定部163は推定ノイズスペクトルを更新しない。すなわち、ノイズ推定部163はNm(f)=Nm-1(f)とする。
 なお、ノイズ推定部163は、パワースペクトルの平均値pを算出する代わりに、全てのサブ周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
 ノイズ推定部163は、推定ノイズスペクトルをゲイン算出部165へ出力する。また、ノイズ推定部163は、最新のフレームに対する推定ノイズスペクトルを、ノイズ推定部163が有するバッファに記憶する。
 音声信号判別部164は、各フレームのパワースペクトルを受け取る度に、そのフレームに含まれるノイズの種別を判別する。そのために、音声信号判別部164は、スペクトル正規化部171と、波形変化量算出部172と、バッファ173と、判定部174とを有する。
 スペクトル正規化部171は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部171は、次式に従って各サブ周波数帯域におけるパワースペクトルの平均値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出する。
Figure JPOXMLDOC01-appb-M000004
あるいは、スペクトル正規化部171は、次式に従って各サブ周波数帯域におけるパワースペクトルの最大値に対応する正規化パワースペクトルS'(f)の強度が1となるように、正規化パワースペクトルS'(f)を算出してもよい。
Figure JPOXMLDOC01-appb-M000005
ただし、関数max(S(f))は、サブ周波数帯域flowからfhighの範囲に含まれる各サブ周波数帯域に対するパワースペクトルの最大値を出力する関数である。
 スペクトル正規化部171は、正規化パワースペクトルを波形変化量算出部172へ出力する。またスペクトル正規化部171は、正規化パワースペクトルをバッファ173に記憶する。
 波形変化量算出部172は、正規化パワースペクトルの波形の時間方向における変化量を波形変化量として算出する。図2(a)及び図2(b)に関して説明したように、バブルノイズの周波数スペクトルの波形は、定常ノイズの周波数スペクトルの波形よりも短期間で変動する。そのため、この波形の変化量は、音声信号に含まれるノイズの種別を判別する有用な情報となる。
 そこで、波形変化量算出部172は、スペクトル正規化部171から最新のフレームの正規化パワースペクトルS'm(f)を受け取ると、バッファ173から一つ前のフレームの正規化パワースペクトルS'm-1(f)を読み出す。そして波形変化量算出部172は、次式に従って、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の絶対値の合計を、波形変化量Δとして算出する。
Figure JPOXMLDOC01-appb-M000006
 なお、波形変化量算出部172は、波形変化量Δを、各サブ周波数帯域における最新のフレームの正規化パワースペクトルと、最新のフレームから2以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。なお、所定数は、例えば、2~5の何れかとすることができる。このように波形変化量を算出するための二つのフレーム間の時間間隔を設定することにより、複数の人の声が合成されたバブルノイズに対する波形変化量と、一人の話者の声の波形変化量とを区別することが容易となる。
 また、波形変化量算出部172は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の2乗和としてもよい。
 波形変化量算出部172は、波形変化量Δを判定部174へ出力する。
 バッファ173は、最新のフレームから所定数前のフレームまでの正規化パワースペクトルを記憶する。そしてバッファ173は、その所定数よりも過去の正規化パワースペクトルを消去する。
 判定部174は、最新のフレームに対する音声信号にバブルノイズが含まれるか否か判定する。
 上記のように、音声信号にバブルノイズが含まれれば、波形変化量Δは大きく、音声信号にバブルノイズが含まれなければ、波形変化量Δは小さい。
 そこで、判定部174は、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームに対する音声信号にバブルノイズが含まれると判定する。一方、判定部174は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームに対する音声信号にはバブルノイズが含まれないと判定する。なお、所定の閾値Thwは、一人の声の相当する波形変化量に設定されることが好ましい。バブルノイズのピッチ周波数は、一人の声よりもピッチ周波数の短いため、このように閾値Thwが設定されることにより、判定部174はバブルノイズを正確に検出することができる。また、所定の閾値Thwは、実験的に求められた最適値に設定されてもよい。例えば、所定の閾値Thwは、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の絶対値和である場合、2dB~3dBの何れかの値とすることができる。また、波形変化量Δが各周波数帯域における二つの正規化パワースペクトル間の差の2乗和である場合には、所定の閾値Thwは、4dB~9dBの何れかの値とすることができる。
 判定部174は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部165へ通知する。
 ゲイン算出部165は、音声信号判別部164による音声信号に含まれるノイズの種別の判別結果及び推定ノイズスペクトルに応じて、パワースペクトルに乗じるゲインを決定する。ここで、ノイズ成分に相当するパワースペクトルは相対的に小さく、話者の声に相当するパワースペクトルは相対的に大きい。
 そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部165は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値(N(f)+Bb)よりも小さいか否か判定する。そしてゲイン算出部165は、S(f)が(N(f)+Bb)よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば16dBに設定する。一方、S(f)が(N(f)+Bb)以上である場合、ゲイン算出部165は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるようにゲイン値G(f)を決定する。例えば、ゲイン算出部165は、S(f)が(N(f)+Bb)以上である場合、ゲイン値G(f)を0dB~1dBの何れかに設定する。
 また、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部165は、サブ周波数帯域ごとに、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値(N(f)+Bc)よりも小さいか否か判定する。そしてゲイン算出部165は、S(f)が(N(f)+Bb)よりも小さいサブ周波数帯域のゲイン値G(f)を、パワースペクトルが減衰する値、例えば10dBに設定する。一方、S(f)が(N(f)+Bb)以上である場合、ゲイン算出部165は、そのサブ周波数帯域の周波数スペクトルの減衰率が小さくなるように、ゲイン値G(f)を、例えば0dB~1dBの何れかに設定する。
 バブルノイズは、短期間にスペクトルの波形が大きく変動するため、バブルノイズのパワースペクトルは推定ノイズスペクトルよりもかなり大きな値を取り得る。一方、他のノイズは短期間ではスペクトルの波形が大きく変動しないので、バブルノイズ以外のノイズのパワースペクトルと推定ノイズスペクトルとの差は小さい。そのため、バイアス値Bcは、バブルノイズ用バイアス値Bbよりも小さい値に設定されることが好ましい。例えば、バイアス値Bcは6dBに設定され、バブルノイズ用バイアス値Bbは12dBに設定される。
 また、バックグラウンドにバブルノイズが存在する場合の方が、その他のノイズが存在する場合よりも話者の声が聞き取り難くなる。そこで、ゲイン算出部165は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値を、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値よりも大きな値に設定することが好ましい。例えば、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合のゲイン値は16dBに設定され、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合のゲイン値は10dBに設定される。
 あるいは、ゲイン算出部165は、特開2005-165021号公報に開示されている方法などの他の方法により、音声信号に含まれるノイズ成分とその他の成分を区別し、各成分に応じてサブ周波数帯域ごとにゲイン値を決定してもよい。例えば、ゲイン算出部165は、直近の所定数のフレーム(例えば、100フレーム)のパワースペクトルのうち、上位10%程度のフレームのパワースペクトルの平均値及び分散から、ノイズを含まない純粋音声信号のパワースペクトルの分布を推定する。そしてゲイン算出部165は、サブ周波数帯域ごとに、音声信号のパワースペクトルと推定された純粋音声信号のパワースペクトルの差が大きくなるほど、ゲイン値も大きくなるようにゲイン値を決定する。
 ゲイン算出部165は、サブ周波数帯域ごとに決定したゲイン値をフィルタ部166へ出力する。
 フィルタ部166は、入力された音声信号の周波数スペクトルを時間周波数変換部161から受け取る度に、ゲイン算出部165により決定されたゲイン値を用いて周波数帯域ごとにノイズに相当する周波数スペクトルを低減するフィルタ処理を実行する。
 例えば、フィルタ部166は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。
Figure JPOXMLDOC01-appb-M000007
ただしX(f)は音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。(7)式から明らかなように、ゲイン値が大きくなるほど、Y(f)は減衰する。
 フィルタ部166は、ノイズが低減された周波数スペクトルを周波数時間変化部167へ出力する。
 周波数時間変換部167は、フィルタ部166によりノイズが低減された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、ノイズが低減された音声信号を得る。なお、周波数時間変換部167は、時間周波数変換部161により使用された時間周波数変換処理の逆変換を使用する。
 周波数時間変換部167は、ノイズが低減された音声信号を増幅器17へ出力する。
 図4は、入力された音声信号に対するノイズ低減処理の動作フローチャートを示す。なお、音声信号処理装置16は、図4に示されたノイズ低減処理をフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、ゲイン算出部165に関して説明したような他の値であってもよい。
 まず、時間周波数変換部161は、入力された音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する(ステップS101)。時間周波数変換部161は、周波数スペクトルをパワースペクトル算出部162へ渡す。
 次に、パワースペクトル算出部162は、時間周波数変換部161から受け取った周波数スペクトルのパワースペクトルS(f)を算出する(ステップS102)。そしてパワースペクトル算出部162は、算出されたパワースペクトルS(f)を、ノイズ推定部163、音声信号判別部164及びゲイン算出部165へ出力する。
 ノイズ推定部163は、全てのサブ周波数帯域のパワースペクトルの平均値が閾値Thrよりも小さいフレームのパワースペクトルをサブ周波数帯域ごとに時間方向に平均することにより、推定ノイズスペクトルN(f)を算出する(ステップS103)。そしてノイズ推定部163は、推定ノイズスペクトルN(f)をゲイン算出部165へ出力する。またノイズ推定部163は、最新のフレームに対する推定ノイズスペクトルN(f)を、ノイズ推定部163が有するバッファに記憶する。
 一方、スペクトル正規化部171は、受け取ったパワースペクトルを正規化する(ステップS104)。そしてスペクトル正規化部171は、算出された正規化パワースペクトルS'(f)を波形変化量算出部172へ出力するとともに、バッファ173に記憶する。
 波形変化量算出部172は、最新のフレームの正規化パワースペクトルの波形と、バッファ173から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差を表す波形変化量Δを算出する(ステップS105)。そして波形変化量算出部172は、波形変化量Δを判定部174へ渡す。
 判定部174は、波形変化量Δが閾値Thwよりも大きいか否か判定する(ステップS106)。波形変化量Δが所定の閾値Thwよりも大きい場合(ステップS106-Yes)、判定部174は最新のフレームの音声信号にバブルノイズが含まれると判定し、その判定結果をゲイン算出部165へ通知する(ステップS107)。一方、波形変化量Δが所定の閾値Thw以下である場合(ステップS106-No)、判定部174は最新のフレームの音声信号にバブルノイズは含まれないと判定し、その判定結果をゲイン算出部165へ通知する(ステップS108)。
 ステップS107の後、ゲイン算出部165は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバブルノイズ用バイアス値Bbを加えた値(N(f)+Bb)よりも小さいか否か判定する(ステップS109)。S(f)が(N(f)+Bb)よりも小さい場合(ステップS109-Yes)、ゲイン算出部165はゲイン値G(f)を16dBに設定する(ステップS110)。一方、S(f)が(N(f)+Bb)以上である場合(ステップS109-No)、ゲイン算出部165は、ゲイン値G(f)を0に設定する(ステップS111)。
 一方、ステップS108の後、ゲイン算出部165は、パワースペクトルS(f)が、ノイズスペクトルN(f)にバイアス値Bcを加えた値(N(f)+Bc)よりも小さいか否か判定する(ステップS112)。S(f)が(N(f)+Bc)よりも小さい場合(ステップS112-Yes)、ゲイン算出部165はゲイン値G(f)を10dBに設定する(ステップS113)。一方、S(f)が(N(f)+Bc)以上である場合(ステップS112-No)、ゲイン算出部165は、ゲイン値G(f)を0に設定する(ステップS111)。
 なお、ゲイン算出部165は、ステップS109~S113の処理を、サブ周波数帯域ごとに実行する。そしてゲイン算出部165は、ゲイン値G(f)をフィルタ部166へ出力する。
 フィルタ部166は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが低減するように周波数スペクトルに対するフィルタ処理を実行する(ステップS114)。そしてフィルタ部166は、フィルタ処理された周波数スペクトルを周波数時間変換部167へ出力する。
 周波数時間変換部167は、フィルタ処理された周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する(ステップS115)。そして周波数時間変換部167は、ノイズが低減された出力音声信号を増幅器17へ出力する。
 以上に説明してきたように、第1の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、音声信号に他のノイズが含まれる場合よりも音声信号のパワーを低減することで、再生音の音質を向上することができる。
 次に、第2の実施形態による、音声信号処理装置について説明する。
 この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べることにより、電話機の周囲の音にバブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、バブルノイズが含まれると判定した場合、別途取得した再生すべき音声信号のパワーを増幅することで、電話機のユーザが再生音を聞き易くする。
 図5は、第2の実施形態による音声信号処理装置が実装された電話機の概略構成図である。図5に示されるように、電話機2は、呼制御部10と、通信部11と、マイクロフォン12と、増幅器13、17と、符号化部14と、復号部15と、音声信号処理装置21と、スピーカ18とを有する。なお、図5に示される電話機2の各構成要素には、図1に示された電話機1の対応する構成要素と同一の参照番号を付した。
 電話機2は、音声信号処理装置21が有する音声信号判別部24が、マイクロフォン12により集音された音声にバブルノイズが含まれるか否かを判定し、その判定結果によって音声信号処理装置21が受信した音声信号を増幅する点で、図1に示された電話機1と異なる。そこで以下では、音声信号処理装置21について説明する。電話機2のその他の構成要素については、上述した図1に示した電話機1の説明を参照されたい。
 図6は、音声信号処理装置21の概略構成図を示す。図6に示されるように、音声信号処理装置21は、時間周波数変換部22、26と、パワースペクトル算出部23と、音声信号判別部24と、ゲイン算出部25と、フィルタ部27と、周波数時間変換部28とを有する。音声信号処理装置21が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置21が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置21に実装されてもよい。さらに、音声信号処理装置21が有するこれらの各部は、音声信号処理装置21が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
 時間周波数変換部22は、マイクロフォン12を介して集音された、電話機2の周囲の音に対応する入力音声信号を、フレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する。なお、時間周波数変換部22は、第1の実施形態に係る音声信号処理装置16が有する時間周波数変換部161と同様に、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換などの時間周波数変換処理を用いることができる。なお、フレーム長は、例えば、200msecとすることができる。
 時間周波数変換部22は、入力音声信号の周波数スペクトルをパワースペクトル算出部23へ出力する。
 また、時間周波数変換部26は、通信部11を介して受信した音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する。時間周波数変換部26は、受信音声信号の周波数スペクトルをフィルタ部27へ出力する。
 パワースペクトル算出部23は、時間周波数変換部22から入力音声信号の周波数スペクトルを受け取る度に、その周波数スペクトルのパワースペクトルを算出する。パワースペクトル算出部23は、上記の(1)式を用いてパワースペクトルを算出することができる。
 パワースペクトル算出部23は、算出されたパワースペクトルを、音声信号判別部24へ出力する。
 音声信号判別部24は、各フレームのパワースペクトルを受け取る度に、そのフレームの入力音声信号に含まれるノイズの種別を判別する。そのために、音声信号判別部24は、スペクトル正規化部241と、バッファ242と、重み決定部243と、波形変化量算出部244と、判定部245とを有する。
 スペクトル正規化部241は、受け取ったパワースペクトルを正規化する。例えば、スペクトル正規化部241は、上記の(4)式または(5)式を用いて正規化パワースペクトルS'(f)を算出する。
 スペクトル正規化部241は、正規化パワースペクトルを波形変化量算出部244へ出力する。またスペクトル正規化部241は、正規化パワースペクトルをバッファ242に記憶する。
 バッファ242は、パワースペクトル算出部23からフレーム単位で入力音声信号のパワースペクトルを受け取る度に、そのパワースペクトルを記憶する。またバッファ242は、スペクトル正規化部241から受け取った正規化パワースペクトルを記憶する。
 バッファ242は、最新のフレームから所定数前のフレームまでのパワースペクトル及び正規化パワースペクトルを記憶する。そしてバッファ242は、その所定数よりも過去のパワースペクトル及び正規化パワースペクトルを消去する。
 重み決定部243は、波形変化量を算出するために使用される、各サブ周波数帯域に対する重み係数を決定する。この重み係数は、バブルノイズ成分が含まれる可能性が高いサブ周波数帯域ほど大きくなるように設定される。例えば、入力音声信号に人の声が含まれていると、人が声を発したときに急激にパワースペクトルの強度が大きくなる。一方、人の声は、徐々に小さくなるという特性を有する。そこで、前のフレームのパワースペクトルよりも所定のオフセット値以上パワースペクトルが大きくなるサブ周波数帯域は、バブルノイズの成分を含む可能性が高い。そこで重み決定部243は、バッファ242から、最新のフレームのパワースペクトルSm(f)と、一つ前のフレームのパワースペクトルSm-1(f)を読み込む。そして重み決定部243は、サブ周波数帯域ごとに、最新のフレームのパワースペクトルSm(f)と、一つ前のフレームのパワースペクトルSm-1(f)を比較する。そして重み決定部243は、パワースペクトルSm(f)からSm-1(f)を引いた差がオフセット値Soffよりも大きい場合、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、1に設定する。一方、パワースペクトルSm(f)からSm-1(f)を引いた差がオフセット値Soff以下である場合、重み決定部243は、そのサブ周波数帯域fに対する重み係数w(f)を、例えば、0に設定する。なお、オフセット値Soffは、例えば、0~1dBの何れかの値に設定される。
 あるいは、重み決定部243は、各サブ周波数帯域のパワースペクトルの平均値が所定の閾値よりも大きいフレームの重み係数w(f)を、その平均値が所定の閾値以下となるフレームの重み係数よりも大きな値に設定してもよい。例えば、重み決定部243は、以下のように重み係数w(f)を決定してもよい。
Figure JPOXMLDOC01-appb-M000008
ここでMは、サブ周波数帯域の数である。またflowは、最も低いサブ周波数帯域を表し、fhighは、最も高いサブ周波数帯域を表す。また閾値Thrは、例えば、10dB~20dBの範囲の何れかの値に設定される。
 さらに、重み決定部243は、各サブ周波数帯域のパワースペクトルの平均値が大きいフレームほど、重み係数も大きくしてもよい。
 重み決定部243は、各サブ周波数帯域について求めた重み係数w(f)を、波形変化算出部244へ出力する。
 波形変化量算出部244は、正規化パワースペクトルの波形の時間方向における変化量である波形変化量を算出する。
 本実施形態では、波形変化量算出部244は、次式に従って波形変化量Δを算出する。
Figure JPOXMLDOC01-appb-M000009
ただし、(6)式と同様に、S'm(f)は最新のフレームの正規化パワースペクトルであり、S'm-1(f)は、バッファ242から読み込んだ一つ前のフレームの正規化パワースペクトルS'm-1(f)である。
 波形変化量算出部244は、波形変化量Δを、最新のフレームの正規化パワースペクトルと、最新のフレームから2以上の所定数前のフレームの正規化パワースペクトル間の差の絶対値の合計としてもよい。
 あるいは、波形変化量算出部244は、波形変化量Δを、各サブ周波数帯域における二つの正規化パワースペクトルS'm(f)、S'm-1(f)間の差の2乗に重み係数w(f)を乗じた値の和としてもよい。
 波形変化量算出部244は、波形変化量Δを判定部245へ出力する。
 判定部245は、最新のフレームの音声信号にバブルノイズが含まれるか否か判定する。
 判定部245は、第1の実施形態による音声信号処理装置16が有する判定部174と同様に、波形変化量Δが所定の閾値Thwよりも大きい場合、最新のフレームの音声信号にバブルノイズが含まれると判定する。一方、判定部245は、波形変化量Δが所定の閾値Thw以下である場合、最新のフレームの音声信号にバブルノイズは含まれないと判定する。
 この実施形態においても、所定の閾値Thwは、例えば、一人の声の波形変化量に相当する値、あるいは、実験的に求められた値に設定される。
 判定部245は、最新のフレームの音声信号に含まれるノイズの種別の判別結果をゲイン算出部25へ通知する。
 ゲイン算出部25は、音声信号判別部24によるノイズの種別の判別結果に基づいて、パワースペクトルに乗じるゲインを決定する。ここで、入力音声信号にバブルノイズが含まれていると、電話機2のユーザの周囲は騒々しく、受信した音声信号を聞き取り難い可能性がある。
 そこで、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部25は、全てのサブ周波数帯域に対して一律に、受信音声信号の周波数スペクトルを増幅するように、ゲイン値G(f)の値を決定する。最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ゲイン算出部25は、例えば、ゲイン値G(f)を10dBに設定する。一方、最新のフレームの音声信号にバブルノイズが含まれないと判定されている場合、ゲイン算出部25は、ゲイン値G(f)を0に設定する。
 あるいは、ゲイン算出部25は、他の方法によりゲイン値を決定してもよい。例えば、ゲイン算出部25は、国際公開第2004/040555号パンフレットに開示されている方法に従って、受信音声信号から分離された声道特性を強調するように、ゲイン値を決定してもよい。この場合、ゲイン算出部25は、受信音声信号を音源特性と声道特性とに分離する。そしてゲイン算出部25は、現フレームの自己相関と過去のフレームの自己相関との加重平均に基づいて平均的な声道特性を算出する。ゲイン算出部25は、その平均的な声道特性からホルマント周波数とホルマント振幅を求め、そのホルマント周波数及びホルマント振幅に基づいて、ホルマント振幅を変化させることで平均的な声道特性を強調する。その際、ゲイン算出部25は、最新のフレームの音声信号にバブルノイズが含まれると判定されている場合、ホルマント振幅を増幅させるためのゲイン値を、最新のフレームの音声信号にバブルノイズが含まれていないと判定されている場合のゲイン値よりも大きな値に設定する。
 ゲイン算出部25は、ゲイン値をフィルタ部27へ出力する。
 フィルタ部27は、通信部11を介して受信した音声信号の周波数スペクトルを時間周波数変換部161から受け取る度に、ゲイン算出部25により決定されたゲイン値を用いてサブ周波数帯域ごとに周波数スペクトルを増幅するフィルタ処理を実行する。
 例えば、フィルタ部27は、サブ周波数帯域ごとに、次式に従ってフィルタ処理を実行する。
Figure JPOXMLDOC01-appb-M000010
ただしX(f)は受信音声信号の周波数スペクトルである。またY(f)は、フィルタ処理が実行された周波数スペクトルである。(10)式から明らかなように、ゲイン値が大きくなるほど、Y(f)も大きくなる。
 フィルタ部27は、フィルタ処理により強調された周波数スペクトルを周波数時間変化部28へ出力する。
 周波数時間変換部28は、フィルタ部27により強調処理された周波数スペクトルを受け取る度に、その周波数スペクトルを周波数時間変換することにより、増幅された音声信号を得る。なお、周波数時間変換部28は、時間周波数変換部26により使用された時間周波数変換処理の逆変換を使用する。
 周波数時間変換部26は、増幅された音声信号を増幅器17へ出力する。
 図7は、通信部11を介して受信した音声信号に対する強調処理の動作フローチャートを示す。なお、音声信号処理装置21は、図7に示された強調処理を、マイクロフォン12により集音された入力音声信号に対するフレーム単位で繰り返し実行する。また以下のフローチャートにおいて挙げられたゲイン値は一例であり、他の値であってもよい。
 まず、時間周波数変換部22は、入力音声信号をフレーム単位で時間周波数変換することにより、その入力音声信号を周波数スペクトルに変換する(ステップS201)。時間周波数変換部22は、入力音声信号の周波数スペクトルをパワースペクトル算出部23へ渡す。
 次に、パワースペクトル算出部23は、時間周波数変換部22から受け取った入力音声信号の周波数スペクトルのパワースペクトルS(f)を算出する(ステップS202)。そしてパワースペクトル算出部23は、算出されたパワースペクトルS(f)を音声信号判別部24へ出力する。そして音声信号判別部24は、受け取ったパワースペクトルS(f)をスペクトル正規化部241へ渡すとともに、バッファ242に記憶する。
 音声信号判別部24のスペクトル正規化部241は、受け取ったパワースペクトルを正規化する(ステップS203)。そしてスペクトル正規化部241は、算出された正規化パワースペクトルS'(f)を音声信号判別部24の波形変化量算出部244へ出力するとともに、バッファ242に記憶する。
 また、音声信号判別部24の重み決定部243は、バッファ242から、最新のフレームのパワースペクトルと一つ前のフレームのパワースペクトルを読み込む。そして重み決定部243は、最新のフレームのスペクトルが前のフレームのスペクトルよりも所定のオフセット値以上大きくなるサブ周波数帯域に対する重み係数が大きくなるように重み係数w(f)を決定する(ステップS204)。重み決定部243は、重み係数w(f)を波形変化量算出部244へ出力する。
 波形変化量算出部244は、サブ周波数帯域ごとに、最新のフレームの正規化パワースペクトルの波形と、バッファ242から読み込んだ最新のフレームよりも所定数前のフレームの正規化パワースペクトルの波形の差の絶対値を算出する。そして波形変化量算出部244は、各サブ周波数帯域の波形の差の絶対値に重み係数w(f)を乗じて得られる値を合計することにより、波形変化量Δを算出する(ステップS205)。そして波形変化量算出部244は、波形変化量Δを音声信号判別部24の判定部245へ渡す。
 判定部245は、波形変化量Δが閾値Thwよりも大きいか否か判定する(ステップS206)。そして判定部245は、その判定結果をゲイン算出部25へ通知する。
 波形変化量Δが所定の閾値Thwよりも大きい場合(ステップS206-Yes)、判定部245によりバブルノイズが含まれると判定されるので、ゲイン算出部25は、ゲイン算出部25はゲイン値G(f)を10dBに設定する(ステップS207)。一方、波形変化量Δが所定の閾値Thw以下である場合(ステップS206-No)、判定部245によりバブルノイズは含まれないと判定されるので、ゲイン算出部25はゲイン値G(f)を0dBに設定する(ステップS208)。
 ステップS207またはS208の後、ゲイン算出部25は、ゲイン値G(f)をフィルタ部27へ出力する。
 また、時間周波数変換部26は、受信音声信号をフレーム単位で時間周波数変換することにより、その受信音声信号を周波数スペクトルに変換する(ステップS209)。時間周波数変換部26は、受信音声信号の周波数スペクトルをフィルタ部27へ出力する。
 フィルタ部27は、各サブ周波数帯域について、ゲイン値G(f)が大きいほど周波数スペクトルが大きくなるように、受信音声信号の周波数スペクトルに対するフィルタ処理を実行する(ステップS210)。そしてフィルタ部27は、フィルタ処理された周波数スペクトルを周波数時間変換部28へ出力する。
 周波数時間変換部28は、フィルタ処理された受信音声信号の周波数スペクトルを周波数時間変換することにより、その周波数スペクトルを出力音声信号に変換する(ステップS211)。そして周波数時間変換部28は、増幅された出力音声信号を増幅器17へ出力する。
 以上に説明してきたように、第2の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動する場合、その音声信号にバブルノイズが含まれると判定することにより、正確にバブルノイズを検出できる。そしてこの音声信号処理装置が実装された電話機は、バブルノイズが含まれると判定された場合、受信音声信号を増幅することで、電話機の周囲が騒々しくても、受信音声を聞き易くすることができる。
 次に、第3の実施形態による、音声信号処理装置について説明する。
 この音声信号処理装置は、第2の実施形態による音声信号処理装置と同様に、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した音声信号の周波数スペクトルの波形の時間変化を調べる。そしてこの音声信号処理装置は、波形変化量が大きくなるほど、別途取得した再生すべき音声信号のパワーを増幅することで、再生音の音量を適切に調節する。
 第3の実施形態による音声信号処理装置が実装された電話機は、図5に示された第2の実施形態による電話機2と同様の構成を有する。
 図8は、第3の実施形態による音声信号処理装置31の概略構成図を示す。図8に示されるように、音声信号処理装置31は、時間周波数変換部22、26と、パワースペクトル算出部23と、音声信号判別部24と、ゲイン算出部25と、フィルタ部27と、周波数時間変換部28とを有する。なお、図8に示される音声信号処理装置31の各構成要素には、図6に示された音声信号処理装置21の対応する構成要素と同一の参照番号を付した。
 音声信号処理装置31が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置31が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置31に実装されてもよい。さらに、音声信号処理装置31が有するこれらの各部は、音声信号処理装置31が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
 図8に示された音声信号処理装置31は、音声信号判別部24が判定部245を有さず、波形変化量をゲイン算出部25へ直接出力する点、及びゲイン算出部25は波形変化量に基づいてゲインを決定する点で、第2の実施形態による音声信号処理装置21と異なる。そこで、以下では、ゲイン値の算出について説明する。
 ゲイン算出部25は、音声信号判別部24から波形変化量Δを受け取ると、波形変化量Δとゲイン値G(f)の関係を表すゲイン決定関数に従ってゲイン値を決定する。ゲイン決定関数は、波形変化量Δが大きくなるほど、ゲイン値G(f)も大きくなる関数である。例えば、ゲイン決定関数は、波形変化量Δが所定の下限値Thwlowから所定の上限値Thwhighの範囲に含まれる場合、波形変化量Δが大きくなるにつれてゲイン値G(f)も線形に増加する関数であってもよい。またこのゲイン決定関数では、波形変化量Δが下限値Thwlow以下の場合、ゲイン値G(f)は0、波形変化量Δが上限値Thwhigh以上の場合、ゲイン値G(f)は最大ゲイン値Gmaxとなる。なお、下限値Thwlowは、バブルノイズである可能性がある波形変化量の最小値に対応し、例えば、3dBに設定される。また上限値Thwhighは、ノイズ以外の音に起因する波形変化量とバブルノイズに起因する波形変化量との中間値に対応し、例えば、6dBに設定される。また最大ゲイン値Gmaxは、電話機2の周囲で人が会話していても、電話機2のユーザが受信音声を十分に聞き取れる程度に受信音声信号を増幅する値であり、例えば、10dBに設定される。
 なお、ゲイン決定関数は、非線形関数であってもよい。例えば、ゲイン決定関数は、波形変化量Δが下限値Thwlowから上限値Thwhighの範囲に含まれる場合、波形変化量Δの2乗あるい波形変化量Δの対数に比例してゲイン値G(f)が大きくなる関数であってもよい。
 また、ゲイン算出部25は、ゲイン決定関数により決定されたゲイン値を、人の声に対応する周波数帯域にのみ適用し、その他の周波数帯域についてはゲイン値を、ゲイン決定関数により決定されたゲイン値よりも小さい値、例えば、0dBとしてもよい。これにより、音声信号処理装置3は、受信音声信号のうち、人の声に対応する周波数帯域の音声信号だけを選択的に増幅できる。特に、ゲイン算出部25が人の声のうちの高周波数帯域に対応する受信音声信号を選択的に増幅することで、ユーザが受信音声信号を聞き取り易くすることができる。なお、人の声のうちの高周波数帯域は、例えば、2kHz~4kHzである。
 以上に説明してきたように、第3の実施形態による、音声信号処理装置は、入力された音声信号の正規化パワースペクトルの波形が短期間で大きく変動するほど、受信音声信号のパワーを強くする。そのため、この音声信号処理装置は、受信音声信号の音量を、電話機の周囲のバブルノイズに応じて適切に調節することができる。
 次に、第4の実施形態による、音声信号処理装置について説明する。
 この音声信号処理装置は、音声信号処理装置が実装された電話機の周囲のノイズに対するアクティブノイズコントロールを実行することにより、電話機周囲のノイズを打ち消すように、電話機周囲の音の逆位相音を電話機のスピーカから発生させる。そしてこの音声信号処理装置は、逆位相音を生成する際、バブルノイズが含まれるか否かに応じて、異なるフィルタを用いて逆位相音を生成する。そしてこの音声信号処理装置は、その逆位相音を受信音声と重畳してスピーカに再生させることにより、電話機周囲のノイズがバブルノイズであっても、適切にノイズを打ち消す。
 第4の実施形態による音声信号処理装置が実装された電話機は、図5に示された第2の実施形態による電話機2と同様の構成を有する。
 図9は、第4の実施形態による、音声信号処理装置41の概略構成図である。図9に示されるように、音声信号処理装置41は、時間周波数変換部22と、パワースペクトル算出部23と、音声信号判別部24と、逆位相音生成部29と、フィルタ部30とを有する。なお、図9に示される音声信号処理装置41の各構成要素には、図6に示された音声信号処理装置21の対応する構成要素と同一の参照番号を付した。
 音声信号処理装置41が有するこれらの各部は、それぞれ別個の回路として形成される。あるいは音声信号処理装置41が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として音声信号処理装置41に実装されてもよい。さらに、音声信号処理装置41が有するこれらの各部は、音声信号処理装置41が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
 図9に示された音声信号処理装置41は、逆位相音生成部29が、入力音声信号の逆位相音を生成し、フィルタ部27が、その逆位相音を受信音声信号に重畳する点で、第2の実施形態による音声信号処理装置21と異なる。そこで、以下では、逆位相音生成部29及びフィルタ部30について説明する。
 逆位相音生成部29は、マイクロフォン12を介して集音された電話機2の周囲の音に対応する入力音声信号に対する逆位相音を生成する。例えば、逆位相音生成部29は、次式に従って、入力音声信号x[n]に対するフィルタ処理を行うことにより、逆位相音d[n]を生成する。
Figure JPOXMLDOC01-appb-M000011
なお、α[i]、β[i](i=1,2,...,L)は、それぞれ、有限インパルス(Finite impulse response、FIR)型のフィルタであり、入力音声信号に対する電話機2の信号伝達特性を考慮して予め作成される。またLはタップ数であり、有限な正の整数の何れかに設定される。
 ここで、フィルタα[i]は、入力音声信号にバブルノイズが含まれると判定されたときに使用されるフィルタであり、一方、フィルタβ[i]は、入力音声信号にバブルノイズが含まれないと判定されたときに使用されるフィルタである。フィルタα[i]は、フィルタα[i]を用いて生成される逆位相音d[n]の絶対値が、フィルタβ[i]を用いて生成される逆位相音d[n]の絶対値よりも小さくなるように設計されることが好ましい。入力音声信号x[n]の位相及び振幅と完全に反転する逆位相音d[n]を生成するようにフィルタが設計されると、急激に入力音声信号が変化したときにd[n]の振幅がx[n]の振幅よりも大きくなり、この逆位相音がユーザにとって異音となるおそれがある。そこで、逆位相音生成部29は、短期間に音の特性が変動するバブルノイズに対しては、逆位相音d[n]を、フィルタβ[i]を用いて生成される逆位相音d[n]よりも小さくすることで、逆位相音に起因する異音の発生を防止できる。なお、逆位相音が小さければ、バブルノイズは完全に打ち消されないこともある。しかしながら、逆位相音によりバブルノイズの一部でも打ち消されれば、ユーザは受信音声信号を聞き取り易くなる。
 あるいは、逆位相音生成部29は、入力音声信号に対して位相が反転した信号を出力するようなFIR型の適応フィルタを求めてもよい。この場合、逆位相音生成部29は、フィルタ更新部としての機能も有する。そして逆位相音生成部29は、求めた適応フィルタを用いて入力音声信号をフィルタ処理することにより、逆位相音を生成する。
 逆位相音生成部29は、FIR型適応フィルタを、例えば、エラーマイクなどにより測定される誤差信号が最小となるように、最急降下法、あるいはFiltered-x LMS法に従って求めることができる。
 ここで、入力音声信号にバブルノイズが含まれている場合、図2(a)及び図2(b)に関して説明したように、入力音声信号の周波数スペクトルの波形は短期間で大きく変動する。すなわち、入力音声信号の強さ、周波数の高さなどの特性が短期間で変動する。そこで、逆位相音生成部29は、音声信号判別部24により入力音声信号にバブルノイズが含まれると判定されている場合、FIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれないと判定されている場合の逆位相音よりも短くすることが好ましい。例えば、入力音声信号にバブルノイズが含まれると判定されている場合のFIR型適応フィルタのタップ数は、入力音声信号にバブルノイズが含まれないと判定されている場合のFIR型適応フィルタのタップ数の半分に設定される。これにより、逆位相音生成部29は、入力音声信号にバブルノイズが含まれている場合も、適切なFIR型適応フィルタを作成できる。
 逆位相音生成部29は、生成した逆位相音をフィルタ部30へ出力する。
 フィルタ部30は、受信音声信号に逆位相音を重畳する。そしてフィルタ部30は、逆位相音が重畳された受信音声信号を増幅器17へ出力する。
 以上に説明してきたように、第4の実施形態による音声信号処理装置は、音声信号処理装置が実装された電話機の周囲の音をマイクロフォンにより集音した入力音声信号の周波数スペクトルの波形の時間変化を調べることにより、バブルノイズが含まれるか否か判定する。そしてこの音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合の逆位相音の振幅が、入力音声信号にバブルノイズが含まれない場合の逆位相音の振幅よりも小さくする。あるいは、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合、逆位相音を生成するためのFIR型適応フィルタのタップ数を、入力音声信号にバブルノイズが含まれない場合よりも短くする。これにより、この音声信号処理装置は、入力音声信号にバブルノイズが含まれる場合も、適切な逆位相音を生成できる。そのため、この音声信号処理装置が実装された電話機は、その電話機の周囲にバブルノイズが存在しても、適切にノイズを打ち消すことができる。
 なお、本発明は、上記の実施形態に限定されるものではない。例えば、第4の実施形態による音声信号処理装置は、記録媒体に記憶された音声信号データを再生する音声再生装置に実装されてもよい。この場合、音声信号処理装置には、受信音声信号の代わりに、記録媒体に記憶された音声信号データから再生される音声信号が入力される。
 また、第1の実施形態による音声信号処理装置は、第2の実施形態による音声信号処理装置が有する重み決定部と同様の重み決定部を有してもよい。この場合、第1の実施形態の変形例となる音声信号処理装置の波形変化量算出部は、(9)式に従って波形変化量を算出する。
 さらに、第1の実施形態による音声信号処理装置のゲイン算出部は、第3の実施形態による音声信号処理装置と同様に、波形変化量が大きくなるにつれてゲイン値も大きな値となるように、ゲイン値を決定してもよい。この場合、パワースペクトルがノイズ成分か否か判定するための基準値を求めるために、推定ノイズスペクトルに加算されるバイアス値は、バブルノイズ用バイアス値Bbまたはバイアス値Bcの何れか一方のみが使用される。
 また、上記の各実施形態の音声信号処理装置は、パワースペクトルの代わりに、周波数スペクトルそのものを正規化し、正規化された周波数スペクトルの二つのフレーム間の波形変化量を算出することにより、音声信号に含まれるノイズの種別を判定してもよい。この場合、スペクトル正規化部は、パワースペクトルの代わりに周波数スペクトルを上記の(4)式あるいは(5)式に入力することにより、正規化された周波数スペクトルを算出する。また、パワースペクトルに対して定められている各閾値は、周波数スペクトルに対して定められる値に修正される。また、パワースペクトル算出部は省略される。
 また、上記の各実施形態による音声信号処理装置は、入力された音声信号が複数のチャネルを有する場合、各チャネルごとに上記のノイズ低減処理、受信音声増幅処理あるいはノイズキャンセル処理を実行してもよい。
 また、上記の各実施形態による音声信号処理装置が有する各部の機能を実現する機能モジュールを含むコンピュータプログラムは、磁気記録媒体、光記録媒体などの記録媒体に保存された形で配布されてもよい。
 ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
 1、2  電話機
 10  呼制御部
 11  通信部
 12  マイクロフォン
 13、17  増幅器
 14  符号化部
 15  復号部
 16、21、31、41  音声信号処理装置
 18  スピーカ
 161、22、26  時間周波数変換部
 162、23  パワースペクトル算出部
 163  ノイズ推定部
 164、24  音声信号判別部
 165、25  ゲイン算出部
 166、27、30  フィルタ部
 167、28  周波数時間変換部
 29  逆位相音生成部
 171、241  スペクトル正規化部
 173、242  バッファ
 243  重み決定部
 172、244  波形変化量算出部
 174、245  判定部

Claims (15)

  1.  音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出する時間周波数変換部と、
     第1のフレームの周波数スペクトルと、前記第1のフレームよりも前の第2のフレームの周波数スペクトルから、前記第1のフレームの周波数スペクトルと前記第2のフレーム間の周波数スペクトルの変化量を算出するスペクトル変化量算出部と、
     前記スペクトル変化量に応じて前記第1のフレームの音声信号に含まれるノイズの種別を判定する判定部と、
    を有する音声信号処理装置。
  2.  各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出するスペクトル正規化部をさらに有し、
     前記スペクトル変化量算出部は、前記第1のフレームの正規化スペクトルと、前記第2のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項1に記載の音声信号処理装置。
  3.  前記スペクトル変化量算出部は、周波数帯域を複数に分割したサブ周波数帯域ごとに前記周波数スペクトルの変化量を算出する請求項1または2に記載の音声信号処理装置。
  4.  前記スペクトル変化量算出部は、各サブ周波数帯域の前記第1のフレームの正規化スペクトルと前記第2のフレームの正規化スペクトルとの差の絶対値の合計から前記周波数スペクトルの変化量を算出する請求項3に記載の音声信号処理装置。
  5.  周波数帯域を複数に分割したサブ周波数帯域のうち、前記第1のフレームの周波数スペクトルの振幅が前記第2のフレームの周波数スペクトルの振幅よりも大きいサブ周波数帯域の重み係数を、前記第1のフレームの周波数スペクトルの振幅が前記第2のフレームの周波数スペクトルの振幅以下であるサブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
     前記波形変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記波形変化量を算出する、請求項4に記載の音声信号処理装置。
  6.  前記第1のフレームの周波数スペクトルの振幅の平均値が第1の値よりも大きい場合、前記各サブ周波数帯域の重み係数を、前記第1のフレームの周波数スペクトルの振幅の平均値が前記第1の値よりも小さい第2の値以下である場合の前記各サブ周波数帯域の重み係数よりも大きく設定する重み決定部をさらに有し、
     前記波形変化量算出部は、前記サブ周波数帯域ごとに前記重み係数を対応する前記差の絶対値に乗じた値を合計することにより、前記波形変化量を算出する、請求項4に記載の音声信号処理装置。
  7.  前記判定部は、前記波形変化量が一人の声に対する波形変化量に相当する閾値よりも大きい場合、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定する、請求項1から6の何れか一項に記載の音声信号処理装置。
  8.  前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
     ノイズ成分のパワースペクトルと前記周波数スペクトルのパワースペクトルに応じてゲインを算出するゲイン算出部と、
     前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
     前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
     前記ゲイン算出部は、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きくする請求項1から7の何れか一項に記載の音声信号処理装置。
  9.  前記音声信号に含まれるノイズ成分のパワースペクトルを推定するノイズ推定部と、
     前記周波数スペクトルのパワースペクトルとノイズ成分のパワースペクトルとの差と所定の閾値との比較に応じてゲインを算出するゲイン算出部と、
     前記ゲインを前記周波数スペクトルに乗算することでノイズ低減スペクトルを算出するフィルタ部と、
     前記ノイズ低減スペクトルを時間信号に変換することにより出力信号を算出する周波数時間変換部とをさらに有し、
     前記ゲイン算出部は、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合の前記閾値は、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合の前記閾値よりも大きくする、請求項1から7の何れか一項に記載の音声信号処理装置。
  10.  第2の音声信号をフレーム単位で時間周波数変換することにより、該第2の音声信号の周波数スペクトルを算出する第2の時間周波数変換部と、
     ノイズの判定結果に基づいて入力信号を増幅する帯域毎のゲインを算出するゲイン算出部と、
     帯域毎のゲインを第2の音声信号の周波数スペクトルに乗算し、強調スペクトルを算出するフィルタ部と、
     前記強調スペクトルを時間信号に変換し出力信号を算出する周波数時間変換部をさらに有し、
     前記ゲイン算出部は、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合のゲインを、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズでないと判定された場合のゲインよりも大きく設定する、
    請求項1から7の何れか一項に記載の音声信号処理装置。
  11.  前記音声信号に予め設定したフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
     前記逆位相音を第2の音声信号に重畳するフィルタ部とをさらに有し、
     前記逆位相音生成部は、予め設定された複数のフィルタを保持し、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、フィルタを切り換えて使用する、請求項1から7の何れか一項に記載の音声信号処理装置。
  12.  前記音声信号にフィルタを畳み込むことで、前記音声信号の逆位相音を生成する逆位相音生成部と、
     誤差信号に基づいて前記フィルタを更新するフィルタ更新部と、
     前記逆位相音を第2の音声信号に重畳するフィルタ部とをさらに有し、
     前記逆位相音生成部は、複数のフィルタを保持し、前記判定部により、前記第1のフレームの音声信号に含まれるノイズの種別が複数の人の声が合成されたノイズであると判定された場合とそれ以外の場合で、前記フィルタを切り換えて使用し、
     前記フィルタ更新部は、前記逆位相音生成部により使用されるフィルタを更新する、請求項1から7の何れか一項に記載の音声信号処理装置。
  13.  前記波形変化量が大きいほどゲインを大きく設定するゲイン算出部と、
     前記ゲインが大きいほど、前記音声信号と別個に入力された第2の音声信号を大きくするフィルタ処理を実行するフィルタ部と、
    をさらに有する請求項1に記載の音声信号処理装置。
  14.  音声信号をフレーム単位で時間周波数変換することにより、該音声信号の周波数スペクトルを算出し、
     第1のフレームの周波数スペクトルと、前記第1のフレームよりも前の第2のフレームの周波数スペクトルから、前記第1のフレームの周波数スペクトルと前記第2のフレーム間の周波数スペクトルの変化量を算出し、
     前記スペクトル変化量に応じて前記第1のフレームの音声信号に含まれるノイズの種別を判定する、
    ことを含む音声信号処理方法。
  15.  各フレームの前記周波数スペクトルから、前記周波数スペクトルの振幅の最大値あるいは平均値が所定値となるように正規化された正規化スペクトルを算出することをさらに含み、
     前記周波数スペクトルの変化量を算出することは、前記第1のフレームの正規化スペクトルと、前記第2のフレームの正規化スペクトルから、前記周波数スペクトルの変化量を算出する請求項14に記載の音声信号処理方法。
PCT/JP2009/061221 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法 WO2010146711A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2011519388A JP5293817B2 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法
PCT/JP2009/061221 WO2010146711A1 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法
EP09846204.7A EP2444966B1 (en) 2009-06-19 2009-06-19 Audio signal processing device and audio signal processing method
CN200980159921.XA CN102804260B (zh) 2009-06-19 2009-06-19 声音信号处理装置以及声音信号处理方法
US13/330,100 US8676571B2 (en) 2009-06-19 2011-12-19 Audio signal processing system and audio signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/061221 WO2010146711A1 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/330,100 Continuation US8676571B2 (en) 2009-06-19 2011-12-19 Audio signal processing system and audio signal processing method

Publications (1)

Publication Number Publication Date
WO2010146711A1 true WO2010146711A1 (ja) 2010-12-23

Family

ID=43356049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/061221 WO2010146711A1 (ja) 2009-06-19 2009-06-19 音声信号処理装置及び音声信号処理方法

Country Status (5)

Country Link
US (1) US8676571B2 (ja)
EP (1) EP2444966B1 (ja)
JP (1) JP5293817B2 (ja)
CN (1) CN102804260B (ja)
WO (1) WO2010146711A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016053019A1 (ko) * 2014-10-01 2016-04-07 삼성전자 주식회사 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
JP2017513046A (ja) * 2014-03-31 2017-05-25 グーグル インコーポレイテッド 状況に応じた過渡抑制
CN110427817A (zh) * 2019-06-25 2019-11-08 浙江大学 一种基于空泡图像定位与声纹理分析的水翼空化特征提取方法
CN113362838A (zh) * 2020-03-05 2021-09-07 纬创资通股份有限公司 信号处理系统及其信号降噪的判定方法与信号补偿方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
US10986399B2 (en) 2012-02-21 2021-04-20 Gracenote, Inc. Media content identification on mobile devices
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
JP2014123011A (ja) * 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム
KR101981487B1 (ko) * 2013-01-23 2019-05-24 에스케이텔레콤 주식회사 주파수대역별 역동범위처리장치 및 주파수대역별 역동범위처리장치의 동작 방법
US9530430B2 (en) * 2013-02-22 2016-12-27 Mitsubishi Electric Corporation Voice emphasis device
JP6284003B2 (ja) * 2013-03-27 2018-02-28 パナソニックIpマネジメント株式会社 音声強調装置及び方法
DE102014202609B4 (de) 2014-02-13 2020-06-04 tooz technologies GmbH Aminkatalysierte Thiolhärtung von Epoxidharzen
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
EP3072129B1 (en) * 2014-04-30 2018-06-13 Huawei Technologies Co., Ltd. Signal processing apparatus, method and computer program for dereverberating a number of input audio signals
CN105336344B (zh) 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
WO2017136018A1 (en) * 2016-02-05 2017-08-10 Nuance Communications, Inc. Babble noise suppression
JP6729186B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
WO2018133951A1 (en) * 2017-01-23 2018-07-26 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
CN106846803B (zh) * 2017-02-08 2023-06-23 广西交通科学研究院有限公司 基于音频的交通事件检测装置及方法
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
CN108391190B (zh) * 2018-01-30 2019-09-20 努比亚技术有限公司 一种降噪方法、耳机及计算机可读存储介质
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110970050B (zh) * 2019-12-20 2022-07-15 北京声智科技有限公司 语音降噪方法、装置、设备及介质
CN113035222B (zh) * 2021-02-26 2023-10-27 北京安声浩朗科技有限公司 语音降噪方法、装置、滤波器的确定方法、语音交互设备
JP2022156943A (ja) * 2021-03-31 2022-10-14 富士通株式会社 雑音判定プログラム、雑音判定方法及び雑音判定装置
CN117476026A (zh) * 2023-12-26 2024-01-30 芯瞳半导体技术(山东)有限公司 一种多路音频数据混音的方法、系统、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05291971A (ja) 1992-03-25 1993-11-05 Gs Syst Inc 信号処理装置
JPH0990974A (ja) 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2004354589A (ja) 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2005165021A (ja) 2003-12-03 2005-06-23 Fujitsu Ltd 雑音低減装置、および低減方法
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体
JP4054960B2 (ja) * 2001-12-25 2008-03-05 三菱瓦斯化学株式会社 ニトリル化合物の製造方法

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176698A (ja) * 1982-04-09 1983-10-17 株式会社日立製作所 パターンマッチング装置
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
JPH0454960A (ja) * 1990-06-26 1992-02-21 Osamu Shibayama サヤ付きズーム吸引チューブ
US5369701A (en) * 1992-10-28 1994-11-29 At&T Corp. Compact loudspeaker assembly
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
US5644596A (en) * 1994-02-01 1997-07-01 Qualcomm Incorporated Method and apparatus for frequency selective adaptive filtering
US8085959B2 (en) * 1994-07-08 2011-12-27 Brigham Young University Hearing compensation system incorporating signal processing techniques
US6885752B1 (en) * 1994-07-08 2005-04-26 Brigham Young University Hearing aid device incorporating signal processing techniques
GB2317084B (en) * 1995-04-28 2000-01-19 Northern Telecom Ltd Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
AU3352997A (en) * 1996-07-03 1998-02-02 British Telecommunications Public Limited Company Voice activity detector
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
GB9918611D0 (en) * 1999-08-07 1999-10-13 Sibelius Software Ltd Music database searching
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
CA2349041A1 (en) * 2001-05-28 2002-11-28 Alireza Karimi Ziarani System and method of extraction of sinusoids of time-varying characteristics
US6996241B2 (en) * 2001-06-22 2006-02-07 Trustees Of Dartmouth College Tuned feedforward LMS filter with feedback control
US7330500B2 (en) * 2001-12-07 2008-02-12 Socovar S.E.C. Adjustable electronic duplexer
WO2004009007A1 (en) * 2002-07-19 2004-01-29 The Penn State Research Foundation A linear independent method for noninvasive online secondary path modeling
US7242763B2 (en) * 2002-11-26 2007-07-10 Lucent Technologies Inc. Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems
JP4023806B2 (ja) * 2003-09-30 2007-12-19 株式会社東芝 コンテンツ再生システム及びコンテンツ再生プログラム
DE602005026376D1 (de) * 2004-03-08 2011-03-31 Kb Seiren Ltd Web- oder maschenware, membran für lautsprecher sowie lautsprecher
US8712768B2 (en) * 2004-05-25 2014-04-29 Nokia Corporation System and method for enhanced artificial bandwidth expansion
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
KR100640865B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 품질 향상 방법 및 장치
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
EP2064918B1 (en) * 2006-09-05 2014-11-05 GN Resound A/S A hearing aid with histogram based sound environment classification
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
WO2008111462A1 (ja) * 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8194882B2 (en) * 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
JP5291971B2 (ja) 2008-04-08 2013-09-18 花王株式会社 メソポーラスシリカ粒子の製造方法
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8380497B2 (en) * 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
WO2010091077A1 (en) * 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
JP5293329B2 (ja) * 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05291971A (ja) 1992-03-25 1993-11-05 Gs Syst Inc 信号処理装置
JPH0990974A (ja) 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP2000163099A (ja) * 1998-11-25 2000-06-16 Brother Ind Ltd 雑音除去装置、音声認識装置および記憶媒体
JP4054960B2 (ja) * 2001-12-25 2008-03-05 三菱瓦斯化学株式会社 ニトリル化合物の製造方法
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2004354589A (ja) 2003-05-28 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2005165021A (ja) 2003-12-03 2005-06-23 Fujitsu Ltd 雑音低減装置、および低減方法
JP2005292812A (ja) * 2004-03-09 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム、およびプログラムの記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAJIO ET AL.: "Human Speech Like Zatsuon ni Fukumareru Onseiteki Tokucho no Bunseki", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 53, no. 5, 1 May 1997 (1997-05-01), pages 337 - 345, XP008148173 *
See also references of EP2444966A4

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017513046A (ja) * 2014-03-31 2017-05-25 グーグル インコーポレイテッド 状況に応じた過渡抑制
WO2016053019A1 (ko) * 2014-10-01 2016-04-07 삼성전자 주식회사 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
US10366703B2 (en) 2014-10-01 2019-07-30 Samsung Electronics Co., Ltd. Method and apparatus for processing audio signal including shock noise
CN110427817A (zh) * 2019-06-25 2019-11-08 浙江大学 一种基于空泡图像定位与声纹理分析的水翼空化特征提取方法
CN110427817B (zh) * 2019-06-25 2021-09-07 浙江大学 一种基于空泡图像定位与声纹理分析的水翼空化特征提取方法
CN113362838A (zh) * 2020-03-05 2021-09-07 纬创资通股份有限公司 信号处理系统及其信号降噪的判定方法与信号补偿方法
CN113362838B (zh) * 2020-03-05 2023-10-24 纬创资通股份有限公司 信号处理系统及其信号降噪的判定方法与信号补偿方法

Also Published As

Publication number Publication date
US8676571B2 (en) 2014-03-18
JP5293817B2 (ja) 2013-09-18
EP2444966A1 (en) 2012-04-25
JPWO2010146711A1 (ja) 2012-11-29
CN102804260A (zh) 2012-11-28
EP2444966A4 (en) 2016-08-31
CN102804260B (zh) 2014-10-08
US20120095755A1 (en) 2012-04-19
EP2444966B1 (en) 2019-07-10

Similar Documents

Publication Publication Date Title
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
US8521530B1 (en) System and method for enhancing a monaural audio signal
KR101121489B1 (ko) 복수의 노이즈 억제 기술을 이용하는 노이즈 억제 회로 및 방법
JP4836720B2 (ja) ノイズサプレス装置
JP5562836B2 (ja) 移動体オーディオデバイスのための自動的な音量およびダイナミックレンジの調整
US9197181B2 (en) Loudness enhancement system and method
KR100860805B1 (ko) 음성 강화 시스템
JP5923994B2 (ja) 音声処理装置及び音声処理方法
JP4649546B2 (ja) 補聴器
JP4018571B2 (ja) 音声強調装置
US9124708B2 (en) Far-end sound quality indication for telephone devices
JP2014232331A (ja) アダプティブ・インテリジェント・ノイズ抑制システム及び方法
US11152015B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
JPWO2006046293A1 (ja) 雑音抑圧装置
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
JP2008309955A (ja) ノイズサプレス装置
KR101557779B1 (ko) 두 개의 마이크로폰을 포함하는 통신장치에서의 잡음제거방법 및 장치
WO2019220951A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP4838282B2 (ja) ハンズフリー通話装置及びハンズフリー通話方法
JP4479625B2 (ja) 騒音抑圧装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980159921.X

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09846204

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011519388

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2009846204

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE