WO2018211806A1 - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
WO2018211806A1
WO2018211806A1 PCT/JP2018/010328 JP2018010328W WO2018211806A1 WO 2018211806 A1 WO2018211806 A1 WO 2018211806A1 JP 2018010328 W JP2018010328 W JP 2018010328W WO 2018211806 A1 WO2018211806 A1 WO 2018211806A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
signal
output
input
input signal
Prior art date
Application number
PCT/JP2018/010328
Other languages
English (en)
French (fr)
Inventor
菊原靖仁
相川徹
実方友里
Original Assignee
株式会社オーディオテクニカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オーディオテクニカ filed Critical 株式会社オーディオテクニカ
Priority to CN201880032965.5A priority Critical patent/CN110663258B/zh
Priority to US16/614,628 priority patent/US10971169B2/en
Priority to EP18802763.5A priority patent/EP3627853A4/en
Priority to JP2019519088A priority patent/JP7004332B2/ja
Publication of WO2018211806A1 publication Critical patent/WO2018211806A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Definitions

  • the present invention relates to an audio signal processing device.
  • the conference system is used for a conference attended by a large number of people, such as a committee or a television.
  • the conference system smoothly advances the conference by processing audio signals from a plurality of microphones.
  • Some conference systems include an automatic voice recognition function that automatically detects the speech (voice) of a participant and controls switching between output and blocking of a signal from the microphone.
  • the automatic voice recognition function may erroneously detect noise such as the sound of tapping a desk with a pen or the sound of touching a document. In this case, the switching of the output / shut-off of the signal from the microphone that is not intended by the user is performed, and problems such as noise being emitted into the conference hall may occur.
  • the noise detection device disclosed in Patent Document 1 compares silence, low frequency (low frequency) noise, and high frequency (high frequency) noise by comparing the autocorrelation coefficient of each order with a threshold value. Noise can be detected individually.
  • the noise detection device disclosed in Patent Literature 1 can detect, for example, impulsive noise having a frequency spectrum of substantially the same level from low to high, such as a sound of hitting a desk with a pen. . As a result, the noise detection device disclosed in Patent Document 1 suppresses erroneous detection. However, the noise detection device disclosed in Patent Document 1 cannot detect complex noise that is a combination of impulsive noise such as a sound of rolled paper and high-frequency noise. For this reason, the noise detection device disclosed in Patent Document 1 may erroneously detect such complex noise as speech and emit the noise into the conference hall.
  • the noise detection device disclosed in Patent Document 1 detects a section including a lot of low-frequency band components and high-frequency band components in a voice section in which a voice is output. It may be judged. That is, the noise detection device disclosed in Patent Document 1 may block the signal from the microphone in the middle of the participant's utterance when noise is detected while outputting the audio signal.
  • An audio signal processing device includes an input unit that receives a signal from a microphone, an input signal determination unit that determines the presence or absence of an input signal from the input unit, and noise included in the input signal from the input unit.
  • An output switching unit that switches between a noise detection unit to detect, an output unit that outputs an input signal as an output signal, an output state in which an output signal is output from the output unit, and a non-output state in which no output signal is output from the output unit;
  • a control unit that controls switching of the output switching unit, and the switching control by the control unit is switched based on the determination result of the input signal determination unit and the detection result of the noise detection unit.
  • an audio signal processing device that accurately detects various noises including complex noise and that does not block the audio signal even if noise is detected during output of the audio signal.
  • Audio signal processing device ⁇ Audio signal processing device ⁇
  • audio signal processing apparatus According to the present invention, embodiments of an audio signal processing apparatus according to the present invention will be described with reference to the drawings.
  • FIG. 1 is a functional block diagram showing an embodiment of an audio signal processing device (hereinafter referred to as “this device”) according to the present invention.
  • the apparatus 1 performs processing such as mixing, distribution, and balance adjustment of an electric signal (input signal) from a device such as a microphone 2 that converts voice or musical sound into an electric signal.
  • the apparatus 1 is, for example, a mixer or a control unit of a conference system.
  • the apparatus 1 includes an input unit 10, an input signal determination unit 20, a noise detection unit 30, a delay unit 40, a switching unit 50, a control unit 60, a storage unit 70, and an output unit 80. Do it.
  • the input unit 10 is connected to the microphone 2 and receives the input signal s1 from the microphone 2, for example.
  • An input signal s1 from the microphone 2 is input to the input unit 10 and input from the input unit 10 to the delay unit 40 and the switching unit 50, and is subjected to processing described later by the input unit 10 to be an input signal determination unit. 20 and the noise detection unit 30.
  • the input unit 10 includes a receiving unit 11, a band pass filter 12, and a rectifier 13.
  • the receiving unit 11 receives the input signal s1 from the microphone 2 and inputs the input signal s1 to the bandpass filter 12, the delay unit 40, and the switching unit 50.
  • the band pass filter 12 removes a low frequency band (low frequency) signal and a high frequency band (high frequency) signal from the input signal s1. In other words, the band-pass filter 12 removes noise that appears in the low frequency and noise that appears in the high frequency from the input signal s1.
  • a signal hereinafter referred to as “filter signal”) s ⁇ b> 2 output from the bandpass filter 12 is input to the rectifier 13 and the noise detection unit 30.
  • the band-pass filter may be configured by combining a low-pass filter and a high-pass filter.
  • the rectifier 13 converts the filter signal s2 that is an AC signal into a DC signal.
  • the filter signal (hereinafter referred to as “DC signal”) s3 converted into a DC signal is input to the input signal determination unit 20.
  • the input signal discriminating unit 20 discriminates the presence / absence of the input signal s1 (audio signal) from the microphone 2.
  • the input signal determination unit 20 includes a first comparison unit 21.
  • the first comparison unit 21 compares the DC signal s3 and the first threshold value V1 to determine the presence or absence of the input signal s1.
  • the output of the first comparison unit 21, that is, the output from the input signal determination unit 20 (hereinafter referred to as “determination result”) r ⁇ b> 1 is input to the control unit 60.
  • the “first threshold value V1” is a threshold value used by the device 1 to determine the presence or absence of the input signal s1.
  • the first threshold value V1 is, for example, a variation value set based on a signal corresponding to the environmental sound collected by the microphone 2.
  • “Environmental sound” is, for example, air-conditioning sound at the installation location (conference room, auditorium, etc.) of the apparatus 1 and the microphone 2 and reverberation sound of the room where the apparatus 1 and the microphone 2 are installed.
  • the apparatus 1 uses the first threshold value V1 as a variable value, so that the environment in which the apparatus 1 is used (for example, whether the room in which the apparatus 1 is installed is air-conditioned, the size of the room, the gain of the microphone 2).
  • the presence or absence of the input signal s1 can be determined according to the value.
  • the first threshold value V1 is stored in the storage unit 70.
  • the first threshold value may be a fixed value that matches the environment in which the apparatus is used.
  • the noise detection unit 30 detects the noise included in the input signal s1 by detecting the characteristic caused by the noise included in the input signal s1 received from the microphone 2. That is, the noise detection unit 30 determines whether the input signal s1 is a signal due to noise (hereinafter referred to as “noise signal”) or a signal due to sound (hereinafter referred to as “audio signal”).
  • the output (hereinafter referred to as “detection result”) r ⁇ b> 2 of the noise detection unit 30 is input to the control unit 60.
  • “Noise” includes, for example, the sound of tapping a desk with a pen, the sound of turning a paper, the sound of sneezing, the sound of clapping a hand, the sound of rolling paper.
  • FIG. 2 is a functional block diagram of the noise detection unit 30.
  • the noise detection unit 30 includes a frequency component determination unit 31, a time change determination unit 32, and a logical sum operation unit 33.
  • FIG. 3 is a functional block diagram of the frequency component determination unit 31.
  • the frequency component determination unit 31 determines the presence or absence of noise based on the frequency component of the filter signal s2 (input signal s1). Usually, the power spectrum of the audio signal is larger in the mid-low frequency power than in the high frequency power. Also, the power spectrum of the audio signal tends to appear prominently in some frequency bands. On the other hand, the power spectrum of noise tends to appear in the entire frequency band.
  • the frequency component discriminating unit 31 divides the power spectrum of the filter signal s2 into a power spectrum of a middle / low frequency band (middle / low band) and a power spectrum of a middle / high frequency band (middle / high band). The frequency component determination unit 31 determines whether the filter signal s2 (input signal s1) is an audio signal or a noise signal by comparing the two power spectra.
  • the mid-low range is a frequency band including a frequency of about 100 Hz to 3 kHz, for example.
  • the mid-high range is a frequency band including a frequency of 3 kHz or more, for example.
  • mid-low range may overlap with the mid-high range in some frequency bands.
  • the frequency component determination unit 31 includes a low-pass filter 311, a first moving average unit 312, a high-pass filter 313, a second moving average unit 314, a relative comparison unit 315, and a second comparison unit 316.
  • the low-pass filter 311 extracts a medium / low frequency signal from the filter signal s2.
  • the first moving average unit 312 converts the mid-low frequency signal to a DC signal and generates a power spectrum of the signal (hereinafter referred to as “middle low frequency signal power spectrum”) by the moving average processing.
  • the high-pass filter 313 extracts a medium / high frequency signal from the filter signal s2.
  • the second moving average unit 314 converts the mid-high range signal into a DC signal and generates a power spectrum of the signal (hereinafter referred to as “middle / high range signal power spectrum”) by the moving average process.
  • the relative comparison unit 315 compares the mid-low frequency signal power spectrum generated by the first moving average unit 312 with the mid-high frequency signal power spectrum generated by the second moving average unit 314, and calculates the difference.
  • the relative comparison unit 315 inputs the calculated difference to the second comparison unit 316.
  • the second comparison unit 316 compares the difference from the relative comparison unit 315 with the second threshold value V2, and inputs a signal indicating the result to the OR operation unit 33.
  • the “second threshold V2” is a threshold used by the frequency component determination unit 31 to determine whether the filter signal s2 (input signal s1) is an audio signal or a noise signal.
  • the second threshold value V2 is stored in the storage unit 70 (see FIG. 1).
  • FIG. 4 is a functional block diagram of the time change determination unit 32.
  • the time change determining unit 32 determines the presence or absence of noise based on the time change of the filter signal s2 (input signal s1). Usually, the time-axis waveform of impulsive noise fluctuates immediately after the occurrence of noise and then attenuates at a predetermined time.
  • the time change determining unit 32 determines the presence or absence of noise based on the time change of the filter signal s2 (input signal s1). That is, the time change determination unit 32 counts the time change of a signal having a time axis waveform of impulsive noise, and determines whether the filter signal s2 (input signal s1) is an audio signal or a noise signal.
  • the time change determination unit 32 includes a third moving average unit 321, a third comparison unit 322, a time change counter unit 323, and a fourth comparison unit 324.
  • the third moving average unit 321 converts the filter signal s2 into a DC signal by moving average processing of the filter signal s2, and generates a power spectrum of the signal (hereinafter referred to as “input signal power spectrum”).
  • the third comparison unit 322 compares the input signal power spectrum generated by the third moving average unit 321 with the third threshold value V3 and outputs the result to the time change counter unit 323.
  • the “third threshold value V3” is a threshold value used by the time change determination unit 32 to determine whether the filter signal s2 (input signal s1) is an audio signal or a noise signal.
  • the third threshold value V3 is a variation value set based on a signal corresponding to the environmental sound collected by the microphone 2, for example.
  • the apparatus 1 can determine whether the filter signal s2 is an audio signal or a noise signal according to the environment in which the apparatus 1 is used by setting the third threshold value V3 as a variation value.
  • the third threshold value V3 is stored in the storage unit 70 (see FIG. 1).
  • the third threshold value may be a fixed value according to the environment in which the present apparatus is used, or may be calculated by adding a predetermined adjustment to a signal that is the basis of the first threshold value.
  • the time change counter unit 323 counts the time change (attenuation time) in the time axis waveform of the signal determined by the third comparison unit 322 to exceed the third threshold value V3, and the result is sent to the fourth comparison unit 324. Output.
  • the fourth comparison unit 324 compares the count value of the time change counter unit 323 with the fourth threshold value V4 and outputs a signal indicating the result to the logical sum operation unit 33.
  • the “fourth threshold V4” is a threshold used by the time change determination unit 32 to determine whether the filter signal s2 (input signal s1) is an audio signal or a noise signal.
  • the fourth threshold value V4 is stored in the storage unit 70 (see FIG. 1).
  • the logical sum calculation unit 33 calculates a logical sum of the output of the frequency component determination unit 31 (second comparison unit 316) and the output of the time change determination unit 32 (fourth comparison unit 324).
  • the logical sum operation unit 33 outputs the filter signal s2 (input signal s1) when any one of the output of the second comparison unit 316 and the output of the fourth comparison unit 324 is determined as noise. ) Is determined as a noise signal. That is, the OR operation unit 33 detects noise from the filter signal s2 (input signal s1) based on the determination result of the frequency component determination unit 31 and the determination result of the time change determination unit 32.
  • the delay unit 40 stores the input signal s1 from the input unit 10 for a predetermined time, and generates and outputs a delay signal s4 obtained by delaying the input signal s1 for a predetermined time.
  • the “predetermined time” is set to a time longer than the time (for example, the fourth threshold value V4) required for the process of the time change determination unit 32 (time change determination process (ST202) described later).
  • the present apparatus 1 generates a delayed signal s4 that is free from missing information (voice) compared to the input signal s1.
  • the delay unit 40 includes, for example, a ring buffer. The generation of the delay signal s4 of the delay unit 40 is always performed while the input signal s1 is input to the delay unit 40.
  • the delay signal s4 is input from the delay unit 40 to the switching unit 50.
  • the switching unit 50 switches the signal input from the switching unit 50 to the output unit 80 to one of the input signal s1 and the delay signal s4 in accordance with a control signal cs1 from the control unit 60 described later. The presence or absence of signal input to the output unit 80 is switched.
  • the switching unit 50 includes a signal switching unit 51 and an output switching unit 52.
  • the signal switching unit 51 switches a signal input from the switching unit 50 to the output unit 80 in accordance with a control signal cs1 from the control unit 60 described later.
  • the signal switching unit 51 includes two contacts P, that is, a contact P1 and a contact P2.
  • the contact P1 is connected to the delay unit 40.
  • the delay signal s4 from the delay unit 40 is input to the contact P1.
  • the contact P2 is connected to the receiving unit 11.
  • the input signal s1 from the receiving unit 11 is input to the contact P2. That is, the switching unit 50 inputs either the input signal s1 or the delay signal s4 to the output unit 80 by switching the contact point P (contact point P1, P2) of the signal switching unit 51.
  • the contact P of the signal switching unit 51 is the contact P2.
  • the output switching unit 52 switches presence / absence of signal input from the switching unit 50 to the output unit 80 in accordance with a control signal cs1 from the control unit 60 described later.
  • the output switching unit 52 is, for example, a gate circuit. That is, for example, the output switching unit 52 is in an output state in which a signal is output when a high voltage is applied to the gate (hereinafter referred to as “gate on”) and is in a non-output state in which the signal is interrupted when a low voltage is applied to the gate (hereinafter “ It is called “gate off”.
  • gate on an output state in which a signal is output when a high voltage is applied to the gate
  • It It is called “gate off”.
  • the switching unit 50 does not input a signal to the output unit 80 (mute on).
  • the switching unit 50 When the state of the output switching unit 52 is gate-on, the switching unit 50 inputs a signal to the output unit 80 (mute off). In other words, the output switching unit 52 has an output state in which an output signal is output from the output unit 80 and a non-output state in which an output signal is not output from the output unit 80 in accordance with the control signal cs1 from the control unit 60. Switch. The “output signal” will be described later.
  • the state of the output switching unit 52 When the device 1 is in the initial state, the state of the output switching unit 52 is gate-off. A signal (hereinafter referred to as “state signal”) gs1 indicating the state of the output switching unit 52 is input from the switching unit 50 to the control unit 60.
  • the control unit 60 Based on the determination result r1 from the input signal determination unit 20, the detection result r2 from the noise detection unit 30, and the status signal gs1 of the output switching unit 52 from the switching unit 50, the control unit 60 switches the switching unit 50.
  • the control signal cs1 for controlling the operation is generated. That is, the control unit 60 controls the output from the output unit 80 of either the input signal s1 or the delayed signal s4 based on the determination result r1, the detection result r2, and the state signal gs1.
  • the control unit 60 includes an AND operation unit 61 and a counter unit 62.
  • control signal cs1 is, for example, a signal for switching the contact P1 and the contact P2 of the signal switching unit 51 or a signal for switching the gate on and gate off of the output switching unit 52.
  • the control signal cs1 is input from the control unit 60 to the switching unit 50.
  • the logical product operation unit 61 performs switching of the switching unit 50 by the control unit 60 described later based on the logical product of a signal (hereinafter referred to as “detection result signal”) r2s indicating the detection result r2 and the state signal gs1. Control (first control, second control) is selected. The operation of the AND operation unit 61 will be described later.
  • the counter unit 62 counts the silent time.
  • the storage unit 70 is means for storing information necessary for the apparatus 1 to perform signal processing described later.
  • the storage unit 70 includes a first threshold value V1, a second threshold value V2 (see FIG. 3), a third threshold value V3 (see FIG. 4), a fourth threshold value V4 (see FIG. 4), and a fifth threshold value V5 described later. (See FIG. 11).
  • the output unit 80 outputs either the input signal s1 from the switching unit 50 or the delayed signal s4 from the switching unit 50 as an output signal, for example, to a speaker or a communication line connected to the apparatus 1. To do.
  • FIG. 5 is a flowchart showing signal processing of the apparatus 1.
  • the input signal s1 input to the receiving unit 11 of the input unit 10 is input to the delay unit 40 and the switching unit 50, and noise is detected as a filter signal s2 via the bandpass filter 12.
  • the apparatus 1 executes an input signal determination process (ST1), a noise detection process (ST2), and a switching process (ST3) for each input signal s1 input to the input unit 10.
  • the switching process (ST3) is executed after the input signal discrimination process (ST1) and the noise detection process (ST2).
  • the input signal discrimination process and the noise detection process are not limited to being executed simultaneously, and either one of the processes may be executed first.
  • the input signal discriminating process (ST1) is a process for discriminating whether or not the input signal s1 (DC signal s3) from the microphone 2 is present.
  • FIG. 6 is a flowchart showing the input signal discrimination process (ST1).
  • the apparatus 1 uses the input signal determination unit 20 to determine the presence or absence of the input signal s1 (DC signal s3).
  • the DC signal s3 from the input unit 10 is input to the first comparison unit 21 of the input signal determination unit 20.
  • the apparatus 1 uses the first comparison unit 21 to compare the DC signal s3 with the first threshold value V1 (ST101). When the DC signal s3 is equal to or higher than the first threshold value V1 (“Yes” in ST101), the apparatus 1 determines that the input signal s1 is present (sound) (ST102).
  • the apparatus 1 determines that there is no input signal s1 (silence) (ST103).
  • the determination result r1 is input from the input signal determination unit 20 to the control unit 60 (ST104).
  • the first threshold value V1 is a fluctuation value set based on a signal corresponding to the environmental sound collected by the microphone 2. That is, for example, when the sound collected by the microphone 2 is an environmental sound, the device 1 determines that there is no input signal s1 (silence). On the other hand, for example, when the sound collected by the microphone 2 is voice or noise, the apparatus 1 determines that the input signal s1 is present (sound).
  • the device 1 treats a sound (sound, noise) that is equal to or higher than the first threshold V1 set based on the environmental sound as the input signal s1, and inputs a sound (sound, noise) smaller than the first threshold V1. It is not handled as signal s1. That is, the device 1 does not handle sound (sound, noise) equivalent to environmental sound as the input signal s1 in the present invention.
  • the noise detection process (ST2) is a process for detecting noise included in the filter signal s2 (input signal s1). That is, the noise detection process (ST2) is a process for determining whether the filter signal s2 is an audio signal or a noise signal.
  • FIG. 7 is a flowchart showing the noise detection process (ST2). While the filter signal s ⁇ b> 2 is input from the input unit 10, the apparatus 1 performs a frequency component determination process (ST201) and a time change determination process (ST202).
  • FIG. 8 is a flowchart showing the frequency component discrimination process (ST201).
  • the frequency component comparison process (ST201) is a process for detecting noise having the same level of power spectrum from low to high.
  • the apparatus 1 uses the frequency component determination unit 31 to execute frequency component determination processing (ST201).
  • the apparatus 1 uses the low-pass filter 311 to extract a medium-low frequency signal from the filter signal s2 (ST211).
  • the apparatus 1 uses the first moving average unit 312 to convert the mid-low frequency signal into a DC signal, and generates a mid-low frequency signal power spectrum from the signal (ST212).
  • the present apparatus 1 uses the high-pass filter 313 to extract a medium-high frequency signal from the filter signal s2 (ST213).
  • the apparatus 1 uses the second moving average unit 314 to convert the mid-high frequency signal into a DC signal, and generates a mid-high frequency signal power spectrum from the signal (ST214).
  • the present apparatus 1 uses the relative comparison unit 315 to compare the mid-low band signal power spectrum and the mid-high band signal power spectrum and calculate the difference (ST215).
  • the difference is calculated, for example, by subtracting the mid-high range signal power spectrum from the mid-low range signal power spectrum.
  • the apparatus 1 uses the second comparison unit 316 to compare the difference calculated by the relative comparison unit 315 with the second threshold value V2 (ST216).
  • the apparatus 1 determines that the input signal s1 is a noise signal (ST217).
  • the apparatus 1 determines that the input signal s1 is an audio signal (ST218).
  • the apparatus 1 inputs the discrimination result of the frequency component discrimination unit 31 to the logical sum operation unit 33 (ST219).
  • FIG. 9 is a flowchart of the time change determination process (ST202).
  • the time change determination process (ST202) is a process for detecting noise having an impulsive power spectrum.
  • the apparatus 1 uses the time change determination unit 32 to execute a time change determination process (ST202).
  • the apparatus 1 uses the third moving average unit 321 to convert the filter signal s2 into a DC signal, and generates an input signal power spectrum from the signal (ST221).
  • the present apparatus 1 uses the third comparison unit 322 to compare the input signal power spectrum and the third threshold value V3 (ST222).
  • the apparatus 1 uses the time change counter unit 323 to change the time in the time axis waveform of the signal exceeding the third threshold V3. Count (ST223).
  • the present apparatus 1 determines that the input signal s1 is an audio signal (ST226).
  • the present apparatus 1 uses the fourth comparison unit 324 to compare the count value of the time change counter unit 323 with the fourth threshold value V4 (ST224).
  • the present apparatus 1 determines that the input signal s1 is a noise signal (ST225).
  • the apparatus 1 determines that the input signal s1 is an audio signal (ST226).
  • the apparatus 1 inputs the determination result of the time change determination unit 32 to the logical sum operation unit 33 (ST227).
  • the apparatus 1 uses the OR operation unit 33 to calculate the logical sum of the determination result of the frequency component determination process (ST201) and the determination result of the time change determination process (ST202) (ST203). Based on the logical sum, it is determined whether the filter signal s2 (input signal s1) is a noise signal or an audio signal (ST204).
  • this apparatus 1 determines that the input signal s1 is a noise signal (ST205). That is, the noise detection unit 30 detects noise based on the logical sum of the determination result of the frequency component determination unit 31 and the determination result of the time change determination unit 32.
  • the discrimination result of the frequency component discrimination process (ST201) and the discrimination result of the time change discrimination process (ST202) are discrimination results ("No" in ST204)
  • this Apparatus 1 determines that input signal s1 is an audio signal (ST206).
  • the present apparatus 1 inputs the detection result r2 of the noise detection unit 30 to the control unit 60 (ST207).
  • a control signal cs1 is generated from the determination result r1 from the input signal determination unit 20 and the detection result r2 from the noise detection unit 30, and the output switching between the signal switching unit 51 of the switching unit 50 and the output switching is performed. This is a process of switching to the unit 52.
  • FIG. 10 is a flowchart showing a part of the switching process (ST3).
  • the apparatus 1 uses the control unit 60 to check whether the state of the output switching unit 52 is gate-on (output state) or gate-off (non-output state) (ST301).
  • the state signal gs1 of the output switching unit 52 is input from the switching unit 50 to the logical product operation unit 61 of the control unit 60.
  • the present apparatus 1 checks the presence / absence of the input signal s1 from the determination result r1 of the input signal determination unit 20 (ST302).
  • the present apparatus 1 confirms whether the input signal s1 is an audio signal or a noise signal from the detection result r2 of the noise detector 30 (ST303). At this time, the detection result signal r ⁇ b> 2 s of the noise detection unit 30 is input to the logical product calculation unit 61.
  • the apparatus 1 uses the control unit 60 to switch the contact P of the signal switching unit 51 to the contact P1 and to switch the output switching unit 52 to gate-on.
  • a signal cs1 is generated (ST304).
  • the apparatus 1 inputs the control signal cs1 from the control unit 60 to the switching unit 50, and executes a process (ST308) described later.
  • the contact P of the signal switching unit 51 becomes the contact P1
  • the output switching unit 52 is turned on (mute off). That is, the delay signal s 4 is input from the switching unit 50 to the output unit 80. That is, the device 1 outputs the delay signal s4 as an output signal.
  • the apparatus 1 uses the control unit 60 to switch the signal switching unit
  • the control signal cs1 for maintaining the contact P of 51 at the contact P2 and maintaining the output switching unit 52 in the gate-off state is generated (ST305).
  • the apparatus 1 inputs the control signal cs1 from the control unit 60 to the switching unit 50, and returns to the process (ST301).
  • the contact P of the signal switching unit 51 becomes the contact P2, and the output switching unit 52 is turned off (mute on). That is, no signal (input signal s1 or delayed signal s4) is input from the switching unit 50 to the output unit 80. That is, the device 1 does not output an output signal.
  • the present apparatus 1 checks the presence / absence of the input signal s1 from the determination result of the input signal determination unit 20 (ST306).
  • the apparatus 1 uses the control unit 60 to maintain the contact point P of the signal switching unit 51 at the contact point P2 and to switch the output switching unit 52.
  • a control signal cs1 for turning off the gate is generated (ST307).
  • the apparatus 1 inputs the control signal cs1 from the control unit 60 to the switching unit 50, and returns to the process (ST301).
  • FIG. 11 is a flowchart showing another part of the switching process (ST3). This figure shows the process when the state of the output switching unit 52 is gate-on and the input signal s1 is present in the switching process (ST3).
  • the device 1 detects a short silence period such as a prompt sound or breathing included in the input signal s1.
  • the silence time is detected by, for example, detecting a rising edge of a signal indicating silence.
  • a signal indicating silence is generated by the input signal determination unit 20 and is input to the control unit 60 together with the determination result r1.
  • the apparatus 1 uses the control unit 60 to detect a rising edge of a signal indicating silence from the input signal determination unit 20 (ST308).
  • the present apparatus 1 starts counting silence time using the counter unit 62 of the control unit 60 (ST309).
  • the silent time count is continued until the control unit 60 detects a falling edge of a signal indicating silence from the input signal determining unit 20 (“NO” in ST310).
  • the apparatus 1 checks whether the silence time is equal to or greater than a predetermined fifth threshold value V5 (ST311).
  • the “fifth threshold value V5” is a threshold value for classifying whether a short period of silence is a breath connection or a prompt sound. That is, when the silence time is equal to or greater than the fifth threshold value V5, the short silence is silence caused by breathing. On the other hand, when the silence time is smaller than the fifth threshold value V5, the short silence is silence caused by the prompt sound.
  • the fifth threshold value V5 is set to a value larger than the fourth threshold value V4 in the time change determination process (ST202).
  • the apparatus 1 When the silent time is equal to or greater than the fifth threshold value V5 ("Yes" in ST311), the apparatus 1 generates the control signal cs1 that switches the contact P of the signal switching unit 51 to the contact P2 and maintains the output switching unit 52 in the gate-on state. (ST312). Next, the apparatus 1 clears the count of the counter unit 62, ends the count of the counter unit 62 (ST313), and returns to the processing (ST301).
  • the present apparatus 1 clears the count of the counter unit 62 (ST314), and returns to the processing (ST308).
  • the apparatus 1 inputs the real-time input signal s1 to the output unit 80 when the silence time such as breathing is detected, and inputs the delay signal s4 to the output unit 80 when the silence time is not detected.
  • the signal switching unit 51 outputs the input signal s1 from the input unit 10 if the silence time is equal to or greater than the fifth threshold value V5. Input to the unit 80. That is, the signal switching unit 51 outputs either the delay signal s4 or the input signal s1 to the output unit 80 based on the determination result r1 of the input signal determination unit 20.
  • Control of switching of output switching unit by control unit is performed by determination result r1 of input signal determination unit 20 and detection result of noise detection unit 30. a first control that controls switching based on r2 (see ST301 to ST305), and a second control that controls switching based on the determination result r1 of the input signal determination unit 20 (see ST301, ST306, and ST307) ,including.
  • the device 1 selects the first control. Only when the state of the output switching unit 52 is gate-off and the detection result r2 of the noise detection unit 30 is an audio signal, the device 1 switches the state of the output switching unit 52 to gate-on. When the state of the output switching unit 52 is gate-on, the device 1 selects the second control. As described above, when the state of the output switching unit 52 is gate-off, the apparatus 1 determines whether the output switching unit 52 is based on the logical product of the state of the output switching unit 52 and the detection result r2 of the noise detection unit 30. The state is switched to gate on and the second control is selected.
  • the apparatus 1 uses the logical product operation unit 61 to select either the first control or the second control.
  • the detection result signal r2s and the state signal gs1 are input to the AND operation unit 61.
  • the AND operation unit 61 selects either the first control or the second control based on the logical product of the detection result signal r2s and the state signal gs1 when the state of the output switching unit 52 is gate-off.
  • the AND operation unit 61 selects the second control when the state of the output switching unit 52 is gate-on. That is, the first control and the second control are selected by the device 1 based on the state of the output switching unit 52.
  • the present apparatus 1 selects the first control when the state of the output switching unit 52 is gate-off (non-output state), and controls the switching of the output switching unit 52 based on the first control.
  • the device 1 selects the second control and controls the switching of the output switching unit 52 based on the second control.
  • the device 1 does not block (gate off) the output of the input signal s1 (or delayed signal s4) from the microphone 2 even if the microphone 2 picks up noise while the user of the microphone 2 speaks. .
  • the switching control of the output switching unit 52 by the control unit 60 includes the first control and the second control, and the first control is such that the state of the output switching unit 52 is gate-off.
  • the present apparatus 1 maintains the state of the output switching unit 52 in the gate-off state when detecting noise. That is, the present apparatus 1 erroneously detects noise as voice and does not control switching of the output of the signal from the microphone 2. That is, in the initial state, the audio signal processing device according to the present invention outputs the delay signal s4 when the audio signal is input (mute off), and does not output the signal when the noise signal is input (mute on).
  • the second control is selected when the state of the output switching unit 52 is gate-on.
  • the present apparatus 1 maintains the state of the output switching unit 52 in the gate-on state even if noise is detected. That is, in the state in which the user of the microphone 2 is speaking (hereinafter referred to as “speech state”), the apparatus 1 is configured to receive an input signal s1 (from the microphone 2) even if the microphone 2 collects noise. Alternatively, the delay signal s4) is output. That is, the apparatus 1 does not cut off the output of the audio signal even if noise is detected during the output of the audio signal.
  • the control unit 60 includes the logical product operation unit 61.
  • the apparatus 1 calculates a logical product of the detection result signal r2s and the state signal gs1 using the logical product calculation unit 61, and selects either the first control or the second control based on the logical product. To do.
  • the present apparatus 1 switches the state of the output switching unit 52 to gate-on and performs the second control. Select.
  • the apparatus 1 in the initial state, the apparatus 1 outputs an audio signal (delayed signal s4) when the audio signal is input (mute off), and does not output the signal when the noise signal is input (mute on).
  • the device 1 in the speech state, the device 1 outputs either the input signal s1 or the delayed signal s4 even if noise is detected. That is, the apparatus 1 does not cut off the output of the audio signal even if noise is detected during the output of the audio signal.
  • the input signal determination unit 20 compares the signal corresponding to the environmental sound (first threshold value V1) and the input signal s1 (DC signal s3) from the input unit 10. Based on the result, the presence or absence of the input signal s1 from the input unit 10 is determined. For this reason, the present apparatus 1 determines the input signal s1 in accordance with the environment in which the present apparatus 1 is installed (for example, the presence or absence of air conditioning in the room in which the apparatus is installed, the size of the room, the gain value of the microphone 2, etc.). The presence or absence can be determined.
  • the noise detection unit 30 includes the frequency component determination unit 31 and the time change determination unit 32, and detects noise based on these determination results. Therefore, the present apparatus 1 can accurately detect complex noises having various shapes of waveforms.
  • the present apparatus 1 outputs a delay signal s4 at the beginning of an utterance, and outputs a real-time input signal s1 when a short silence time such as breathing is detected. That is, the present apparatus 1 prevents so-called head missing of an audio signal generated by the processing of the noise detection unit 30 or the like.
  • the switching unit 50 includes the output switching unit 52.
  • the output unit may include an output switching unit.
  • a control signal for switching between gate-on and gate-off is input from the control unit to the output unit.
  • control unit is not limited to the configuration of the present embodiment. That is, for example, the control unit may include a control circuit that controls the signal switching unit and a control circuit that controls the output switching unit.
  • the present apparatus may include a plurality of input units. That is, for example, this apparatus may include six input units (6ch) and process input signals from six microphones.
  • the present apparatus may detect a short silence period based on the interval between successive input signals. That is, for example, the present apparatus may count the silence time by detecting the falling edge of a certain input signal and terminate the silence time counting by detecting the rising edge of the next input signal.
  • the signal switching unit inputs the input signal from the input unit to the output unit when the silence time is equal to or greater than the fifth threshold, If the time is smaller than the fifth threshold, the delay signal from the delay unit is input to the output unit.

Abstract

種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供する。 本発明にかかる音声信号処理装置は、入力部10と、入力部からの入力信号の有無を判別する入力信号判別部20と、入力部からの入力信号に含まれるノイズを検出するノイズ検出部30と、入力信号を出力信号として出力する出力部80と、出力部から出力信号を出力させる出力状態と、出力部から出力信号を出力しない非出力状態と、を切り替える出力切替部52と、出力切替部の切替を制御する制御部60と、を有してなり、制御部による切替の制御は、入力信号判別部の判別結果r1と、ノイズ検出部の検出結果r2と、に基づいて、切替を制御する第1制御と、入力信号判別部の判別結果に基づいて、切替を制御する第2制御と、を含み、第1制御と第2制御とは、出力切替部の状態に基づいて、選択される、ことを特徴とする。

Description

音声信号処理装置
 本発明は、音声信号処理装置に関する。
 会議システムは、例えば、議会やテレビなど、多人数が出席する会議などに用いられる。会議システムは、複数のマイクロホンからの音声信号を処理することにより、会議を円滑に進行させる。一部の会議システムは、参加者の発話(音声)を自動的に検出してマイクロホンからの信号の出力・遮断の切替を制御する音声自動認識機能を備える。
 音声自動認識機能は、机をペンで叩く音や、書類を触る音などのノイズを音声として誤検出する場合がある。この場合、使用者の意図しないマイクロホンからの信号の出力・遮断の切替の制御が行われ、ノイズを会議場内に放音するなどの不具合が生じ得る。
 これまでにも、音声自動認識機能において音声以外のノイズを音声として誤検出させないためのノイズ検出装置が提案されている(例えば、特許文献1参照)。
 特許文献1に開示されたノイズ検出装置は、各次数の自己相関係数と閾値とを比較することで、無音と、低周波数領域(低域)の雑音と、高周波数領域(高域)の雑音と、をそれぞれ個別に検出可能である。
特開平6-83391号公報
 特許文献1に開示されたノイズ検出装置は、例えば、机をペンで叩く音などのような低域から高域までに亘り略同レベルの周波数スペクトルを有するインパルス性のノイズを検出することができる。その結果、特許文献1に開示されたノイズ検出装置は、誤検出を抑制する。しかし、特許文献1に開示されたノイズ検出装置は、例えば、紙を丸めた音などのようなインパルス性のノイズと高域のノイズとを合わせた複合的なノイズを検出することができない。そのため、特許文献1に開示されたノイズ検出装置は、このような複合的なノイズを音声として誤検出し、同ノイズを会議場内に放音する場合がある。
 また、特許文献1に開示されたノイズ検出装置は、音声を出力している音声区間において低周波数帯域成分や高周波数帯域成分を多く含む区間を検出すると、音声区間の途中の区間を雑音区間と判定する場合がある。すなわち、特許文献1に開示されたノイズ検出装置は、音声信号を出力中にノイズを検出したとき、参加者の発話の途中でマイクロホンからの信号を遮断する可能性がある。
 本発明は、以上のような従来技術の問題点を解消するためになされたもので、複合的なノイズを含む種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供することを目的とする。
 本発明にかかる音声信号処理装置は、マイクロホンからの信号が入力される入力部と、入力部からの入力信号の有無を判別する入力信号判別部と、入力部からの入力信号に含まれるノイズを検出するノイズ検出部と、入力信号を出力信号として出力する出力部と、出力部から出力信号を出力させる出力状態と、出力部から出力信号を出力しない非出力状態と、を切り替える出力切替部と、出力切替部の切替を制御する制御部と、を有してなり、制御部による切替の制御は、入力信号判別部の判別結果と、ノイズ検出部の検出結果と、に基づいて、切替を制御する第1制御と、入力信号判別部の判別結果に基づいて、切替を制御する第2制御と、を含み、第1制御と第2制御とは、出力切替部の状態に基づいて、選択される、ことを特徴とする。
 本発明によれば、複合的なノイズを含む種々のノイズを精度よく検出すると共に、音声信号の出力中にノイズを検出しても音声信号を遮断しない音声信号処理装置を提供することができる。
本発明にかかる音声信号処理装置の実施の形態を示す機能ブロック図である。 図1の音声信号処理装置が備えるノイズ検出部の機能ブロック図である。 図3のノイズ検出部が備える周波数成分判別部の機能ブロック図である。 図3のノイズ検出部が備える時間変化判別部の機能ブロック図である。 図1の音声信号処理装置の信号処理を示すフローチャートである。 図5の信号処理のうち、入力信号判別処理を示すフローチャートである。 図5の信号処理のうち、ノイズ検出処理を示すフローチャートである。 図7のノイズ検出処理のうち、周波数成分判別処理を示すフローチャートである。 図7のノイズ検出処理のうち、時間変化判別処理を示すフローチャートである。 図5の信号処理のうち、切替処理の一部の処理を示すフローチャートである。 図5の信号処理のうち、切替処理の別の一部の処理を示すフローチャートである。
●音声信号処理装置●
 以下、図面を参照しながら、本発明にかかる音声信号処理装置の実施の形態について説明する。
●音声信号処理装置の構成
 図1は、本発明にかかる音声信号処理装置(以下「本装置」という。)の実施の形態を示す機能ブロック図である。
 本装置1は、音声や楽音を電気信号に変換するマイクロホン2などの機器からの電気信号(入力信号)の混合、分配、バランス調整などの処理を行う。本装置1は、例えば、ミキサや会議システムのコントロールユニットなどである。
 本装置1は、入力部10と、入力信号判別部20と、ノイズ検出部30と、遅延部40と、切替部50と、制御部60と、記憶部70と、出力部80と、を有してなる。
 入力部10は、例えば、マイクロホン2と接続されて、マイクロホン2からの入力信号s1を受信する。マイクロホン2からの入力信号s1は、入力部10に入力されて、入力部10から遅延部40と切替部50とに入力されると共に、入力部10により後述する処理を施されて入力信号判別部20とノイズ検出部30とに入力される。入力部10は、受信部11と、バンドパスフィルタ12と、整流器13と、を備える。
 受信部11は、マイクロホン2からの入力信号s1を受信して、同入力信号s1をバンドパスフィルタ12と、遅延部40と、切替部50と、に入力する。
 バンドパスフィルタ12は、入力信号s1から低周波数帯域(低域)の信号と高周波数帯域(高域)の信号とを除去する。換言すれば、バンドパスフィルタ12は、入力信号s1から低域に特徴が現れるノイズと、高域に特徴が現れるノイズと、を除去する。バンドパスフィルタ12から出力される信号(以下「フィルタ信号」という。)s2は、整流器13とノイズ検出部30とに入力される。
 なお、バンドパスフィルタは、ローパスフィルタとハイパスフィルタとを組み合わせて構成されてもよい。
 整流器13は、交流信号であるフィルタ信号s2を直流信号に変換する。直流信号に変換されたフィルタ信号(以下「DC信号」という。)s3は、入力信号判別部20に入力される。
 入力信号判別部20は、マイクロホン2からの入力信号s1(音声信号)の有無を判別する。入力信号判別部20は、第1比較部21を備える。第1比較部21は、例えば、DC信号s3と、第1閾値V1と、を比較して、入力信号s1の有無を判別する。第1比較部21の出力、すなわち、入力信号判別部20からの出力(以下「判別結果」という。)r1は、制御部60に入力される。
 「第1閾値V1」は、本装置1が入力信号s1の有無を判別するために用いる閾値である。第1閾値V1は、例えば、マイクロホン2が収音した環境音に対応する信号に基づいて設定される変動値である。「環境音」は、例えば、本装置1やマイクロホン2の設置場所(会議室や講堂など)の空調の音や、本装置1やマイクロホン2が設置された部屋の反響音、などである。本装置1は、第1閾値V1を変動値とすることにより、本装置1を使用する環境(例えば、本装置1が設置された部屋の空調の有無や同部屋の大きさ、マイクロホン2のゲイン値、など)に応じて入力信号s1の有無を判別することが可能となる。第1閾値V1は、記憶部70に記憶されている。
 なお、第1閾値は、本装置を使用する環境に合わせた固定値でもよい。
 ノイズ検出部30は、マイクロホン2から受信した入力信号s1に含まれるノイズ起因の特徴を検出することにより、入力信号s1に含まれるノイズを検出する。すなわち、ノイズ検出部30は、入力信号s1がノイズ起因の信号(以下「ノイズ信号」という。)か、音声起因の信号(以下「音声信号」という。)か、を判定する。ノイズ検出部30の出力(以下「検出結果」という。)r2は、制御部60に入力される。「ノイズ」は、例えば、机をペンで叩く音、紙をめくる音、くしゃみの音、手を叩く音、紙を丸める音などである。
 図2は、ノイズ検出部30の機能ブロック図である。
 ノイズ検出部30は、周波数成分判別部31と、時間変化判別部32と、論理和演算部33と、を備える。
 図3は、周波数成分判別部31の機能ブロック図である。
 周波数成分判別部31は、フィルタ信号s2(入力信号s1)の周波数成分に基づいてノイズの有無を判別する。通常、音声信号のパワースペクトルは、高域のパワーよりも中低域のパワーの方が大きい。また、音声信号のパワースペクトルは、一部の周波数帯域に突出して現れる傾向にある。一方、ノイズのパワースペクトルは、全周波数帯域に現れる傾向にある。周波数成分判別部31は、フィルタ信号s2のパワースペクトルを、中低周波数帯域(中低域)のパワースペクトルと、中高周波数帯域(中高域)のパワースペクトルと、に分割する。周波数成分判別部31は、2つのパワースペクトルを比較することで、フィルタ信号s2(入力信号s1)が音声信号かノイズ信号かを判別する。
 ここで、中低域は、例えば、100Hz-3kHz程度の周波数を含む周波数帯域である。中高域は、例えば、3kHz以上の周波数を含む周波数帯域である。
 なお、中低域は、中高域と一部の周波数帯域において重複してもよい。
 周波数成分判別部31は、ローパスフィルタ311と、第1移動平均部312と、ハイパスフィルタ313と、第2移動平均部314と、相対比較部315と、第2比較部316と、を備える。
 ローパスフィルタ311は、フィルタ信号s2から中低域の信号を取り出す。
 第1移動平均部312は、ローパスフィルタ311を通過した中低域の信号の所定サンプル数n(例えば、n=10)の移動平均処理を行う。第1移動平均部312は、この移動平均処理により、中低域の信号を直流信号に変換すると共に、同信号のパワースペクトル(以下「中低域信号パワースペクトル」という。)を生成する。
 ハイパスフィルタ313は、フィルタ信号s2から中高域の信号を取り出す。
 第2移動平均部314は、ハイパスフィルタ313を通過した中高域の信号の所定サンプル数n(例えば、n=10)の移動平均処理を行う。第2移動平均部314は、この移動平均処理により、中高域の信号を直流信号に変換すると共に、同信号のパワースペクトル(以下「中高域信号パワースペクトル」という。)を生成する。
 相対比較部315は、第1移動平均部312が生成した中低域信号パワースペクトルと、第2移動平均部314が生成した中高域信号パワースペクトルと、を比較して、その差分を算出する。相対比較部315は、算出された差分を第2比較部316に入力する。
 第2比較部316は、相対比較部315からの差分と、第2閾値V2と、を比較して、その結果を示す信号を論理和演算部33に入力する。「第2閾値V2」は、周波数成分判別部31が、フィルタ信号s2(入力信号s1)が音声信号かノイズ信号かを判別するために用いる閾値である。第2閾値V2は、記憶部70(図1参照)に記憶されている。
 図4は、時間変化判別部32の機能ブロック図である。
 時間変化判別部32は、フィルタ信号s2(入力信号s1)の時間変化に基づいてノイズの有無を判別する。通常、インパルス性のノイズの時間軸波形は、ノイズの発生直後に急峻に変動した後、所定の時間で減衰する。時間変化判別部32は、フィルタ信号s2(入力信号s1)の時間変化に基づいてノイズの有無を判別する。すなわち、時間変化判別部32は、インパルス性のノイズの時間軸波形を持つ信号の時間変化をカウントして、フィルタ信号s2(入力信号s1)が音声信号かノイズ信号かを判別する。
 時間変化判別部32は、第3移動平均部321と、第3比較部322と、時間変化カウンタ部323と、第4比較部324と、を備える。
 第3移動平均部321は、フィルタ信号s2の所定サンプル数n(例えば、n=10)の移動平均処理を行う。第3移動平均部321は、フィルタ信号s2の移動平均処理により、フィルタ信号s2を直流信号に変換すると共に、同信号のパワースペクトル(以下「入力信号パワースペクトル」という。)を生成する。
 第3比較部322は、第3移動平均部321が生成した入力信号パワースペクトルと、第3閾値V3と、を比較して、その結果を時間変化カウンタ部323に出力する。
 「第3閾値V3」は、時間変化判別部32が、フィルタ信号s2(入力信号s1)が音声信号かノイズ信号かを判別するために用いる閾値である。第3閾値V3は、例えば、マイクロホン2が収音した環境音に対応する信号に基づいて設定される変動値である。本装置1は、第3閾値V3を変動値とすることにより、本装置1を使用する環境に応じてフィルタ信号s2が音声信号かノイズ信号かを判別することが可能となる。第3閾値V3は、記憶部70(図1参照)に記憶されている。
 なお、第3閾値は、本装置を使用する環境に合わせた固定値でもよく、あるいは、第1閾値の基となる信号に所定の調整を加えて算出されてもよい。
 時間変化カウンタ部323は、第3比較部322により第3閾値V3を超えたと判断された信号の時間軸波形における時間変化(減衰する時間)をカウントして、その結果を第4比較部324に出力する。
 第4比較部324は、時間変化カウンタ部323のカウント値と、第4閾値V4と、を比較して、その結果を示す信号を論理和演算部33に出力する。「第4閾値V4」は、時間変化判別部32が、フィルタ信号s2(入力信号s1)が音声信号かノイズ信号かを判別するために用いる閾値である。第4閾値V4は、記憶部70(図1参照)に記憶される。
 図2に戻る。
 論理和演算部33は、周波数成分判別部31(第2比較部316)の出力と、時間変化判別部32(第4比較部324)の出力と、の論理和を演算する。論理和演算部33は、第2比較部316の出力と第4比較部324の出力とのうち、いずれか1つの出力がノイズと判別された出力である場合に、フィルタ信号s2(入力信号s1)をノイズ信号と判定する。すなわち、論理和演算部33は、周波数成分判別部31の判別結果と、時間変化判別部32の判別結果と、に基づいて、フィルタ信号s2(入力信号s1)からノイズを検出する。
 図1に戻る。
 遅延部40は、入力部10からの入力信号s1を所定時間記憶して、入力信号s1を所定時間遅延させた遅延信号s4を生成して出力する。「所定時間」は、時間変化判別部32の処理(後述する時間変化判別処理(ST202))に要する時間(例えば、第4閾値V4)よりも長い時間に設定される。その結果、本装置1は、時間変化判別部32の処理を実行しても、入力信号s1と比較して情報(音声)の欠けの無い遅延信号s4を生成する。遅延部40は、例えば、リングバッファを含む。遅延部40の遅延信号s4の生成は、遅延部40に入力信号s1が入力されている間、常に行われる。遅延信号s4は、遅延部40から切替部50に入力される。
 切替部50は、後述する制御部60からの制御信号cs1に応じて、切替部50から出力部80に入力される信号を入力信号s1と遅延信号s4のいずれか一方に切り替えると共に、切替部50から出力部80への信号の入力の有無を切り替える。切替部50は、信号切替部51と出力切替部52とを備える。
 信号切替部51は、後述する制御部60からの制御信号cs1に応じて、切替部50から出力部80へ入力される信号を切り替える。信号切替部51は、接点P1と接点P2との2つの接点Pを備える。接点P1は遅延部40に接続される。接点P1には、遅延部40からの遅延信号s4が入力される。接点P2は受信部11に接続される。接点P2には、受信部11からの入力信号s1が入力される。すなわち、切替部50は、信号切替部51の接点P(接点P1,P2)を切り替えることにより、入力信号s1と遅延信号s4のいずれか一方を出力部80へ入力する。本装置1が初期状態(本装置1の電源投入直後の状態)のとき、信号切替部51の接点Pは、接点P2である。
 出力切替部52は、後述する制御部60からの制御信号cs1に応じて、切替部50から出力部80への信号の入力の有無を切り替える。出力切替部52は、例えば、ゲート回路である。すなわち、例えば、出力切替部52は、ゲートに高い電圧がかかると信号を出力する出力状態(以下「ゲートオン」という。)となり、ゲートに低い電圧がかかると信号を遮断する非出力状態(以下「ゲートオフ」という。)となる。出力切替部52の状態がゲートオフのとき、切替部50は、出力部80へ信号を入力しない(ミュートオン)。出力切替部52の状態がゲートオンのとき、切替部50は、出力部80へ信号を入力する(ミュートオフ)。換言すれば、出力切替部52は、制御部60からの制御信号cs1に応じて、出力部80から出力信号を出力させる出力状態と、出力部80から出力信号を出力させない非出力状態と、を切り替える。「出力信号」については、後述する。本装置1が初期状態のとき、出力切替部52の状態は、ゲートオフである。出力切替部52の状態を示す信号(以下「状態信号」という。)gs1は、切替部50から制御部60に入力される。
 制御部60は、入力信号判別部20からの判別結果r1と、ノイズ検出部30からの検出結果r2と、切替部50からの出力切替部52の状態信号gs1と、に基づいて、切替部50の動作(信号切替部51や出力切替部52の切替)を制御する制御信号cs1を生成する。すなわち、制御部60は、判別結果r1と、検出結果r2と、状態信号gs1と、に基づいて、入力信号s1と遅延信号s4とのいずれか一方の出力部80からの出力を制御する。制御部60は、論理積演算部61とカウンタ部62とを備える。
 「制御信号cs1」は、例えば、信号切替部51の接点P1と接点P2とを切り替える信号や、出力切替部52のゲートオンとゲートオフとを切り替える信号である。制御信号cs1は、制御部60から切替部50に入力される。
 論理積演算部61は、検出結果r2を示す信号(以下「検出結果信号」という。)r2sと、状態信号gs1と、の論理積に基づいて、後述する制御部60による切替部50の切替の制御(第1制御、第2制御)を選択する。論理積演算部61の動作については、後述する。
 カウンタ部62は、入力信号判別部20により入力信号s1が無い(無音)と判別されたとき、その無音時間をカウントする。
 記憶部70は、本装置1が後述する信号処理を実行するために必要な情報を記憶する手段である。記憶部70は、第1閾値V1と、第2閾値V2(図3参照)と、第3閾値V3(図4参照)と、第4閾値V4(図4参照)と、後述する第5閾値V5(図11参照)と、を記憶する。
 出力部80は、切替部50からの入力信号s1、または、切替部50からの遅延信号s4、のいずれか一方を出力信号として、例えば、本装置1に接続されるスピーカや通信回線などに出力する。
●本装置の信号処理●
 次に、本装置1の信号処理(動作)について、説明する。
 図5は、本装置1の信号処理を示すフローチャートである。
 図1に示されるよう、入力部10の受信部11に入力された入力信号s1は、遅延部40と切替部50とに入力されると共に、バンドパスフィルタ12を介してフィルタ信号s2としてノイズ検出部30に入力された後に整流器13を介してDC信号s3に変換されて入力信号判別部20に入力される。本装置1は、入力部10に入力された入力信号s1ごとに、入力信号判別処理(ST1)と、ノイズ検出処理(ST2)と、切替処理(ST3)と、を実行する。切替処理(ST3)は、入力信号判別処理(ST1)とノイズ検出処理(ST2)との後に実行される。
 なお、本発明において、入力信号判別処理とノイズ検出処理とは、同時に実行される場合に限らず、いずれか一方の処理が先に実行されてもよい。
●入力信号判別処理
 入力信号判別処理(ST1)は、マイクロホン2からの入力信号s1(DC信号s3)の有無を判別する処理である。
 図6は、入力信号判別処理(ST1)を示すフローチャートである。
 本装置1は、入力信号判別部20を用いて、入力信号s1(DC信号s3)の有無を判別する。入力部10からのDC信号s3は、入力信号判別部20の第1比較部21に入力される。本装置1は、第1比較部21を用いて、DC信号s3と、第1閾値V1と、を比較する(ST101)。DC信号s3が第1閾値V1以上のとき(ST101の「はい」)、本装置1は、入力信号s1が有る(有音)と判別する(ST102)。一方、DC信号s3が第1閾値V1よりも小さいとき(ST101の「いいえ」)、本装置1は、入力信号s1が無い(無音)と判別する(ST103)。判別結果r1は、入力信号判別部20から制御部60に入力される(ST104)。
 前述のとおり、第1閾値V1は、マイクロホン2が収音した環境音に対応する信号に基づいて設定される変動値である。すなわち、本装置1は、例えば、マイクロホン2が収音した音が環境音であるとき、入力信号s1が無い(無音)と判別する。一方、本装置1は、例えば、マイクロホン2が収音した音が音声やノイズであるとき、入力信号s1が有る(有音)と判別する。
 このように、本装置1は、環境音に基づいて設定される第1閾値V1以上の音(音声、ノイズ)を入力信号s1として取り扱い、第1閾値V1より小さい音(音声、ノイズ)を入力信号s1として取り扱わない。つまり、本装置1は、環境音相当の音(音声、ノイズ)を、本発明における入力信号s1として取り扱わない。
●ノイズ検出処理
 ノイズ検出処理(ST2)は、フィルタ信号s2(入力信号s1)に含まれるノイズを検出する処理である。すなわち、ノイズ検出処理(ST2)は、フィルタ信号s2が音声信号かノイズ信号かを判定する処理である。
 図7は、ノイズ検出処理(ST2)を示すフローチャートである。
 本装置1は、入力部10からフィルタ信号s2が入力されている間、周波数成分判別処理(ST201)と、時間変化判別処理(ST202)と、を実行する。
 図8は、周波数成分判別処理(ST201)を示すフローチャートである。
 周波数成分比較処理(ST201)は、低域から高域に亘り同レベルのパワースペクトルを持つノイズを検出する処理である。本装置1は、周波数成分判別部31を用いて、周波数成分判別処理(ST201)を実行する。
 先ず、本装置1は、ローパスフィルタ311を用いて、フィルタ信号s2から中低域の信号を取り出す(ST211)。次いで、本装置1は、第1移動平均部312を用いて、中低域の信号を直流信号に変換して、同信号から中低域信号パワースペクトルを生成する(ST212)。
 一方、本装置1は、ハイパスフィルタ313を用いて、フィルタ信号s2から中高域の信号を取り出す(ST213)。本装置1は、第2移動平均部314を用いて、中高域の信号を直流信号に変換して、同信号から中高域信号パワースペクトルを生成する(ST214)。
 次いで、本装置1は、相対比較部315を用いて、中低域信号パワースペクトルと中高域信号パワースペクトルとを比較して、その差分を算出する(ST215)。差分は、例えば、中低域信号パワースペクトルから中高域信号パワースペクトルを減算することにより算出される。
 次いで、本装置1は、第2比較部316を用いて、相対比較部315が算出した差分と、第2閾値V2と、を比較する(ST216)。差分が第2閾値V2以下のとき(ST216の「はい」)、本装置1は、入力信号s1をノイズ信号と判別する(ST217)。一方、差分が第2閾値V2よりも大きいとき(ST216の「いいえ」)、本装置1は、入力信号s1を音声信号と判別する(ST218)。本装置1は、周波数成分判別部31の判別結果を論理和演算部33に入力する(ST219)。
 図9は、時間変化判別処理(ST202)のフローチャートである。
 時間変化判別処理(ST202)は、インパルス性のパワースペクトルを持つノイズを検出する処理である。本装置1は、時間変化判別部32を用いて、時間変化判別処理(ST202)を実行する。
 先ず、本装置1は、第3移動平均部321を用いて、フィルタ信号s2を直流信号に変換して、同信号から入力信号パワースペクトルを生成する(ST221)。
 次いで、本装置1は、第3比較部322を用いて、入力信号パワースペクトルと、第3閾値V3と、を比較する(ST222)。入力信号パワースペクトルが第3閾値V3以上のとき(ST222の「はい」)、本装置1は、時間変化カウンタ部323を用いて、第3閾値V3を超えた信号の時間軸波形における時間変化をカウントする(ST223)。一方、入力信号パワースペクトルが第3閾値V3よりも小さいとき(ST222の「いいえ」)、本装置1は、入力信号s1を音声信号と判別する(ST226)。
 次いで、本装置1は、第4比較部324を用いて、時間変化カウンタ部323のカウント値と、第4閾値V4と、を比較する(ST224)。カウント値が第4閾値V4以下のとき(ST224の「はい」)、本装置1は、入力信号s1をノイズ信号と判別する(ST225)。一方、カウント値が第4閾値V4よりも大きいとき(ST224の「いいえ」)、本装置1は、入力信号s1を音声信号と判別する(ST226)。本装置1は、時間変化判別部32の判別結果を論理和演算部33に入力する(ST227)。
 図7に戻る。
 本装置1は、論理和演算部33を用いて、周波数成分判別処理(ST201)の判別結果と、時間変化判別処理(ST202)の判別結果と、の論理和を演算して(ST203)、同論理和に基づいてフィルタ信号s2(入力信号s1)がノイズ信号か音声信号かを判定する(ST204)。
 周波数成分判別処理(ST201)の判別結果と、時間変化判別処理(ST202)の判別結果と、のうち、いずれか1つの判別結果がノイズ信号であるとの判別結果であったとき(ST204の「はい」)、本装置1は、入力信号s1をノイズ信号と判定する(ST205)。すなわち、ノイズ検出部30は、周波数成分判別部31の判別結果と、時間変化判別部32の判別結果と、の論理和に基づいて、ノイズを検出する。一方、周波数成分判別処理(ST201)の判別結果と、時間変化判別処理(ST202)の判別結果と、の双方が音声信号であるとの判別結果であったとき(ST204の「いいえ」)、本装置1は、入力信号s1を音声信号と判定する(ST206)。
 本装置1は、ノイズ検出部30の検出結果r2を制御部60に入力する(ST207)。
●切替処理
 図5に戻る。
 切替処理(ST3)は、入力信号判別部20からの判別結果r1と、ノイズ検出部30からの検出結果r2と、から制御信号cs1を生成して、切替部50の信号切替部51と出力切替部52とを切り替える処理である。
 図10は、切替処理(ST3)のうち、一部の処理を示すフローチャートである。
 先ず、本装置1は、制御部60を用いて、出力切替部52の状態がゲートオン(出力状態)かゲートオフ(非出力状態)かを確認する(ST301)。このとき、出力切替部52の状態信号gs1は、切替部50から制御部60の論理積演算部61に入力される。出力切替部52の状態がゲートオフのとき(ST301の「いいえ」)、本装置1は、入力信号判別部20の判別結果r1から、入力信号s1の有無を確認する(ST302)。
 入力信号s1が有る(有音)とき(ST302の「はい」)、本装置1は、ノイズ検出部30の検出結果r2から入力信号s1が音声信号かノイズ信号かを確認する(ST303)。このとき、ノイズ検出部30の検出結果信号r2sは、論理積演算部61に入力される。
 入力信号s1が音声信号のとき(ST303の「はい」)、本装置1は、制御部60を用いて、信号切替部51の接点Pを接点P1に切り替えると共に出力切替部52をゲートオンに切り替える制御信号cs1を生成する(ST304)。本装置1は、制御信号cs1を制御部60から切替部50に入力して、後述する処理(ST308)を実行する。その結果、信号切替部51の接点Pは接点P1となり、出力切替部52はゲートオン(ミュートオフ)となる。すなわち、切替部50から出力部80には、遅延信号s4が入力される。つまり、本装置1は、遅延信号s4を出力信号として出力する。
 入力信号s1が無い(無音)とき(ST302の「いいえ」)、または、入力信号s1がノイズ信号のとき(ST303の「いいえ」)、本装置1は、制御部60を用いて、信号切替部51の接点Pを接点P2に維持すると共に出力切替部52をゲートオフに維持する制御信号cs1を生成する(ST305)。本装置1は、制御信号cs1を制御部60から切替部50に入力して、処理(ST301)に戻る。その結果、信号切替部51の接点Pは接点P2となり、出力切替部52はゲートオフ(ミュートオン)となる。すなわち、切替部50から出力部80には、信号(入力信号s1または遅延信号s4)が入力されない。つまり、本装置1は、出力信号を出力しない。
 一方、出力切替部52の状態がゲートオンのとき(ST301の「はい」)、本装置1は、入力信号判別部20の判別結果から、入力信号s1の有無を確認する(ST306)。
 入力信号s1が有る(有音)とき(ST306の「はい」)、本装置1は、後述する処理(ST308)を実行する。
 一方、入力信号s1が無い(無音)とき(ST306の「いいえ」)、本装置1は、制御部60を用いて、信号切替部51の接点Pを接点P2に維持すると共に出力切替部52をゲートオフにする制御信号cs1を生成する(ST307)。本装置1は、制御信号cs1を制御部60から切替部50に入力して、処理(ST301)に戻る。
 図11は、切替処理(ST3)のうち、別の一部の処理を示すフローチャートである。
 同図は、切替処理(ST3)のうち、出力切替部52の状態がゲートオン、かつ、入力信号s1が有るときの処理を示す。
 次いで、本装置1は、入力信号s1に含まれる促音や息継ぎなどの短時間の無音時間を検出する。無音時間は、例えば、無音を示す信号の立上エッジを検出することにより検出される。無音を示す信号は、入力信号判別部20により生成されて、判別結果r1と共に、制御部60に入力される。
 本装置1は、制御部60を用いて、入力信号判別部20からの無音を示す信号の立上エッジを検出する(ST308)。本装置1は、無音を示す信号の立上エッジを検出したとき(ST308の「はい」)、制御部60のカウンタ部62を用いて、無音時間のカウントを開始する(ST309)。無音時間のカウントは、制御部60が、入力信号判別部20からの無音を示す信号の立下エッジを検出するまで続けられる(ST310の「いいえ」)。
 本装置1は、制御部60が無音を示す信号の立下エッジを検出したとき(ST310の「はい」)、無音時間が所定の第5閾値V5以上か否かを確認する(ST311)。「第5閾値V5」は、短時間の無音が息継ぎか促音かを区分けする閾値である。すなわち、無音時間が第5閾値V5以上のとき、短時間の無音は、息継ぎに起因する無音である。一方、無音時間が第5閾値V5よりも小さいとき、短時間の無音は、促音に起因する無音である。第5閾値V5は、時間変化判別処理(ST202)における第4閾値V4よりも大きい値に設定される。
 無音時間が第5閾値V5以上のとき(ST311の「はい」)、本装置1は、信号切替部51の接点Pを接点P2へ切り替えると共に出力切替部52をゲートオンに維持する制御信号cs1を生成する(ST312)。次いで、本装置1は、カウンタ部62のカウントをクリアすると共に、カウンタ部62のカウントを終了して(ST313)、処理(ST301)に戻る。
 一方、無音時間が第5閾値V5よりも小さいとき(ST311の「いいえ」)、本装置1は、カウンタ部62のカウントをクリアして(ST314)、処理(ST308)に戻る。
 このように、本装置1は、息継ぎなどの無音時間を検出したとき、リアルタイムな入力信号s1を出力部80に入力し、同無音時間を検出しないとき、遅延信号s4を出力部80に入力する。換言すれば、入力信号判別部20が無音(入力信号s1が無い)と判別したとき、信号切替部51は、無音時間が第5閾値V5以上であれば入力部10からの入力信号s1を出力部80に入力する。すなわち、信号切替部51は、入力信号判別部20の判別結果r1に基づいて、遅延信号s4または入力信号s1のいずれか一方を出力部80に出力する。
●制御部による出力切替部の切替の制御
 図10に示されるように、制御部60による出力切替部52の切替の制御は、入力信号判別部20の判別結果r1とノイズ検出部30の検出結果r2とに基づいて切替を制御する第1制御(ST301-ST305を参照)と、入力信号判別部20の判別結果r1に基づいて切替を制御する第2制御(ST301,ST306,ST307を参照)と、を含む。
 出力切替部52の状態がゲートオフのとき、本装置1は、第1制御を選択する。出力切替部52の状態がゲートオフ、かつ、ノイズ検出部30の検出結果r2が音声信号であるときのみ、本装置1は、出力切替部52の状態をゲートオンに切り替える。出力切替部52の状態がゲートオンのとき、本装置1は、第2制御を選択する。このように、出力切替部52の状態がゲートオフのとき、本装置1は、出力切替部52の状態と、ノイズ検出部30の検出結果r2と、の論理積に基づいて、出力切替部52の状態をゲートオンに切り替えて、第2制御を選択する。
 ここで、本装置1は、論理積演算部61を用いて、第1制御または第2制御のいずれか一方を選択する。前述のとおり、論理積演算部61には検出結果信号r2sと状態信号gs1とが入力される。論理積演算部61は、出力切替部52の状態がゲートオフのとき、検出結果信号r2sと状態信号gs1との論理積に基づいて、第1制御または第2制御のいずれか一方を選択する。一方、論理積演算部61は、出力切替部52の状態がゲートオンのとき、第2制御を選択する。すなわち、第1制御と第2制御とは、出力切替部52の状態に基づいて、本装置1に選択される。つまり、本装置1は、出力切替部52の状態がゲートオフ(非出力状態)のとき、第1制御を選択して、第1制御に基づいて出力切替部52の切替を制御する。一方、本装置1は、出力切替部52の状態がゲートオン(出力状態)のとき、第2制御を選択して、第2制御に基づいて出力切替部52の切替を制御する。その結果、本装置1は、マイクロホン2の使用者が発話中に同マイクロホン2がノイズを収音しても、マイクロホン2からの入力信号s1(または遅延信号s4)の出力を遮断(ゲートオフ)しない。
●まとめ
 以上説明した実施の形態によれば、制御部60による出力切替部52の切替の制御は第1制御と第2制御とを含み、第1制御は、出力切替部52の状態がゲートオフのときに選択される。その結果、出力切替部52の状態がゲートオフのとき、本装置1は、ノイズを検出すると出力切替部52の状態をゲートオフに維持する。すなわち、本装置1は、ノイズを音声として誤検出し、マイクロホン2からの信号の出力の切替の制御を行わない。つまり、本発明にかかる音声信号処理装置は、初期状態では、音声信号が入力されると遅延信号s4を出力し(ミュートオフ)、ノイズ信号が入力されると信号を出力しない(ミュートオン)。
 一方、第2制御は、出力切替部52の状態がゲートオンのときに選択される。その結果、出力切替部52の状態がゲートオンのとき、本装置1は、ノイズを検出しても出力切替部52の状態をゲートオンに維持する。すなわち、本装置1は、マイクロホン2の使用者が発話している状態(以下「発話状態」という。)では、同マイクロホン2がノイズを収音しても、同マイクロホン2からの入力信号s1(または遅延信号s4)を出力する。つまり、本装置1は、音声信号の出力中にノイズを検出しても音声信号の出力を遮断しない。
 また、以上説明した実施の形態によれば、制御部60は、論理積演算部61を備える。本装置1は、論理積演算部61を用いて、検出結果信号r2sと状態信号gs1との論理積を演算し、同論理積に基づいて、第1制御または第2制御のいずれか一方を選択する。その結果、出力切替部52の状態がゲートオフ、かつ、ノイズ検出部30の検出結果r2が音声信号であるときのみ、本装置1は、出力切替部52の状態をゲートオンに切り替えて、第2制御を選択する。すなわち、本装置1は、初期状態では、音声信号が入力されると音声信号(遅延信号s4)を出力し(ミュートオフ)、ノイズ信号が入力されると信号を出力しない(ミュートオン)。一方、本装置1は、発話状態では、ノイズが検出されても入力信号s1または遅延信号s4のいずれか一方を出力する。つまり、本装置1は、音声信号の出力中にノイズを検出しても音声信号の出力を遮断しない。
 さらに、以上説明した実施の形態によれば、入力信号判別部20は、環境音に対応する信号(第1閾値V1)と、入力部10からの入力信号s1(DC信号s3)と、の比較結果に基づいて、入力部10からの入力信号s1の有無を判別する。そのため、本装置1は、本装置1を設置する環境(例えば、同装置が設置された部屋の空調の有無や同部屋の大きさ、マイクロホン2のゲイン値、など)に応じて入力信号s1の有無を判別することが可能となる。
 さらにまた、以上説明した実施の形態によれば、ノイズ検出部30は、周波数成分判別部31と、時間変化判別部32と、を備え、これらの各判別結果に基づいてノイズを検出する。そのため、本装置1は、様々な形状の波形となる複合的なノイズを精度よく検出可能である。
 さらにまた、本装置1は、発話の頭出しでは遅延信号s4を出力し、息継ぎなどの短時間の無音時間を検出したときリアルタイムな入力信号s1を出力する。すなわち、本装置1は、ノイズ検出部30の処理などで生じる音声信号のいわゆる頭欠けを防止する。
 なお、以上説明した実施の形態によれば、切替部50が出力切替部52を備える。これに代えて、出力部が出力切替部を備えてもよい。この場合、ゲートオンとゲートオフとを切り替える制御信号は、制御部から出力部に入力される。
 また、本装置において、制御部の構成は、本実施の形態の構成に限定されない。すなわち、例えば、制御部は、信号切替部を制御する制御回路と、出力切替部を制御する制御回路と、で構成されてもよい。
 さらに、本装置は、複数の入力部を備えてもよい。すなわち、例えば、本装置は、6つの入力部(6ch)を備え、6つのマイクロホンからの入力信号を処理してもよい。
 さらにまた、本装置は、連続する入力信号の間隔に基づいて、短時間の無音時間を検出してもよい。すなわち、例えば、本装置は、ある入力信号の立ち下がりエッジを検出することにより無音時間をカウントし、次の入力信号の立ち上がりエッジを検出することにより無音時間のカウントを終了してもよい。換言すれば、入力信号判別部が無音(入力信号が無い)と判別したとき、信号切替部は、無音時間が第5閾値以上のときに入力部からの入力信号を出力部に入力し、無音時間が第5閾値よりも小さければ遅延部からの遅延信号を出力部に入力する。
1   音声信号処理装置
10  入力部
20  入力信号判別部
30  ノイズ検出部
31  周波数成分判別部
32  時間変化判別部
33  論理和演算部
40  遅延部
50  切替部
51  信号切替部
52  出力切替部
60  制御部
61  論理積演算部
80  出力部
r1  判別結果
r2  検出結果
s1  入力信号
s4  遅延信号

Claims (10)

  1.  マイクロホンからの信号が入力される入力部と、
     前記入力部からの入力信号の有無を判別する入力信号判別部と、
     前記入力部からの前記入力信号に含まれるノイズを検出するノイズ検出部と、
     前記入力信号を出力信号として出力する出力部と、
     前記出力部から前記出力信号を出力する出力状態と、前記出力部から前記出力信号を出力しない非出力状態と、を切り替える出力切替部と、
     前記出力切替部の切替を制御する制御部と、
    を有してなり、
     前記制御部による前記切替の制御は、
     前記入力信号判別部の判別結果と、前記ノイズ検出部の検出結果と、に基づいて、前記切替を制御する第1制御と、
     前記入力信号判別部の前記判別結果に基づいて、前記切替を制御する第2制御と、
    を含み、
     前記第1制御と前記第2制御とは、前記出力切替部の状態に基づいて、選択される、
    ことを特徴とする音声信号処理装置。
  2.  前記第1制御は、前記出力切替部が非出力状態のとき、選択され、
     前記第2制御は、前記出力切替部が出力状態のとき、選択される、
    請求項1記載の音声信号処理装置。
  3.  前記制御部は、
     前記ノイズ検出部の検出結果を示す検出結果信号と、前記出力切替部の状態を示す状態信号と、が入力される論理積演算部、
    を備え、
     前記論理積演算部は、前記検出結果信号と前記状態信号との論理積に基づいて、前記第1制御または前記第2制御のいずれか一方を選択する、
    請求項1記載の音声信号処理装置。
  4.  前記マイクロホンは、前記マイクロホンの設置場所の環境音を収音し、
     前記入力信号判別部は、前記環境音に対応する信号と、前記入力部からの前記入力信号と、の比較結果に基づいて、前記入力部からの前記入力信号の有無を判別する、
    請求項1記載の音声信号処理装置。
  5.  前記出力部は、前記ノイズ検出部が前記ノイズを検出したとき、前記出力信号を出力しない、
    請求項1記載の音声信号処理装置。
  6.  前記ノイズ検出部は、
     前記入力信号の周波数成分に基づいて前記ノイズの有無を判別する周波数成分判別部と、
     前記入力信号の時間変化に基づいて前記ノイズの有無を判別する時間変化判別部と、
    を備え、
     前記ノイズ検出部は、前記周波数成分判別部の判別結果と、前記時間変化判別部の判別結果と、に基づいて、前記ノイズを検出する、
    請求項1記載の音声信号処理装置。
  7.  前記ノイズ検出部は、前記周波数成分判別部の判別結果と、前記時間変化判別部の判別結果と、の論理和に基づいて、前記ノイズを検出する、
    請求項6記載の音声信号処理装置。
  8.  前記入力部から入力された前記入力信号を遅延させて出力する遅延部と、
     前記遅延部からの遅延信号と、前記入力部からの前記入力信号と、が入力されて、前記遅延信号と前記入力信号のいずれか一方を出力する信号切替部と、
    を備え、
     前記出力部は、前記信号切替部から入力される前記遅延信号または前記入力信号を、前記出力信号として出力する、
    請求項1記載の音声信号処理装置。
  9.  前記信号切替部は、前記入力信号判別部の前記判別結果に基づいて、前記遅延信号または前記入力信号のいずれか一方を前記出力部に入力する、
    請求項8記載の音声信号処理装置。
  10.  前記信号切替部は、前記入力信号判別部が前記入力部からの前記入力信号が無いと判別したとき、前記入力部からの前記入力信号を前記出力部に入力する、
    請求項9記載の音声信号処理装置。
PCT/JP2018/010328 2017-05-19 2018-03-15 音声信号処理装置 WO2018211806A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201880032965.5A CN110663258B (zh) 2017-05-19 2018-03-15 语音信号处理装置
US16/614,628 US10971169B2 (en) 2017-05-19 2018-03-15 Sound signal processing device
EP18802763.5A EP3627853A4 (en) 2017-05-19 2018-03-15 AUDIO SIGNAL PROCESSOR
JP2019519088A JP7004332B2 (ja) 2017-05-19 2018-03-15 音声信号処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-099804 2017-05-19
JP2017099804 2017-05-19

Publications (1)

Publication Number Publication Date
WO2018211806A1 true WO2018211806A1 (ja) 2018-11-22

Family

ID=64274499

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/010328 WO2018211806A1 (ja) 2017-05-19 2018-03-15 音声信号処理装置

Country Status (5)

Country Link
US (1) US10971169B2 (ja)
EP (1) EP3627853A4 (ja)
JP (1) JP7004332B2 (ja)
CN (1) CN110663258B (ja)
WO (1) WO2018211806A1 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020243471A1 (en) * 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7004332B2 (ja) * 2017-05-19 2022-01-21 株式会社オーディオテクニカ 音声信号処理装置
US11581004B2 (en) 2020-12-02 2023-02-14 HearUnow, Inc. Dynamic voice accentuation and reinforcement

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683391A (ja) 1992-09-04 1994-03-25 Matsushita Electric Ind Co Ltd テレビ会議用発言音声検出装置
JPH0744996A (ja) * 1993-07-30 1995-02-14 Aiwa Co Ltd ノイズ低減回路
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
US20080167868A1 (en) * 2007-01-04 2008-07-10 Dimitri Kanevsky Systems and methods for intelligent control of microphones for speech recognition applications
US20080279366A1 (en) * 2007-05-08 2008-11-13 Polycom, Inc. Method and Apparatus for Automatically Suppressing Computer Keyboard Noises in Audio Telecommunication Session
JP2014053890A (ja) * 2012-09-10 2014-03-20 Polycom Inc 望ましくないノイズに対する自動的マイクロホンミューティング

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267690A (ja) * 1999-03-19 2000-09-29 Toshiba Corp 音声検知装置及び音声制御システム
US8050646B2 (en) * 2006-04-24 2011-11-01 Panasonic Corporation Noise suppressing device
JP4747949B2 (ja) * 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
EP2047669B1 (de) * 2006-07-28 2014-05-21 Unify GmbH & Co. KG Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
JP4474488B1 (ja) * 2009-04-23 2010-06-02 パナソニック株式会社 音声受信装置、音声処理方法、プログラムおよび音声受信システム
WO2011140110A1 (en) * 2010-05-03 2011-11-10 Aliphcom, Inc. Wind suppression/replacement component for use with electronic systems
EP2405634B1 (en) * 2010-07-09 2014-09-03 Google, Inc. Method of indicating presence of transient noise in a call and apparatus thereof
US9288331B2 (en) * 2011-08-16 2016-03-15 Cisco Technology, Inc. System and method for muting audio associated with a source
US9282405B2 (en) * 2012-04-24 2016-03-08 Polycom, Inc. Automatic microphone muting of undesired noises by microphone arrays
US9866700B2 (en) * 2012-12-27 2018-01-09 Robert Bosch Gmbh Conference system and process for voice activation in the conference system
US9607630B2 (en) * 2013-04-16 2017-03-28 International Business Machines Corporation Prevention of unintended distribution of audio information
US9215543B2 (en) 2013-12-03 2015-12-15 Cisco Technology, Inc. Microphone mute/unmute notification
US9294858B2 (en) * 2014-02-26 2016-03-22 Revo Labs, Inc. Controlling acoustic echo cancellation while handling a wireless microphone
US9560316B1 (en) * 2014-08-21 2017-01-31 Google Inc. Indicating sound quality during a conference
JP2016051038A (ja) * 2014-08-29 2016-04-11 株式会社Jvcケンウッド ノイズゲート装置
US10499164B2 (en) * 2015-03-18 2019-12-03 Lenovo (Singapore) Pte. Ltd. Presentation of audio based on source
JP7004332B2 (ja) * 2017-05-19 2022-01-21 株式会社オーディオテクニカ 音声信号処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683391A (ja) 1992-09-04 1994-03-25 Matsushita Electric Ind Co Ltd テレビ会議用発言音声検出装置
JPH0744996A (ja) * 1993-07-30 1995-02-14 Aiwa Co Ltd ノイズ低減回路
JP2008015481A (ja) * 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
US20080167868A1 (en) * 2007-01-04 2008-07-10 Dimitri Kanevsky Systems and methods for intelligent control of microphones for speech recognition applications
US20080279366A1 (en) * 2007-05-08 2008-11-13 Polycom, Inc. Method and Apparatus for Automatically Suppressing Computer Keyboard Noises in Audio Telecommunication Session
JP2014053890A (ja) * 2012-09-10 2014-03-20 Polycom Inc 望ましくないノイズに対する自動的マイクロホンミューティング

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3627853A4

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11832053B2 (en) 2015-04-30 2023-11-28 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11678109B2 (en) 2015-04-30 2023-06-13 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US11310592B2 (en) 2015-04-30 2022-04-19 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US11477327B2 (en) 2017-01-13 2022-10-18 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US11800281B2 (en) 2018-06-01 2023-10-24 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11770650B2 (en) 2018-06-15 2023-09-26 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11778368B2 (en) 2019-03-21 2023-10-03 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11800280B2 (en) 2019-05-23 2023-10-24 Shure Acquisition Holdings, Inc. Steerable speaker array, system and method for the same
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11688418B2 (en) 2019-05-31 2023-06-27 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
WO2020243471A1 (en) * 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
US11750972B2 (en) 2019-08-23 2023-09-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Also Published As

Publication number Publication date
EP3627853A1 (en) 2020-03-25
CN110663258A (zh) 2020-01-07
JPWO2018211806A1 (ja) 2020-03-19
US20200152218A1 (en) 2020-05-14
JP7004332B2 (ja) 2022-01-21
EP3627853A4 (en) 2021-02-24
US10971169B2 (en) 2021-04-06
CN110663258B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
WO2018211806A1 (ja) 音声信号処理装置
US10157603B2 (en) Noise detector and sound signal output device
US8284947B2 (en) Reverberation estimation and suppression system
JP4744874B2 (ja) サウンドの検出および特定システム
US9959886B2 (en) Spectral comb voice activity detection
CA2390287C (en) Acoustic source range detection system
JPH11327582A (ja) 騒音下での音声検出システム
US11621017B2 (en) Event detection for playback management in an audio device
US10581386B2 (en) Protective device
US20020103636A1 (en) Frequency-domain post-filtering voice-activity detector
US20190355380A1 (en) Audio signal processing
EP4066241A1 (en) Methods and apparatus to fingerprint an audio signal via exponential normalization
JP3500953B2 (ja) オーディオ再生システムのセットアップ方法及びその装置
GB2563868A (en) Sound responsive device and method
JPH0327698A (ja) 音響信号検出方法
JPS63118197A (ja) 音声検出装置
JPH06175676A (ja) 音声検出器
JPS62287297A (ja) 音声検出装置
JPH09292894A (ja) 音声認識方法及び装置
JP3901425B2 (ja) 音声検出装置
JPS63166346A (ja) 多周波数比較型ハンズフリ−回路
JP2020166148A (ja) 集音制御装置、集音制御プログラム及び会議支援システム
EP3753013A1 (en) Speech processing apparatus, method, and program
EP3332558A2 (en) Event detection for playback management in an audio device
JPH03220600A (ja) 音声検出装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18802763

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019519088

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2018802763

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2018802763

Country of ref document: EP

Effective date: 20191219