WO2021131346A1 - 収音装置、収音方法及び収音プログラム - Google Patents

収音装置、収音方法及び収音プログラム Download PDF

Info

Publication number
WO2021131346A1
WO2021131346A1 PCT/JP2020/041412 JP2020041412W WO2021131346A1 WO 2021131346 A1 WO2021131346 A1 WO 2021131346A1 JP 2020041412 W JP2020041412 W JP 2020041412W WO 2021131346 A1 WO2021131346 A1 WO 2021131346A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
sample position
unit
noise reduction
Prior art date
Application number
PCT/JP2020/041412
Other languages
English (en)
French (fr)
Inventor
慎一 杠
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to EP20906191.0A priority Critical patent/EP4064726A4/en
Priority to JP2021566886A priority patent/JPWO2021131346A1/ja
Priority to CN202080087997.2A priority patent/CN114830232A/zh
Publication of WO2021131346A1 publication Critical patent/WO2021131346A1/ja
Priority to US17/846,825 priority patent/US11967304B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • G10K11/17854Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present disclosure relates to a sound collecting device, a sound collecting method, and a sound collecting program for removing a noise signal included in an input signal acquired by a microphone.
  • the voice spoken by the speaker on the transmitting side is input to the microphone on the transmitting side and transmitted as a transmission signal to the device on the receiving side via the communication line. Played on the receiving speaker.
  • the voice reproduced by the speaker on the receiving side propagates in the space on the receiving side, is input to the microphone on the receiving side, and is transmitted to the transmitting side.
  • the speaker on the transmitting side reproduces the voice spoken by itself after the time passed through the communication line and the time propagated in the space on the receiving side. In this way, the voice propagating from the speaker on the receiving side to the microphone is called an acoustic echo, which leads to deterioration of call quality.
  • the noise eliminating device shown in Patent Document 1 generates a first sound receiving signal corresponding to the voice input to the voice input terminal and noise, and generates a second sound receiving signal corresponding to the noise input to the reference input terminal. Is generated, a pseudo noise signal is generated from the second received signal by the adaptive filter, the pseudo noise signal is subtracted from the first received signal to generate a noise suppression signal, and the noise suppression signal is used to filter the adaptive filter.
  • the coefficient is updated, and the peak tap position indicating the tap whose filter coefficient has the peak value is derived from the relative positional relationship between the noise source and the reference input terminal and the audio input terminal, and the filter coefficient is used by using the peak tap position.
  • the section of the tap position corresponding to is classified, and the update frequency of the filter coefficient corresponding to the section is controlled for each classified section.
  • the present disclosure has been made to solve the above problems, and an object of the present disclosure is to provide a technique capable of reducing the amount of calculation for removing noise.
  • the sound collecting device includes an adaptive filter that generates an estimated noise signal indicating a component of the noise signal included in the input signal acquired by the microphone from the reference signal, and the estimated noise signal from the input signal. From the signal generation unit that generates the noise reduction signal obtained by subtracting, the coefficient update unit that updates the filter coefficient of the adaptive filter using the noise removal signal, and the signal sample position where the absolute value of the noise removal signal is maximum.
  • a specific unit for specifying at least one signal sample position among a plurality of signal sample positions up to a predetermined largest signal sample position is provided, and the coefficient update unit is the at least one signal specified by the specific unit.
  • the filter coefficient is updated at the sample position.
  • the amount of calculation for removing noise can be reduced.
  • the peak tap position indicating the tap whose filter coefficient is the peak value is derived from the relative positional relationship between the noise source and the reference input terminal and the audio input terminal, and the peak tap position is used.
  • the section of the tap position corresponding to the filter coefficient is classified, and the update frequency of the filter coefficient corresponding to the section is controlled for each classified section. That is, in the conventional technique, the first section near the peak tap position is specified, and the update frequency of the filter coefficient in the section other than the first section is made lower than the update frequency of the filter coefficient in the first section. ing.
  • the conventional technique reduces the amount of calculation by reducing the update frequency of the filter coefficient in the section where the fluctuation of the filter coefficient due to the device or the environment is small.
  • the peak tap position indicating the tap whose filter coefficient is the peak value is calculated by the relative positional relationship between the noise source and the reference input terminal and the audio input terminal, but the audio input terminal is generated.
  • the peak value of the difference signal obtained by subtracting the pseudo-noise signal generated by the adaptive filter from the signal is not calculated. Therefore, it is considered that the above-mentioned conventional technique can be further improved to further reduce the amount of calculation for removing noise.
  • the sound collecting device includes an adaptive filter that generates an estimated noise signal indicating a component of the noise signal included in the input signal acquired by the microphone from the reference signal.
  • a signal generation unit that generates a noise removal signal obtained by subtracting the estimated noise signal from the input signal
  • a coefficient update unit that updates the filter coefficient of the adaptive filter using the noise removal signal
  • an absolute of the noise removal signal A specific unit for specifying at least one signal sample position among a plurality of signal sample positions from the signal sample position having the maximum value to the predetermined largest signal sample position is provided, and the coefficient updating unit is the specific unit. Update the filter coefficient at at least one signal sample position identified by.
  • the filter coefficient was updated at all signal sample positions of a predetermined sampling frequency.
  • at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise elimination signal is the maximum to the predetermined largest signal sample position is specified.
  • the filter coefficient of the adaptive filter is updated at at least one signal sample position identified. Therefore, since the number of times of updating the filter coefficient of the adaptive filter is reduced, the amount of calculation for removing noise can be reduced.
  • the at least one signal sample position may be the signal sample position where the absolute value of the noise removal signal is maximum.
  • the filter coefficient of the adaptive filter is updated at the signal sample position where the absolute value of the noise removal signal is maximum, so that the number of times the filter coefficient is updated is once per frame, and noise is removed. The amount of calculation for this can be further reduced.
  • the reference signal may be a reproduction signal output to the speaker.
  • the acoustic echo component contained in the input signal acquired by the microphone can be removed.
  • the coefficient updating unit changes the updating speed for updating the filter coefficient according to the magnitude of the absolute value of the noise removing signal at the at least one signal sample position. May be good.
  • the noise reduction signal can be roughly converged, and by slowing the update speed, the noise reduction signal can be finely converged.
  • the coefficient updating unit increases the updating speed to be faster than the present, and the at least 1
  • the update speed may be slower than the present.
  • the update speed is set faster than the present, so that the denoising signal can be roughly converged.
  • the update speed is set to be slower than the current speed, so that the noise reduction signal can be finely converged.
  • a first band dividing unit that divides the input signal into a plurality of frequency bands
  • a second band dividing unit that divides the reference signal into the plurality of frequency bands
  • the plurality of frequencies The adaptive filter further includes a band synthesizer that synthesizes the noise elimination signal generated for each band
  • the adaptive filter includes a plurality of adaptive filters that generate the estimated noise signal for each of the plurality of frequency bands, and the signal.
  • the generation unit includes a plurality of signal generation units that generate the noise elimination signal for each of the plurality of frequency bands
  • the specific unit includes a plurality of signal generation units that specify the at least one signal sample position for each of the plurality of frequency bands.
  • the coefficient update unit may include a plurality of coefficient update units that include a specific unit and update the filter coefficient at at least one signal sample position for each of the plurality of frequency bands.
  • the input signal and the reference signal are divided into a plurality of frequency bands, and for each of the plurality of frequency bands, an estimated noise signal generation process, a noise removal signal generation process, a signal sample position identification process, and a filter coefficient. Since the update process is performed, the calculation time can be shortened and the calculation amount per unit time can be reduced.
  • the adaptive filter is a first adaptive filter that generates a first estimated noise signal indicating a component of a noise signal included in the first input signal acquired by the first microphone from a reference signal. And a second adaptive filter that generates a second estimated noise signal indicating a component of the noise signal included in the second input signal acquired by the second microphone different from the first microphone from the reference signal.
  • the signal generation unit has a first signal generation unit that generates a first noise removal signal obtained by subtracting the first estimated noise signal from the first input signal, and a second estimated noise signal that is subtracted from the second input signal.
  • the coefficient updating unit includes a second signal generating unit that generates the second noise removing signal, and the coefficient updating unit updates the filter coefficient of the first adaptive filter using the first noise removing signal. And a second coefficient updating unit that updates the filter coefficient of the second adaptive filter using the second noise removing signal, and the specific unit has the maximum absolute value of the first noise removing signal.
  • a first specific unit that specifies at least one signal sample position among a plurality of signal sample positions from a signal sample position to a predetermined largest signal sample position, and a signal having the maximum absolute value of the second noise elimination signal. It may include a second specific part that specifies at least one signal sample position among the plurality of signal sample positions from the sample position to the predetermined largest signal sample position.
  • the adaptive filter, signal generation unit, coefficient update unit, and specific unit also increase by one.
  • the amount of calculation for each process is reduced as compared with the conventional case, so that the amount of calculation for the entire process can be reduced as compared with the conventional case.
  • the sound collecting method is a sound collecting method in a sound collecting device including an adaptive filter, a signal generation unit, a coefficient updating unit, and a specific unit, wherein the adaptive filter uses a microphone from a reference signal.
  • An estimated noise signal indicating a component of the noise signal included in the acquired input signal is generated, the signal generation unit generates a noise removal signal obtained by subtracting the estimated noise signal from the input signal, and the specific unit generates a noise removal signal.
  • At least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise removal signal is maximum to the predetermined largest signal sample position is specified, and the coefficient update unit is specified.
  • the noise reduction signal is used to update the filter coefficient of the adaptive filter.
  • the filter coefficient was updated at all signal sample positions of a predetermined sampling frequency.
  • at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise elimination signal is the maximum to the predetermined largest signal sample position is specified.
  • the filter coefficient of the adaptive filter is updated at at least one signal sample position identified. Therefore, since the number of times of updating the filter coefficient of the adaptive filter is reduced, the amount of calculation for removing noise can be reduced.
  • a sound collecting program includes an adaptive filter that generates an estimated noise signal indicating a component of a noise signal included in an input signal acquired by a microphone from a reference signal, and the estimated noise from the input signal.
  • a signal generation unit that generates a noise reduction signal obtained by subtracting a signal
  • a coefficient update unit that updates the filter coefficient of the adaptive filter using the noise removal signal
  • the computer is made to function as a specific unit for specifying at least one signal sample position among a plurality of signal sample positions from the signal sample position to the predetermined largest signal sample position, and the coefficient update unit is at least the at least specified by the specific unit.
  • the filter coefficient is updated at one signal sample position.
  • the filter coefficient was updated at all signal sample positions of a predetermined sampling frequency.
  • at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise elimination signal is the maximum to the predetermined largest signal sample position is specified.
  • the filter coefficient of the adaptive filter is updated at at least one signal sample position identified. Therefore, since the number of times of updating the filter coefficient of the adaptive filter is reduced, the amount of calculation for removing noise can be reduced.
  • FIG. 1 is a diagram showing a configuration of a communication device according to the first embodiment of the present disclosure.
  • the call device is used in a loudspeaker-type hands-free call system, a loudspeaker-type two-way communication conference system, an intercom system, etc. mounted on an automobile or the like.
  • the communication device shown in FIG. 1 includes a sound collecting device 1, a microphone 11, an input terminal 12, a speaker 13, and an output terminal 17.
  • the microphone 11 is arranged in the space where the speaker is, and picks up the voice of the speaker.
  • the microphone 11 outputs an input signal indicating the collected sound to the sound collecting device 1.
  • the input terminal 12 outputs a reproduction signal received from a communication device (not shown) on the receiving side to the sound collecting device 1 and the speaker 13.
  • the speaker 13 outputs the input reproduction signal to the outside.
  • the voice output from the speaker 13 is picked up by the microphone 11, the voice spoken by the speaker on the receiving side is reproduced with a delay from the speaker on the receiving side, so-called acoustic echo. Occurs.
  • the sound collecting device 1 includes an echo canceller 14, a noise removing signal generation unit 15, and a coefficient update determination unit 16.
  • the echo canceller 14 includes an adaptive filter 141 and a filter coefficient updating unit 142.
  • the adaptive filter 141 generates an estimated noise signal indicating a component of the noise signal included in the input signal acquired by the microphone 11 from the reference signal.
  • the reference signal is, for example, a reproduction signal output to the speaker 13.
  • the noise signal is, for example, an acoustic echo signal.
  • the adaptive filter 141 generates an estimated noise signal indicating a component of the noise signal included in the input signal by convolving the filter coefficient and the reference signal.
  • the estimated noise signal is also called a pseudo-echo signal.
  • the noise reduction signal generation unit 15 generates a noise removal signal obtained by subtracting the estimated noise signal from the input signal.
  • the noise reduction signal generation unit 15 generates a noise reduction signal by subtracting the estimated noise signal from the input signal.
  • the noise reduction signal generation unit 15 outputs the generated noise removal signal to the coefficient update determination unit 16 and the output terminal 17.
  • the coefficient update determination unit 16 includes an absolute value calculation unit 161 and a sample position identification unit 162.
  • the absolute value calculation unit 161 calculates the absolute value of the noise reduction signal generated by the noise reduction signal generation unit 15.
  • the sample position specifying unit 162 specifies at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise removal signal is maximum to the predetermined largest signal sample position.
  • the filter coefficient update unit 142 updates the filter coefficient of the adaptive filter 141 using the noise reduction signal at a predetermined sampling cycle.
  • the adaptive filter 141 generates an estimated noise signal by convolving the filter coefficient updated by the filter coefficient updating unit 142 with the reference signal.
  • the filter coefficient updating unit 142 updates the filter coefficient at at least one signal sample position specified by the sample position specifying unit 162. At least one signal sample position is the signal sample position where the absolute value of the denoising signal is maximum.
  • the filter coefficient update unit 142 updates the filter coefficient so that the noise reduction signal is minimized by using the adaptive algorithm.
  • the adaptive algorithm for example, a learning identification method (NLMS (Normalized Last Mean Square) method), an affine projection method or a recursive least squares method (RLS (Recursive Last Square) method) is used.
  • the output terminal 17 outputs a noise removal signal in which the noise component (acoustic echo component) is canceled from the input signal by the sound collecting device 1.
  • the output terminal 17 outputs the noise reduction signal generated by the noise reduction signal generation unit 15.
  • the input terminal 12 and the output terminal 17 are connected to a communication unit (not shown).
  • the communication unit transmits a noise reduction signal to the receiving side communication device (not shown) via the network, and receives a reproduction signal from the receiving side communication device (not shown) via the network.
  • the network is, for example, the Internet.
  • the conventional filter coefficient is calculated using the following formula (1).
  • pfCoef [n] represents the filter coefficient at the tap position n
  • represents the step gain
  • pfSpk [n + k] represents the reference signal
  • err [n + k] represents the noise reduction signal.
  • k represents the signal sample position in one frame.
  • the number of signal samples per frame is L, and the signal sample position k can take a value of 0 to L-1.
  • the number of taps is M, and the tap position n can take a value of 0 to M-1.
  • the conventional filter coefficient is updated L times per frame. Further, since the number of taps is M, the number of arithmetic processes per frame of the conventional filter coefficient is L * M times.
  • the filter coefficient in the first embodiment is calculated by using the following formula (2).
  • pfCoef [n] represents the filter coefficient at the tap position n
  • represents the step gain
  • pfSpk [n + t] represents the reference signal
  • err_max is the absolute value of the noise reduction signal in one frame. It represents the maximum value of the value
  • t represents the signal sample position where the absolute value of the noise reduction signal in one frame becomes the maximum.
  • the number of signal samples per frame is L, and the signal sample position k can take a value of 0 to L-1. Further, the number of taps is M, and the tap position n can take a value of 0 to M-1.
  • the filter coefficient of the first embodiment 1 is specified. Is updated only once per frame. Further, since the number of taps is M, the number of arithmetic processes per frame of the filter coefficient of the first embodiment is 1 * M times.
  • the filter coefficient updating unit 142 in the first embodiment can significantly reduce the amount of calculation for updating the filter coefficient as compared with the conventional case.
  • step gain ⁇ in the above equations (1) and (2) is also called a step size and is a positive constant that determines the update speed of the filter coefficient.
  • the filter coefficient update unit 142 may change the update speed for updating the filter coefficient according to the magnitude of the absolute value of the noise reduction signal at at least one signal sample position. That is, the filter coefficient update unit 142 may change the update speed for updating the filter coefficient according to the magnitude of the absolute value of the noise reduction signal at the signal sample position where the absolute value of the noise reduction signal is maximum.
  • the filter coefficient update unit 142 sets the update speed faster than the present, and the absolute value of the noise reduction signal at at least one signal sample position is the threshold value. If the following is true, the update speed will be slower than it is now.
  • the filter coefficient update unit 142 can change the update speed of the filter coefficient by adjusting the step gain ⁇ in the above equation (2). That is, the filter coefficient updating unit 142 increases the step gain ⁇ when the absolute value of the noise reduction signal at the signal sample position where the absolute value of the noise removal signal is maximum is larger than the threshold value. As a result, the update speed of the filter coefficient becomes faster than the present. On the other hand, the filter coefficient updating unit 142 reduces the step gain ⁇ when the absolute value of the noise reduction signal at the signal sample position where the absolute value of the noise removal signal is maximum is equal to or less than the threshold value. As a result, the update speed of the filter coefficient becomes slower than the present.
  • the update speed is set faster than the current value, so that the noise reduction signal can be roughly converged.
  • the update speed is set to be slower than the current speed, so that the noise reduction signal can be finely converged.
  • FIG. 2 is a flowchart for explaining the operation of the sound collecting device according to the first embodiment of the present disclosure.
  • step S1 the noise reduction signal generation unit 15 acquires the input signal from the microphone 11. At this time, the microphone 11 outputs the input signal to the noise reduction signal generation unit 15.
  • step S2 the adaptive filter 141 of the echo canceller 14 acquires the reference signal from the input terminal 12.
  • the input terminal 12 outputs the reproduction signal received from the communication device (not shown) on the receiving side to the sound collecting device 1 and the speaker 13.
  • the adaptive filter 141 acquires a reproduction signal output from the input terminal 12 to the speaker 13 as a reference signal.
  • step S3 the adaptive filter 141 generates an estimated noise signal indicating a component of the noise signal included in the input signal by convolving the filter coefficient and the reference signal.
  • step S4 the noise reduction signal generation unit 15 generates a noise removal signal by subtracting the estimated noise signal from the input signal.
  • the noise reduction signal generation unit 15 outputs the generated noise removal signal to the coefficient update determination unit 16 and the output terminal 17.
  • step S5 the output terminal 17 outputs the noise reduction signal generated by the noise reduction signal generation unit 15.
  • step S6 the absolute value calculation unit 161 of the coefficient update determination unit 16 acquires the noise reduction signal generated by the noise reduction signal generation unit 15.
  • step S7 the absolute value calculation unit 161 determines whether or not the noise removal signal for one frame has been acquired.
  • the sound collecting device 1 is provided with a memory (not shown).
  • the noise reduction signal generated by the noise reduction signal generation unit 15 is stored in the memory.
  • the absolute value calculation unit 161 may determine whether or not the noise reduction signal for one frame has been acquired by determining whether or not the noise reduction signal for one frame is stored in the memory.
  • step S7 if it is determined that the noise removal signal for one frame has not been acquired (NO in step S7), the process returns to step S1.
  • step S8 the absolute value calculation unit 161 has acquired each noise reduction signal for each signal sample position of one frame. Calculate the absolute value of.
  • step S9 the sample position specifying unit 162 specifies the signal sample position where the absolute value of the noise removal signal is the maximum.
  • step S10 the filter coefficient updating unit 142 updates the filter coefficient at the signal sample position where the absolute value of the noise removal signal specified by the sample position specifying unit 162 is the maximum.
  • the filter coefficient was updated at all signal sample positions of a predetermined sampling frequency.
  • at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the noise elimination signal is the maximum to the predetermined largest signal sample position. Is identified and the filter coefficient of the adaptive filter 141 is updated at at least one identified signal sample position. Therefore, since the number of times the filter coefficient of the adaptive filter 141 is updated is reduced, the amount of calculation for removing noise can be reduced.
  • the filter coefficient updating unit 142 updates the filter coefficient at the signal sample position where the absolute value of the noise removal signal is maximum, but the present disclosure is not particularly limited to this.
  • the filter coefficient update unit 142 may update the filter coefficient at the signal sample position where the absolute value of the denoising signal is the second largest, and updates the filter coefficient at the signal sample position where the absolute value of the denoising signal is the third largest. You may. That is, the filter coefficient update unit 142 updates the filter coefficient at one of a plurality of signal sample positions from the signal sample position where the absolute value of the noise removal signal is maximum to the predetermined largest signal sample position. You may.
  • the filter coefficient updating unit 142 may update the filter coefficient at the signal sample position where the absolute value of the noise elimination signal is the maximum and the signal sample position where the absolute value of the noise elimination signal is the second largest. That is, the filter coefficient update unit 142 has a filter coefficient at two or more signal sample positions among a plurality of signal sample positions from the signal sample position where the absolute value of the noise removal signal is maximum to the predetermined largest signal sample position. May be updated.
  • the reproduced signal output to the speaker 13 is input to the adaptive filter 141 as a reference signal, and an estimated noise signal indicating a component of the acoustic echo signal included in the input signal is generated. Disclosure is not particularly limited to this.
  • Another microphone different from the microphone 11 may be installed in the space where the microphone 11 is installed. The other microphone may acquire noise in the space other than the voice to be acquired by the microphone 11 and output the acquired noise signal to the adaptive filter 141 as a reference signal.
  • the echo canceller 14 is input with the reproduction signal in the time domain, and the noise elimination signal generation unit 15 is input with the input signal in the time domain.
  • the echo canceller 14 may be input with a reproduction signal in the frequency domain, and the noise elimination signal generation unit 15 may be input with an input signal in the frequency domain.
  • a fast Fourier transform unit may be provided between the input terminal 12 and the speaker 13 to convert the time domain reproduction signal input to the echo canceller 14 into the frequency domain reproduction signal. Further, even if a high-speed Fourier transform unit that converts an input signal in the time domain input to the noise elimination signal generation unit 15 into an input signal in the frequency domain is provided between the microphone 11 and the noise elimination signal generation unit 15. Good. Further, between the noise reduction signal generation unit 15 and the output terminal 17, the reverse high speed that converts the noise removal signal in the frequency domain input from the noise reduction signal generation unit 15 to the output terminal 17 into the noise reduction signal in the time domain. A Fourier transform unit may be provided.
  • the telephone device according to the first embodiment includes one microphone 11, but the telephone device according to the second embodiment includes a plurality of microphones.
  • FIG. 3 is a diagram showing a configuration of a communication device according to the second embodiment of the present disclosure.
  • the communication device shown in FIG. 3 includes a sound collecting device 1A, a first microphone 11A, a second microphone 11B, an input terminal 12, a speaker 13, a first output terminal 17A, and a second output terminal 17B.
  • a sound collecting device 1A a first microphone 11A, a second microphone 11B, an input terminal 12, a speaker 13, a first output terminal 17A, and a second output terminal 17B.
  • the same components as those in the first embodiment are designated by the same reference numerals and the description thereof will be omitted.
  • the first microphone 11A and the second microphone 11B are arranged in the space where the speaker is present, and pick up the voice of the speaker.
  • the first microphone 11A outputs a first input signal indicating the picked-up sound to the sound picking device 1A.
  • the second microphone 11B outputs a second input signal indicating the picked-up sound to the sound picking device 1A.
  • the first output terminal 17A outputs a first noise removal signal in which the noise component (acoustic echo component) is canceled from the first input signal by the sound collecting device 1A.
  • the second output terminal 17B outputs a second noise removal signal in which the noise component (acoustic echo component) is canceled from the second input signal by the sound collecting device 1A.
  • the input terminal 12, the first output terminal 17A, and the second output terminal 17B are connected to a communication unit (not shown).
  • the communication unit transmits a noise reduction signal to the receiving side communication device (not shown) via the network, and receives a reproduction signal from the receiving side communication device (not shown) via the network.
  • the sound collecting device 1A includes a first echo canceller 14A, a first noise elimination signal generation unit 15A, a first coefficient update determination unit 16A, a second echo canceller 14B, a second noise elimination signal generation unit 15B, and a second coefficient update determination unit. It is equipped with 16B.
  • the first echo canceller 14A includes a first adaptive filter 141A and a first filter coefficient updating unit 142A.
  • the second echo canceller 14B includes a second adaptive filter 141B and a second filter coefficient updating unit 142B.
  • the first adaptive filter 141A generates a first estimated noise signal indicating a component of the noise signal included in the first input signal acquired by the first microphone 11A from the reference signal.
  • the second adaptive filter 141B generates a second estimated noise signal indicating a component of the noise signal included in the second input signal acquired by the second microphone 11B different from the first microphone 11A from the reference signal.
  • the first noise reduction signal generation unit 15A generates a first noise removal signal obtained by subtracting the first estimated noise signal from the first input signal.
  • the first noise reduction signal generation unit 15A generates the first noise reduction signal by subtracting the first estimated noise signal from the first input signal.
  • the first noise reduction signal generation unit 15A outputs the generated first noise reduction signal to the first coefficient update determination unit 16A and the first output terminal 17A.
  • the second noise reduction signal generation unit 15B generates a second noise removal signal obtained by subtracting the second estimated noise signal from the second input signal.
  • the second noise reduction signal generation unit 15B generates a second noise reduction signal by subtracting the second estimated noise signal from the second input signal.
  • the second noise reduction signal generation unit 15B outputs the generated second noise reduction signal to the second coefficient update determination unit 16B and the second output terminal 17B.
  • the first coefficient update determination unit 16A includes a first absolute value calculation unit 161A and a first sample position identification unit 162A.
  • the second coefficient update determination unit 16B includes a second absolute value calculation unit 161B and a second sample position identification unit 162B.
  • the first absolute value calculation unit 161A calculates the absolute value of the first noise reduction signal generated by the first noise reduction signal generation unit 15A.
  • the first sample position specifying unit 162A identifies at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the first noise removal signal is maximum to the predetermined largest signal sample position. To do.
  • the second absolute value calculation unit 161B calculates the absolute value of the second noise reduction signal generated by the second noise reduction signal generation unit 15B.
  • the second sample position specifying unit 162B specifies at least one signal sample position among a plurality of signal sample positions from the signal sample position where the absolute value of the second noise removal signal is maximum to the predetermined largest signal sample position. To do.
  • the first filter coefficient update unit 142A updates the filter coefficient of the first adaptive filter 141A using the first noise reduction signal.
  • the first adaptive filter 141A generates a first estimated noise signal by convolving the filter coefficient updated by the first filter coefficient updating unit 142A with the reference signal.
  • the first filter coefficient updating unit 142A updates the filter coefficient at at least one signal sample position specified by the first sample position specifying unit 162A. At least one signal sample position is the signal sample position where the absolute value of the first denoising signal is maximum.
  • the second filter coefficient update unit 142B updates the filter coefficient of the second adaptive filter 141B using the second noise reduction signal.
  • the second adaptive filter 141B generates a second estimated noise signal by convolving the filter coefficient updated by the second filter coefficient updating unit 142B with the reference signal.
  • the second filter coefficient updating unit 142B updates the filter coefficient at at least one signal sample position specified by the second sample position specifying unit 162B. At least one signal sample position is the signal sample position where the absolute value of the second denoising signal is maximum.
  • the filter coefficient update process in the second embodiment is the same as the filter coefficient update process in the first embodiment.
  • the communication device is provided with two microphones, but the present disclosure is not particularly limited to this, and the communication device may be provided with three or more microphones.
  • the echo canceller and the coefficient update judgment unit are also increased by one.
  • the amount of calculation for each process is reduced as compared with the conventional case, so that the amount of calculation for the entire process can be reduced as compared with the conventional case.
  • the sound collecting device divides the input signal into a plurality of frequency bands, divides the reference signal into a plurality of frequency bands, generates a noise elimination signal for each of the plurality of frequency bands, and generates a noise elimination signal for each of the plurality of frequency bands.
  • the noise reduction signal generated in is synthesized.
  • FIG. 4 is a diagram showing a configuration of a communication device according to the third embodiment of the present disclosure.
  • the communication device shown in FIG. 4 includes a sound collecting device 1B, a microphone 11, an input terminal 12, a speaker 13, and an output terminal 17.
  • a sound collecting device 1B receives sound from a speaker
  • a microphone 11 receives sound from a speaker
  • an output terminal 17 receives signals from a speaker
  • the same components as those in the first embodiment are designated by the same reference numerals and the description thereof will be omitted.
  • the sound collecting device 1B includes a first echo canceller 14A, a first noise elimination signal generation unit 15A, a first coefficient update determination unit 16A, a second echo canceller 14B, a second noise elimination signal generation unit 15B, and a second coefficient update determination unit. 16B, 3rd echo canceller 14C, 3rd noise elimination signal generation unit 15C, 3rd coefficient update determination unit 16C, 4th echo canceller 14D, 4th noise elimination signal generation unit 15D, 4th coefficient update determination unit 16D, 1st A band division unit 21, a second band division unit 22, and a band synthesis unit 23 are provided.
  • the first band division unit 21 divides the input signal output from the microphone 11 into a plurality of frequency bands. In the third embodiment, the input signal is divided into four frequency bands. The first band division unit 21 divides the full band input signal into four subband input signals having different frequency bands. The first band division unit 21 uses each of the input signals of the four subbands as a first noise reduction signal generation unit 15A, a second noise reduction signal generation unit 15B, a third noise removal signal generation unit 15C, and a fourth noise removal unit. Output to the signal generation unit 15D.
  • the second band division unit 22 divides the reference signal output from the input terminal 12 into a plurality of frequency bands.
  • the reference signal is divided into four frequency bands.
  • the second band division unit 22 divides the full band reference signal into four subband reference signals having different frequency bands.
  • the second band division unit 22 outputs each of the reference signals of the four subbands to the first echo canceller 14A, the second echo canceller 14B, the third echo canceller 14C, and the fourth echo canceller 14D.
  • the configuration of the first echo canceller 14A, the second echo canceller 14B, the third echo canceller 14C, and the fourth echo canceller 14D is the same as the configuration of the echo canceller 14 in the first embodiment. That is, the first echo canceller 14A, the second echo canceller 14B, the third echo canceller 14C, and the fourth echo canceller 14D each include an adaptive filter 141 and a filter coefficient updating unit 142, respectively.
  • the configuration of the first coefficient update determination unit 16A, the second coefficient update determination unit 16B, the third coefficient update determination unit 16C, and the fourth coefficient update determination unit 16D is the same as the configuration of the coefficient update determination unit 16 in the first embodiment. is there. That is, the first coefficient update determination unit 16A, the second coefficient update determination unit 16B, the third coefficient update determination unit 16C, and the fourth coefficient update determination unit 16D include an absolute value calculation unit 161 and a sample position identification unit 162, respectively.
  • the plurality of adaptive filters 141 generate an estimated noise signal for each of a plurality of frequency bands.
  • the first noise reduction signal generation unit 15A, the second noise reduction signal generation unit 15B, the third noise reduction signal generation unit 15C, and the fourth noise reduction signal generation unit 15D generate noise removal signals for each of a plurality of frequency bands.
  • the plurality of sample position specifying units 162 specify at least one signal sample position for each of a plurality of frequency bands.
  • the plurality of filter coefficient update units 142 update the filter coefficient at at least one signal sample position for each of the plurality of frequency bands.
  • the filter coefficient update process in the third embodiment is the same as the filter coefficient update process in the first embodiment.
  • the band synthesis unit 23 synthesizes the noise reduction signals generated for each of a plurality of frequency bands.
  • the band synthesis unit 23 synthesizes the noise reduction signals generated by the first noise reduction signal generation unit 15A, the second noise reduction signal generation unit 15B, the third noise reduction signal generation unit 15C, and the fourth noise reduction signal generation unit 15D. To do.
  • the band synthesizing unit 23 synthesizes four sub-band denoising signals into a full-band denoising signal.
  • the band synthesis unit 23 outputs a full-band noise reduction signal to the output terminal 17.
  • the input signal and the reference signal are divided into four frequency bands, but the present disclosure is not particularly limited to this, and the input signal and the reference signal may be divided into two frequency bands. It may be divided into three frequency bands, or it may be divided into five or more frequency bands.
  • the input signal and the reference signal are divided into a plurality of frequency bands, and an estimated noise signal generation process, a noise removal signal generation process, a signal sample position identification process, and a filter coefficient update process are performed for each of the plurality of frequency bands. Therefore, the calculation time can be shortened and the calculation amount per unit time can be reduced.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the program may also be implemented by another independent computer system by recording and transporting the program on a recording medium or by transporting the program via a network.
  • LSI Large Scale Integration
  • FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • a part or all of the functions of the device according to the embodiment of the present disclosure may be realized by executing a program by a processor such as a CPU.
  • each step shown in the above flowchart is executed is for exemplifying the present disclosure in detail, and may be an order other than the above as long as the same effect can be obtained. .. Further, a part of the above steps may be executed at the same time (parallel) as other steps.
  • the technique according to the present disclosure can reduce the amount of calculation for removing noise, it is useful for the technique for removing the noise signal included in the input signal acquired by the microphone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

収音装置(1)は、参照信号から、マイクロホン(11)によって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタ(141)と、入力信号から推定雑音信号を減算した雑音除去信号を生成する雑音除去信号生成部(15)と、雑音除去信号を用いて適応フィルタ(141)のフィルタ係数を更新するフィルタ係数更新部(142)と、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定するサンプル位置特定部(162)とを備え、フィルタ係数更新部(142)は、サンプル位置特定部(162)によって特定された少なくとも1つの信号サンプル位置においてフィルタ係数を更新する。

Description

収音装置、収音方法及び収音プログラム
 本開示は、マイクロホンによって取得された入力信号に含まれる雑音信号を除去する収音装置、収音方法及び収音プログラムに関するものである。
 従来、マイクロホンとスピーカとを用いた拡声型の双方向通話システムが存在している。このような拡声型の双方向通話システムにおいて、送話側の話者が話した音声は、送話側のマイクロホンに入力され、送話信号として通信回線を介して受話側の機器へ送信され、受話側のスピーカで再生される。受話側のスピーカで再生された音声は、受話側の空間を伝搬し受話側のマイクロホンに入力され、送話側に送信される。このとき、送話側のスピーカからは、通信回線を通過した時間と受話側の空間を伝搬した時間とを経過した自身の発話した声が再生される。このように、受話側のスピーカからマイクロホンの間で伝搬する音声は音響エコーと呼ばれ、通話品質の劣化に繋がる。
 例えば、特許文献1に示す雑音消去装置は、音声入力端子に入力された音声および雑音に応じた第1受音信号を生成し、参照入力端子に入力された雑音に応じた第2受音信号を生成し、適応フィルタにより第2受音信号から擬似雑音信号を生成し、第1受音信号から擬似雑音信号を減算して雑音抑圧信号を生成し、雑音抑圧信号を用いて適応フィルタのフィルタ係数を更新し、雑音源と参照入力端子および音声入力端子との相対的位置関係により、フィルタ係数がピーク値となるタップを示すピークタップ位置を導出し、ピークタップ位置を利用して、フィルタ係数に対応するタップ位置の区間を分類し、分類した区間毎に、区間に対応するフィルタ係数の更新頻度を制御している。
 しかしながら、上記従来の技術では、雑音を除去するための演算量を削減するために、更なる改善が必要とされていた。
特許第5205935号明細書
 本開示は、上記の問題を解決するためになされたもので、雑音を除去するための演算量を削減することができる技術を提供することを目的とするものである。
 本開示の一態様に係る収音装置は、参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタと、前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成する信号生成部と、前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する係数更新部と、前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する特定部とを備え、前記係数更新部は、前記特定部によって特定された前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する。
 本開示によれば、雑音を除去するための演算量を削減することができる。
本開示の実施の形態1における通話装置の構成を示す図である。 本開示の実施の形態1における収音装置の動作を説明するためのフローチャートである。 本開示の実施の形態2における通話装置の構成を示す図である。 本開示の実施の形態3における通話装置の構成を示す図である。
 (本開示の基礎となった知見)
 上記の従来の技術では、雑音源と参照入力端子および音声入力端子との相対的位置関係により、フィルタ係数がピーク値となるタップを示すピークタップ位置を導出し、ピークタップ位置を利用して、フィルタ係数に対応するタップ位置の区間を分類し、分類した区間毎に、区間に対応するフィルタ係数の更新頻度を制御している。すなわち、従来の技術は、ピークタップ位置の近傍の第1の区間を特定し、第1の区間以外の区間におけるフィルタ係数の更新頻度を、第1の区間におけるフィルタ係数の更新頻度よりも低くしている。これにより、従来の技術は、装置又は環境によるフィルタ係数の変動が小さい区間におけるフィルタ係数の更新頻度を低くすることにより、計算量を抑えている。
 上記の従来の技術は、雑音源と参照入力端子および音声入力端子との相対的位置関係により、フィルタ係数がピーク値となるタップを示すピークタップ位置を算出しているが、音声入力端子が生成する信号から適応フィルタが生成する擬似雑音信号を減算した差信号のピーク値を算出していない。そのため、上記従来の技術は、雑音を除去するための演算量をさらに削減するための更なる改善が可能であると考えられる。
 以上の課題を解決するために、本開示の一態様に係る収音装置は、参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタと、前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成する信号生成部と、前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する係数更新部と、前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する特定部とを備え、前記係数更新部は、前記特定部によって特定された前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する。
 従来は所定のサンプリング周波数の全ての信号サンプル位置においてフィルタ係数が更新されていた。これに対し、本構成によれば、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置が特定され、特定された少なくとも1つの信号サンプル位置において適応フィルタのフィルタ係数が更新される。したがって、適応フィルタのフィルタ係数の更新処理回数が削減されるので、雑音を除去するための演算量を削減することができる。
 また、上記の収音装置において、前記少なくとも1つの信号サンプル位置は、前記雑音除去信号の絶対値が最大である信号サンプル位置であってもよい。
 この構成によれば、雑音除去信号の絶対値が最大である信号サンプル位置において適応フィルタのフィルタ係数が更新されるので、フィルタ係数の更新処理回数が1フレーム毎に1回となり、雑音を除去するための演算量をより削減することができる。
 また、上記の収音装置において、前記参照信号は、スピーカへ出力される再生信号であってもよい。
 この構成によれば、マイクロホンによって取得された入力信号に含まれる音響エコーの成分を除去することができる。
 また、上記の収音装置において、前記係数更新部は、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値の大きさに応じて、前記フィルタ係数を更新する更新速度を変化させてもよい。
 この構成によれば、例えば、更新速度を速くすることにより、雑音除去信号を大まかに収束させることができ、更新速度を遅くすることにより、雑音除去信号を細かく収束させることができる。
 また、上記の収音装置において、前記係数更新部は、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値が閾値より大きい場合、前記更新速度を現在よりも速くし、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値が前記閾値以下である場合、前記更新速度を現在よりも遅くしてもよい。
 この構成によれば、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値より大きい場合、更新速度が現在よりも速く設定されるので、雑音除去信号を大まかに収束させることができる。また、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値以下である場合、更新速度が現在よりも遅く設定されるので、雑音除去信号を細かく収束させることができる。この結果、演算速度の向上と、演算精度の向上との両立を図ることができる。
 また、上記の収音装置において、前記入力信号を複数の周波数帯域に分割する第1帯域分割部と、前記参照信号を前記複数の周波数帯域に分割する第2帯域分割部と、前記複数の周波数帯域毎に生成された前記雑音除去信号を合成する帯域合成部と、をさらに備え、前記適応フィルタは、前記複数の周波数帯域毎に前記推定雑音信号を生成する複数の適応フィルタを含み、前記信号生成部は、前記複数の周波数帯域毎に前記雑音除去信号を生成する複数の信号生成部を含み、前記特定部は、前記複数の周波数帯域毎に前記少なくとも1つの信号サンプル位置を特定する複数の特定部を含み、前記係数更新部は、前記複数の周波数帯域毎に前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する複数の係数更新部を含んでもよい。
 この構成によれば、入力信号及び参照信号が複数の周波数帯域に分割され、複数の周波数帯域毎に、推定雑音信号の生成処理、雑音除去信号の生成処理、信号サンプル位置の特定処理及びフィルタ係数の更新処理が行われるので、演算時間を短縮することができるとともに、単位時間あたりの演算量を削減することができる。
 また、上記の収音装置において、前記適応フィルタは、参照信号から、第1マイクロホンによって取得された第1入力信号に含まれる雑音信号の成分を示す第1推定雑音信号を生成する第1適応フィルタと、参照信号から、前記第1マイクロホンとは異なる第2マイクロホンによって取得された第2入力信号に含まれる雑音信号の成分を示す第2推定雑音信号を生成する第2適応フィルタと、を含み、前記信号生成部は、前記第1入力信号から前記第1推定雑音信号を減算した第1雑音除去信号を生成する第1信号生成部と、前記第2入力信号から前記第2推定雑音信号を減算した第2雑音除去信号を生成する第2信号生成部と、を含み、前記係数更新部は、前記第1雑音除去信号を用いて前記第1適応フィルタのフィルタ係数を更新する第1係数更新部と、前記第2雑音除去信号を用いて前記第2適応フィルタのフィルタ係数を更新する第2係数更新部と、を含み、前記特定部は、前記第1雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する第1特定部と、前記第2雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する第2特定部と、を含んでもよい。
 この構成によれば、マイクロホンが1つ増える毎に、適応フィルタ、信号生成部、係数更新部及び特定部もそれぞれ1つずつ増える。しかしながら、マイクロホンが増えたとしても、個々の処理の演算量は従来よりも削減されるので、処理全体の演算量を従来よりも削減することができる。
 本開示の他の態様に係る収音方法は、適応フィルタ、信号生成部、係数更新部及び特定部を備える収音装置における収音方法であって、前記適応フィルタが、参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成し、前記信号生成部が、前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成し、前記特定部が、前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定し、前記係数更新部が、特定された前記少なくとも1つの信号サンプル位置において前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する。
 従来は所定のサンプリング周波数の全ての信号サンプル位置においてフィルタ係数が更新されていた。これに対し、本構成によれば、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置が特定され、特定された少なくとも1つの信号サンプル位置において適応フィルタのフィルタ係数が更新される。したがって、適応フィルタのフィルタ係数の更新処理回数が削減されるので、雑音を除去するための演算量を削減することができる。
 本開示の他の態様に係る収音プログラムは、参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタと、前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成する信号生成部と、前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する係数更新部と、前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する特定部としてコンピュータを機能させ、前記係数更新部は、前記特定部によって特定された前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する。
 従来は所定のサンプリング周波数の全ての信号サンプル位置においてフィルタ係数が更新されていた。これに対し、本構成によれば、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置が特定され、特定された少なくとも1つの信号サンプル位置において適応フィルタのフィルタ係数が更新される。したがって、適応フィルタのフィルタ係数の更新処理回数が削減されるので、雑音を除去するための演算量を削減することができる。
 以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
 (実施の形態1)
 図1は、本開示の実施の形態1における通話装置の構成を示す図である。なお、通話装置は、自動車等に搭載される拡声型のハンズフリー通話システム、拡声型の双方向通信会議システム及びインターホンシステムなどに利用される。
 図1に示す通話装置は、収音装置1、マイクロホン11、入力端子12、スピーカ13及び出力端子17を備える。
 マイクロホン11は、送話者がいる空間内に配置され、送話者の音声を収音する。マイクロホン11は、収音した音声を示す入力信号を収音装置1に出力する。
 入力端子12は、受話側の通話装置(不図示)から受信した再生信号を収音装置1及びスピーカ13へ出力する。
 スピーカ13は、入力された再生信号を外部へ出力する。ここで、スピーカ13から出力された音声が、マイクロホン11によって収音された場合、受話側のスピーカからは、受話側の話者の発話した音声が遅れて再生されることになり、いわゆる音響エコーが発生する。
 収音装置1は、エコーキャンセラ14、雑音除去信号生成部15及び係数更新判断部16を備える。
 エコーキャンセラ14は、適応フィルタ141及びフィルタ係数更新部142を備える。
 適応フィルタ141は、参照信号から、マイクロホン11によって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する。参照信号は、例えば、スピーカ13へ出力される再生信号である。雑音信号は、例えば、音響エコー信号である。適応フィルタ141は、フィルタ係数と参照信号とを畳み込むことにより、入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する。なお、推定雑音信号は、擬似エコー信号とも呼ばれる。
 雑音除去信号生成部15は、入力信号から推定雑音信号を減算した雑音除去信号を生成する。雑音除去信号生成部15は、入力信号から推定雑音信号を減算することにより、雑音除去信号を生成する。雑音除去信号生成部15は、生成した雑音除去信号を係数更新判断部16及び出力端子17へ出力する。
 係数更新判断部16は、絶対値算出部161及びサンプル位置特定部162を備える。
 絶対値算出部161は、雑音除去信号生成部15によって生成された雑音除去信号の絶対値を算出する。
 サンプル位置特定部162は、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する。
 フィルタ係数更新部142は、所定のサンプリング周期で、雑音除去信号を用いて適応フィルタ141のフィルタ係数を更新する。適応フィルタ141は、フィルタ係数更新部142によって更新されたフィルタ係数と参照信号とを畳み込むことにより推定雑音信号を生成する。フィルタ係数更新部142は、サンプル位置特定部162によって特定された少なくとも1つの信号サンプル位置においてフィルタ係数を更新する。少なくとも1つの信号サンプル位置は、雑音除去信号の絶対値が最大である信号サンプル位置である。
 フィルタ係数更新部142は、適応アルゴリズムを用いて、雑音除去信号が最小となるようにフィルタ係数を更新する。適応アルゴリズムとしては、例えば、学習同定法(NLMS(Normarized Least Mean Square)法)、アフィン射影法又は再帰的最小2乗法(RLS(Recursive Least Square)法)が用いられる。
 出力端子17は、収音装置1によって入力信号から雑音成分(音響エコー成分)をキャンセルした雑音除去信号を出力する。出力端子17は、雑音除去信号生成部15によって生成された雑音除去信号を出力する。
 なお、入力端子12及び出力端子17は、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の通話装置(不図示)へ雑音除去信号を送信するとともに、ネットワークを介して受話側の通話装置(不図示)から再生信号を受信する。ネットワークは、例えば、インターネットである。
 ここで、本実施の形態1におけるフィルタ係数の更新について説明する。
 従来のフィルタ係数は、下記の式(1)を用いて算出される。
Figure JPOXMLDOC01-appb-M000001
 上記の式(1)において、pfCoef[n]はタップ位置nにおけるフィルタ係数を表し、μはステップゲインを表し、pfSpk[n+k]は参照信号を表し、err[n+k]は雑音除去信号を表し、kは1フレーム中における信号サンプル位置を表す。1フレームあたりの信号サンプル数はL個であり、信号サンプル位置kは0~L-1の値を取り得る。また、タップ数はM個であり、タップ位置nは0~M-1の値を取り得る。
 上記の式(1)に示すように、1フレームあたりの信号サンプル数はL個であるため、従来のフィルタ係数は、1フレームあたりL回更新される。さらに、タップ数はM個であるため、従来のフィルタ係数の1フレームあたりの演算処理数は、L*M回となる。
 一方、本実施の形態1におけるフィルタ係数は、下記の式(2)を用いて算出される。
Figure JPOXMLDOC01-appb-M000002
 上記の式(2)において、pfCoef[n]はタップ位置nにおけるフィルタ係数を表し、μはステップゲインを表し、pfSpk[n+t]は参照信号を表し、err_maxは1フレーム中における雑音除去信号の絶対値の最大値を表し、tは1フレーム中における雑音除去信号の絶対値が最大となる信号サンプル位置を表す。1フレームあたりの信号サンプル数はL個であり、信号サンプル位置kは0~L-1の値を取り得る。また、タップ数はM個であり、タップ位置nは0~M-1の値を取り得る。
 上記の式(2)に示すように、L個の信号サンプル位置の中から雑音除去信号の絶対値が最大となる1つの信号サンプル位置tが特定されるため、本実施の形態1のフィルタ係数は、1フレームあたり1回のみ更新される。さらに、タップ数はM個であるため、本実施の形態1のフィルタ係数の1フレームあたりの演算処理数は、1*M回となる。
 このように、本実施の形態1におけるフィルタ係数更新部142は、フィルタ係数を更新するための演算量を従来に比べて大幅に削減することができる。
 また、上記の式(1)及び式(2)におけるステップゲインμは、ステップサイズとも呼ばれ、フィルタ係数の更新速度を決定する正の定数である。
 フィルタ係数更新部142は、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値の大きさに応じて、フィルタ係数を更新する更新速度を変化させてもよい。すなわち、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置における雑音除去信号の絶対値の大きさに応じて、フィルタ係数を更新する更新速度を変化させてもよい。フィルタ係数更新部142は、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値より大きい場合、更新速度を現在よりも速くし、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値以下である場合、更新速度を現在よりも遅くする。
 フィルタ係数更新部142は、上記の式(2)におけるステップゲインμを調整することにより、フィルタ係数の更新速度を変化させることができる。すなわち、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置における雑音除去信号の絶対値が閾値より大きい場合、ステップゲインμを大きくする。これにより、フィルタ係数の更新速度が現在よりも速くなる。一方、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置における雑音除去信号の絶対値が閾値以下である場合、ステップゲインμを小さくする。これにより、フィルタ係数の更新速度は現在よりも遅くなる。
 このように、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値より大きい場合、更新速度が現在よりも速く設定されるので、雑音除去信号を大まかに収束させることができる。また、少なくとも1つの信号サンプル位置における雑音除去信号の絶対値が閾値以下である場合、更新速度が現在よりも遅く設定されるので、雑音除去信号を細かく収束させることができる。この結果、演算速度の向上と、演算精度の向上との両立を図ることができる。
 続いて、本開示の実施の形態1における収音装置1の動作について説明する。
 図2は、本開示の実施の形態1における収音装置の動作を説明するためのフローチャートである。
 まず、ステップS1において、雑音除去信号生成部15は、マイクロホン11からの入力信号を取得する。このとき、マイクロホン11は、入力信号を雑音除去信号生成部15へ出力する。
 次に、ステップS2において、エコーキャンセラ14の適応フィルタ141は、入力端子12からの参照信号を取得する。このとき、入力端子12は、受話側の通話装置(不図示)から受信した再生信号を収音装置1及びスピーカ13へ出力する。適応フィルタ141は、入力端子12からスピーカ13へ出力される再生信号を参照信号として取得する。
 次に、ステップS3において、適応フィルタ141は、フィルタ係数と参照信号とを畳み込むことにより、入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する。
 次に、ステップS4において、雑音除去信号生成部15は、入力信号から推定雑音信号を減算することにより、雑音除去信号を生成する。雑音除去信号生成部15は、生成した雑音除去信号を係数更新判断部16及び出力端子17へ出力する。
 次に、ステップS5において、出力端子17は、雑音除去信号生成部15によって生成された雑音除去信号を出力する。
 次に、ステップS6において、係数更新判断部16の絶対値算出部161は、雑音除去信号生成部15によって生成された雑音除去信号を取得する。
 次に、ステップS7において、絶対値算出部161は、1フレーム分の雑音除去信号を取得したか否かを判断する。
 なお、収音装置1は、不図示のメモリを備えている。雑音除去信号生成部15によって生成された雑音除去信号はメモリに記憶される。絶対値算出部161は、1フレーム分の雑音除去信号がメモリに記憶されているか否かを判断することにより、1フレーム分の雑音除去信号を取得したか否かを判断してもよい。
 ここで、1フレーム分の雑音除去信号を取得していないと判断された場合(ステップS7でNO)、ステップS1に処理が戻る。
 一方、1フレーム分の雑音除去信号を取得したと判断された場合(ステップS7でYES)、ステップS8において、絶対値算出部161は、1フレームの信号サンプル位置毎に取得された各雑音除去信号の絶対値を算出する。
 次に、ステップS9において、サンプル位置特定部162は、雑音除去信号の絶対値が最大である信号サンプル位置を特定する。
 次に、ステップS10において、フィルタ係数更新部142は、サンプル位置特定部162によって特定された雑音除去信号の絶対値が最大である信号サンプル位置においてフィルタ係数を更新する。
 従来は所定のサンプリング周波数の全ての信号サンプル位置においてフィルタ係数が更新されていた。これに対し、本実施の形態1によれば、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置が特定され、特定された少なくとも1つの信号サンプル位置において適応フィルタ141のフィルタ係数が更新される。したがって、適応フィルタ141のフィルタ係数の更新処理回数が削減されるので、雑音を除去するための演算量を削減することができる。
 なお、本実施の形態1では、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置においてフィルタ係数を更新しているが、本開示は特にこれに限定されない。フィルタ係数更新部142は、雑音除去信号の絶対値が2番目に大きい信号サンプル位置においてフィルタ係数を更新してもよく、雑音除去信号の絶対値が3番目に大きい信号サンプル位置においてフィルタ係数を更新してもよい。すなわち、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの1つの信号サンプル位置においてフィルタ係数を更新してもよい。
 また、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置及び雑音除去信号の絶対値が2番目に大きい信号サンプル位置においてフィルタ係数を更新してもよい。すなわち、フィルタ係数更新部142は、雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの2つ以上の信号サンプル位置においてフィルタ係数を更新してもよい。
 また、本実施の形態1では、スピーカ13に出力される再生信号が参照信号として適応フィルタ141に入力され、入力信号に含まれる音響エコー信号の成分を示す推定雑音信号が生成されるが、本開示は特にこれに限定されない。マイクロホン11とは異なる他のマイクロホンが、マイクロホン11が設置されている空間内に設置されてもよい。他のマイクロホンは、マイクロホン11が取得対象とする音声以外の空間内の雑音を取得し、取得した雑音信号を適応フィルタ141へ参照信号として出力してもよい。
 また、本実施の形態1では、エコーキャンセラ14には、時間領域の再生信号が入力され、雑音除去信号生成部15には、時間領域の入力信号が入力されるが、本開示は特にこれに限定されず、エコーキャンセラ14には、周波数領域の再生信号が入力され、雑音除去信号生成部15には、周波数領域の入力信号が入力されてもよい。
 この場合、入力端子12とスピーカ13との間には、エコーキャンセラ14に入力される時間領域の再生信号を周波数領域の再生信号に変換する高速フーリエ変換部が設けられてもよい。また、マイクロホン11と雑音除去信号生成部15との間には、雑音除去信号生成部15に入力される時間領域の入力信号を周波数領域の入力信号に変換する高速フーリエ変換部が設けられてもよい。また、雑音除去信号生成部15と出力端子17との間には、雑音除去信号生成部15から出力端子17に入力される周波数領域の雑音除去信号を時間領域の雑音除去信号に変換する逆高速フーリエ変換部が設けられてもよい。
 (実施の形態2)
 実施の形態1における通話装置は、1つのマイクロホン11を備えているが、実施の形態2における通話装置は、複数のマイクロホンを備えている。
 図3は、本開示の実施の形態2における通話装置の構成を示す図である。
 図3に示す通話装置は、収音装置1A、第1マイクロホン11A、第2マイクロホン11B、入力端子12、スピーカ13、第1出力端子17A及び第2出力端子17Bを備える。なお、実施の形態2において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 第1マイクロホン11A及び第2マイクロホン11Bは、送話者がいる空間内に配置され、送話者の音声を収音する。第1マイクロホン11Aは、収音した音声を示す第1入力信号を収音装置1Aに出力する。第2マイクロホン11Bは、収音した音声を示す第2入力信号を収音装置1Aに出力する。
 第1出力端子17Aは、収音装置1Aによって第1入力信号から雑音成分(音響エコー成分)をキャンセルした第1雑音除去信号を出力する。第2出力端子17Bは、収音装置1Aによって第2入力信号から雑音成分(音響エコー成分)をキャンセルした第2雑音除去信号を出力する。
 なお、入力端子12、第1出力端子17A及び第2出力端子17Bは、通信部(不図示)に接続されている。通信部は、ネットワークを介して受話側の通話装置(不図示)へ雑音除去信号を送信するとともに、ネットワークを介して受話側の通話装置(不図示)から再生信号を受信する。
 収音装置1Aは、第1エコーキャンセラ14A、第1雑音除去信号生成部15A、第1係数更新判断部16A、第2エコーキャンセラ14B、第2雑音除去信号生成部15B及び第2係数更新判断部16Bを備える。
 第1エコーキャンセラ14Aは、第1適応フィルタ141A及び第1フィルタ係数更新部142Aを備える。第2エコーキャンセラ14Bは、第2適応フィルタ141B及び第2フィルタ係数更新部142Bを備える。
 第1適応フィルタ141Aは、参照信号から、第1マイクロホン11Aによって取得された第1入力信号に含まれる雑音信号の成分を示す第1推定雑音信号を生成する。
 第2適応フィルタ141Bは、参照信号から、第1マイクロホン11Aとは異なる第2マイクロホン11Bによって取得された第2入力信号に含まれる雑音信号の成分を示す第2推定雑音信号を生成する。
 第1雑音除去信号生成部15Aは、第1入力信号から第1推定雑音信号を減算した第1雑音除去信号を生成する。第1雑音除去信号生成部15Aは、第1入力信号から第1推定雑音信号を減算することにより、第1雑音除去信号を生成する。第1雑音除去信号生成部15Aは、生成した第1雑音除去信号を第1係数更新判断部16A及び第1出力端子17Aへ出力する。
 第2雑音除去信号生成部15Bは、第2入力信号から第2推定雑音信号を減算した第2雑音除去信号を生成する。第2雑音除去信号生成部15Bは、第2入力信号から第2推定雑音信号を減算することにより、第2雑音除去信号を生成する。第2雑音除去信号生成部15Bは、生成した第2雑音除去信号を第2係数更新判断部16B及び第2出力端子17Bへ出力する。
 第1係数更新判断部16Aは、第1絶対値算出部161A及び第1サンプル位置特定部162Aを備える。第2係数更新判断部16Bは、第2絶対値算出部161B及び第2サンプル位置特定部162Bを備える。
 第1絶対値算出部161Aは、第1雑音除去信号生成部15Aによって生成された第1雑音除去信号の絶対値を算出する。
 第1サンプル位置特定部162Aは、第1雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する。
 第2絶対値算出部161Bは、第2雑音除去信号生成部15Bによって生成された第2雑音除去信号の絶対値を算出する。
 第2サンプル位置特定部162Bは、第2雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する。
 第1フィルタ係数更新部142Aは、第1雑音除去信号を用いて第1適応フィルタ141Aのフィルタ係数を更新する。第1適応フィルタ141Aは、第1フィルタ係数更新部142Aによって更新されたフィルタ係数と参照信号とを畳み込むことにより第1推定雑音信号を生成する。第1フィルタ係数更新部142Aは、第1サンプル位置特定部162Aによって特定された少なくとも1つの信号サンプル位置においてフィルタ係数を更新する。少なくとも1つの信号サンプル位置は、第1雑音除去信号の絶対値が最大である信号サンプル位置である。
 第2フィルタ係数更新部142Bは、第2雑音除去信号を用いて第2適応フィルタ141Bのフィルタ係数を更新する。第2適応フィルタ141Bは、第2フィルタ係数更新部142Bによって更新されたフィルタ係数と参照信号とを畳み込むことにより第2推定雑音信号を生成する。第2フィルタ係数更新部142Bは、第2サンプル位置特定部162Bによって特定された少なくとも1つの信号サンプル位置においてフィルタ係数を更新する。少なくとも1つの信号サンプル位置は、第2雑音除去信号の絶対値が最大である信号サンプル位置である。
 なお、本実施の形態2におけるフィルタ係数の更新処理は、実施の形態1におけるフィルタ係数の更新処理と同じである。
 また、本実施の形態2では、通話装置は2つマイクロホンを備えているが、本開示は特にこれに限定されず、通話装置は3つ以上のマイクロホンを備えてもよい。
 このように、マイクロホンが1つ増える毎に、エコーキャンセラ及び係数更新判断部もそれぞれ1つずつ増える。しかしながら、マイクロホンが増えたとしても、個々の処理の演算量は従来よりも削減されるので、処理全体の演算量を従来よりも削減することができる。
 (実施の形態3)
 実施の形態3における収音装置は、入力信号を複数の周波数帯域に分割し、参照信号を複数の周波数帯域に分割し、複数の周波数帯域毎に雑音除去信号を生成し、複数の周波数帯域毎に生成された雑音除去信号を合成する。
 図4は、本開示の実施の形態3における通話装置の構成を示す図である。
 図4に示す通話装置は、収音装置1B、マイクロホン11、入力端子12、スピーカ13及び出力端子17を備える。なお、実施の形態3において、実施の形態1と同じ構成については同じ符号を付し説明を省略する。
 収音装置1Bは、第1エコーキャンセラ14A、第1雑音除去信号生成部15A、第1係数更新判断部16A、第2エコーキャンセラ14B、第2雑音除去信号生成部15B、第2係数更新判断部16B、第3エコーキャンセラ14C、第3雑音除去信号生成部15C、第3係数更新判断部16C、第4エコーキャンセラ14D、第4雑音除去信号生成部15D、第4係数更新判断部16D、第1帯域分割部21、第2帯域分割部22及び帯域合成部23を備える。
 第1帯域分割部21は、マイクロホン11から出力された入力信号を複数の周波数帯域に分割する。本実施の形態3では、入力信号は4つの周波数帯域に分割されている。第1帯域分割部21は、フルバンドの入力信号を周波数帯域が異なる4つのサブバンドの入力信号に分割する。第1帯域分割部21は、4つのサブバンドの入力信号のそれぞれを、第1雑音除去信号生成部15A、第2雑音除去信号生成部15B、第3雑音除去信号生成部15C及び第4雑音除去信号生成部15Dへ出力する。
 第2帯域分割部22は、入力端子12から出力された参照信号を複数の周波数帯域に分割する。本実施の形態3では、参照信号は4つの周波数帯域に分割されている。第2帯域分割部22は、フルバンドの参照信号を周波数帯域が異なる4つのサブバンドの参照信号に分割する。第2帯域分割部22は、4つのサブバンドの参照信号のそれぞれを、第1エコーキャンセラ14A、第2エコーキャンセラ14B、第3エコーキャンセラ14C及び第4エコーキャンセラ14Dへ出力する。
 第1エコーキャンセラ14A、第2エコーキャンセラ14B、第3エコーキャンセラ14C及び第4エコーキャンセラ14Dの構成は、実施の形態1におけるエコーキャンセラ14の構成と同じである。すなわち、第1エコーキャンセラ14A、第2エコーキャンセラ14B、第3エコーキャンセラ14C及び第4エコーキャンセラ14Dは、それぞれ適応フィルタ141及びフィルタ係数更新部142を備える。
 第1係数更新判断部16A、第2係数更新判断部16B、第3係数更新判断部16C及び第4係数更新判断部16Dの構成は、実施の形態1における係数更新判断部16の構成と同じである。すなわち、第1係数更新判断部16A、第2係数更新判断部16B、第3係数更新判断部16C及び第4係数更新判断部16Dは、それぞれ絶対値算出部161及びサンプル位置特定部162を備える。
 複数の適応フィルタ141は、複数の周波数帯域毎に推定雑音信号を生成する。
 第1雑音除去信号生成部15A、第2雑音除去信号生成部15B、第3雑音除去信号生成部15C及び第4雑音除去信号生成部15Dは、複数の周波数帯域毎に雑音除去信号を生成する。
 複数のサンプル位置特定部162は、複数の周波数帯域毎に少なくとも1つの信号サンプル位置を特定する。
 複数のフィルタ係数更新部142は、複数の周波数帯域毎に少なくとも1つの信号サンプル位置においてフィルタ係数を更新する。なお、本実施の形態3におけるフィルタ係数の更新処理は、実施の形態1におけるフィルタ係数の更新処理と同じである。
 帯域合成部23は、複数の周波数帯域毎に生成された雑音除去信号を合成する。帯域合成部23は、第1雑音除去信号生成部15A、第2雑音除去信号生成部15B、第3雑音除去信号生成部15C及び第4雑音除去信号生成部15Dによって生成された雑音除去信号を合成する。帯域合成部23は、4つのサブバンドの雑音除去信号をフルバンドの雑音除去信号に合成する。帯域合成部23は、フルバンドの雑音除去信号を出力端子17へ出力する。
 なお、本実施の形態3では、入力信号及び参照信号が4つの周波数帯域に分割されるが、本開示は特にこれに限定されず、入力信号及び参照信号が2つの周波数帯域に分割されてもよいし、3つの周波数帯域に分割されてもよいし、5つ以上の周波数帯域に分割されてもよい。
 このように、入力信号及び参照信号が複数の周波数帯域に分割され、複数の周波数帯域毎に推定雑音信号の生成処理、雑音除去信号の生成処理、信号サンプル位置の特定処理及びフィルタ係数の更新処理が行われるので、演算時間を短縮することができるとともに、単位時間あたりの演算量を削減することができる。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。
 本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
 また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
 また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 本開示に係る技術は、雑音を除去するための演算量を削減することができるので、マイクロホンによって取得された入力信号に含まれる雑音信号を除去する技術に有用である。

Claims (9)

  1.  参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタと、
     前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成する信号生成部と、
     前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する係数更新部と、
     前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する特定部とを備え、
     前記係数更新部は、前記特定部によって特定された前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する、
     収音装置。
  2.  前記少なくとも1つの信号サンプル位置は、前記雑音除去信号の絶対値が最大である信号サンプル位置である、
     請求項1記載の収音装置。
  3.  前記参照信号は、スピーカへ出力される再生信号である、
     請求項1又は2記載の収音装置。
  4.  前記係数更新部は、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値の大きさに応じて、前記フィルタ係数を更新する更新速度を変化させる、
     請求項1~3のいずれか1項に記載の収音装置。
  5.  前記係数更新部は、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値が閾値より大きい場合、前記更新速度を現在よりも速くし、前記少なくとも1つの信号サンプル位置における前記雑音除去信号の前記絶対値が前記閾値以下である場合、前記更新速度を現在よりも遅くする、
     請求項4記載の収音装置。
  6.  前記入力信号を複数の周波数帯域に分割する第1帯域分割部と、
     前記参照信号を前記複数の周波数帯域に分割する第2帯域分割部と、
     前記複数の周波数帯域毎に生成された前記雑音除去信号を合成する帯域合成部と、
     をさらに備え、
     前記適応フィルタは、前記複数の周波数帯域毎に前記推定雑音信号を生成する複数の適応フィルタを含み、
     前記信号生成部は、前記複数の周波数帯域毎に前記雑音除去信号を生成する複数の信号生成部を含み、
     前記特定部は、前記複数の周波数帯域毎に前記少なくとも1つの信号サンプル位置を特定する複数の特定部を含み、
     前記係数更新部は、前記複数の周波数帯域毎に前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する複数の係数更新部を含む、
     請求項1~5のいずれか1項に記載の収音装置。
  7.  前記適応フィルタは、
     参照信号から、第1マイクロホンによって取得された第1入力信号に含まれる雑音信号の成分を示す第1推定雑音信号を生成する第1適応フィルタと、
     参照信号から、前記第1マイクロホンとは異なる第2マイクロホンによって取得された第2入力信号に含まれる雑音信号の成分を示す第2推定雑音信号を生成する第2適応フィルタと、
     を含み、
     前記信号生成部は、
     前記第1入力信号から前記第1推定雑音信号を減算した第1雑音除去信号を生成する第1信号生成部と、
     前記第2入力信号から前記第2推定雑音信号を減算した第2雑音除去信号を生成する第2信号生成部と、
     を含み、
     前記係数更新部は、
     前記第1雑音除去信号を用いて前記第1適応フィルタのフィルタ係数を更新する第1係数更新部と、
     前記第2雑音除去信号を用いて前記第2適応フィルタのフィルタ係数を更新する第2係数更新部と、
     を含み、
     前記特定部は、
     前記第1雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する第1特定部と、
     前記第2雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する第2特定部と、
     を含む、
     請求項1~6のいずれか1項に記載の収音装置。
  8.  適応フィルタ、信号生成部、係数更新部及び特定部を備える収音装置における収音方法であって、
     前記適応フィルタが、参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成し、
     前記信号生成部が、前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成し、
     前記特定部が、前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定し、
     前記係数更新部が、特定された前記少なくとも1つの信号サンプル位置において前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する、
     収音方法。
  9.  参照信号から、マイクロホンによって取得された入力信号に含まれる雑音信号の成分を示す推定雑音信号を生成する適応フィルタと、
     前記入力信号から前記推定雑音信号を減算した雑音除去信号を生成する信号生成部と、
     前記雑音除去信号を用いて前記適応フィルタのフィルタ係数を更新する係数更新部と、
     前記雑音除去信号の絶対値が最大である信号サンプル位置から所定番目に大きい信号サンプル位置までの複数の信号サンプル位置のうちの少なくとも1つの信号サンプル位置を特定する特定部としてコンピュータを機能させ、
     前記係数更新部は、前記特定部によって特定された前記少なくとも1つの信号サンプル位置において前記フィルタ係数を更新する、
     収音プログラム。
PCT/JP2020/041412 2019-12-26 2020-11-05 収音装置、収音方法及び収音プログラム WO2021131346A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP20906191.0A EP4064726A4 (en) 2019-12-26 2020-11-05 CARTRIDGE DEVICE, CARTRIDGE METHOD AND CARTRIDGE PROGRAM
JP2021566886A JPWO2021131346A1 (ja) 2019-12-26 2020-11-05
CN202080087997.2A CN114830232A (zh) 2019-12-26 2020-11-05 拾音装置、拾音方法以及拾音程序
US17/846,825 US11967304B2 (en) 2019-12-26 2022-06-22 Sound pick-up device, sound pick-up method and non-transitory computer-readable recording medium recording sound pick-up program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962953737P 2019-12-26 2019-12-26
US62/953,737 2019-12-26
JP2020144392 2020-08-28
JP2020-144392 2020-08-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/846,825 Continuation US11967304B2 (en) 2019-12-26 2022-06-22 Sound pick-up device, sound pick-up method and non-transitory computer-readable recording medium recording sound pick-up program

Publications (1)

Publication Number Publication Date
WO2021131346A1 true WO2021131346A1 (ja) 2021-07-01

Family

ID=76574032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041412 WO2021131346A1 (ja) 2019-12-26 2020-11-05 収音装置、収音方法及び収音プログラム

Country Status (5)

Country Link
US (1) US11967304B2 (ja)
EP (1) EP4064726A4 (ja)
JP (1) JPWO2021131346A1 (ja)
CN (1) CN114830232A (ja)
WO (1) WO2021131346A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008042816A (ja) * 2006-08-10 2008-02-21 Oki Electric Ind Co Ltd エコーキャンセラ
JP2009094802A (ja) * 2007-10-09 2009-04-30 Renesas Technology Corp 通信装置
JP5205935B2 (ja) 2007-11-19 2013-06-05 日本電気株式会社 雑音消去装置、雑音消去方法および雑音消去プログラム
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4681163B2 (ja) * 2001-07-16 2011-05-11 パナソニック株式会社 ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
SE533956C2 (sv) * 2009-07-20 2011-03-15 Limes Audio Ab Enhet och metod för styrning av restekodämpning
US8934620B2 (en) * 2011-04-01 2015-01-13 Cogent Signals, Inc. Acoustic echo cancellation for high noise and excessive double talk
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008042816A (ja) * 2006-08-10 2008-02-21 Oki Electric Ind Co Ltd エコーキャンセラ
JP2009094802A (ja) * 2007-10-09 2009-04-30 Renesas Technology Corp 通信装置
JP5205935B2 (ja) 2007-11-19 2013-06-05 日本電気株式会社 雑音消去装置、雑音消去方法および雑音消去プログラム
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4064726A4

Also Published As

Publication number Publication date
US11967304B2 (en) 2024-04-23
EP4064726A4 (en) 2023-03-15
CN114830232A (zh) 2022-07-29
EP4064726A1 (en) 2022-09-28
JPWO2021131346A1 (ja) 2021-07-01
US20220319489A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
CN109727604B (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN1719516B (zh) 自适应滤波装置以及自适应滤波方法
EP1995940B1 (en) Method and apparatus for processing at least two microphone signals to provide an output signal with reduced interference
JP4286637B2 (ja) マイクロホン装置および再生装置
KR20190085927A (ko) 적응성 빔포밍
CN104243732A (zh) 振动传感器在回声消除中的使用
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
CN111213359B (zh) 回声消除器和用于回声消除器的方法
JP5422054B2 (ja) 時間領域・周波数領域統合反響消去装置及び方法
JP2003188776A (ja) 音響エコー消去方法、装置及び音響エコー消去プログラム
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2021131346A1 (ja) 収音装置、収音方法及び収音プログラム
JP2003309493A (ja) 反響低減方法、反響低減装置、反響低減プログラム
US20050008143A1 (en) Echo canceller having spectral echo tail estimator
EP3667662B1 (en) Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
JP7373947B2 (ja) 音響エコーキャンセル装置、音響エコーキャンセル方法及び音響エコーキャンセルプログラム
CN112863532A (zh) 回音抑制装置、回音抑制方法以及存储介质
JP3609611B2 (ja) エコー除去方法およびエコーキャンセラ
WO2023188661A1 (ja) 妨害音抑圧装置、妨害音抑圧方法及び妨害音抑圧プログラム
JP3171756B2 (ja) ノイズ除去装置
JP2019036917A (ja) パラメータ制御装置、方法及びプログラム
JP2019035915A (ja) トーク状態判定装置、方法及びプログラム
WO2022195955A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP5058052B2 (ja) エコー消去装置
TW202331701A (zh) 雙麥克風陣列回音消除方法、雙麥克風陣列回音消除裝置、電子設備、及非揮發性電腦可讀儲存媒體

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20906191

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566886

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2020906191

Country of ref document: EP

Effective date: 20220621

NENP Non-entry into the national phase

Ref country code: DE