WO2023100429A1 - 収音装置、収音方法、及び収音プログラム - Google Patents

収音装置、収音方法、及び収音プログラム Download PDF

Info

Publication number
WO2023100429A1
WO2023100429A1 PCT/JP2022/033098 JP2022033098W WO2023100429A1 WO 2023100429 A1 WO2023100429 A1 WO 2023100429A1 JP 2022033098 W JP2022033098 W JP 2022033098W WO 2023100429 A1 WO2023100429 A1 WO 2023100429A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
adaptive filter
vibration
audio signal
speech
Prior art date
Application number
PCT/JP2022/033098
Other languages
English (en)
French (fr)
Inventor
孝朗 山邊
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2021194233A external-priority patent/JP2023080734A/ja
Priority claimed from JP2022006136A external-priority patent/JP2023105362A/ja
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2023100429A1 publication Critical patent/WO2023100429A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present disclosure relates to a sound collecting device, a sound collecting method, and a sound collecting program.
  • Patent Documents 1 and 2 disclose clear voice in a noisy environment by providing a microphone that generates an audio signal based on air vibration and a vibration sensor that generates a vibration signal corresponding to the audio signal based on bone vibration. is described.
  • the former microphone is sometimes called an air conduction microphone
  • the latter vibration sensor is sometimes called a bone conduction microphone.
  • the sound collecting device described in Patent Document 1 includes a filtering unit that converts a vibration signal generated by a vibration sensor into an audio signal, and outputs an audio signal based on the vibration signal generated by the vibration sensor even in quiet conditions.
  • the sound collecting device described in Patent Document 1 is configured to update the filter coefficients of the filtering unit so that the error signal, which is the difference between the audio signal output from the filtering unit and the audio signal generated by the microphone, becomes small. ing.
  • the sound collecting device described in Patent Document 2 mixes an audio signal generated by a microphone and a vibration signal generated by a vibration sensor at a predetermined mixing ratio.
  • the sound collecting device described in Patent Document 2 is configured to increase the ratio of the sound signal generated by the microphone in a quiet environment, and increase the ratio of the vibration signal generated by the vibration sensor in a noisy environment.
  • Patent document 1 intends to improve the quality of the audio signal based on the vibration signal by updating the filter coefficients of the filtering unit so that the error signal becomes small.
  • an audio signal generated by a microphone contains environmental noise, and there are cases where the quality of an audio signal based on a vibration signal cannot be improved.
  • An object of one or more embodiments is to provide a sound collecting device, a sound collecting method, and a sound collecting program that can further improve the quality of an audio signal based on a vibration signal generated by a vibration sensor.
  • a microphone for generating a first audio signal based on air vibrations; a vibration sensor for generating a vibration signal based on vibrations transmitted to the human body by speech; 1 as a target signal, an adaptive filter for multiplying the vibration signal by a coefficient so as to bring the vibration signal closer to the target signal to generate a converted voice signal;
  • a sound collecting device comprising: a subtractor that generates a residual signal that is a difference; and an adaptive control unit that controls updating of a coefficient by which the adaptive filter multiplies the vibration signal so that the residual signal becomes smaller.
  • the microphone generates an audio signal based on air vibrations
  • the vibration sensor generates a vibration signal based on vibrations transmitted to the human body
  • the adaptive filter generates a vibration signal based on said vibration signal.
  • the vibration signal is multiplied by a coefficient to produce a transformed audio signal, and a subtractor produces a residual signal that is the difference between the audio signal and the transformed audio signal.
  • the adaptive control unit controls to update the coefficients so that the residual signal becomes smaller at a first speed when the adaptive control unit determines that the speech section includes speech, and is determined to be a non-speech section in which the A sound pickup method is provided for generating an adaptive filter control signal for controlling non-updated coefficients and supplying the signal to the adaptive filter.
  • the microphone generates a first audio signal based on air vibrations
  • the vibration sensor generates a vibration signal based on vibrations transmitted to the human body by speech
  • the echo canceller suppressing the echo component superimposed on the first audio signal by picking up the sound reproduced by the speaker from the second audio signal transmitted from the communication partner and received via the line with the microphone
  • the adaptive filter multiplies the vibration signal by a coefficient so as to bring the vibration signal closer to the target signal using the first sound signal whose echo component has been suppressed by the echo canceller as a target signal, thereby generating a converted sound signal.
  • a subtracter for generating a residual signal that is a difference between the target signal and the converted speech signal;
  • a sound pickup method is provided that controls updating to be
  • a computer for compensating a vibration signal generated by a vibration sensor based on vibrations transmitted through the human body to approximate an audio signal based on air vibrations generated by a microphone. a step of multiplying the vibration signal by a coefficient to generate a converted speech signal; a step of generating a residual signal that is a difference between the speech signal and the converted speech signal; updating the coefficients so that the residual signal becomes smaller at a first speed when it is determined that it is a non-speech section in which there is no speech, slower than the first speed updating the coefficients such that the residual signal is reduced at a second rate; or maintaining the coefficients without updating.
  • a computer inputs a first audio signal based on air vibrations generated by a microphone to a second audio transmitted from a communication partner and received over a line.
  • a step of suppressing an echo component superimposed by the microphone picking up the sound reproduced by the speaker, and a vibration sensor using the first audio signal with the suppressed echo component as a target signal, generating a converted speech signal by multiplying the vibration signal by a coefficient so that the vibration signal based on the vibration transmitted to the human body by speech approaches the target signal; and calculating the difference between the target signal and the converted speech signal.
  • a sound collecting program is provided that causes the steps of generating a residual signal and updating a coefficient by which the vibration signal is multiplied such that the residual signal becomes smaller.
  • the sound collecting device, sound collecting method, and sound collecting program of one or more embodiments it is possible to further improve the quality of the audio signal based on the vibration signal generated by the vibration sensor.
  • FIG. 1 is a block diagram showing the sound collecting device of the first embodiment.
  • FIG. 2B is a waveform diagram showing an audio signal generated by the microphone of FIG. 2A;
  • FIG. 2B is a waveform diagram showing the vibration signal generated by the vibration sensor.
  • FIG. 3 is a characteristic diagram showing frequency characteristics of an audio signal and a vibration signal.
  • FIG. 4 is a block diagram showing a specific configuration example of the adaptive control section 5 of FIG.
  • FIG. 5 is a diagram showing a pattern for generating an adaptive filter control signal based on the detection signals from the speech section detection units 51 and 52 in FIG. 4 and the environmental noise level generated by the sound pressure level ratio calculation unit 55. is.
  • FIG. 1 is a block diagram showing the sound collecting device of the first embodiment.
  • FIG. 2B is a waveform diagram showing an audio signal generated by the microphone of FIG. 2A
  • FIG. 2B is a waveform diagram showing the vibration signal generated by the vibration sensor.
  • FIG. 3 is a characteristic diagram showing frequency characteristics of an
  • FIG. 6 is a diagram showing a pattern for generating an adaptive filter control signal based on the detection signals from the speech period detection units 51 and 52 and the correlation degree calculated by the correlation degree calculation unit 56 in FIG.
  • FIG. 7 is a waveform diagram showing the relationship between the audio signal and the adaptive filter control signal.
  • FIG. 8 is a block diagram showing a specific configuration example of the adaptive filter 6 in FIG.
  • FIG. 9 is a block diagram showing a specific configuration example of the environmental noise analysis section 8 of FIG.
  • FIG. 10 is a diagram showing an example of the operation of the selector 9 of FIG. 1 selecting between the audio signal and the converted audio signal.
  • FIG. 11 is a block diagram showing the sound collecting device of the second embodiment.
  • FIG. 12 is a block diagram showing a configuration example of an echo canceller included in the sound collecting device of the second embodiment.
  • FIG. 13 is a waveform diagram showing an example of a voice signal generated by a microphone, a partner's voice output from a speaker, and a vibration signal generated by a vibration sensor.
  • FIG. 14 is a block diagram showing a specific configuration example of the adaptive control section 12 of FIG.
  • FIG. 15 is a block diagram showing a specific configuration example of the adaptive filter 13 of FIG.
  • FIG. 16 is a block diagram showing a specific first configuration example of the adaptive control section 5 of FIG.
  • FIG. 17 is a block diagram showing a second specific configuration example of the adaptive control section 5 of FIG.
  • FIG. 18 is a block diagram showing a specific configuration example of the adaptive filter 6 of FIG. 11.
  • FIG. 19A is a partial flow chart showing the operation of the sound collecting device of the second embodiment.
  • FIG. 19B is a partial flowchart following FIG. 19A showing the operation of the sound collecting
  • FIG. 1 shows a sound collecting device 100 of the first embodiment.
  • a microphone 1 generates an audio signal (first audio signal) based on air vibrations. Since the audio signal output from the microphone 1 is close to the sound perceived through the human ear, it becomes a target value when converting a vibration signal into an audio signal, which will be described later.
  • the A/D converter 2 A/D-converts the analog audio signal supplied from the microphone 1 and supplies the digital audio signal to the adaptive control unit 5, the subtractor 7, the environmental noise analysis unit 8, and the selector 9. do.
  • the vibration sensor 3 generates a vibration signal based on vibration transmitted to the human body.
  • the vibration sensor 3 is arranged so as to contact the surface of the human body.
  • the A/D converter 4 A/D-converts the analog vibration signal supplied from the vibration sensor 3 and supplies the digital vibration signal to the adaptive control section 5 , the adaptive filter 6 and the environmental noise analysis section 8 .
  • FIG. 2A is the audio signal generated by the microphone 1
  • FIG. 2B is the vibration signal generated by the vibration sensor 3 during the same period as the audio signal in FIG. 2A.
  • the sound pressure level differs between the audio signal and the vibration signal.
  • FIG. 3 shows frequency characteristics of an audio signal and a vibration signal. In some frequency bands, the sound pressure level of the vibration signal indicated by the dashed line is lower than the sound pressure level of the audio signal indicated by the solid line.
  • the adaptive control unit 5 performs , generates an adaptive filter control signal for controlling the adaptive filter 6 and supplies it to the adaptive filter 6 and the environmental noise analysis unit 8 .
  • the adaptive filter 6 generates a converted audio signal by correcting the vibration signal so as to bring it closer to the audio signal generated by the microphone 1, and supplies the converted audio signal to the subtractor 7 and the selector 9, as will be described later.
  • the subtractor 7 supplies the difference between the converted speech signal output from the adaptive filter 6 and the speech signal output from the A/D converter 2 to the adaptive control section 5 and the adaptive filter 6 as a residual signal.
  • FIG. 4 shows a specific configuration example of the adaptive control unit 5.
  • the adaptive control unit 5 performs adaptive filter control for differentiating the operation of the adaptive filter 6 depending on whether it is a speech section in which speech such as speech exists or a non-speech section in which no speech exists. Generate a signal.
  • the adaptive control unit 5 includes voice section detection units 51 and 52, a sound pressure level acquisition unit 53, a sound pressure level ratio calculation unit 55, a residual relative level acquisition unit 54, a correlation degree calculation unit 56, and an adaptive filter learning speed setting unit 57.
  • the voice activity detection units 51 and 52 detect voice activity of the voice signal and the vibration signal, respectively, by a technique called VAD (Voice Activity Detection).
  • VAD Voice Activity Detection
  • the speech section detection units 51 and 52 detect a speech section based on at least whether or not the sound pressure level exceeds a predetermined level.
  • the speech segment detection units 51 and 52 adopt the technology described in Patent Documents 3 and 4 in order to improve the accuracy of speech segment detection. may be detected.
  • the speech section detection units 51 and 52 supply detection signals for identifying speech sections and non-speech sections of the speech signal and the vibration signal, respectively, to the adaptive filter learning speed setting section 57 .
  • the sound pressure level acquisition unit 53 acquires the sound pressure levels of the audio signal and the vibration signal.
  • the sound pressure level ratio calculation unit 55 calculates the sound pressure level ratio, which is the ratio of the sound pressure level of the audio signal and the sound pressure level of the vibration signal, and supplies it to the adaptive filter learning speed setting unit 57 .
  • the sound pressure levels of the audio signal and vibration signal may be represented by the average amplitude value of the sound pressure per unit time, or may be represented by the sum of the squares of the sound pressure per unit time.
  • the sound pressure level ratio in the speech period and the sound pressure level ratio in the non-speech period differ depending on the environmental noise level. Therefore, the sound pressure level ratio calculated by the sound pressure level ratio calculator 55 indicates the environmental noise level.
  • the residual signal output from the subtractor 7 and the vibration signal output from the A/D converter 4 are input to the residual relative level acquisition unit 54 .
  • the residual signal In the voice section, air vibrations caused by speech or the like are input to the microphone 1, and vibrations caused by the speech or the like are transmitted to the vibration sensor 3, so the residual signal is at a low level. If there is ambient noise in non-speech intervals or in speech intervals, the residual signal will be at a relatively high level.
  • the residual relative level acquisition unit 54 normalizes the level of the residual signal output from the subtractor 7 by the level of the vibration signal to acquire the residual relative level.
  • the level of the residual signal tends to increase as the vibration signal increases. Therefore, by normalizing the level of the residual signal by the level of the vibration signal, it is possible to obtain the residual relative level, which is the level of the residual signal that is not affected by the magnitude of the vibration signal.
  • the correlation degree calculation unit 56 calculates the degree of correlation by comparing the residual relative level with a predetermined threshold (second threshold). If the residual relative level is equal to or less than the threshold, the correlation calculator 56 determines that the correlation between the audio signal and the vibration signal is high, and outputs a correlation having a value indicating that the correlation is high. If the residual relative level exceeds the threshold, the correlation calculator 56 determines that the correlation between the audio signal and the vibration signal is low, and outputs a correlation having a value indicating that the correlation is low.
  • a predetermined threshold second threshold
  • the adaptive filter learning speed setting unit 57 generates an adaptive filter control signal by discriminating between a speech interval and a non-speech interval at least based on detection signals from the speech interval detection units 51 and 52 .
  • the adaptive filter learning speed setting unit 57 adjusts the detection signal from the speech section detection units 51 and 52 and the environmental noise level generated by the sound pressure level ratio calculation unit 55. to generate the adaptive filter control signal.
  • the adaptive filter learning speed setting unit 57 sets the adaptive filter control signal based on the detection signals from the speech period detection units 51 and 52 and the determination result from the correlation calculation unit 56. may be generated.
  • FIG. 5 shows patterns #1 to #4 for generating the adaptive filter control signal based on the detection signals from the speech section detectors 51 and 52 and the environmental noise level generated by the sound pressure level ratio calculator 55. showing.
  • the detection of the speech interval in FIG. 5 means that the detection signal from the speech interval detection unit 51 and the detection signal from the speech interval detection unit 52 are combined to determine whether it is a speech interval (ON) or not (OFF). The results are shown.
  • the adaptive filter learning speed setting unit 57 determines that it is a voice interval (ON) if either one of the detection signal from the voice interval detection unit 51 and the detection signal from the voice interval detection unit 52 indicates that it is a voice interval. You may Conversely, the adaptive filter learning speed setting unit 57 may determine that it is not a speech section (OFF) if either one indicates that it is a non-speech section.
  • the adaptive filter learning speed setting unit 57 sets the learning speed when the voice interval detection is off and the environmental noise level is a low level equal to or lower than a predetermined threshold (first threshold). Set speed to save.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to active when the voice section detection is on and the environmental noise level is low.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to save if the voice section detection is turned off and the environmental noise level exceeds a predetermined threshold.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to save when the voice section detection is on and the environmental noise level is high. Active learning speed means that the adaptive operation in the adaptive filter 6 is actively promoted, and learning speed saving means that the adaptive operation in the adaptive filter 6 is suppressed or stopped.
  • to actively promote the adaptive operation in the adaptive filter 6 means to control the adaptive filter 6 to update the later-described coefficient to be multiplied by the vibration signal at the first speed within a short period of time.
  • Suppressing the adaptive operation in the adaptive filter 6 means controlling the adaptive filter 6 to update the coefficients at a second speed slower than the first speed over a long period of time. Stopping the adaptive operation in the adaptive filter 6 means controlling not to update the coefficients (maintain the coefficients).
  • FIG. 6 shows patterns #5 to #8 for generating the adaptive filter control signal based on the detection signals from the speech period detectors 51 and 52 and the degree of correlation calculated by the degree of correlation calculator 56. .
  • the speech activity detection in FIG. 6 is the same as the speech activity detection in FIG.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to save if the speech section detection is off and the correlation is high. As pattern #6, the adaptive filter learning speed setting unit 57 sets the learning speed to be active if the speech period detection is on and the correlation is high.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to save if the speech segment detection is off and the correlation is low.
  • the adaptive filter learning speed setting unit 57 sets the learning speed to save if the speech segment detection is on and the correlation is low.
  • the adaptive filter learning speed setting unit 57 satisfies the first condition that it is a speech period and that the environmental noise level is low (below the first threshold), the adaptive filter 6 .
  • an adaptive filter control signal is generated that activates the learning rate at .
  • the adaptive filter learning speed setting unit 57 preferably generates an adaptive filter control signal that saves the learning speed of the adaptive filter 6 when the first condition is not satisfied.
  • the adaptive filter learning speed setting unit 57 when the adaptive filter learning speed setting unit 57 satisfies the second condition that it is a speech period and the degree of correlation is high (the residual relative level is equal to or less than the second threshold), It is preferable to generate an adaptive filter control signal that activates the learning speed in the adaptive filter 6 .
  • the adaptive filter learning speed setting unit 57 preferably generates an adaptive filter control signal that saves the learning speed of the adaptive filter 6 when the second condition is not satisfied.
  • the adaptive filter 6 updates the coefficients at the first speed. If the learning speed is saved, the adaptive filter 6 either updates the coefficients at a second speed that is slower than the first speed, or does not update the coefficients.
  • the adaptive filter learning speed setting unit 57 may generate the adaptive filter control signal based on the speech section detection, the environmental noise level, and the degree of correlation. In this case, one of the environmental noise level and the degree of correlation may be prioritized to set either active or save. Also, the environmental noise level and the degree of correlation are converted into points, respectively, and the adaptive filter learning speed setting unit 57 integrates the points of the environmental noise level and the degree of correlation to determine whether or not it is a speech section. , active or save.
  • FIG. 7 shows the relationship between the audio signal shown in (a) and the adaptive filter control signal shown in (b).
  • the adaptive filter control signal is high during the speech period of the speech signal and low during the non-speech period.
  • a high in the adaptive filter control signal indicates active and a low in the adaptive filter control signal indicates save.
  • the ambient noise level in the voice section is low and the correlation between the voice signal and the vibration signal is high.
  • FIG. 8 shows a specific configuration example of the adaptive filter 6 using an FIR filter.
  • the adaptive filter 6 comprises an adaptive coefficient updater 61, delayers 621-62n, multipliers 630-63n, and adders 641-64n.
  • n is a number on the order of tens to hundreds.
  • the delay units 621 to 62n delay each sample of the input digital vibration signal by one clock and output it.
  • Multipliers 630 to 63n multiply the samples input to delay unit 621 and the samples output from delay units 621 to 62n by respective coefficients, and output the results.
  • the adders 641 to 64n respectively output the outputs of the multipliers 630 and 631, the outputs of the adders 641 and 632, the outputs of the adders 642 and 633, . ) and the output of the multiplier 63n.
  • the adder 64n outputs a converted audio signal obtained by correcting the vibration signal output from the A/D converter 4 so as to bring it closer to the audio signal output from the A/D converter 2.
  • the subtractor 7 outputs a residual signal, which is the difference between the converted audio signal output from the adder 64n and the audio signal output from the A/D converter 2.
  • the adaptive coefficient updating unit 61 updates the coefficients by which the input samples are multiplied by the multipliers 630 to 63n so that the residual signal becomes smaller.
  • the adaptive coefficient updating unit 61 updates the coefficients supplied to the multipliers 630 to 63n in a short time so that the residual signal becomes small.
  • the adaptive coefficient updating unit 61 updates the coefficients supplied to the multipliers 630 to 63n over a long period of time in the direction of decreasing the residual signal, or updates the coefficients. do not.
  • the adaptive control unit 5 outputs the adaptive filter control signal to the adaptive filter 6 if the environmental noise level is high even if the speech interval detection units 51 and 52 detect that it is a speech interval.
  • the adaptive control unit 5 sets the adaptive filter control signal to low if the degree of correlation is low even if the speech interval detection units 51 and 52 detect that it is a speech interval. Similarly, updating the coefficients supplied to the multipliers 630-63n when the degree of correlation is low may degrade the quality of the converted speech signal.
  • the adaptive coefficient updating unit 61 preferably does not update the coefficients or, even if it updates them, it does not update them immediately, but gradually updates them over a long period of time.
  • the adaptive filter 6 acquires coefficients that bring the vibration signal closer to the speech signal by learning before the environmental noise level becomes high or the degree of correlation becomes low, and outputs a converted speech signal with good speech quality. there is Therefore, the adaptive filter 6 continuously outputs a converted speech signal with good speech quality without updating the coefficients for a short period of time when the environmental noise level becomes high or the degree of correlation becomes low. be able to.
  • the environmental noise analysis unit 8 includes sound pressure level acquisition units 81 and 82 , a sound pressure level ratio calculation unit 83 , and a selector control signal setting unit 84 .
  • the sound pressure level acquisition unit 81 acquires the sound pressure level of the audio signal output from the A/D converter 2 .
  • the sound pressure level acquisition unit 82 acquires the sound pressure level of the vibration signal output from the A/D converter 4 .
  • the sound pressure level ratio calculator 83 calculates the sound pressure level ratio, which is the ratio between the sound pressure level of the audio signal and the sound pressure level of the vibration signal.
  • the sound pressure level ratio calculated by the sound pressure level ratio calculator 83 indicates the environmental noise level.
  • the sound pressure level acquisition units 81 and 82 and the sound pressure level ratio calculation unit 83 have substantially the same configuration as the sound pressure level acquisition unit 53 and the sound pressure level ratio calculation unit 55 in the adaptive control unit 5 shown in FIG. . Therefore, the sound pressure level acquisition section 53 and the sound pressure level ratio calculation section 55 in the adaptive control section 5 can be used as part of the environmental noise analysis section 8 .
  • the environmental noise analysis unit 8 selects the speech signal output from the A/D converter 2 by the selector 9 if the environmental noise does not affect the speech such as speech in the speech interval, and if it affects the speech signal, the selector 9 for selecting the converted speech signal output from the adaptive filter 6;
  • the sound pressure level ratio output from the sound pressure level ratio calculation unit 83 and the adaptive filter control signal supplied from the adaptive control unit 5 are input to the selector control signal setting unit 84 .
  • the adaptive filter control signal is input to the selector control signal setting unit 84 based on the environmental noise level in the non-speech section. This is for generating a selector control signal for selecting the converted audio signal. Since the ambient noise level in the voice section is affected by the voice, it may not indicate the true ambient noise level.
  • the selector control signal setting unit 84 generates a selector control signal that selects the speech signal if the ambient noise level in the non-speech section is equal to or lower than a predetermined threshold (third threshold), and selects the converted speech signal if the threshold is exceeded. and supplies it to the selector 9.
  • the third threshold used by selector control signal setting section 84 may be the same value as the first threshold used by adaptive filter learning speed setting section 57, or may be a different value.
  • FIG. 10 shows an example of the operation of the selector 9 to select between the audio signal and the converted audio signal.
  • the environmental noise level is below the threshold, and the environmental noise does not affect the speech in the voice section.
  • the environmental noise level exceeds the threshold, and the environmental noise affects the speech in the speech section.
  • the environmental noise has returned to a state where it does not affect the speech in the speech section.
  • the environmental noise analysis unit 8 supplies the selector control signal for selecting the audio signal to the selector 9 before time t1, and the selector 9 selects and outputs the audio signal.
  • the environmental noise analyzer 8 supplies the selector 9 with a selector control signal for selecting the converted speech signal.
  • the selector 9 does not immediately switch the audio signal to the converted audio signal, but gradually decreases the sound pressure level of the audio signal over time t1 to t2, and gradually increases the sound pressure level of the converted audio signal. At time t2, it switches to the converted audio signal.
  • the environmental noise analysis unit 8 supplies the selector 9 with a selector control signal for selecting an audio signal.
  • the selector 9 gradually reduces the sound pressure level of the converted audio signal over time t3 to t4, gradually increases the sound pressure level of the audio signal, and switches to the audio signal at time t4.
  • the selector 9 When switching between the audio signal and the converted audio signal, the selector 9 mixes the audio signal and the converted audio signal while gradually decreasing the sound pressure level of one and increasing the sound pressure level of the other. and the converted audio signal can be switched without any sense of incongruity.
  • the selector 9 may adaptively mix the audio signal and the converted audio signal.
  • the selector 9 preferably mixes the audio signal and the converted audio signal according to the degree of correlation calculated by the degree-of-correlation calculator 56 . If the degree of correlation is high, the selector 9 increases the weighting of the audio signal and mixes the audio signal and the converted audio signal. and mix.
  • the environmental noise analyzer 8 may be omitted.
  • the correlation degree calculator 56 may calculate correlation degrees of three or more stages, and the selector 9 may mix the audio signal and the converted audio signal by varying the weighting of both.
  • the degree of correlation calculated by the degree-of-correlation calculator 56 may be in two stages, or may be in any number of stages.
  • the D/A converter 10 D/A converts the audio signal supplied from the selector 9, the mixed audio signal of the audio signal and the converted audio signal, or the converted audio signal, and outputs analog output audio. Generate a signal.
  • the output audio signal generated by the sound collecting device 100 as described above is supplied to any device such as an external speaker, headphones, audio recording device, or the like.
  • the sound collecting apparatus 100 does not constantly update the coefficients by which the converted speech signal is multiplied by the adaptive filter 6 so that the residual signal becomes smaller in a short period of time.
  • the quality of the sound signal (converted sound signal) based on the vibration signal generated by the vibration sensor 3 can be improved as compared with the sound collecting device described in Patent Document 1.
  • the sound collecting device 100 selects and outputs the audio signal output from the A/D converter 2 and the converted audio signal output from the adaptive filter 6 by the selector 9 . Therefore, according to the sound collection device 100, the audio signal generated by the microphone 1 and the audio signal based on the vibration signal generated by the vibration sensor 3 can be appropriately selected according to the environment.
  • FIG. 11 shows a sound collecting device 200 of the second embodiment.
  • the same parts as those of the sound collecting device 100 of the first embodiment are denoted by the same parts, and descriptions thereof may be omitted.
  • the microphone 1 generates an audio signal (first audio signal) based on air vibration.
  • the A/D converter 2 A/D-converts the analog audio signal supplied from the microphone 1 and supplies the digital audio signal to the echo canceller 20 .
  • the first audio signal is close to the audio that humans perceive through their ears, the first audio signal may contain an echo component. Therefore, it is desirable to use the audio signal output from the echo canceller 20 as a target signal when converting a vibration signal into an audio signal, which will be described later.
  • a digital audio signal (second audio signal), which is the audio transmitted from the communication partner and received via the server and the line 11 (hereinafter referred to as the other party's audio), is supplied to the echo canceller 20 and the D/A converter 15. be.
  • the second audio signal may be referred to as the other party's audio signal.
  • the D/A converter 15 D/A converts the input digital audio signal and supplies an analog audio signal to the speaker 16 .
  • the speaker 16 reproduces the input audio signal and outputs the voice of the other party. At this time, when the microphone 1 picks up the other party's voice output from the speaker 16, the voice uttered by the other party may be superimposed on the voice uttered by the user as an echo component.
  • the echo canceller 20 uses the audio signal received via the line 11 to suppress echo components superimposed on the audio signal output from the A/D converter 2 .
  • the echo canceller 20 supplies the audio signal with echo components suppressed to the adaptive control section 5 and the subtractor 7 .
  • the echo canceller 20 may not be able to completely cancel the echo component superimposed on the audio signal picked up by the microphone 1, the audio signal output from the echo canceller 20 is regarded as an echo-cancelled audio signal. We will call it.
  • the echo canceller 20 can be configured as shown in FIG. As shown in FIG. 12, the echo canceller 20 has an adaptive control section 12, an adaptive filter 13, and a subtractor .
  • the adaptive control section 12 generates an adaptive filter control signal for controlling the adaptive filter 13 and supplies it to the adaptive filter 13 .
  • the adaptive filter 13 multiplies the other party's voice signal by a coefficient according to the adaptive filter control signal, generates a cancellation voice signal for canceling the echo component from the voice signal on which the echo component is superimposed, and supplies it to the subtracter 14 .
  • a specific configuration example of the adaptive filter 13 will be described later.
  • the echo canceller 20 is not limited to the configuration including the adaptive filter 13 as shown in FIG. 12, and other echo suppression methods may be used. A specific configuration of the echo canceller 20 is not limited.
  • the vibration sensor 3 generates a vibration signal based on vibration transmitted to the human body (the body of the user of the sound collecting device 200).
  • the vibration sensor 3 is arranged so as to contact the surface of the human body.
  • the A/D converter 4 A/D-converts the analog vibration signal supplied from the vibration sensor 3 and supplies the digital vibration signal to the adaptive control section 5 and the adaptive filter 6 .
  • the adaptive filter 6 uses the echo-cancelled audio signal output from the echo canceller 20 as a target signal, corrects the vibration signal so as to approach the target signal, and generates a converted audio signal.
  • line 11 is, for example, an Internet line.
  • the converted voice signal is transmitted to the communication partner via the line 11 and an internet communication server (not shown).
  • FIG. 13 shows the audio signal generated by the microphone 1, (b) shows the other party's voice output from the speaker 16, and (c) shows the vibration signal generated by the vibration sensor 3.
  • sections b1, b2, and b3 are speech sections (speech sections) in which the voice of the communication partner is present, and sections other than sections b1, b2, and b3 are non-speech sections ( non-speech interval).
  • sections c1 and c2 are speech sections in which the user's speech is present, and sections other than sections c1 and c2 are non-speech sections in which the user's speech does not exist.
  • section b3 overlaps with the section c2, and the sound pressure levels of the other party's voice and the user's voice are high, so echo components tend to remain even if the echo is canceled by the echo canceller.
  • the interval b1 overlaps with the interval c1, and although the sound pressure level of the other party's voice is low, echo components may remain.
  • the section b2 is located in a non-speech section of the user's voice, and it can be expected that echo cancellation by the echo canceller will sufficiently cancel the echo component.
  • FIG. 14 shows a specific configuration example of the adaptive control unit 12 shown in FIG.
  • the adaptive control section 12 includes a speech section detection section 121 and an adaptive filter learning speed setting section 122 .
  • the speech interval detection unit 121 detects the speech interval of the other party's speech by a technique called VAD, and supplies the other party's speech interval information to the adaptive filter learning speed setting unit 122 .
  • the voice segment detection unit 121 detects a voice segment based on at least whether or not the sound pressure level exceeds a predetermined level.
  • the adaptive control unit 12 generates an adaptive filter control signal for changing the operation of the adaptive filter 13 depending on whether it is a voice section in which the other party's voice exists or a non-speech section in which the other party's voice does not exist.
  • the adaptive filter learning speed setting unit 122 when the partner's speech section information indicates the speech section of the partner's speech, the adaptive filter learning speed setting unit 122 generates an adaptive filter control signal for setting the learning speed to active, and supplies it to the adaptive filter 13 . do.
  • the adaptive filter learning speed setting unit 122 generates an adaptive filter control signal for setting the learning speed to save and supplies it to the adaptive filter 13 when the other party's speech section information indicates a non-speech section of the other party's speech.
  • An active learning speed means that the adaptive operation in the adaptive filter 13 is actively encouraged, and a low learning speed means that the adaptive operation in the adaptive filter 13 is suppressed or stopped.
  • actively promoting the adaptive operation in the adaptive filter 13 means that the adaptive filter 13 generates a cancel signal for canceling the echo component in a short period of time at the first speed.
  • means to control the update of Suppressing the adaptive operation in the adaptive filter 13 means controlling the adaptive filter 13 to update the coefficients at a second speed slower than the first speed over a long period of time. Stopping the adaptive operation in the adaptive filter 13 means controlling not to update the coefficients (maintain the coefficients).
  • FIG. 15 shows a specific configuration example of the adaptive filter 13 using an FIR filter.
  • the adaptive filter 13 includes an adaptive coefficient updating unit 131, delay units 1321 to 132n, multipliers 1330 to 133n, and adders 1341 to 134n.
  • n is a number on the order of tens to hundreds.
  • the delay units 1321 to 132n delay each sample of the input digital partner's voice signal by one clock and output the delayed signal.
  • the multipliers 1330 to 133n multiply the samples input to the delay unit 1321 and the samples output from the delay units 1321 to 132n by respective coefficients and output the result.
  • Adders 1341 to 134n respectively output the outputs of multipliers 1330 and 1331, the outputs of adders 1341 and 1332, the outputs of adders 1342 and 1333, . ) and the output of multiplier 133n.
  • the adder 134n outputs a cancellation audio signal for canceling the echo component from the audio signal on which the echo component is superimposed.
  • the subtractor 14 subtracts the canceled audio signal from the echo-superimposed audio signal output from the A/D converter 2, and outputs an echo-cancelled audio signal.
  • the adaptive coefficient updating unit 131 updates the coefficients by which the input samples are multiplied by the multipliers 1330 to 133n so as to generate canceled speech signals in which echo components remain as little as possible.
  • the adaptive coefficient updating section 131 updates the coefficients supplied to the multipliers 1330 to 133n in a short period of time.
  • Adaptive coefficient updating section 131 either takes a long time to update the coefficients supplied to multipliers 1330 to 133n or does not update the coefficients when the adaptive filter control signal is low indicating saving.
  • FIG. 16 shows a specific first configuration example of the adaptive control unit 5.
  • the adaptive control unit 5 receives the voice signal and the vibration signal output from the echo canceller 20 as well as the remote voice signal supplied from the line 11 .
  • the adaptive control section 5 includes a speech section detection section 510 , a residual echo level estimation section 520 and an adaptive filter learning speed setting section 550 .
  • the speech section detection unit 510 detects the speech section of the vibration signal using a technique called VAD, and supplies the speech section information to the adaptive filter learning speed setting unit 550 .
  • the speech section detection unit 510 detects a speech section based on at least whether or not the sound pressure level exceeds a predetermined level.
  • the residual echo level estimator 520 receives the voice signal output from the echo canceller 20 and the other party's voice signal.
  • the residual echo level estimator 520 calculates the relative sound pressure level ratio per predetermined unit time between the sound pressure level of the other party's voice signal and the sound pressure level of the voice signal output from the echo canceller 20, thereby obtaining the target signal. Estimate the residual echo level remaining in The predetermined unit time is, for example, several milliseconds or several tens of milliseconds.
  • the residual echo level estimation section 520 supplies the residual echo level to the adaptive filter learning speed setting section 550 .
  • the adaptive filter learning speed setting unit 550 sets the learning speed to be active if the first condition that the speech section information indicates the user's speech section and the residual echo level is equal to or less than a predetermined threshold is satisfied. A filter control signal is generated and supplied to the adaptive filter 6 . If the first condition is not satisfied, the adaptive filter learning speed setting section 550 generates an adaptive filter control signal for setting the learning speed to save and supplies it to the adaptive filter 6 .
  • An active learning speed means that the adaptive operation in the adaptive filter 6 is actively promoted, and a learning speed that is saved means that the adaptive operation in the adaptive filter 6 is suppressed or stopped.
  • actively promoting the adaptive operation in the adaptive filter 6 means controlling the adaptive filter 6 to update the later-described coefficient by which the vibration signal is multiplied at the third speed within a short period of time.
  • Suppressing the adaptive operation in the adaptive filter 6 means controlling the adaptive filter 6 to update the coefficients at a fourth speed slower than the third speed over a long period of time. Stopping the adaptive operation in the adaptive filter 6 means controlling not to update the coefficients (maintain the coefficients).
  • the third speed may be the same as or different from the first speed
  • the fourth speed may be the same as or different from the second speed.
  • a threshold value to be compared with the residual echo level, which does not degrade the quality of the speech signal converted by the adaptive filter 6, may be measured in advance and stored in the storage unit.
  • FIG. 17 shows a second specific configuration example of the adaptive control unit 5.
  • the adaptive control section 5 includes a voice section detection section 510 , a residual echo level estimation section 520 , a vibration signal level correction section 530 , a level ratio calculation section 540 and an adaptive filter learning speed setting section 550 .
  • the same parts as in FIG. 16 are denoted by the same reference numerals, and the description thereof may be omitted.
  • the vibration signal level corrector 530 receives the voice section information of the vibration signal output from the voice section detector 510 , the vibration signal, and the voice signal output from the echo canceller 20 .
  • the vibration signal level correction unit 530 calculates the relative sound pressure level ratio per predetermined unit time between the vibration signal and the sound signal output from the echo canceller 20 in the sound section of the vibration signal. Further, the vibration signal level correction unit 530 outputs a corrected sound pressure level obtained by correcting the sound pressure level of the vibration signal to a sound pressure level corresponding to the sound pressure level of the audio signal based on the relative sound pressure level ratio.
  • the predetermined unit time is, for example, several milliseconds or several tens of milliseconds.
  • the audio signal picked up by the microphone 1 may contain echo components or environmental noise.
  • the residual echo level estimator 520 in FIG. 17 receives the voice signal output from the echo canceller 20, the other party's voice signal, and the voice section information of the vibration signal.
  • the residual echo level estimator 520 detects the speech period of the other party's speech signal by a technique called VAD, similarly to the speech period detection section 121, generates the other party's speech period information, and estimates the sound pressure level of the other party's speech signal. Detect and generate partner sound pressure information.
  • the microphone 1 does not pick up the voice uttered by the user, but picks up only the echo.
  • the audio signal output from the echo canceller 20 contains only echo components.
  • the residual echo level estimator 520 outputs from the echo canceller 20 together with the other party's sound pressure information. Then, a relative sound pressure level ratio per predetermined unit time with the sound signal is calculated.
  • the predetermined unit time here is also several milliseconds or several tens of milliseconds, for example.
  • the relative sound pressure level ratio calculated by the residual echo level estimator 520 corresponds to the estimated residual echo level.
  • the residual echo level estimator 520 estimates the residual echo level.
  • the level ratio calculator 540 receives the residual echo level output from the residual echo level estimator 520 and the corrected sound pressure level output from the vibration signal level corrector 530 .
  • the level ratio calculator 540 divides the corrected sound pressure level by the residual echo level to calculate the relative sound pressure level ratio between the corrected sound pressure level and the residual echo level.
  • the residual echo level included in the audio signal picked up by the microphone 1 is estimated in advance by the residual echo level estimator 520 .
  • a corrected sound pressure level corresponding to the sound pressure level of the audio signal based on the vibration signal is obtained by the vibration signal level corrector 530 .
  • the relative sound pressure level ratio calculated by the level ratio calculating unit 540 is accurate even when the microphone 1 picks up environmental noise and when the voice uttered by the user overlaps the voice of the other party. sound pressure level ratio. If the relative sound pressure level ratio calculated by the level ratio calculator 540 exceeds the predetermined threshold, the audio signal output from the echo canceller 20 contains almost no echo component, and the echo component is canceled by the echo canceller 20. It means that there is If the relative sound pressure level ratio calculated by the level ratio calculator 540 is equal to or less than the predetermined threshold, it means that the audio signal output from the echo canceller 20 contains an echo component and the echo component is not canceled by the echo canceller 20. become.
  • the speech section information output from the speech section detection section 510 and the relative sound pressure level ratio output from the level ratio calculation section 540 are input to the adaptive filter learning speed setting section 550 .
  • the adaptive filter learning speed setting unit 550 sets the learning speed if the speech interval information indicates the user's speech interval and the second condition that the relative sound pressure level ratio output from the level ratio calculation unit 540 exceeds the threshold is satisfied.
  • An adaptive filter control signal for setting active is generated and supplied to the adaptive filter 6 . If the second condition is not satisfied, the adaptive filter learning speed setting section 550 generates an adaptive filter control signal for setting the learning speed to save and supplies it to the adaptive filter 6 .
  • the speech interval information does not indicate the user's speech interval, there is no speech signal to be the target signal, so it is better to set the learning speed to save. If the speech interval information indicates the user's speech interval but the relative sound pressure level ratio is below the threshold, the presence of the residual echo component may degrade the quality of the converted speech signal, thus saving the learning speed. should be set as
  • the partner's voice section information generated by the residual echo level estimation unit 520 may be input to the adaptive filter learning speed setting unit 550.
  • adaptive filter learning speed setting section 550 sets the learning speed if the third condition that the partner's speech interval information indicates the non-speech interval of the partner's speech signal and the speech interval information indicates the user's speech interval is satisfied.
  • An adaptive filter control signal for setting active is generated and supplied to the adaptive filter 6 .
  • the adaptive filter learning speed setting unit 550 determines that the partner's speech section information indicates the speech section of the partner's speech signal, the relative sound pressure level ratio output from the level ratio calculation unit 540 exceeds the threshold, and the speech section information indicates the user's speech. If the fourth condition indicating the section is satisfied, an adaptive filter control signal for setting the learning speed to active is generated and supplied to the adaptive filter 6 .
  • the adaptive filter learning speed setting unit 550 generates an adaptive filter control signal for setting the learning speed to save and supplies it to the adaptive filter 6 if neither the third condition nor the fourth condition is satisfied.
  • the adaptive control unit 5 shown in FIG. pressure level) as the vibration signal level, the relative sound pressure level ratio between the vibration signal level and the residual echo level is calculated.
  • the vibration signal level corrector 530 may be omitted as a fourth specific configuration example of the adaptive controller 5 .
  • the level ratio calculator 540 may calculate the level ratio between the vibration signal level indicating the sound pressure level of the vibration signal and the residual echo level.
  • the threshold value of the level ratio between the vibration signal level and the residual echo level which is estimated to maintain the quality of the converted speech signal by the adaptive filter 6, is preliminarily measured and stored in the memory unit. may be stored in
  • the adaptive filter learning speed setting unit 550 sets the learning speed to be active when the speech interval information indicates the user's speech interval and the level ratio calculated by the level ratio calculating unit 540 exceeds a predetermined threshold. An adaptive filter control signal for setting is generated and supplied to the adaptive filter 6 . If the fifth condition is not satisfied, the adaptive filter learning speed setting section 550 generates an adaptive filter control signal for setting the learning speed to save and supplies it to the adaptive filter 6 .
  • the subtractor 7 supplies the difference between the converted speech signal output from the adaptive filter 6 and the speech signal output from the echo canceller 20 to the adaptive filter 6 as a residual signal.
  • FIG. 18 shows a specific configuration example of the adaptive filter 6 using an FIR filter.
  • the adaptive filter 6 of the sound collection device 200 has the same configuration as the adaptive filter 6 of the sound collection device 100 .
  • the adaptive filter 6 comprises an adaptive coefficient updater 61, delayers 621-62n, multipliers 630-63n, and adders 641-64n.
  • n is a number on the order of tens to hundreds.
  • the delay units 621 to 62n delay each sample of the input digital vibration signal by one clock and output it.
  • Multipliers 630 to 63n multiply the samples input to delay unit 621 and the samples output from delay units 621 to 62n by respective coefficients, and output the results.
  • the adders 641 to 64n respectively output the outputs of the multipliers 630 and 631, the outputs of the adders 641 and 632, the outputs of the adders 642 and 633, . ) and the output of the multiplier 63n.
  • the adder 64n outputs a converted audio signal obtained by correcting the vibration signal output from the A/D converter 4 so as to bring it closer to the audio signal output from the echo canceller 20.
  • the subtractor 7 outputs a residual signal which is the difference between the converted speech signal output from the adder 64n and the speech signal output from the echo canceller 20.
  • the adaptive coefficient updating unit 61 updates the coefficients by which the input samples are multiplied by the multipliers 630 to 63n so that the residual signal becomes smaller.
  • the adaptive coefficient updating unit 61 updates the coefficients supplied to the multipliers 630 to 63n in a short time so that the residual signal becomes small.
  • the adaptive coefficient updating unit 61 updates the coefficients supplied to the multipliers 630 to 63n over a long period of time in the direction of decreasing the residual signal, or updates the coefficients. do not.
  • the adaptive filter 6 updates the coefficients supplied to the multipliers 630 to 63n in a short period of time so that the vibration signal approaches the sound signal. to correct. As a result, the sound collecting device 200 can immediately supply a converted audio signal with good audio quality to the line 11 .
  • the adaptive filter 6 does not update the coefficients supplied to the multipliers 630 to 63n when the adaptive filter control signal for setting the learning speed to save is input, or if it is updated, it does not update immediately. Update gradually over time.
  • the sound collecting device 200 can supply the converted audio signal, which maintains the audio quality, to the line 11 without deteriorating the audio quality of the converted audio signal.
  • the adaptive filter 6 acquires coefficients that bring the vibration signal closer to the audio signal by learning when any one of the first to fifth conditions is satisfied, and outputs a converted audio signal with good audio quality. do. Therefore, even if none of the first to fifth conditions are met, the adaptive filter 6 generates a converted speech signal using coefficients that bring the already obtained vibration signal closer to the speech signal, so that the speech quality is improved. It is possible to continuously output a converted audio signal with good quality.
  • FIGS. 19A and 19B show the operation when the adaptive control section 5 has the second configuration example shown in FIG.
  • the adaptive control unit 12 when the sound collection device 200 is powered on and processing is started, the adaptive control unit 12 generates partner speech section information and partner sound pressure information in step S1. In step S2, the adaptive control unit 12 determines whether or not it is the partner's voice segment based on the partner's voice segment information. If it is the other party's voice section (YES), the adaptive control unit 12 supplies an adaptive filter control signal indicating active to the adaptive filter 13 in step S3. If not (NO), the adaptive control unit 12 supplies an adaptive filter control signal indicating save to the adaptive filter 13 in step S4.
  • step S3 the adaptive filter 13 updates the coefficients supplied to the multipliers 1330 to 133n in a short period of time in step S5.
  • step S4 the adaptive filter 13 updates or does not update the coefficients supplied to the multipliers 1330 to 133n over a long period of time in step S6.
  • the adaptive control unit 5 determines the voice section based on the vibration signal in step S7, and corrects the sound pressure level of the vibration signal in step S8. In parallel with steps S7 and S8, the adaptive control section 5 estimates the residual echo level in step S9. Subsequently, in step S10, the adaptive control section 5 calculates the relative sound pressure level ratio between the corrected sound pressure level and the residual echo level.
  • step S11 of FIG. 19B the adaptive control unit 5 determines whether or not there is a voice segment based on the voice segment information of the vibration signal. If it is in the voice section (YES), the adaptive control unit 5 shifts the process to step S12. If it is not a speech period (NO), the adaptive control unit 5 shifts the process to step S14.
  • step S12 the adaptive control unit 5 determines whether or not the relative sound pressure level ratio between the corrected sound pressure level and the residual echo level exceeds a threshold. If the relative sound pressure level ratio exceeds the threshold (YES), the adaptive control section 5 shifts the process to step S13. If the relative sound pressure level ratio does not exceed the threshold (NO), the adaptive control section 5 shifts the process to step S14.
  • step S13 the adaptive control unit 5 supplies an adaptive filter control signal indicating active to the adaptive filter 6.
  • step S14 the adaptive control unit 5 supplies an adaptive filter control signal indicating save to the adaptive filter 6.
  • FIG. the adaptive filter 6 updates the coefficients supplied to the multipliers 630-63n in a short period of time in step S15.
  • step S14 the adaptive filter 6 updates or does not update the coefficients supplied to the multipliers 630 to 63n over a long period of time in step S16.
  • step S15 or S16 the sound collecting device 200 determines in step S17 whether or not the power has been turned off. If the operation to turn off the power is not performed (NO), the sound collecting device 200 returns the processing to step S1 in FIG. 19A, and repeats the processing of steps S1 to S17. If the operation of turning off the power is performed (YES), the sound collecting device 200 terminates the processing.
  • the sound collection device 200 does not always update the coefficients by which the converted speech signal is multiplied by the adaptive filter 6 so that the residual signal becomes smaller in a short period of time.
  • the sound pickup device 200 is configured to update over a long period of time or not update when the presence of residual echo components may degrade the quality of the converted audio signal. Therefore, according to the sound collection device 200, the quality of the audio signal (converted audio signal) based on the vibration signal generated by the vibration sensor 3 can be improved.
  • the sound collection device 200 it is possible to further improve the quality of the audio signal based on the vibration signal generated by the vibration sensor 3 in an environment where the user's audio signal may be superimposed by the echo component of the communication partner's voice. can.
  • the present invention is not limited to the first embodiment or the second embodiment described above, and can be variously modified without departing from the gist of the present invention.
  • the parts other than the microphone 1 and the vibration sensor 3 may be configured by a microcomputer.
  • the sound collecting device 100 causes a computer program (sound collecting program) stored in a non-temporary storage medium to cause the central processing unit of the microcomputer to selectively output the above-described audio signal and converted audio signal. let it run.
  • Parts other than the microphone 1 and the vibration sensor 3 may be configured by hardware and configured by an integrated circuit.
  • the sound collecting program of the first embodiment should cause the computer to execute at least the following first to fourth steps.
  • the first step is to correct the vibration signal generated by the vibration sensor 3 based on the vibration transmitted to the human body so as to bring it closer to the sound signal based on the air vibration generated by the microphone 1, by multiplying the vibration signal by a coefficient.
  • Fig. 3 is the step of generating an audio signal;
  • the second step is to generate a residual signal which is the difference between the speech signal and the converted speech signal.
  • the third step is a step of updating the coefficients so that the residual signal becomes smaller at the first speed when it is determined that the speech section contains speech.
  • the coefficient is updated so that the residual signal becomes smaller at a second speed slower than the first speed, or the coefficient is not updated. It is a step to maintain without fail.
  • the sound collecting program of the first embodiment preferably causes the computer to further execute a fifth step of selecting the audio signal and the converted audio signal or mixing and outputting both.
  • the residual echo level estimation section 520 generates the partner's voice section information.
  • the partner speech section information used by the adaptive control unit 5 may be generated outside the adaptive control unit 5 .
  • the other party's voice segment information generated by the voice segment detector 121 included in the adaptive controller 12 shown in FIG. 14 may be input to the adaptive controller 5 .
  • the residual echo level estimating section 520 generates the partner sound pressure information, it may be generated outside the adaptive control section 5 .
  • a sound pressure information detection section for detecting the sound pressure level of the other party's voice signal may be provided in the adaptive control section 12 , and the partner sound pressure information generated by the sound pressure information detection section may be input to the adaptive control section 5 .
  • a selector may be provided that selects the audio signal output from the echo canceller 20 and the converted audio signal output from the adaptive filter 6 and supplies them to the line 11 .
  • An environmental noise analysis unit is provided for analyzing whether or not environmental noise is superimposed on the audio signal generated by the microphone 1, and the selector selects the audio signal output from the echo canceller 20 if the environmental noise is not superimposed. , the converted speech signal may be selected if environmental noise is superimposed.
  • parts other than the microphone 1, the vibration sensor 3, the line 11, and the speaker 16 may be configured by a microcomputer.
  • the sound collecting device 200 causes a computer program (sound collecting program) stored in a non-temporary storage medium to cause the central processing unit of the microcomputer to execute the above-described processing.
  • Parts other than the microphone 1, the vibration sensor 3, the line 11, and the speaker 16 may be configured by hardware and configured by an integrated circuit.
  • the sound collecting program of the second embodiment should cause the computer to execute at least the following first to fourth steps.
  • a first audio signal based on air vibration generated by the microphone 1 and a second audio signal transmitted from the communication partner and received via a line are reproduced by the speaker 16, and the microphone 1 is a step of suppressing the superimposed echo component by picking up sound.
  • the first audio signal in which the echo component is suppressed is used as a target signal, and the vibration signal generated by the vibration sensor 3 and based on the vibration transmitted to the human body by speech is adjusted to the vibration signal so as to approach the target signal. Multiplying the coefficients to generate the transformed speech signal.
  • the third step is to generate a residual signal which is the difference between the target signal and the converted speech signal.
  • the fourth step is to update the coefficient by which the vibration signal is multiplied so that the residual signal becomes smaller.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

マイクロフォン(1)は空気振動に基づく音声信号を生成する。振動センサ(3)は人体に伝わる振動に基づく振動信号を生成する。適応フィルタ(6)は振動信号に係数を乗算して変換音声信号を生成する。減算器(7)は音声信号と変換音声信号との差分である残差信号を生成する。適応制御部(5)は、音声区間であると判定されるときには、適応フィルタ(6)が第1の速度で残差信号が小さくなるように係数を更新するよう制御し、非音声区間であると判定されるときには、適応フィルタ(6)が第1の速度より遅い第2の速度で残差信号が小さくなるように係数を更新するよう制御するか、係数を更新しないように制御する適応フィルタ制御信号を適応フィルタ(6)に供給する。

Description

収音装置、収音方法、及び収音プログラム
 本開示は、収音装置、収音方法、及び収音プログラムに関する。
 特許文献1及び2には、空気振動に基づいて音声信号を生成するマイクロフォン、及び骨振動に基づいて音声信号に相当する振動信号を生成する振動センサを備えることにより、騒音環境下において明瞭な音声を取得することができる収音装置が記載されている。前者のマイクロフォンは気導マイクロフォンと称されることがあり、後者の振動センサは骨導マイクロフォンと称されることがある。
 特許文献1に記載の収音装置は、振動センサが生成する振動信号を音声信号に変換するフィルタリング部を備え、静穏下においても振動センサが生成する振動信号に基づく音声信号を出力する。特許文献1に記載の収音装置は、フィルタリング部より出力される音声信号とマイクロフォンが生成する音声信号との差分である誤差信号が小さくなるようにフィルタリング部のフィルタ係数を更新するように構成されている。
 特許文献2に記載の収音装置は、マイクロフォンが生成する音声信号と振動センサが生成する振動信号とを所定の混合比で混合する。特許文献2に記載の収音装置は、静穏下ではマイクロフォンが生成する音声信号の比率を多くし、雑音環境下では振動センサが生成する振動信号の比率を多くするように構成されている。
特開2007-251354号公報 特開2000-261534号公報 特許第5874344号公報 特許第5948918号公報
 マイクロフォンが生成する音声信号と振動センサが生成する振動信号に基づく音声信号とでは音声信号の品質に差があることから、収音装置は、静穏下であればマイクロフォンが生成する音声信号を出力することが好ましい。特許文献1においては、誤差信号が小さくなるようにフィルタリング部のフィルタ係数を更新することによって、振動信号に基づく音声信号の品質を向上させることを意図している。しかしながら、例えば雑音環境下ではマイクロフォンが生成する音声信号には環境雑音が含まれ、振動信号に基づく音声信号の品質を向上させることができない場合があり、改良が求められている。
 1またはそれ以上の実施形態は、振動センサが生成する振動信号に基づく音声信号の品質をより向上させることができる収音装置、収音方法、及び収音プログラムを提供することを目的とする。
 1またはそれ以上の実施形態の第1の態様によれば、空気振動に基づく第1の音声信号を生成するマイクロフォンと、発話によって人体に伝わる振動に基づく振動信号を生成する振動センサと、前記第1の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する適応フィルタと、前記目標信号と前記変換音声信号との差分である残差信号を生成する減算器と、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する適応制御部とを備える収音装置が提供される。
 1またはそれ以上の実施形態の第2の態様によれば、マイクロフォンが空気振動に基づく音声信号を生成し、振動センサが人体に伝わる振動に基づく振動信号を生成し、適応フィルタが、前記振動信号を前記音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成し、減算器が、前記音声信号と前記変換音声信号との差分である残差信号を生成し、適応制御部が、音声が存在する音声区間であると判定されるときには、前記適応フィルタが第1の速度で前記残差信号が小さくなるように前記係数を更新するよう制御し、音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第1の速度より遅い第2の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する収音方法が提供される。
 1またはそれ以上の実施形態の第3の態様によれば、マイクロフォンが空気振動に基づく第1の音声信号を生成し、振動センサが発話によって人体に伝わる振動に基づく振動信号を生成し、エコーキャンセラが、通信相手から送信されて回線を介して受信した第2の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第1の音声信号に重畳したエコー成分を抑制し、適応フィルタが、前記エコーキャンセラによってエコー成分が抑制された前記第1の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成し、減算器が、前記目標信号と前記変換音声信号との差分である残差信号を生成し、適応制御部が、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する収音方法が提供される。
 1またはそれ以上の実施形態の第4の態様によれば、コンピュータに、振動センサが生成した人体に伝わる振動に基づく振動信号をマイクロフォンが生成した空気振動に基づく音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成するステップと、前記音声信号と前記変換音声信号との差分である残差信号を生成するステップと、音声が存在する音声区間であると判定されるときには、第1の速度で前記残差信号が小さくなるように前記係数を更新するステップと、音声が存在しない非音声区間であると判定されるときには、前記第1の速度より遅い第2の速度で前記残差信号が小さくなるように前記係数を更新するか、前記係数を更新せず維持するステップとを実行させる収音プログラムが提供される。
 1またはそれ以上の実施形態の第4の態様によれば、コンピュータに、マイクロフォンが生成した空気振動に基づく第1の音声信号に、通信相手から送信されて回線を介して受信した第2の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって重畳したエコー成分を抑制するステップと、エコー成分が抑制された前記第1の音声信号を目標信号として、振動センサが生成した、発話によって人体に伝わる振動に基づく振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成するステップと、前記目標信号と前記変換音声信号との差分である残差信号を生成するステップと、前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するステップとを実行させる収音プログラムが提供される。
 1またはそれ以上の実施形態の収音装置、収音方法、及び収音プログラムによれば、振動センサが生成する振動信号に基づく音声信号の品質をより向上させることができる。
図1は、第1実施形態の収音装置を示すブロック図である。 図2Aマイクロフォンが生成した音声信号を示す波形図である。 図2Bは、振動センサが生成した振動信号を示す波形図である。 図3は、音声信号及び振動信号の周波数特性を示す特性図である。 図4は、図1の適応制御部5の具体的な構成例を示すブロック図である。 図5は、図4の音声区間検出部51及び52による検出信号と、音圧レベル比算出部55によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成する場合のパターンを示す図である。 図6は、図4の音声区間検出部51及び52による検出信号と、相関度算出部56によって算出される相関度とに基づいて適応フィルタ制御信号を生成する場合のパターンを示す図である。 図7は、音声信号と適応フィルタ制御信号との関係を示す波形図である。 図8は、図1の適応フィルタ6の具体的な構成例を示すブロック図である。 図9は、図1の環境雑音分析部8の具体的な構成例を示すブロック図である。 図10は、図1のセレクタ9が音声信号と変換音声信号とを選択する動作の一例を示す図である。 図11は、第2実施形態の収音装置を示すブロック図である。 図12は、第2実施形態の収音装置が備えるエコーキャンセラの構成例を示すブロック図である。 図13は、マイクロフォンが生成した音声信号、スピーカより出力された相手音声、振動センサが生成した振動信号の例を示す波形図である。 図14は、図12の適応制御部12の具体的な構成例を示すブロック図である。 図15は、図12の適応フィルタ13の具体的な構成例を示すブロック図である。 図16は、図11の適応制御部5の具体的な第1の構成例を示すブロック図である。 図17は、図11の適応制御部5の具体的な第2の構成例を示すブロック図である。 図18は、図11の適応フィルタ6の具体的な構成例を示すブロック図である。 図19Aは、第2実施形態の収音装置の動作を示す部分的なフローチャートである。 図19Bは、第2実施形態の収音装置の動作を示す、図19Aに続く部分的なフローチャートである。
<第1実施形態>
 以下、第1実施形態の収音装置、収音方法、及び収音プログラムについて、添付図面を参照して説明する。図1は、第1実施形態の収音装置100を示す。図1において、マイクロフォン1は空気振動に基づいて音声信号(第1の音声信号)を生成する。マイクロフォン1より出力される音声信号は、人が耳を通して知覚する音声に近いため、後述する振動信号を音声信号に変換する際の目標値となる。A/D変換器2は、マイクロフォン1より供給されるアナログの音声信号をA/D変換して、デジタルの音声信号を適応制御部5、減算器7、環境雑音分析部8、セレクタ9に供給する。
 振動センサ3は、人体に伝わる振動に基づいて振動信号を生成する。振動センサ3は、人体の表面に接触するように配置されている。体内に埋め込まれている振動受信装置、人体と直に接するように配置されたマイクロフォン、人体の表面に伝わる振動を映像として取得するカメラ、人体の表面に伝わる振動を位置情報として取得する距離計は、振動センサに含まれる。A/D変換器4は、振動センサ3より供給されるアナログの振動信号をA/D変換して、デジタルの振動信号を適応制御部5、適応フィルタ6、環境雑音分析部8に供給する。
 図2Aはマイクロフォン1が生成した音声信号であり、図2Bは図2Aの音声信号と同じ期間に振動センサ3が生成した振動信号である。図2Aと図2Bとを比較すれば分かるように、音声信号と振動信号とは音圧レベルが相違する。図3は、音声信号及び振動信号の周波数特性を示している。一部の周波数帯域において、破線で示す振動信号の音圧レベルは実線で示す音声信号の音圧レベルよりも小さい。振動信号をスピーカに供給して音声として出力すると、マイクロフォン1が生成した音声信号をスピーカに供給して音声として出力する場合と比較して籠った音声となり、本来の音声とは異なって聞こえる。
 図1に戻り、適応制御部5は、A/D変換器2より出力された音声信号、A/D変換器4より出力された振動信号、減算器7より出力された残差信号に基づいて、適応フィルタ6を制御する適応フィルタ制御信号を生成して、適応フィルタ6及び環境雑音分析部8に供給する。適応フィルタ6は、後述するように、振動信号をマイクロフォン1が生成した音声信号に近付けるように補正することによって変換音声信号を生成して、減算器7及びセレクタ9に供給する。
 減算器7は、適応フィルタ6より出力された変換音声信号と、A/D変換器2より出力された音声信号との差分を残差信号として、適応制御部5及び適応フィルタ6に供給する。
 図4は、適応制御部5の具体的な構成例を示す。概略的には、適応制御部5は、発話等の音声が存在する音声区間であるか音声が存在しない非音声区間であるかに応じて、適応フィルタ6の動作を異ならせるための適応フィルタ制御信号を生成する。
 適応制御部5は、音声区間検出部51及び52、音圧レベル取得部53、音圧レベル比算出部55、残差相対レベル取得部54、相関度算出部56、適応フィルタ学習速度設定部57を備える。音声区間検出部51及び52はVAD(Voice Activity Detection)と称される技術によって、それぞれ、音声信号及び振動信号の音声区間を検出する。音声区間検出部51及び52は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。
 音声区間検出部51及び52は、音声区間の検出精度を向上させるため、特許文献3または4に記載の技術を採用し、周波数を分析して人の声の特徴を検出することによって、音声区間を検出してもよい。音声区間検出部51及び52は、それぞれ、音声信号及び振動信号の音声区間と非音声区間とを識別する検出信号を適応フィルタ学習速度設定部57に供給する。
 音圧レベル取得部53は、音声信号及び振動信号の音圧レベルを取得する。音圧レベル比算出部55は、音声信号の音圧レベルと振動信号の音圧レベルとの比である音圧レベル比を算出して、適応フィルタ学習速度設定部57に供給する。音声信号及び振動信号の音圧レベルは、単位時間当たりの音圧の平均振幅値で表されていてもよいし、単位時間当たりの音圧の二乗和で表されていてもよい。発話区間の音圧レベル比と非発話区間の音圧レベル比は環境雑音レベルによって異なる。よって、音圧レベル比算出部55が算出する音圧レベル比は、環境雑音レベルを示す。
 残差相対レベル取得部54には、減算器7より出力された残差信号と、A/D変換器4より出力された振動信号が入力される。音声区間においては、マイクロフォン1には発話等による空気振動が入力され、振動センサ3には発話等による振動が伝達するので、残差信号は低レベルとなる。非音声区間において、または音声区間において環境雑音が存在すると、残差信号は比較的高レベルとなる。残差相対レベル取得部54は、減算器7より出力された残差信号のレベルを、振動信号のレベルで正規化して、残差相対レベルを取得する。
 振動信号が大きいほど、残差信号のレベルが大きくなる傾向となる。そこで、残差信号のレベルを振動信号のレベルで正規化することによって、振動信号の大きさに影響されない残差信号のレベルである残差相対レベルを得ることができる。
 相関度算出部56は、残差相対レベルを所定の閾値(第2の閾値)と比較して相関度を算出する。相関度算出部56は、残差相対レベルが閾値以下であれば音声信号と振動信号との相関が高いと判定して、相関が高いことを示す値を有する相関度を出力する。相関度算出部56は、残差相対レベルが閾値を超えれば音声信号と振動信号との相関が低いと判定して、相関が低いことを示す値を有する相関度を出力する。
 適応フィルタ学習速度設定部57は、少なくとも、音声区間検出部51及び52による検出信号に基づいて音声区間と非音声区間とを判別して適応フィルタ制御信号を生成する。
 適応フィルタ6をより良好に動作させるために、適応フィルタ学習速度設定部57は、音声区間検出部51及び52による検出信号と、音圧レベル比算出部55によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成するのがよい。適応フィルタ6をより良好に動作させるために、適応フィルタ学習速度設定部57は、音声区間検出部51及び52による検出信号と、相関度算出部56による判定結果とに基づいて適応フィルタ制御信号を生成してもよい。
 図5は、音声区間検出部51及び52による検出信号と、音圧レベル比算出部55によって生成される環境雑音レベルとに基づいて適応フィルタ制御信号を生成する場合のパターン#1~#4を示している。図5における音声区間検出とは、音声区間検出部51による検出信号と音声区間検出部52による検出信号とを総合して、音声区間である(オン)か音声区間ではない(オフ)かを判定した結果を示す。
 適応フィルタ学習速度設定部57は、音声区間検出部51による検出信号と音声区間検出部52による検出信号とのいずれか一方が音声区間であることを示せば、音声区間である(オン)と判定してもよい。逆に、適応フィルタ学習速度設定部57は、いずれか一方が非音声区間であることを示せば、音声区間ではない(オフ)と判定してもよい。
 図5に示すように、適応フィルタ学習速度設定部57は、パターン#1として、音声区間検出がオフ、環境雑音レベルが所定の閾値(第1の閾値)以下である低レベルであれば、学習速度をセーブと設定する。適応フィルタ学習速度設定部57は、パターン#2として、音声区間検出がオン、環境雑音レベルが低レベルであれば、学習速度をアクティブと設定する。
 適応フィルタ学習速度設定部57は、パターン#3として、音声区間検出がオフ、環境雑音レベルが所定の閾値を超える高レベルであれば、学習速度をセーブと設定する。適応フィルタ学習速度設定部57は、パターン#4として、音声区間検出がオン、環境雑音レベルが高レベルであれば、学習速度をセーブと設定する。学習速度がアクティブであるとは、適応フィルタ6における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ6における適応動作を抑えるか停止することを意味する。
 具体的には、適応フィルタ6における適応動作を積極的に促すとは、適応フィルタ6が第1の速度で短時間のうちに、振動信号に乗算する後述する係数を更新するよう制御することを意味する。適応フィルタ6における適応動作を抑えるとは、適応フィルタ6が第1の速度より遅い第2の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ6における適応動作を停止するとは、係数を更新しない(係数を維持する)よう制御することを意味する。
 図6は、音声区間検出部51及び52による検出信号と、相関度算出部56によって算出される相関度とに基づいて適応フィルタ制御信号を生成する場合のパターン#5~#8を示している。図6における音声区間検出は、図5における音声区間検出と同じである。
 図6に示すように、適応フィルタ学習速度設定部57は、パターン#5として、音声区間検出がオフで相関度が高ければ、学習速度をセーブと設定する。適応フィルタ学習速度設定部57は、パターン#6として、音声区間検出がオンで相関度が高ければ、学習速度をアクティブと設定する。
 適応フィルタ学習速度設定部57は、パターン#7として、音声区間検出がオフで相関度が低ければ、学習速度をセーブと設定する。適応フィルタ学習速度設定部57は、パターン#8として、音声区間検出がオンで相関度が低ければ、学習速度をセーブと設定する。
 図5に示すように、適応フィルタ学習速度設定部57は、音声区間であり、かつ、環境雑音レベルが低レベル(第1の閾値以下)であるという第1の条件を満たすとき、適応フィルタ6における学習速度をアクティブとする適応フィルタ制御信号を生成するのがよい。適応フィルタ学習速度設定部57は、第1の条件を満たさないとき、適応フィルタ6における学習速度をセーブとする適応フィルタ制御信号を生成するのがよい。
 図6に示すように、適応フィルタ学習速度設定部57は、音声区間であり、かつ、相関度が高い(残差相対レベルが第2の閾値以下である)いう第2の条件を満たすとき、適応フィルタ6における学習速度をアクティブとする適応フィルタ制御信号を生成するのがよい。適応フィルタ学習速度設定部57は、第2の条件を満たさないとき、適応フィルタ6における学習速度をセーブとする適応フィルタ制御信号を生成するのがよい。
 学習速度をアクティブとすれば、適応フィルタ6は第1の速度で係数を更新する。学習速度をセーブとすれば、適応フィルタ6は第1の速度より遅い第2の速度で係数を更新するか、係数を更新しない。
 適応フィルタ学習速度設定部57は、音声区間検出と、環境雑音レベルと、相関度とに基づいて適応フィルタ制御信号を生成してもよい。この場合、環境雑音レベルと相関度とのうちのいずれか一方を優先して、アクティブとセーブとのいずれかを設定してもよい。また、環境雑音レベルと相関度とをそれぞれポイント化して、適応フィルタ学習速度設定部57は、環境雑音レベルのポイントと相関度のポイントとを総合して音声区間であるか否かを判定して、アクティブとセーブとのいずれかを設定してもよい。
 図7は、(a)に示す音声信号と(b)に示す適応フィルタ制御信号との関係を示している。適応フィルタ制御信号は、音声信号の音声区間にハイ、非音声区間にローとなる。適応フィルタ制御信号のハイはアクティブを示し、適応フィルタ制御信号のローはセーブを示す。ここでは、音声区間の環境雑音レベルは低レベルであり、音声信号と振動信号との相関度は高いとする。
 図8は、FIRフィルタを用いた適応フィルタ6の具体的な構成例を示す。適応フィルタ6は、適応係数更新部61、遅延器621~62n、乗算器630~63n、加算器641~64nを備える。nは数十から数百程度の数である。遅延器621~62nは、入力されたデジタルの振動信号の各サンプルを1クロックずつ遅延して出力する。乗算器630~63nは、遅延器621に入力されるサンプルと遅延器621~62nより出力される各サンプルとにそれぞれ係数を乗算して出力する。
 加算器641~64nは、それぞれ、乗算器630及び631の出力、加算器641及び乗算器632の出力、加算器642及び乗算器633の出力、…、加算器64(n-1)(図示せず)及び乗算器63nの出力を加算する。これにより、加算器64nは、A/D変換器4より出力された振動信号を、A/D変換器2より出力された音声信号に近付けるように補正した変換音声信号を出力する。
 減算器7は、加算器64nより出力された変換音声信号と、A/D変換器2より出力された音声信号との差分である残差信号を出力する。適応係数更新部61は、残差信号が小さくなるように、乗算器630~63nが入力されるサンプルに乗算する係数を更新する。
 このとき、適応係数更新部61は、適応フィルタ制御信号がアクティブを示すハイであるときには、乗算器630~63nに供給する係数を残差信号が小さくなるように短時間で更新する。適応係数更新部61は、適応フィルタ制御信号がセーブを示すローであるときには、乗算器630~63nに供給する係数を残差信号が小さくなる方向に長時間をかけて更新するか、係数を更新しない。
 図5で説明したように、適応制御部5は、音声区間検出部51及び52が音声区間であることを検出しても、環境雑音レベルが高レベルであれば適応フィルタ制御信号を適応フィルタ6における学習速度をセーブに設定するローとする。環境雑音レベルが高レベルであるときに乗算器630~63nに供給する係数を更新すると、振動信号を環境雑音に近似させて変換音声信号の音質を低下させてしまうことがある。
 また、図6で説明したように、適応制御部5は、音声区間検出部51及び52が音声区間であることを検出しても、相関度が低ければ、適応フィルタ制御信号をローとする。同様に、相関度が低いときに乗算器630~63nに供給する係数を更新すると変換音声信号の音質を低下させてしまうことがある。
 そこで、適応係数更新部61は、適応フィルタ制御信号がローであれば、係数を更新しないか、更新するとしても即座には更新せず、長時間をかけて徐々に更新するのがよい。適応フィルタ6は、環境雑音レベルが高レベルとなる前または相関度が低くなる前までの学習によって、振動信号を音声信号に近付ける係数を得て、音声品質が良好な変換音声信号を出力している。従って、適応フィルタ6は、環境雑音レベルが高レベルとなったり、相関度が低くなったりする短時間だけ、係数を更新しなくても、音声品質が良好な変換音声信号を継続して出力することができる。
 図9は、環境雑音分析部8の具体的な構成例を示す。環境雑音分析部8は、音圧レベル取得部81及び82、音圧レベル比算出部83、セレクタ制御信号設定部84を備える。音圧レベル取得部81は、A/D変換器2より出力された音声信号の音圧レベルを取得する。音圧レベル取得部82は、A/D変換器4より出力された振動信号の音圧レベルを取得する。音圧レベル比算出部83は、音声信号の音圧レベルと振動信号の音圧レベルとの比である音圧レベル比を算出する。音圧レベル比算出部83が算出する音圧レベル比は、環境雑音レベルを示す。
 音圧レベル取得部81及び82と音圧レベル比算出部83は、図4に示す適応制御部5内の音圧レベル取得部53及び音圧レベル比算出部55と実質的に同じ構成である。よって、適応制御部5内の音圧レベル取得部53及び音圧レベル比算出部55を環境雑音分析部8の一部として供用することも可能である。
 環境雑音分析部8は、音声区間における発話等の音声に環境雑音が影響を及ぼしていなければセレクタ9によってA/D変換器2より出力された音声信号を選択し、影響を及ぼしていればセレクタ9によって適応フィルタ6より出力された変換音声信号を選択するために設けられている。
 セレクタ制御信号設定部84には、音圧レベル比算出部83より出力される音圧レベル比と、適応制御部5より供給される適応フィルタ制御信号とが入力される。セレクタ制御信号設定部84に適応フィルタ制御信号を入力しているのは、非音声区間における環境雑音レベルに基づいて、A/D変換器2より出力された音声信号と適応フィルタ6より出力された変換音声信号とを選択するためのセレクタ制御信号を生成するためである。音声区間における環境雑音レベルは音声の影響を受けるため、真の環境雑音レベルを示さないことがある。
 セレクタ制御信号設定部84は、非音声区間における環境雑音レベルが所定の閾値(第3の閾値)以下であれば音声信号を選択し、閾値を超えれば変換音声信号を選択するセレクタ制御信号を生成してセレクタ9に供給する。セレクタ制御信号設定部84が用いる第3の閾値は、適応フィルタ学習速度設定部57が用いる第1の閾値と同じ値であってもよいし、異なる値であってもよい。
 図10は、セレクタ9が音声信号と変換音声信号とを選択する動作の一例を示している。図10において、時刻t1以前で環境雑音レベルが閾値以下で、環境雑音は音声区間の音声に影響を及ぼしていない。時刻t1~t3では、環境雑音レベルが閾値を超えて環境雑音が音声区間の音声に影響を及ぼしている。時刻t3以降で、環境雑音は音声区間の音声に影響を及ぼさない状態に戻っている。
 この場合、環境雑音分析部8は時刻t1以前で音声信号を選択するセレクタ制御信号をセレクタ9に供給しており、セレクタ9は音声信号を選択して出力する。時刻t1を過ぎると、環境雑音分析部8は変換音声信号を選択するセレクタ制御信号をセレクタ9に供給する。セレクタ9は、即座に音声信号を変換音声信号に切り替えるのではなく、時刻t1~t2の時間をかけて、音声信号の音圧レベルを逓減させ、変換音声信号の音圧レベルを逓増させながら、時刻t2で変換音声信号に切り替える。
 時刻t3を過ぎると、環境雑音分析部8は音声信号を選択するセレクタ制御信号をセレクタ9に供給する。同様に、セレクタ9は、時刻t3~t4の時間をかけて、変換音声信号の音圧レベルを逓減させ、音声信号の音圧レベルを逓増させながら、時刻t4で音声信号に切り替える。
 セレクタ9は、音声信号と変換音声信号とを互いに切り替える際に、一方の音圧レベルを逓減させ、他方の音圧レベルを逓増させながら、音声信号と変換音声信号とを混合するので、音声信号と変換音声信号とを互いに違和感なく切り替えることができる。
 セレクタ9は、図10のように音声信号と変換音声信号とを切り替える代わりに、音声信号と変換音声信号とを適応的に混合してもよい。この場合、セレクタ9は、相関度算出部56で算出される相関度に応じて音声信号と変換音声信号とを混合するのがよい。セレクタ9は、相関度が高ければ、音声信号の重み付けを大きくして音声信号と変換音声信号とを混合し、相関度が低ければ、変換音声信号の重み付けを大きくして音声信号と変換音声信号とを混合する。
 セレクタ9が相関度算出部56で算出される相関度に応じて音声信号と変換音声信号とを混合するように構成されている場合、環境雑音分析部8を省略してもよい。相関度算出部56が3段階以上の相関度を算出して、セレクタ9が音声信号と変換音声信号とを両者に対する重み付けを複数に可変させて混合してもよい。相関度算出部56が算出する相関度は2段階であってもよく、任意の複数段階であればよい。
 図1に戻り、D/A変換器10は、セレクタ9から供給された音声信号、音声信号と変換音声信号との混合音声信号、または変換音声信号をD/A変換して、アナログの出力音声信号を生成する。以上のようにして収音装置100が生成した出力音声信号は、外部のスピーカ、ヘッドフォン、音声記録装置等の任意の機器へと供給される。
 以上のように、収音装置100は、適応フィルタ6において変換音声信号に乗算する係数を、常時、短時間で残差信号が小さくなるように更新するのではなく、変換音声信号の品質を悪化させる可能性があるときには、長時間をかけて更新するか、更新しないように構成している。従って、収音装置100によれば、振動センサ3が生成する振動信号に基づく音声信号(変換音声信号)の品質を特許文献1に記載の収音装置よりも向上させることができる。
 また、収音装置100は、セレクタ9によってA/D変換器2より出力された音声信号と適応フィルタ6より出力された変換音声信号とを選択して出力する。従って、収音装置100によれば、マイクロフォン1が生成する音声信号と振動センサ3が生成する振動信号に基づく音声信号とを環境に応じて適切に選択することができる。
<第2実施形態>
 以下、第2実施形態の収音装置、収音方法、及び収音プログラムについて、添付図面を参照して説明する。図11は、第2実施形態の収音装置200を示す。第2実施形態の収音装置200において、第1実施形態の収音装置100と同一部分には同一部分を付し、その説明を省略することがある。
 図11において、マイクロフォン1は空気振動に基づいて音声信号(第1の音声信号)を生成する。A/D変換器2は、マイクロフォン1より供給されるアナログの音声信号をA/D変換して、デジタルの音声信号をエコーキャンセラ20に供給する。第1の音声信号は、人が耳を通して知覚する音声に近いものの、第1の音声信号にはエコー成分が含まれる場合がある。よって、エコーキャンセラ20より出力される音声信号を、後述する振動信号を音声信号に変換する際の目標信号とすることが望ましい。
 通信相手から送信されてサーバ及び回線11を介して受信した音声(以下、相手音声)であるデジタルの音声信号(第2の音声信号)は、エコーキャンセラ20及びD/A変換器15に供給される。第2の音声信号を相手音声信号と称することがある。D/A変換器15は、入力されたデジタルの音声信号をD/A変換して、アナログの音声信号をスピーカ16に供給する。スピーカ16は入力された音声信号を再生して相手音声を出力する。このとき、マイクロフォン1がスピーカ16より出力された相手音声を収音することにより、ユーザが発した音声に通信相手が発した音声がエコー成分として重畳することがある。
 エコーキャンセラ20は、A/D変換器2より出力される音声信号に重畳しているエコー成分を、回線11を介して受信した音声信号を用いて抑制する。エコーキャンセラ20は、エコー成分が抑制された音声信号を適応制御部5及び減算器7に供給する。エコーキャンセラ20はマイクロフォン1が収音した音声信号に重畳されているエコー成分を完全にはキャンセルすることができないことがあるが、エコーキャンセラ20より出力される音声信号をエコーキャンセルされた音声信号と称することとする。
 一例として、エコーキャンセラ20は図12のように構成することができる。図12に示すように、エコーキャンセラ20は、適応制御部12、適応フィルタ13、減算器14を備える。適応制御部12は、適応フィルタ13を制御するための適応フィルタ制御信号を生成して、適応フィルタ13に供給する。適応フィルタ13は、適応フィルタ制御信号に従って、相手音声信号に係数を乗算して、エコー成分が重畳した音声信号よりエコー成分をキャンセルするためのキャンセル音声信号を生成して減算器14に供給する。適応フィルタ13の具体的な構成例については後述する。
 エコーキャンセラ20は図12に示すような適応フィルタ13を備える構成に限定されず、他のエコー抑制方法を用いてもよい。エコーキャンセラ20の具体的な構成は限定されない。
 図11に戻り、振動センサ3は、人体(収音装置200のユーザの体)に伝わる振動に基づいて振動信号を生成する。振動センサ3は、人体の表面に接触するように配置されている。体内に埋め込まれている振動受信装置、人体と直に接するように配置されたマイクロフォン、人体の表面に伝わる振動を映像として取得するカメラ、人体の表面に伝わる振動を位置情報として取得する距離計は、振動センサに含まれる。A/D変換器4は、振動センサ3より供給されるアナログの振動信号をA/D変換して、デジタルの振動信号を適応制御部5及び適応フィルタ6に供給する。
 適応フィルタ6は、後述するように、エコーキャンセラ20より出力されたエコーキャンセルされた音声信号を目標信号として、振動信号をその目標信号に近付けるように補正することによって変換音声信号を生成して、回線11に供給する。回線11は例えばインターネット回線である。変換音声信号は回線11及び図示していないインターネット通話用のサーバを介して、通信相手へと送信される。
 図13において、(a)はマイクロフォン1が生成した音声信号、(b)はスピーカ16より出力された相手音声、(c)は振動センサ3が生成した振動信号を示している。図13の(b)において、区間b1、b2、b3は通信相手の発話による音声が存在する音声区間(発話区間)であり、区間b1、b2、b3以外は相手音声が存在しない非音声区間(非発話区間)である。図13の(c)において、区間c1及びc2はユーザの発話による音声が存在する音声区間であり、区間c1及びc2以外はユーザの音声が存在しない非音声区間である。
 区間b3の大部分は区間c2と重複しており、相手音声もユーザの音声も音圧レベルが高いので、エコーキャンセラによってエコーキャンセルしてもエコー成分が残りやすい。区間b1は区間c1と重複しており、相手音声の音圧レベルは低いものの、エコー成分が残ることがある。区間b2はユーザの音声の非音声区間に位置しており、エコーキャンセラによってエコーキャンセルすることによってエコー成分が十分にキャンセルされることが期待できる。
 図14は、図12に示す適応制御部12の具体的な構成例を示す。適応制御部12は、音声区間検出部121及び適応フィルタ学習速度設定部122を備える。音声区間検出部121はVADと称される技術によって相手音声の音声区間を検出して、相手音声区間情報を適応フィルタ学習速度設定部122に供給する。音声区間検出部121は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。
 概略的には、適応制御部12は、相手音声が存在する音声区間であるか相手音声が存在しない非音声区間であるかに応じて、適応フィルタ13の動作を異ならせるための適応フィルタ制御信号を生成する。具体的には、適応フィルタ学習速度設定部122は、相手音声区間情報が相手音声の音声区間を示せば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ13に供給する。適応フィルタ学習速度設定部122は、相手音声区間情報が相手音声の非音声区間を示せば、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ13に供給する。
 学習速度がアクティブであるとは、適応フィルタ13における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ13における適応動作を抑えるか停止することを意味する。
 具体的には、適応フィルタ13における適応動作を積極的に促すとは、適応フィルタ13が第1の速度で短時間のうちにエコー成分をキャンセルするためのキャンセル信号を生成するよう、後述する係数を更新するよう制御することを意味する。適応フィルタ13における適応動作を抑えるとは、適応フィルタ13が第1の速度より遅い第2の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ13における適応動作を停止するとは、係数を更新しない(係数を維持する)よう制御することを意味する。
 図15は、FIRフィルタを用いた適応フィルタ13の具体的な構成例を示す。適応フィルタ13は、適応係数更新部131、遅延器1321~132n、乗算器1330~133n、加算器1341~134nを備える。nは数十から数百程度の数である。遅延器1321~132nは、入力されたデジタルの相手音声信号の各サンプルを1クロックずつ遅延して出力する。乗算器1330~133nは、遅延器1321に入力されるサンプルと遅延器1321~132nより出力される各サンプルとにそれぞれ係数を乗算して出力する。
 加算器1341~134nは、それぞれ、乗算器1330及び1331の出力、加算器1341及び乗算器1332の出力、加算器1342及び乗算器1333の出力、…、加算器134(n-1)(図示せず)及び乗算器133nの出力を加算する。これにより、加算器134nは、エコー成分が重畳した音声信号よりエコー成分をキャンセルするためのキャンセル音声信号を出力する。
 減算器14は、A/D変換器2より出力されたエコー成分が重畳した音声信号よりキャンセル音声信号を減算して、エコーキャンセルされた音声信号を出力する。適応係数更新部131は、エコー成分が極力残留しないキャンセル音声信号を生成するように、乗算器1330~133nが入力されるサンプルに乗算する係数を更新する。
 このとき、適応係数更新部131は、適応フィルタ制御信号がアクティブを示すハイであるときには、乗算器1330~133nに供給する係数を短時間で更新する。適応係数更新部131は、適応フィルタ制御信号がセーブを示すローであるときには、乗算器1330~133nに供給する係数を長時間をかけて更新するか、係数を更新しない。
 図16は、適応制御部5の具体的な第1の構成例を示す。図11及び図16に示すように、適応制御部5には、エコーキャンセラ20より出力された音声信号及び振動信号の他に、回線11より供給される相手音声信号が入力される。適応制御部5は、音声区間検出部510、残留エコーレベル推定部520、適応フィルタ学習速度設定部550を備える。
 音声区間検出部510はVADと称される技術によって振動信号の音声区間を検出して、音声区間情報を適応フィルタ学習速度設定部550に供給する。音声区間検出部510は、少なくとも音圧レベルが所定のレベルを超えるか否かによって音声区間を検出する。残留エコーレベル推定部520には、エコーキャンセラ20より出力された音声信号と、相手音声信号とが入力される。残留エコーレベル推定部520は、相手音声信号の音圧レベルとエコーキャンセラ20より出力された音声信号の音圧レベルとの所定の単位時間当たりの相対音圧レベル比を算出することによって、目標信号に残留する残留エコーレベルを推定する。所定の単位時間は、例えば数ミリ秒または数十ミリ秒程度である。残留エコーレベル推定部520は、残留エコーレベルを適応フィルタ学習速度設定部550に供給する。
 適応フィルタ学習速度設定部550は、音声区間情報がユーザの音声区間を示し、かつ残留エコーレベルが所定の閾値以下であるという第1の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。適応フィルタ学習速度設定部550は、第1の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 学習速度がアクティブであるとは、適応フィルタ6における適応動作を積極的に促すことを意味し、学習速度がセーブであるとは、適応フィルタ6における適応動作を抑えるか停止することを意味する。
 具体的には、適応フィルタ6における適応動作を積極的に促すとは、適応フィルタ6が第3の速度で短時間のうちに振動信号に乗算する後述する係数を更新するよう制御することを意味する。適応フィルタ6における適応動作を抑えるとは、適応フィルタ6が第3の速度より遅い第4の速度で長時間をかけて、係数を更新するよう制御することを意味する。適応フィルタ6における適応動作を停止するとは、係数を更新しない(係数を維持する)よう制御することを意味する。第3の速度は第1の速度と同じでもよいし異なっていてもよく、第4の速度は第2の速度と同じでもよいし異なっていてもよい。
 音声区間情報がユーザの音声区間を示さない場合は、目標信号となる音声信号が存在しないので学習速度をセーブと設定するのがよい。音声区間情報がユーザの音声区間を示しても残留エコーレベルが閾値を超える場合には、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるため、学習速度をセーブと設定するのがよい。適応フィルタ6による変換音声信号の品質を悪化させない、残留エコーレベルと比較すべき閾値を予め測定して記憶部に記憶させておいてもよい。
 図17は、適応制御部5の具体的な第2の構成例を示す。適応制御部5は、音声区間検出部510、残留エコーレベル推定部520、振動信号レベル補正部530、レベル比算出部540、適応フィルタ学習速度設定部550を備える。図17において、図16と同一部分には同一符号を付し、その説明を省略することがある。
 振動信号レベル補正部530には、音声区間検出部510より出力された振動信号の音声区間情報と、振動信号と、エコーキャンセラ20より出力された音声信号とが入力される。振動信号レベル補正部530は、振動信号の音声区間において、振動信号とエコーキャンセラ20より出力された音声信号との所定の単位時間当たりの相対音圧レベル比を算出する。また、振動信号レベル補正部530は、振動信号の音圧レベルを、相対音圧レベル比に基づいて音声信号の音圧レベルに相当する音圧レベルに補正した補正音圧レベルを出力する。所定の単位時間は、例えば数ミリ秒または数十ミリ秒程度である。
 マイクロフォン1が収音した音声信号はエコー成分または環境雑音を含むことがある。振動信号の音圧レベルを音声信号の音圧レベルに相当する音圧レベルに補正すれば、エコー成分または環境雑音の影響を受けない比較的正確な音声信号の音圧レベルを得ることができる。
 図17の残留エコーレベル推定部520には、エコーキャンセラ20より出力された音声信号と、相手音声信号と、振動信号の音声区間情報とが入力される。残留エコーレベル推定部520は、音声区間検出部121と同様に、VADと称される技術によって相手音声信号の音声区間を検出して相手音声区間情報を生成し、相手音声信号の音圧レベルを検出して相手音圧情報を生成する。
 振動信号の音声区間情報がユーザの非音声区間を示し、相手音声区間情報が相手音声信号の音声区間を示せば、マイクロフォン1はユーザが発する音声を収音せずエコーのみを収音するから、エコーキャンセラ20より出力された音声信号はエコー成分のみを含む。
 そこで、残留エコーレベル推定部520は、振動信号の音声区間情報がユーザの非音声区間を示し、相手音声区間情報が相手音声信号の音声区間を示すとき、相手音圧情報とエコーキャンセラ20より出力された音声信号との所定の単位時間当たりの相対音圧レベル比を算出する。ここでの所定の単位時間も、例えば数ミリ秒または数十ミリ秒程度である。残留エコーレベル推定部520が算出する相対音圧レベル比は推定された残留エコーレベルに相当する。このようにして残留エコーレベル推定部520は残留エコーレベルを推定する。
 レベル比算出部540には、残留エコーレベル推定部520より出力された残留エコーレベルと、振動信号レベル補正部530より出力された補正音圧レベルとが入力される。レベル比算出部540は、補正音圧レベルを残留エコーレベルで除算して、補正音圧レベルと残留エコーレベルとの相対音圧レベル比を算出する。残留エコーレベル推定部520によって、マイクロフォン1が収音した音声信号に含まれている残留エコーレベルが予め推定されている。振動信号レベル補正部530によって、振動信号に基づく音声信号の音圧レベルに相当する補正音圧レベルが得られている。
 従って、レベル比算出部540が算出する相対音圧レベル比は、マイクロフォン1が環境雑音を収音する状態であっても、ユーザが発する音声と相手音声とが重なった状態であっても正確な音圧レベル比となる。レベル比算出部540が算出する相対音圧レベル比が所定の閾値を超えていれば、エコーキャンセラ20より出力された音声信号はほとんどエコー成分を含まず、エコーキャンセラ20によってエコー成分がキャンセルされているということになる。レベル比算出部540が算出する相対音圧レベル比が所定の閾値以下であれば、エコーキャンセラ20より出力された音声信号がエコー成分を含み、エコーキャンセラ20によってエコー成分がキャンセルされていないということになる。
 適応フィルタ学習速度設定部550には、音声区間検出部510より出力された音声区間情報と、レベル比算出部540より出力された相対音圧レベル比とが入力される。適応フィルタ学習速度設定部550は、音声区間情報がユーザの音声区間を示し、レベル比算出部540より出力された相対音圧レベル比が閾値を超えるという第2の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。適応フィルタ学習速度設定部550は、第2の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 音声区間情報がユーザの音声区間を示さない場合は、目標信号となる音声信号が存在しないので学習速度をセーブと設定するのがよい。音声区間情報がユーザの音声区間を示しても相対音圧レベル比が閾値以下である場合には、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるため、学習速度をセーブと設定するのがよい。
 図17において、適応制御部5の具体的な第3の構成例として、適応フィルタ学習速度設定部550に残留エコーレベル推定部520によって生成された相手音声区間情報を入力してもよい。この場合、適応フィルタ学習速度設定部550は、相手音声区間情報が相手音声信号の非音声区間を示し、かつ音声区間情報がユーザの音声区間を示すという第3の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 適応フィルタ学習速度設定部550は、相手音声区間情報が相手音声信号の音声区間を示し、レベル比算出部540より出力された相対音圧レベル比が閾値を超え、かつ音声区間情報がユーザの音声区間を示すという第4の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 適応フィルタ学習速度設定部550は、第3の条件と第4の条件のいずれも満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 図17に示す適応制御部5は、より好ましい構成として、振動信号レベル補正部530を備え、レベル比算出部540は、振動信号レベル補正部530で補正された振動信号の音圧レベル(補正音圧レベル)を振動信号レベルとして、振動信号レベルと残留エコーレベルとの相対音圧レベル比を算出している。簡略化のため、適応制御部5の具体的な第4の構成例として、振動信号レベル補正部530を省略してもよい。この場合、レベル比算出部540は、振動信号の音圧レベルを示す振動信号レベルと残留エコーレベルとのレベル比を算出すればよい。また、振動信号の音圧レベルが十分に高く、適応フィルタ6による変換音声信号の品質が維持されると推定される振動信号レベルと残留エコーレベルとのレベル比の閾値を予め測定して記憶部に記憶させておいてもよい。
 適応フィルタ学習速度設定部550は、音声区間情報がユーザの音声区間を示し、レベル比算出部540が算出したレベル比が所定の閾値を超えるという第5の条件を満たせば、学習速度をアクティブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。適応フィルタ学習速度設定部550は、第5の条件を満たさなければ、学習速度をセーブと設定するための適応フィルタ制御信号を生成して適応フィルタ6に供給する。
 図11において、減算器7は、適応フィルタ6より出力された変換音声信号と、エコーキャンセラ20より出力された音声信号との差分を残差信号として、適応フィルタ6に供給する。
 図18は、FIRフィルタを用いた適応フィルタ6の具体的な構成例を示す。収音装置200の適応フィルタ6は、収音装置100の適応フィルタ6と同様の構成を備える。適応フィルタ6は、適応係数更新部61、遅延器621~62n、乗算器630~63n、加算器641~64nを備える。nは数十から数百程度の数である。遅延器621~62nは、入力されたデジタルの振動信号の各サンプルを1クロックずつ遅延して出力する。乗算器630~63nは、遅延器621に入力されるサンプルと遅延器621~62nより出力される各サンプルとにそれぞれ係数を乗算して出力する。
 加算器641~64nは、それぞれ、乗算器630及び631の出力、加算器641及び乗算器632の出力、加算器642及び乗算器633の出力、…、加算器64(n-1)(図示せず)及び乗算器63nの出力を加算する。これにより、加算器64nは、A/D変換器4より出力された振動信号を、エコーキャンセラ20より出力された音声信号に近付けるように補正した変換音声信号を出力する。
 減算器7は、加算器64nより出力された変換音声信号と、エコーキャンセラ20より出力された音声信号との差分である残差信号を出力する。適応係数更新部61は、残差信号が小さくなるように、乗算器630~63nが入力されるサンプルに乗算する係数を更新する。
 このとき、適応係数更新部61は、適応フィルタ制御信号がアクティブを示すハイであるときには、乗算器630~63nに供給する係数を残差信号が小さくなるように短時間で更新する。適応係数更新部61は、適応フィルタ制御信号がセーブを示すローであるときには、乗算器630~63nに供給する係数を残差信号が小さくなる方向に長時間をかけて更新するか、係数を更新しない。
 適応フィルタ6は、学習速度をアクティブと設定するための適応フィルタ制御信号が入力されるときには、乗算器630~63nに供給する係数を短時間で更新して、振動信号を音声信号に近付けるように補正する。これにより、収音装置200は、即座に音声品質が良好な変換音声信号を回線11へと供給することができる。
 適応フィルタ6は、学習速度をセーブと設定するための適応フィルタ制御信号が入力されるときには、乗算器630~63nに供給する係数を更新しないか、更新するとしても即座には更新せず、長時間をかけて徐々に更新する。これにより、収音装置200は、変換音声信号の音声品質をほとんど低下させることなく、音声品質が維持された変換音声信号を回線11へと供給することができる。
 適応フィルタ6は、第1~第5の条件のうちのいずれかの条件を満たしているときの学習によって、振動信号を音声信号に近付ける係数を得て、音声品質が良好な変換音声信号を出力する。従って、適応フィルタ6は、第1~第5の条件のいずれも満たさない状態となっても、既に得られた振動信号を音声信号に近付ける係数を用いて変換音声信号を生成するので、音声品質が良好な変換音声信号を継続して出力することができる。
 図19A及び図19Bに示すフローチャートを用いて、収音装置200が実行する一連の動作を説明する。図19A及び図19Bに示すフローチャートは、適応制御部5が図17に示す第2の構成例である場合の動作を示す。
 図19Aにおいて、収音装置200の電源がオンされて処理を開始すると、適応制御部12は、ステップS1にて、相手音声区間情報及び相手音圧情報を生成する。適応制御部12は、ステップS2にて、相手音声区間情報に基づき、相手音声区間であるか否かを判定する。相手音声区間であれば(YES)、適応制御部12は、ステップS3にて、適応フィルタ13にアクティブを示す適応フィルタ制御信号を供給する。相手音声区間でなければ(NO)、適応制御部12は、ステップS4にて、適応フィルタ13にセーブを示す適応フィルタ制御信号を供給する。
 ステップS3に続けて、適応フィルタ13は、ステップS5にて、乗算器1330~133nに供給する係数を短時間で更新する。ステップS4に続けて、適応フィルタ13は、ステップS6にて、乗算器1330~133nに供給する係数を長時間をかけて更新するか更新しない。
 適応制御部5は、ステップS7にて、振動信号に基づいて音声区間を判定し、ステップS8にて、振動信号の音圧レベルを補正する。ステップS7及びS8と並行して、適応制御部5は、ステップS9にて、残留エコーレベルを推定する。続けて、適応制御部5は、ステップS10にて、補正音圧レベルと残留エコーレベルとの相対音圧レベル比を算出する。
 適応制御部5は、図19BのステップS11にて、振動信号の音声区間情報に基づき、音声区間であるか否かを判定する。音声区間であれば(YES)、適応制御部5は処理をステップS12に移行させる。音声区間でなければ(NO)、適応制御部5は処理をステップS14に移行させる。適応制御部5は、ステップS12にて、補正音圧レベルと残留エコーレベルとの相対音圧レベル比が閾値を超えるか否かを判定する。相対音圧レベル比が閾値を超えれば(YES)、適応制御部5は処理をステップS13に移行させる。相対音圧レベル比が閾値を超えなければ(NO)、適応制御部5は処理をステップS14に移行させる。
 適応制御部5は、ステップS13にて、適応フィルタ6にアクティブを示す適応フィルタ制御信号を供給する。適応制御部5は、ステップS14にて、適応フィルタ6にセーブを示す適応フィルタ制御信号を供給する。ステップS13に続けて、適応フィルタ6は、ステップS15にて、乗算器630~63nに供給する係数を短時間で更新する。ステップS14に続けて、適応フィルタ6は、ステップS16にて、乗算器630~63nに供給する係数を長時間をかけて更新するか更新しない。
 収音装置200は、ステップS15またはS16に続けて、ステップS17にて、電源オフの操作がなされたか否かを判定する。電源オフの操作がなされなければ(NO)、収音装置200は処理を図19AのステップS1に戻し、ステップS1~S17の処理を繰り返す。電源オフの操作がなされれば(YES)、収音装置200は処理を終了させる。
 以上のように、収音装置200は、適応フィルタ6において変換音声信号に乗算する係数を、常時、短時間で残差信号が小さくなるように更新するわけではない。収音装置200は、残留エコー成分の存在によって変換音声信号の品質を悪化させる可能性があるときには、長時間をかけて更新するか、更新しないように構成している。従って、収音装置200によれば、振動センサ3が生成する振動信号に基づく音声信号(変換音声信号)の品質を向上させることができる。
 収音装置200によれば、ユーザの音声信号に通信相手の音声のエコー成分が重畳することがある環境下において、振動センサ3が生成する振動信号に基づく音声信号の品質をより向上させることができる。
 本発明は以上説明した第1実施形態または第2実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。図1において、マイクロフォン1及び振動センサ3を除く部分が、マイクロコンピュータによって構成されていてもよい。この場合、収音装置100は、非一時的な記憶媒体に記憶されたコンピュータプログラム(収音プログラム)がマイクロコンピュータの中央処理装置に上述した音声信号と変換音声信号との選択的な出力処理を実行させる。マイクロフォン1及び振動センサ3を除く部分がハードウェアで構成されて集積回路によって構成されていてもよい。
 第1実施形態の収音プログラムは、コンピュータに、少なくとも次の第1~第4のステップを実行させればよい。第1のステップは、振動センサ3が生成した人体に伝わる振動に基づく振動信号をマイクロフォン1が生成した空気振動に基づく音声信号に近付けるように補正するために、振動信号に係数を乗算して変換音声信号を生成するステップである。第2のステップは、音声信号と変換音声信号との差分である残差信号を生成するステップである。
 第3のステップは、音声が存在する音声区間であると判定されるときには、第1の速度で残差信号が小さくなるように係数を更新するステップである。第4のステップは、音声が存在しない非音声区間であると判定されるときには、第1の速度より遅い第2の速度で残差信号が小さくなるように係数を更新するか、係数を更新せず維持するステップである。第1実施形態の収音プログラムは、コンピュータに、音声信号と変換音声信号とを選択するか両者を混合して出力する第5のステップをさらに実行させるのがよい。
 図11における適応制御部5の第2及び第3の構成例においては、残留エコーレベル推定部520が相手音声区間情報を生成している。適応制御部5が用いる相手音声区間情報は適応制御部5の外部で生成されてもよい。図14に示す適応制御部12が備える音声区間検出部121が生成した相手音声区間情報を適応制御部5に入力してもよい。また、残留エコーレベル推定部520が相手音圧情報を生成するが、適応制御部5の外部で生成されてもよい。適応制御部12内に相手音声信号の音圧レベルを検出する音圧情報検出部を設け、その音圧情報検出部が生成した相手音圧情報を適応制御部5に入力してもよい。
 図11において、エコーキャンセラ20より出力された音声信号と、適応フィルタ6より出力された変換音声信号とを選択して回線11に供給するセレクタを設けてもよい。マイクロフォン1が生成した音声信号に環境雑音が重畳しているか否かを分析する環境雑音分析部を設け、セレクタは、環境雑音が重畳していなければエコーキャンセラ20より出力された音声信号を選択し、環境雑音が重畳していれば変換音声信号を選択すればよい。
 図11において、マイクロフォン1、振動センサ3、回線11、及びスピーカ16を除く部分が、マイクロコンピュータによって構成されていてもよい。この場合、収音装置200は、非一時的な記憶媒体に記憶されたコンピュータプログラム(収音プログラム)がマイクロコンピュータの中央処理装置に上述した処理を実行させる。マイクロフォン1、振動センサ3、回線11、及びスピーカ16を除く部分がハードウェアで構成されて集積回路によって構成されていてもよい。
 第2実施形態の収音プログラムは、コンピュータに、少なくとも次の第1~第4のステップを実行させればよい。第1のステップは、マイクロフォン1が生成した空気振動に基づく第1の音声信号に、通信相手から送信されて回線を介して受信した第2の音声信号がスピーカ16によって再生された音声をマイクロフォン1が収音することによって重畳したエコー成分を抑制するステップである。
 第2のステップは、エコー成分が抑制された第1の音声信号を目標信号として、振動センサ3が生成した、発話によって人体に伝わる振動に基づく振動信号を目標信号に近付けるように、振動信号に係数を乗算して変換音声信号を生成するステップである。第3のステップは、目標信号と変換音声信号との差分である残差信号を生成するステップである。第4のステップは、振動信号に乗算する係数を残差信号が小さくなるように更新するステップである。
 本願は、2021年11月30日に日本国特許庁に出願された特願2021-194233号、及び2022年1月19日に日本国特許庁に出願された特願2022-006136に基づく優先権を主張するものであり、それらの全ての開示内容は引用によりここに援用される。

Claims (16)

  1.  空気振動に基づく第1の音声信号を生成するマイクロフォンと、
     発話によって人体に伝わる振動に基づく振動信号を生成する振動センサと、
     前記第1の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する適応フィルタと、
     前記目標信号と前記変換音声信号との差分である残差信号を生成する減算器と、
     前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する適応制御部と、
     を備える収音装置。
  2.  前記適応制御部は、
     音声が存在する音声区間であると判定されるときには、前記適応フィルタが第1の速度で前記残差信号が小さくなるように前記係数を更新するよう制御する適応フィルタ制御信号を生成して前記適応フィルタに供給し、
     音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第1の速度より遅い第2の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する
     請求項1に記載の収音装置。
  3.  前記適応制御部は、
     前記第1の音声信号と前記振動信号との少なくとも一方に基づいて検出された音声区間であり、かつ前記第1の音声信号と前記振動信号との音圧レベル比に基づく環境雑音レベルが第1の閾値以下であるという第1の条件を満たすとき、前記適応フィルタが前記第1の速度で前記係数を更新するよう制御する適応フィルタ制御信号を生成し、
     前記第1の条件を満たさないとき、前記適応フィルタが前記第2の速度で前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成する
     請求項2に記載の収音装置。
  4.  前記適応制御部は、
     前記第1の音声信号と前記振動信号との少なくとも一方に基づいて検出された音声区間であり、かつ前記第1の音声信号と前記変換音声信号との差分である残差信号を前記振動信号のレベルで正規化した残差相対レベルが第2の閾値以下であるという第2の条件を満たすとき、前記適応フィルタが前記第1の速度で前記係数を更新するよう制御する適応フィルタ制御信号を生成し、
     前記第2の条件を満たさないとき、前記適応フィルタが前記第2の速度で前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成する
     請求項2に記載の収音装置。
  5.  前記適応制御部は、
     前記第1の音声信号と前記振動信号との少なくとも一方に基づいて音声区間を検出する音声区間検出部と、
     前記第1の音声信号と前記変換音声信号との差分である残差信号を前記振動信号のレベルで正規化した残差相対レベルを取得する残差相対レベル取得部と、
     前記残差相対レベル取得部が取得した残差相対レベルに応じて、前記第1の音声信号と前記振動信号との複数段階の相関度を算出する相関度算出部と、
     を有する
     請求項2に記載の収音装置。
  6.  前記第1の音声信号と前記変換音声信号とを選択するか両者を混合して出力するセレクタをさらに備える請求項2~5のいずれか1項に記載の収音装置。
  7.  前記非音声区間における前記第1の音声信号と前記振動信号との音圧レベル比に基づく環境雑音レベルが第3の閾値以下であれば前記第1の音声信号を選択し、前記第3の閾値を超えれば前記変換音声信号を選択するよう、前記セレクタを制御するセレクタ制御信号を生成して前記セレクタに供給する環境雑音分析部をさらに備える請求項6に記載の収音装置。
  8.  前記第1の音声信号と前記変換音声信号とを選択するか両者を混合して出力するセレクタをさらに備え
     前記セレクタは、前記相関度算出部によって算出された相関度に応じて前記第1の音声信号と前記変換音声信号とを適応的に混合して出力する
     請求項5に記載の収音装置。
  9.  通信相手から送信されて回線を介して受信した第2の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第1の音声信号に重畳したエコー成分を抑制するエコーキャンセラをさらに備え、
     前記適応フィルタは、前記エコーキャンセラによってエコー成分が抑制された前記第1の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成する
     請求項1に記載の収音装置。
  10.  前記適応制御部は、
     前記目標信号の音圧レベルと前記第2の音声信号の音圧レベルとに基づいて前記目標信号に残留する残留エコーレベルを推定する残留エコーレベル推定部と、
     前記振動信号が音声区間を示し、かつ前記残留エコーレベルが所定の閾値以下であるという条件を満たせば、第1の速度で前記係数を更新するよう前記適応フィルタを制御し、前記条件を満たさなければ、前記第1の速度より遅い第2の速度で前記係数を更新するよう制御するか、前記係数を更新しないよう前記適応フィルタを制御する適応フィルタ学習速度設定部と、
     を備える請求項9に記載の収音装置。
  11.  前記適応制御部は、
     前記目標信号の音圧レベルと前記第2の音声信号の音圧レベルとに基づいて前記目標信号に残留する残留エコーレベルを推定する残留エコーレベル推定部と、
     前記振動信号の音圧レベルを示す振動信号レベルと前記残留エコーレベルとのレベル比を算出するレベル比算出部と、
     前記振動信号が音声区間を示し、かつ前記レベル比が所定の閾値を超えるという条件を満たせば、第1の速度で前記係数を更新するよう前記適応フィルタを制御し、前記条件を満たさなければ、前記第1の速度より遅い第2の速度で前記係数を更新するよう制御するか、前記係数を更新しないよう前記適応フィルタを制御する適応フィルタ学習速度設定部と、
     を備える請求項9に記載の収音装置。
  12.  前記適応制御部は、前記振動信号の音声区間における前記振動信号と前記目標信号との相対音圧レベル比を算出し、前記振動信号の音圧レベルを前記相対音圧レベル比に基づいて前記第1の音声信号の音圧レベルに相当する音圧レベルに補正する振動信号レベル補正部をさらに備え、
     前記レベル比算出部は、前記振動信号レベル補正部で補正された前記振動信号の音圧レベルを前記振動信号レベルとして、前記振動信号レベルと前記残留エコーレベルとの相対音圧レベル比を算出する
     請求項11に記載の収音装置。
  13.  マイクロフォンが空気振動に基づく音声信号を生成し、
     振動センサが人体に伝わる振動に基づく振動信号を生成し、
     適応フィルタが、前記振動信号を前記音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成し、
     減算器が、前記音声信号と前記変換音声信号との差分である残差信号を生成し、
     適応制御部が、音声が存在する音声区間であると判定されるときには、前記適応フィルタが第1の速度で前記残差信号が小さくなるように前記係数を更新するよう制御し、音声が存在しない非音声区間であると判定されるときには、前記適応フィルタが前記第1の速度より遅い第2の速度で前記残差信号が小さくなるように前記係数を更新するよう制御するか、前記係数を更新しないように制御する適応フィルタ制御信号を生成して前記適応フィルタに供給する
     収音方法。
  14.  マイクロフォンが空気振動に基づく第1の音声信号を生成し、
     振動センサが発話によって人体に伝わる振動に基づく振動信号を生成し、
     エコーキャンセラが、通信相手から送信されて回線を介して受信した第2の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって前記第1の音声信号に重畳したエコー成分を抑制し、
     適応フィルタが、前記エコーキャンセラによってエコー成分が抑制された前記第1の音声信号を目標信号として、前記振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成し、
     減算器が、前記目標信号と前記変換音声信号との差分である残差信号を生成し、
     適応制御部が、前記適応フィルタが前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するよう制御する
     収音方法。
  15.  コンピュータに、
     振動センサが生成した人体に伝わる振動に基づく振動信号をマイクロフォンが生成した空気振動に基づく音声信号に近付けるように補正するために、前記振動信号に係数を乗算して変換音声信号を生成するステップと、
     前記音声信号と前記変換音声信号との差分である残差信号を生成するステップと、
     音声が存在する音声区間であると判定されるときには、第1の速度で前記残差信号が小さくなるように前記係数を更新するステップと、
     音声が存在しない非音声区間であると判定されるときには、前記第1の速度より遅い第2の速度で前記残差信号が小さくなるように前記係数を更新するか、前記係数を更新せず維持するステップと、
     を実行させる収音プログラム。
  16.  コンピュータに、
     マイクロフォンが生成した空気振動に基づく第1の音声信号に、通信相手から送信されて回線を介して受信した第2の音声信号がスピーカによって再生された音声を前記マイクロフォンが収音することによって重畳したエコー成分を抑制するステップと、
     エコー成分が抑制された前記第1の音声信号を目標信号として、振動センサが生成した、発話によって人体に伝わる振動に基づく振動信号を前記目標信号に近付けるように、前記振動信号に係数を乗算して変換音声信号を生成するステップと、
     前記目標信号と前記変換音声信号との差分である残差信号を生成するステップと、
     前記振動信号に乗算する係数を前記残差信号が小さくなるように更新するステップと、
     を実行させる収音プログラム。
PCT/JP2022/033098 2021-11-30 2022-09-02 収音装置、収音方法、及び収音プログラム WO2023100429A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2021194233A JP2023080734A (ja) 2021-11-30 2021-11-30 収音装置
JP2021-194233 2021-11-30
JP2022006136A JP2023105362A (ja) 2022-01-19 2022-01-19 収音装置
JP2022-006136 2022-01-19

Publications (1)

Publication Number Publication Date
WO2023100429A1 true WO2023100429A1 (ja) 2023-06-08

Family

ID=86611880

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/033098 WO2023100429A1 (ja) 2021-11-30 2022-09-02 収音装置、収音方法、及び収音プログラム

Country Status (1)

Country Link
WO (1) WO2023100429A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007060429A (ja) * 2005-08-25 2007-03-08 Matsushita Electric Works Ltd 拡声通話装置
JP2007251354A (ja) * 2006-03-14 2007-09-27 Saitama Univ マイクロホン、音声生成方法
JP2014502468A (ja) * 2010-11-24 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号生成システム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007060429A (ja) * 2005-08-25 2007-03-08 Matsushita Electric Works Ltd 拡声通話装置
JP2007251354A (ja) * 2006-03-14 2007-09-27 Saitama Univ マイクロホン、音声生成方法
JP2014502468A (ja) * 2010-11-24 2014-01-30 コーニンクレッカ フィリップス エヌ ヴェ オーディオ信号生成システム及び方法

Similar Documents

Publication Publication Date Title
US10332502B2 (en) Noise reducing device, noise reducing method, noise reducing program, and noise reducing audio outputting device
JP6243536B2 (ja) エコー打ち消し
US8116474B2 (en) System for suppressing ambient noise in a hands-free device
EP2438766B1 (en) Acoustic multi-channel echo cancellation
US7035398B2 (en) Echo cancellation processing system
US8433059B2 (en) Echo canceller canceling an echo according to timings of producing and detecting an identified frequency component signal
US8538052B2 (en) Generation of probe noise in a feedback cancellation system
JPWO2006049260A1 (ja) 信号処理の方法、信号処理の装置および信号処理用プログラム
JPWO2005125272A1 (ja) ハウリング抑圧装置、プログラム、集積回路、およびハウリング抑圧方法
JP2008020897A (ja) 車両通信システムにおけるオーディオ信号コンポーネントを補償するための方法およびそのためのシステム
JP3402331B2 (ja) 雑音低減装置
US8543390B2 (en) Multi-channel periodic signal enhancement system
CN112272848A (zh) 使用间隙置信度的背景噪声估计
JP5205935B2 (ja) 雑音消去装置、雑音消去方法および雑音消去プログラム
JP2021193807A (ja) 信号処理装置、遠隔会議装置、および信号処理方法
US8406430B2 (en) Simulated background noise enabled echo canceller
WO2023100429A1 (ja) 収音装置、収音方法、及び収音プログラム
JP2023105362A (ja) 収音装置
JP5228903B2 (ja) 信号処理装置および方法
JP5105912B2 (ja) 音声明瞭度改善装置およびその騒音レベル推定方法
US8363821B2 (en) Apparatus and method for canceling echo
JP2023080734A (ja) 収音装置
CN1206958A (zh) 有限脉冲响应滤波器的自适应方法
JPH0936763A (ja) ノイズキャンセラ
JP2000252883A (ja) エコーキャンセラの制御装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22900864

Country of ref document: EP

Kind code of ref document: A1