WO2024070461A1 - エコー除去装置、及び、エコー除去方法 - Google Patents

エコー除去装置、及び、エコー除去方法 Download PDF

Info

Publication number
WO2024070461A1
WO2024070461A1 PCT/JP2023/031654 JP2023031654W WO2024070461A1 WO 2024070461 A1 WO2024070461 A1 WO 2024070461A1 JP 2023031654 W JP2023031654 W JP 2023031654W WO 2024070461 A1 WO2024070461 A1 WO 2024070461A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
echo
unit
microphone
sound
Prior art date
Application number
PCT/JP2023/031654
Other languages
English (en)
French (fr)
Inventor
宏正 大橋
潤二 荒木
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2024070461A1 publication Critical patent/WO2024070461A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • This disclosure relates to an echo cancellation device and an echo cancellation method.
  • Patent document 1 discloses a technology in which, when the microphone is off and not picking up the desired audio signal, the audio signal collected by the microphone is not output to the outside, but an audio signal input from the outside is supplied to a speaker, and, when the microphone is on and picking up the desired audio signal, the audio signal collected by the microphone is supplied to the outside, but an audio signal input from the outside is not supplied to a speaker.
  • Patent Document 1 in an audio conference device in which multiple units are interconnected, between adjacent first and second units, audio is transmitted from the speaker of the first unit to the microphone of the second unit, generating an echo sound, and the echo sound cannot be sufficiently removed.
  • the purpose of this disclosure is to provide technology that can sufficiently remove echo sounds.
  • An echo cancellation device that cancels an echo sound, which is a sound output from a speaker that propagates through space and is input to a microphone, and includes a microphone signal generation unit that generates a microphone signal based on the sound input from the microphone, an adaptive filter update unit that updates an adaptive filter used to estimate the echo signal, which is a signal related to the echo sound, a pseudo echo signal generation unit that generates a pseudo echo signal based on the adaptive filter and an output signal, which is a signal related to the sound output from the speaker, an echo signal cancellation unit that removes the pseudo echo signal from the microphone signal to generate an echo-canceled signal, an objective sound determination unit that determines whether or not the echo-canceled signal contains an objective sound signal that is a signal different from the echo signal, a gain adjustment unit that adjusts the gain of the echo-canceled signal based on the determination result by the objective sound determination unit, and an output signal generation unit that generates the output signal based on the echo-canceled signal adjusted by the gain adjustment unit.
  • An echo removal method for removing an echo sound, which is a sound output from a speaker that propagates through space and is input to a microphone, and includes a microphone signal generation step for generating a microphone signal based on the sound input from the microphone, an adaptive filter update step for updating an adaptive filter used to estimate the echo signal, which is a signal related to the echo sound, a pseudo echo signal generation step for generating a pseudo echo signal based on an output signal, which is a signal related to the sound output from the speaker, and the adaptive filter, an echo signal removal step for removing the pseudo echo signal from the microphone signal to generate an echo-removed signal, an objective sound determination step for determining whether or not the echo-removed signal contains an objective sound signal, which is a signal different from the echo signal, a gain adjustment step for adjusting the gain of the echo-removed signal based on the determination result by the objective sound determination step, and an output signal generation step for generating the output signal based on the echo-re
  • the technology disclosed herein can sufficiently remove echo sounds.
  • FIG. 1 is a block diagram showing a configuration example of a voice input/output system according to a first embodiment
  • FIG. 1 is a block diagram showing a configuration example of an echo canceller according to a first embodiment
  • FIG. 1 is a diagram for explaining in detail a reference signal storage unit, a reference value calculation unit, a reference value storage unit, and an adaptive filter update unit according to the first embodiment.
  • FIG. 1 is a block diagram showing a first example of the configuration of an echo canceller according to a second embodiment
  • FIG. 11 is a block diagram showing a second example of the configuration of an echo canceller according to a second embodiment.
  • 11 is a flowchart showing a first example of a process of a gain adjustment unit according to the second embodiment.
  • FIG. 11 is a flowchart showing a second example of the process of the gain adjustment unit according to the second embodiment.
  • 11 is a flowchart showing an example of a process for removing an echo signal in the frequency domain according to the second embodiment.
  • FIG. 11 is a block diagram showing a third example of the configuration of an echo canceller according to the second embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of a voice input/output system 1 according to the first embodiment.
  • the audio input/output system 1 includes a web conferencing system 2, a mixer 3, at least one microphone 4, and at least one speaker 5.
  • the audio input/output system 1 in the near-end room and the audio input/output system 1 in the far-end room are connected via a communication network (not shown), and a user in the near-end room and a user in the far-end room can hold a remote conference.
  • the following description focuses on the audio input/output system 1 in the near-end room, but the following description also applies to the audio input/output system 1 in the far-end room.
  • the WEB conference system 2 is connected to other WEB conference systems 2 via a communication network (not shown).
  • the WEB conference system 2 may be configured as a dedicated device, a server, or a PC.
  • the WEB conference system 2 in the far-end room may be configured as a PC, and the microphone 4 and speaker 5 on the far-end side may be a headset connected to the PC.
  • the mixer 3 is connected to the WEB conferencing system 2 via a communication network.
  • the communication network may be configured, for example, by a wired LAN (Local Area Network), a wireless LAN, the Internet, or a VPN (Virtual Private Network).
  • the mixer 3 may be a rack-mounted mixer.
  • At least one microphone 4 and at least one speaker 5 are connected to the mixer 3.
  • the mixer 3 also includes at least one echo cancellation device 10.
  • the echo cancellation device 10 may be implemented on a DSP board that can be added to the mixer 3.
  • the echo sound is generated when the voice of the far-end user is input from the WEB conference system 2 to the mixer 3, output from the speaker 5, and the output sound is transmitted through space and input to the microphone 4 as shown by the dotted arrow 901.
  • the input sound signal is then sent to the far-end side via the WEB conference system 2, causing the voice uttered by the far-end user to return to the far-end side again.
  • a signal that includes the voice uttered by the user on the far end and is transmitted from the far end to the near end is called a far end signal.
  • a signal that is transmitted from the mixer 3 on the near end to the far end is called a transmission signal.
  • the echo cancellation device 10 cancels the voice uttered by the far-end user contained in the input voice input from the microphone 4, and outputs a transmission signal including the cancelled voice (hereinafter referred to as echo-canceled voice) to the WEB conference system 2.
  • This output transmission signal is sent to the far-end WEB conference system 2 and output from the far-end speaker 5. This makes it possible to prevent echoes from occurring in the far-end speaker 5.
  • the echo cancellation device 10 that can instantly eliminate the echo sound even if the environment of the microphones 4 changes in this way.
  • FIG. 2 is a block diagram showing an example configuration of the echo removal device 10 according to the first embodiment.
  • the echo removal device 10 includes a microphone signal generation unit 11, an echo signal removal unit 12, an output signal generation unit 13, a reference signal storage unit 14, a reference value calculation unit 15, a reference value storage unit 16, an adaptive filter update unit 17, a pseudo echo signal generation unit 18, and a period length determination unit 19.
  • the microphone signal generating unit 11, the echo signal removing unit 12, the output signal generating unit 13, the reference value calculating unit 15, the adaptive filter updating unit 17, the pseudo echo signal generating unit 18, and the period length determining unit 19 may be configured as semiconductor circuits included in the echo removing device 10, or may be realized as a computer program executed by a processor included in the echo removing device 10. Furthermore, the reference signal storage unit 14 and the reference value storage unit 16 may be configured as volatile or non-volatile memory included in the echo removing device 10.
  • the microphone signal generating unit 11 generates and outputs a microphone signal m[i] based on the input sound input to the microphone 4.
  • i indicates the time index.
  • the echo signal removal unit 12 removes the pseudo echo signal y ⁇ [i] generated by the pseudo echo signal generation unit 18, which will be described later, from the microphone signal m[i] output from the microphone signal generation unit 11 to generate and output an echo-removed signal.
  • the output signal generating unit 13 generates and outputs a transmission signal e[i] based on the echo-removed signal output from the echo signal removing unit 12.
  • the output signal generating unit 13 may output the echo-removed signal as is as a transmission signal, or may perform a predetermined process on the echo-removed signal to generate and output the transmission signal.
  • the reference signal storage unit 14 stores a far-end signal equivalent to the far-end signal output from the web conference system 2 to the speaker 5 as a reference signal x[i] for a predetermined period of time. Details of the reference signal storage unit 14 will be described later.
  • the reference value calculation unit 15 calculates a reference value using a reference signal stored in the reference signal storage unit 14.
  • the reference value calculation unit 15 may calculate multiple reference values corresponding to multiple different periods in parallel.
  • the reference value calculation unit 15 then stores the multiple calculated reference values corresponding to the multiple periods in the reference value storage unit 16. Details of the reference value calculation unit 15 will be described later.
  • the reference value storage unit 16 stores multiple reference values corresponding to the multiple periods calculated by the reference value calculation unit 15. Details of the reference value storage unit 16 will be described later.
  • the adaptive filter update unit 17 updates (learns) the adaptive filter using one of the multiple reference values stored in the reference value storage unit 16, the reference signal, and the transmission signal.
  • the pseudo echo signal generating unit 18 generates a pseudo echo signal using the reference signal and the adaptive filter updated by the adaptive filter updating unit 17.
  • the pseudo echo signal is used in the echo signal removing unit 12 described above.
  • the period length determination unit 19 determines the period length for selecting a reference value to be used in the adaptive filter.
  • the adaptive filter update unit 17 obtains the reference value corresponding to the period length determined by the period length determination unit 19 from the reference value storage unit 16 and uses it.
  • the period length determination unit 19 may determine the period length based on the number of microphones 4 connected to the mixer 3. Furthermore, the period length determination unit 19 may re-determine the period length if the number of microphones 4 connected to the mixer 3 has changed. Furthermore, the period length determination unit 19 may re-determine the period length if the position of the microphone 4 connected to the mixer 3 or the surrounding environment has changed.
  • the correspondence between the number of connected microphones 4 and the period length may be determined in advance. Furthermore, the correspondence may differ depending on the environment in which the microphones 4 are present. For example, in an environment in which the microphones 4 are present, the number of connected microphones 4 and the period length may be changed to measure in advance which period length has the highest echo cancellation effect, and the correspondence between the number of connected microphones 4 and the period length may be determined based on the measurement results.
  • FIG. 3 is a diagram for explaining in detail the reference signal storage unit 14, the reference value calculation unit 15, the reference value storage unit 16, and the adaptive filter update unit 17 according to the first embodiment.
  • the reference signal storage unit 14 stores reference signals for a predetermined period of time.
  • the reference signal storage unit 14 may be configured as, for example, a ring buffer 31, and old reference signals may be successively replaced with new reference signals.
  • the reference signal storage unit 14 stores, for example, reference signals x[i] to x[i-L3+1] for the period [i] to [i-L3+1].
  • i indicates the time index
  • x[i] indicates the reference signal at time index i.
  • L0, L1, L2, and L3 are integers indicating tap lengths, where L0 ⁇ L1 ⁇ L2 ⁇ L3.
  • the reference value calculation unit 15 calculates multiple reference values in parallel, each corresponding to a different number of tap lengths.
  • the reference value is a norm value.
  • the reference value calculation unit 15 has a norm value calculation unit 40 for tap length L0, a norm value calculation unit 41 for tap length L1, a norm value calculation unit 42 for tap length L2, and a norm value calculation unit 43 for tap length L3.
  • the norm value calculation unit 40 for tap length L0, the norm value calculation unit 41 for tap length L1, the norm value calculation unit 42 for tap length L2, and the norm value calculation unit 43 for tap length L3 may perform calculation processing in parallel. This allows the reference value calculation unit 15 to calculate four norm values at high speed.
  • the norm value calculation section 40 for the tap length L0 calculates the norm value N L0 [i] for the tap length L0 by the following equation (1).
  • the norm value calculation unit 41 for the tap length L1 calculates the norm value N L1 [i] for the tap length L1 by the following equation (2).
  • the norm value calculation unit 42 of the tap length L2 calculates the norm value N L2 [i] of the tap length L2 by the following equation (3).
  • the norm value calculator 43 for the tap length L3 calculates the norm value N L3 [i] for the tap length L3 by the following equation (4).
  • the above formula (1) may also be calculated using the following formula (5).
  • the norm value N L0 [i] of the tap length L0 may be calculated by the following formula (6) instead of the above formula (1). The same applies to the norm value N L1 [i] of the tap length L1, the norm value N L2 [i] of the tap length L2, and the norm value N L3 [i] of the tap length L3.
  • the norm value calculator 40 for tap length L0 stores the calculated norm value N L0 [i] for tap length L0 in the reference value storage unit 16.
  • the norm value calculator 41 for tap length L1 stores the calculated norm value N L1 [i] for tap length L1 in the reference value storage unit 16.
  • the norm value calculator 42 for tap length L2 stores the calculated norm value N L2 [i] for tap length L2 in the reference value storage unit 16.
  • the norm value calculator 43 for tap length L3 stores the calculated norm value N L3 [i] for tap length L3 in the reference value storage unit 16.
  • the adaptive filter update unit 17 selects one of N L0 [i], N L1 [i], N L2 [i], and N L3 [i] from the reference value storage unit 16 in accordance with the determination by the period length determination unit 19.
  • the tap length selected here will be represented as L
  • the selected norm value will be represented as N L [i].
  • the adaptive filter update unit 17 calculates the update amount ⁇ (i) [l] of the adaptive filter coefficient by the following equation (7).
  • l indicates a tap index
  • ⁇ [l] indicates a step gain corresponding to the tap index l
  • e[i] indicates a transmission signal.
  • ⁇ (e[i]) may be tanh( ⁇ e[i]).
  • is a scaling coefficient.
  • the adaptive filter update unit 17 calculates an adaptive filter coefficient ⁇ (i+1) [l] by the following equation (8) using the update amount ⁇ (i) [l] of the adaptive filter coefficient calculated by equation (7), where ⁇ (i) [l] represents the adaptive filter coefficient for the l-th tap at the time index i.
  • the pseudo echo signal generating unit 18 uses the adaptive filter coefficient calculated by equation (8) to generate the pseudo echo signal y ⁇ [i] according to the following equation (9).
  • the echo signal removal unit 12 uses the pseudo echo signal y ⁇ [i] calculated by equation (9) to generate the echo-removed signal (speech signal) e[i] according to the following equation (10). In other words, the echo signal removal unit 12 removes the pseudo echo signal y ⁇ [i] from the microphone signal m[i] to generate the echo-removed signal (speech signal) e[i].
  • the output signal generating unit 13 outputs the echo-removed signal (speech signal) e[i] thus generated to the WEB conference system 2. This makes it possible to transmit the speech signal with the echo sound removed.
  • the reference value storage unit 16 stores norm values N L0 [i], N L1 [i], N L2 [i], and N L3 [i] with different tap lengths at the latest time index i. Therefore, when the characteristics of the echo sound change, such as when the number of connected microphones 4 changes or the environment in which the microphones 4 are present changes, the adaptive filter update unit 17 selects a norm value that is optimal for removing the echo signal whose characteristics have changed from among the multiple different norm values stored in the reference value storage unit 16, thereby instantly updating the adaptive filter to one that can appropriately remove the echo signal after the change. In other words, the echo removal device 10 can instantly remove the echo sound even if the characteristics of the echo sound change.
  • the number of tap lengths is described as four, L0, L1, L2, and L3, but the number of tap lengths can be any number greater than or equal to two.
  • the first embodiment discloses the following technique.
  • the echo cancellation device 10 which cancels an echo signal that is a signal related to a sound output from a speaker 5 based on a far-end signal received from the far-end side and propagates through space and is input to a microphone 4, includes a microphone signal generation unit 11 that generates a microphone signal based on the sound input from the microphone 4, an adaptive filter update unit 17 that updates an adaptive filter used to estimate the echo signal, a reference signal storage unit 14 that stores a far-end signal for a predetermined period as a reference signal, a pseudo echo signal generation unit 18 that generates a pseudo echo signal based on the reference signal stored in the reference signal storage unit 14 and the adaptive filter, and a post-echo cancellation signal that cancels the pseudo echo signal by removing the pseudo echo signal from the microphone signal.
  • the adaptive filter update unit 17 acquires a first reference value, which is a reference value corresponding to the first period length determined by the period length determination unit 19, from the reference value storage unit 16, and updates the adaptive filter using the first reference value.
  • a first reference value which is a reference value corresponding to the first period length determined by the period length determination unit 19, from the reference value storage unit 16, and updates the adaptive filter using the first reference value.
  • the adaptive filter update unit 17 can instantly obtain an appropriate first reference value from the reference value storage unit 16 in accordance with the decision of the period length decision unit 19 to update the adaptive filter.
  • the echo cancellation device 10 can instantly perform appropriate echo cancellation when the environment of the microphone 4 changes.
  • the period length is the tap length
  • the reference value is a norm value
  • the reference value calculation unit 15 calculates the norm value corresponding to the tap length based on a reference signal corresponding to the tap length.
  • a plurality of norm values corresponding to the plurality of tap lengths are stored in the reference value storage unit 16 .
  • the period length determination unit 19 determines the first period length based on the number of connected microphones. This allows the echo canceller 10 to immediately perform appropriate echo cancellation when the number of connected microphones 4 changes.
  • the echo removal method for removing an echo signal which is a signal related to a sound output from a speaker 5 based on a far-end signal received from the far-end side and propagating through space and input to a microphone 4, includes a microphone signal generating step of generating a microphone signal based on the sound input from the microphone 4, an adaptive filter updating step of updating an adaptive filter used to estimate the echo signal, a reference signal storing step of storing a far-end signal for a predetermined period as a reference signal in a reference signal storing unit 14, a pseudo echo signal generating step of generating a pseudo echo signal based on the reference signal stored in the reference signal storing unit 14 and the adaptive filter, and a step of removing the pseudo echo signal from the microphone signal to obtain an echo-removed signal.
  • the adaptive filter updating step includes an echo signal removal step of generating an output signal based on the echo-removed signal, a reference value calculation step of calculating in parallel a plurality of reference values corresponding to a plurality of different period lengths based on a reference signal, a reference value storage step of storing the plurality of reference values calculated by the reference value calculation step in a reference value storage unit 16, and a period length determination step of determining one of the plurality of period lengths as a first period length, and the adaptive filter updating step obtains from the reference value storage unit 16 a first reference value which is a reference value corresponding to the first period length determined in the period length determination step, and updates the adaptive filter using the first reference value.
  • the adaptive filter update step can instantly obtain an appropriate first reference value from the reference value storage unit 16 in accordance with the determination in the period length determination step to update the adaptive filter. That is, the echo cancellation device 10 can instantly perform appropriate echo cancellation when the environment of the microphone 4 changes.
  • FIGS. 4A and 4B are block diagrams showing an example configuration of an echo cancellation device 10 according to embodiment 2.
  • the echo removal device 10 includes a microphone signal generation unit 11, an echo signal removal unit 12, an output signal generation unit 13, a reference signal storage unit 14, a reference value calculation unit 15, a reference value storage unit 16, an adaptive filter update unit 17, a pseudo echo signal generation unit 18, a period length determination unit 19, a target sound determination unit 20, a gain adjustment unit 21, a frequency spectrum conversion unit 22A, a frequency spectrum conversion unit 22B, a reference spectrum smoothing unit 23, a pseudo echo signal spectrum generation unit 24, a frequency domain adaptive filter update unit 25, and a spectrum subtraction unit 26.
  • the target sound determination unit 20, the gain adjustment unit 21, the frequency spectrum conversion unit 22A, the frequency spectrum conversion unit 22B, the reference spectrum smoothing unit 23, the pseudo echo signal spectrum generation unit 24, the frequency domain adaptive filter update unit 25, and the spectrum subtraction unit 26 may be configured as a semiconductor circuit included in the echo cancellation device 10, or may be realized as a computer program executed by a processor included in the echo cancellation device 10.
  • the microphone signal generating unit 11, the echo signal removing unit 12, the reference signal storage unit 14, the reference value calculating unit 15, the reference value storage unit 16, the adaptive filter updating unit 17, the pseudo echo signal generating unit 18, and the period length determining unit 19 have already been described in the first embodiment, so a description thereof will be omitted here.
  • the target sound determination unit 20 determines whether or not the echo-removed signal output from the echo signal removal unit 12 contains a target sound signal.
  • the gain adjustment unit 21 adjusts the gain of the echo-removed signal output from the echo signal removal unit 12 based on the determination result by the target sound determination unit 20, and outputs the gain-adjusted signal. For example, if the target sound determination unit 20 determines that the echo-removed signal contains the target sound signal, the gain adjustment unit 21 adjusts to amplify the gain of the echo-removed signal. This allows the listener to hear the target sound better. For example, if the target sound determination unit 20 determines that the echo-removed signal does not contain the target sound signal, the gain adjustment unit 21 adjusts to attenuate the gain of the echo-removed signal. This prevents the echo sound that has not been completely removed from being transmitted unnecessarily loudly to the far end. Details of the processing by the gain adjustment unit 21 will be described later.
  • the output signal generating unit 13 generates and outputs a transmission signal based on the gain-adjusted signal output from the gain adjusting unit 21.
  • the output signal generating unit 13 may output the gain-adjusted signal as the transmission signal as is, or may perform a predetermined process on the gain-adjusted signal to generate and output the transmission signal.
  • the gain adjustment unit 21 may perform either the processing shown in FIG. 5A or FIG. 5B below.
  • FIG. 5A is a flowchart showing a first example of the processing of the gain adjustment unit 21 according to embodiment 2.
  • the gain adjustment unit 21 determines whether or not the echo-removed signal contains a target sound signal based on the determination result by the target sound determination unit 20 (S201).
  • the gain adjustment unit 21 executes the following process.
  • the gain adjustment unit 21 calculates the peak value of the microphone signal m[i] (S202).
  • the gain adjustment unit 21 determines the gain adjustment value ⁇ based on the peak value of the microphone signal calculated in step S202 (S203). For example, if the peak value of the microphone signal is greater than a predetermined threshold T1, the gain adjustment unit 21 determines the gain adjustment value ⁇ to be a value smaller than 1 (e.g., 0.9999), and if the peak value of the microphone signal is smaller than a predetermined threshold T2 ( ⁇ T1), the gain adjustment unit 21 determines the gain adjustment value ⁇ to be a value larger than 1 (e.g., 1.0001).
  • the gain adjustment unit 21 updates the gain value g by multiplying the gain value g by the determined gain adjustment value ⁇ (S204). The gain adjustment unit 21 then advances the process to step S220.
  • the gain adjustment unit 21 executes the following process.
  • the gain adjustment unit 21 determines whether the previous gain value g is greater than 1 (S210).
  • the gain adjustment unit 21 proceeds to step S220.
  • the gain adjustment unit 21 sets the gain adjustment value ⁇ to a value less than 1 (e.g., 0.9999) (S211).
  • the gain adjustment unit 21 updates the gain value g by multiplying the gain value g by the determined gain adjustment value ⁇ .
  • the gain adjustment unit 21 then advances the process to step S220.
  • the gain adjustment unit 21 multiplies the echo-removed signal by the gain value g to generate and output a gain-adjusted signal (S220). Then, the gain adjustment unit 21 returns the process to step S201.
  • the gain adjustment value ⁇ will be smaller than 1, so by repeating the process shown in FIG. 5A described above, the level of the echo-removed signal will gradually decrease. In other words, echo sounds that were not completely removed and remain in the echo-removed signal will also gradually attenuate. This makes it possible to prevent a talk signal with unnecessarily loud echo sounds that were not completely removed from being transmitted to the far-end side.
  • FIG. 5B is a flowchart showing a second example of the processing of the gain adjustment unit 21 according to the second embodiment.
  • the gain adjustment unit 21 determines whether or not the echo-removed signal contains a target sound signal based on the determination result by the target sound determination unit 20 (S231).
  • the gain adjustment unit 21 executes the following process.
  • the gain adjustment unit 21 calculates the peak value of the microphone signal m[i] (S232).
  • the gain adjustment unit 21 determines the gain adjustment value ⁇ based on the peak value of the microphone signal calculated in step S232 (S233). For example, if the peak value of the microphone signal is greater than a predetermined threshold T1, the gain adjustment unit 21 determines the gain adjustment value ⁇ to be a positive value (e.g., "+0.0001"), and if the peak value of the microphone signal is less than a predetermined threshold T2 ( ⁇ T1), the gain adjustment unit 21 determines the gain adjustment value ⁇ to be a negative value (e.g., "-0.0001").
  • the gain adjustment unit 21 updates the gain value g by adding the determined gain adjustment value ⁇ to the gain value g (S234).
  • the gain adjustment unit 21 then advances the process to step S250.
  • the gain adjustment unit 21 executes the following process.
  • the gain adjustment unit 21 determines whether the previous gain value g is greater than 1 (S240).
  • the gain adjustment unit 21 proceeds to step S250.
  • the gain adjustment unit 21 sets the gain adjustment value ⁇ to a negative value (e.g., "-0.0001") (S241).
  • the gain adjustment unit 21 updates the gain value g by adding the determined gain adjustment value ⁇ to the gain value g.
  • the gain adjustment unit 21 then advances the process to step S250.
  • the gain adjustment unit 21 multiplies the echo-removed signal by the gain value g to generate and output a gain-adjusted signal (S250). Then, the gain adjustment unit 21 returns the process to step S231.
  • the gain adjustment value ⁇ will be a negative value, so by repeating the process shown in FIG. 5B described above, the level of the echo-removed signal will gradually decrease. In other words, any echo sound that was not completely removed and remains in the echo-removed signal will gradually attenuate. This makes it possible to prevent a transmission signal with an unnecessarily loud echo sound that was not completely removed from being transmitted to the far-end.
  • FIG. 6 is a flowchart showing an example of a process for removing echo signals in the frequency domain according to the second embodiment.
  • the frequency spectrum conversion unit 22A acquires the microphone signal from the microphone signal generation unit 11 (see FIG. 4A), and the frequency spectrum conversion unit 22B acquires the reference signal (S301).
  • the frequency spectrum conversion unit 22A converts the microphone signal into a frequency spectrum
  • the frequency spectrum conversion unit 22B converts the reference signal into a frequency spectrum (S302).
  • the microphone signal converted into a frequency spectrum is referred to as the microphone signal spectrum
  • the reference signal converted into a frequency spectrum is referred to as the reference signal spectrum.
  • the frequency spectrum refers to the frequency domain signal obtained by converting the time domain signal by a discrete Fourier transform or a fast Fourier transform, and refers to a complex spectrum, an amplitude spectrum which is its absolute value, or a power spectrum which is its squared value.
  • the frequency spectrum conversion unit 22A may obtain the echo-removed signal from the echo signal removal unit 12, convert the echo-removed signal into a frequency spectrum, and set it as the microphone signal spectrum. Either method shown in FIG. 4A or FIG. 4B can be used to determine whether or not a target sound is present in the target sound determination unit 20.
  • the reference spectrum smoothing unit 23 smoothes the reference signal spectrum (S303).
  • smoothing refers to a process of averaging the frequency spectrum in the time direction, and refers to an averaging process that is generally performed on a time series signal, such as moving average processing or exponential smoothing.
  • the pseudo echo signal spectrum generating unit 24 generates a pseudo echo spectrum equivalent to the frequency spectrum of the pseudo echo signal using the smoothed reference signal spectrum and a frequency domain adaptive filter.
  • the frequency domain adaptive filter updating unit 25 updates the frequency domain adaptive filter based on the smoothed reference signal spectrum and the spectrum after subtraction calculated by the spectrum subtraction unit 26.
  • the frequency domain adaptive filter is generally updated using an adaptive algorithm such as the LMS, NLMS, APA, or RLS method, or a sound source separation algorithm such as ICA or IVA, so that the frequency spectrum after subtraction is minimized.
  • the spectrum subtraction unit 26 subtracts the pseudo echo signal spectrum from the microphone signal spectrum to generate a near-end audio signal spectrum that corresponds to the frequency spectrum of the near-end audio signal (S305).
  • the near-end audio signal is the signal of the speaker's voice input to the microphone 4 on the near-end side, and corresponds to the target sound signal.
  • a nonlinear suppression unit 28 and a frequency spectrum inverse conversion unit 29 may be provided after the frequency spectrum conversion unit 22A, and a suppression amount calculation unit 27 may be provided to calculate the suppression amount used in the nonlinear suppression unit 28.
  • the suppression amount calculation unit 27 calculates the suppression amount used in the nonlinear suppression unit 28 based on the frequency spectrum obtained by the frequency spectrum conversion unit 22A and the frequency spectrum obtained by the spectrum subtraction unit 26.
  • the suppression amount is calculated by a general method such as the spectrum subtraction method or a Wiener filter.
  • the nonlinear suppression unit 28 performs nonlinear suppression by multiplying the frequency domain complex spectrum obtained by the frequency spectrum conversion unit 22A by the suppression amount obtained by the suppression amount calculation unit 27.
  • the complex spectrum subjected to nonlinear suppression is input to the frequency spectrum inverse conversion unit 29.
  • the frequency spectrum inverse conversion unit 29 converts the input complex spectrum signal into a time domain signal, and is calculated by a discrete inverse Fourier transform or a fast inverse Fourier transform.
  • FIG. 8 is a flowchart showing an example of processing by the objective sound determination unit 20 according to the second embodiment. This process may be executed after the process shown in FIG.
  • the near-end audio signal spectrum generated by the spectrum subtraction unit 26 is input to the target sound determination unit 20 (S401).
  • the target sound determination unit 20 averages the near-end sound spectrum in a predetermined band (S402).
  • the predetermined band is a band that includes the human sound spectrum, and may be, for example, 0.5 kHz to 4 kHz.
  • the target sound determination unit 20 smoothes the averaged near-end audio signal spectrum in the time direction to generate a smoothed signal (S403).
  • the smoothing may be calculated as the arithmetic average of the exponential smoothing output using a time constant for a first time (short time) and a time constant for a second time (long time) that is longer than the first time. Short-term smoothing serves to quickly detect the rising edge of the signal, while long-term smoothing serves to slowly detect the falling edge of the signal.
  • the target sound determination unit 20 calculates the noise floor level for the smoothed signal (S404).
  • the target sound determination unit 20 calculates a first threshold based on the smoothed signal and the noise floor level (S405). For example, the target sound determination unit 20 sets the first threshold to a value obtained by adding a predetermined second threshold to the noise floor level calculated in step S404, or a value greater than that value.
  • the target sound determination unit 20 determines whether the level of the smoothed signal calculated in step S403 is equal to or greater than the first threshold (S406).
  • the target sound determination unit 20 determines that the echo-removed signal contains a target sound signal (S407) and ends this process.
  • the target sound determination unit 20 determines that the echo-removed signal does not contain a target sound signal (S408) and ends this process.
  • the target sound determination unit 20 may determine whether or not the target sound signal is included in the echo-removed signal by the following method. That is, the target sound determination unit 20 may determine that the target sound signal is included in the echo-removed signal if the difference between the level of the microphone signal and the level of the echo-removed signal is less than a predetermined third threshold, and may determine that the target sound signal is not included in the echo-removed signal if the difference is equal to or greater than the third threshold.
  • the target sound determination unit 20 can determine whether or not the target sound signal is included in the echo-removed signal. In addition, by performing processing in the frequency domain, it becomes easier to adjust and determine the spectrum in a specified band.
  • the second embodiment discloses the following technique.
  • the echo removal device 10 removes echo sound, which is sound output from a speaker 5 that propagates through space and is input to a microphone 4.
  • the echo removal device 10 includes a microphone signal generation unit 11 that generates a microphone signal based on the sound input from the microphone 4, an adaptive filter update unit 17 that updates an adaptive filter used to estimate the echo signal, which is a signal related to the echo sound, a pseudo echo signal generation unit 18 that generates a pseudo echo signal based on an output signal, which is a signal related to the sound output from the speaker 5, and the adaptive filter, an echo signal removal unit 12 that removes the pseudo echo signal from the microphone signal to generate an echo-removed signal, an object sound determination unit 20 that determines whether the echo-removed signal contains a object sound signal, which is a signal different from the echo signal, a gain adjustment unit 21 that adjusts the gain of the echo-removed signal based on the determination result by the object sound determination unit 20, and an output signal generation unit 13 that generates an output signal based on the
  • the target sound determination unit 20 determines that the target sound signal is contained in the echo removed signal if the level of a smoothed signal obtained by smoothing the echo removed signal over a specified period of time is equal to or greater than a specified first threshold value. This enables the target sound determination unit 20 to determine whether or not the target sound signal is included in the echo-removed signal.
  • the first threshold value is equal to or greater than the noise floor level for the smoothed signal plus a predetermined second threshold value. This makes it possible to determine the first threshold value used for determining whether or not the target sound signal is included in the echo-removed signal.
  • the target sound determination unit 20 determines that the target sound signal is included in the echo removed signal if the difference between the level of the microphone signal and the level of the echo removed signal is less than a predetermined third threshold, and determines that the target sound signal is not included in the echo removed signal if the difference is greater than or equal to the third threshold. This enables the target sound determination unit 20 to determine whether or not the target sound signal is included in the echo-removed signal.
  • the gain adjustment unit 21 performs adjustment to attenuate the gain of the echo-removed signal. This attenuates the gain of the echo-canceled signal that does not include the target sound signal, thereby preventing a transmission signal in which the echo signal remaining in the echo-canceled signal is unnecessarily amplified from being transmitted to the far-end.
  • the gain adjustment unit 21 determines the amplification or attenuation of the gain of the echo-removed signal based on the peak value of the microphone signal. This allows the gain of the echo-removed signal including the target sound signal to be appropriately adjusted, thereby enabling the listener to clearly hear the target sound.
  • the echo removal device 10 described in Technology B1 is equipped with a frequency spectrum conversion unit 22A that acquires an echo signal removal signal from the echo signal removal unit 12 and converts the echo signal removal signal into a frequency spectrum, and the target sound determination unit 20 determines whether or not the target sound signal is contained in the echo signal removal signal based on the frequency spectrum. This enables the target sound determination unit 20 to determine whether or not the target sound signal is included in the echo-removed signal.
  • the echo removal method for removing echo sound includes a microphone signal generation step for generating a microphone signal based on the sound input from the microphone 4, an adaptive filter update step for updating an adaptive filter used to estimate the echo signal, which is a signal related to the echo sound, a pseudo echo signal generation step for generating a pseudo echo signal based on an output signal, which is a signal related to the sound output from the speaker 5, and the adaptive filter, an echo signal removal step for removing the pseudo echo signal from the microphone signal to generate an echo-removed signal, an objective sound determination step for determining whether or not the echo-removed signal contains a objective sound signal, which is a signal different from the echo signal, a gain adjustment step for adjusting the gain of the echo-removed signal based on the determination result by the objective sound determination step, and an output signal generation step for generating an output signal based on the echo-removed signal adjusted by the gain adjustment
  • the technology disclosed herein is useful for systems and devices having a microphone and speaker, as well as methods and computer programs for processing audio signals input from a microphone in such systems and devices.
  • Audio input/output system 2 Web conferencing system 3
  • Rack mount mixer 4 Microphone 5
  • Speaker 10 Echo cancellation device 11
  • Microphone signal generation unit 12 Echo signal cancellation unit 13
  • Output signal generation unit 14 Reference signal storage unit 15
  • Reference value calculation unit 16 Reference value storage unit 17
  • Adaptive filter update unit 18 Pseudo echo signal generation unit 19
  • Period length determination unit 20 Target sound determination unit 21
  • Ring buffer 40 Tap length L0 norm value calculation unit 41
  • Tap length L1 norm value calculation unit 42
  • Tap length L2 norm value calculation unit 43 Tap length L3 norm value calculation unit 901 Dotted arrow

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

エコー除去装置は、マイク信号を生成し、エコー信号の推定に用いられる適応フィルタを更新し、出力信号と適応フィルタとに基づいて疑似エコー信号を生成し、マイク信号から疑似エコー信号を除去してエコー除去後信号を生成し、目的音信号がエコー除去後信号に含まれているか否かを判定し、判定結果に基づいてエコー除去後信号のゲインを調整し、調整されたエコー除去後信号に基づいて前記出力信号を生成する。

Description

エコー除去装置、及び、エコー除去方法
 本開示は、エコー除去装置、及び、エコー除去方法に関する。
 それぞれがマイクとスピーカを備える複数のユニットを相互に接続した音声会議装置において、拡声された音声の遅延を低減する技術が知られている。
 特許文献1には、マイクが目的の音声信号を収音していないマイクオフ時は、このマイクが集音した音声信号を外部に出力せず、外部から入力された音声信号をスピーカに供給し、マイクが目的の音声信号を収音しているマイクオン時は、このマイクが集音した音声信号を外部に供給し、外部から入力された音声信号をスピーカに供給しない技術が開示されている。
日本国特開2008-147822号公報
 しかしながら、特許文献1は、複数のユニットを相互に接続した音声会議装置において、隣接する第1ユニットと第2ユニットの間において、第1ユニットのスピーカから第2ユニットのマイクへ音声が回り込んでエコー音が発生し、そのエコー音を十分に除去することができない。
 本開示の目的は、エコー音を十分に除去することができる技術を提供することにある。
 本開示の一態様に係るエコー除去装置は、スピーカから出力された音が空間を伝搬してマイクに入力された音であるエコー音を除去するエコー除去装置であって、前記マイクから入力される音に基づいてマイク信号を生成するマイク信号生成部と、前記エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新部と、前記スピーカから出力される音に関する信号である出力信号と前記適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成部と、前記マイク信号から前記疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去部と、前記エコー信号とは異なる信号である目的音信号が前記エコー除去後信号に含まれているか否かを判定する目的音判定部と、前記目的音判定部による判定結果に基づいて前記エコー除去後信号のゲインを調整するゲイン調整部と、前記ゲイン調整部によって調整された前記エコー除去後信号に基づいて前記出力信号を生成する出力信号生成部と、を備える。
 本開示の一態様に係るエコー除去方法は、スピーカから出力された音が空間を伝搬してマイクに入力された音であるエコー音を除去するエコー除去方法であって、前記マイクから入力される音に基づいてマイク信号を生成するマイク信号生成ステップと、前記エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新ステップと、前記スピーカから出力される音に関する信号である出力信号と前記適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成ステップと、前記マイク信号から前記疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去ステップと、前記エコー信号とは異なる信号である目的音信号が前記エコー除去後信号に含まれているか否かを判定する目的音判定ステップと、前記目的音判定ステップによる判定結果に基づいて前記エコー除去後信号のゲインを調整するゲイン調整ステップと、前記ゲイン調整ステップによって調整された前記エコー除去後信号に基づいて前記出力信号を生成する出力信号生成ステップと、を含む。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本開示の技術によれば、エコー音を十分に除去することができる。
実施の形態1に係る音声入出力システムの構成例を示すブロック図 実施の形態1に係るエコー除去装置の構成例を示すブロック図 実施の形態1に係る、参照信号記憶部、基準値算出部、基準値記憶部及び適応フィルタ更新部を詳細に説明するための図 実施の形態2に係るエコー除去装置の構成の第1例を示すブロック図 実施の形態2に係るエコー除去装置の構成の第2例を示すブロック図 実施の形態2に係るゲイン調整部の処理の第1例を示すフローチャート 実施の形態2に係るゲイン調整部の処理の第2例を示すフローチャート 実施の形態2に係る周波数領域にてエコー信号を除去する処理例を示すフローチャート 実施の形態2に係るエコー除去装置の構成の第3例を示すブロック図 実施の形態2に係る目的音判定部の処理例を示すフローチャート
 以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
(実施の形態1)
 図1は、実施の形態1に係る音声入出力システム1の構成例を示すブロック図である。
 音声入出力システム1は、WEB会議システム2と、ミキサ3と、少なくとも1つのマイク4と、少なくとも1つのスピーカ5とを含む。例えば、図1に示すように、近端側の部屋の音声入出力システム1と、遠端側の部屋の音声入出力システム1とが、通信ネットワーク(図示しない)を介して接続され、近端側の部屋のユーザと、遠端側の部屋のユーザとは、リモート会議を行うことができる。以下では、近端側の部屋の音声入出力システム1に注目して説明するが、以下の説明は、遠端側の部屋の音声入出力システム1にも当てはまる。
 WEB会議システム2は、通信ネットワーク(図示しない)を介して、他のWEB会議システム2と接続される。WEB会議システム2は、専用の装置、サーバ又はPCとして構成されてよい。なお、遠端側の部屋のWEB会議システム2がPCとして構成され、遠端側のマイク4及びスピーカ5は、PCに接続されたヘッドセットであってもよい。
 ミキサ3は、通信ネットワークを介して、WEB会議システム2に接続される。通信ネットワークは、例えば、有線LAN(Local Area network)、無線LAN、インターネット、又は、VPN(Virtual Private Network)によって構成されてよい。なお、ミキサ3は、ラックマウントミキサであってよい。
 ミキサ3には、少なくとも1つのマイク4と少なくとも1つのスピーカ5とが接続される。また、ミキサ3は、少なくとも1つのエコー除去装置10を備える。エコー除去装置10は、ミキサ3に追加搭載可能なDSPボードに実装されてもよい。
 エコー音は、WEB会議システム2からミキサ3に入力された遠端側のユーザの音声がスピーカ5から出力され、その出力音が、点線矢印901に示すように、空間を伝達してマイク4に入力され、この入力音声の信号がWEB会議システム2を介して遠端側に送信されることで、遠端側のユーザが発した音声が再度遠端側に帰還することにより発生する音である。
 なお、本実施の形態では、遠端側のユーザが発した音声を含む信号であって、遠端側から近端側に送信される信号を、遠端信号と称する。また、近端側のミキサ3から遠端側に送信される信号を、送話信号と称する。
 エコー除去装置10は、マイク4から入力された入力音声に含まれる遠端側のユーザが発した音声を除去し、その除去した音声(以下、エコー除去後音声と称する)を含む送話信号を、WEB会議システム2に出力する。この出力された送話信号は、遠端側のWEB会議システム2に送信され、遠端側のスピーカ5から出力される。これにより、遠端側のスピーカ5において、エコーが発生することを抑止できる。
 しかし、接続されているマイク4の本数、マイク4が存在する位置及び環境等が変化した場合、エコー音も変化し得る。以下では、このようにマイク4の環境が変動した場合でも、即座にエコー音を除去できるエコー除去装置10について詳細に説明する。
 図2は、実施の形態1に係るエコー除去装置10の構成例を示すブロック図である。
 エコー除去装置10は、マイク信号生成部11、エコー信号除去部12、出力信号生成部13、参照信号記憶部14、基準値算出部15、基準値記憶部16、適応フィルタ更新部17、疑似エコー信号生成部18、及び、期間長決定部19を含む。
 なお、マイク信号生成部11、エコー信号除去部12、出力信号生成部13、基準値算出部15、適応フィルタ更新部17、疑似エコー信号生成部18、及び、期間長決定部19は、エコー除去装置10が備える半導体回路として構成されてもよいし、エコー除去装置10が備えるプロセッサにて実行されるコンピュータプログラムとして実現されてもよい。また、参照信号記憶部14、及び、基準値記憶部16は、エコー除去装置10が備える揮発性又は不揮発性のメモリとして構成されてよい。
 マイク信号生成部11は、マイク4に入力された入力音声に基づいてマイク信号m[i]を生成し、出力する。ここで、iは時刻インデックスを示す。
 エコー信号除去部12は、マイク信号生成部11から出力されたマイク信号m[i]から、後述する疑似エコー信号生成部18によって生成された疑似エコー信号y^[i]を除去してエコー除去後信号を生成し、出力する。
 出力信号生成部13は、エコー信号除去部12から出力されたエコー除去後信号に基づいて送話信号e[i]を生成し、出力する。出力信号生成部13は、エコー除去後信号をそのまま送話信号として出力してもよいし、エコー除去後信号に所定の処理を施して送話信号を生成及び出力してもよい。
 参照信号記憶部14は、WEB会議システム2からスピーカ5に出力される遠端信号と同等の遠端信号を、所定期間分、参照信号x[i]として記憶する。参照信号記憶部14の詳細については後述する。
 基準値算出部15は、参照信号記憶部14に記憶されている参照信号を用いて基準値を算出する。基準値算出部15は、互いに異なる複数の期間のそれぞれに対応する複数の基準値を並列に算出してよい。そして、基準値算出部15は、その算出した複数の期間のそれぞれに対応する複数の基準値を基準値記憶部16に記憶させる。基準値算出部15の詳細については後述する。
 基準値記憶部16は、基準値算出部15によって算出された複数の期間のそれぞれに対応する複数の基準値を記憶する。基準値記憶部16の詳細については後述する。
 適応フィルタ更新部17は、基準値記憶部16に記憶されている複数の基準値のうちのいずれか1つの基準値と、参照信号と、送話信号とを用いて、適応フィルタを更新(学習)する。
 疑似エコー信号生成部18は、参照信号と、適応フィルタ更新部17によって更新される適応フィルタとを用いて、疑似エコー信号を生成する。疑似エコー信号は、上記したエコー信号除去部12にて使用される。
 期間長決定部19は、適応フィルタに使用する基準値を選択するための、期間長を決定する。上記の適応フィルタ更新部17は、期間長決定部19によって決定された期間長に対応する基準値を基準値記憶部16から取得して使用する。期間長決定部19は、ミキサ3に接続されているマイク4の本数に基づいて期間長を決定してよい。また、期間長決定部19は、ミキサ3に接続されているマイク4の本数が変化した場合、期間長を決定し直してよい。また、期間長決定部19は、ミキサ3に接続されているマイク4の位置又は周囲の環境が変化した場合、期間長を決定し直してもよい。
 なお、接続されるマイク4の本数と期間長との対応関係は、予め定められてよい。また、当該対応関係は、マイク4が存在する環境毎に異なってよい。例えば、マイク4が存在する環境にて、接続されるマイク4の本数と期間長とを変えながらどの期間長が最もエコー除去効果が高いかを予め測定し、その測定結果に基づいて、接続されるマイク4の本数と期間長との対応関係を定めてよい。
 図3は、実施の形態1に係る、参照信号記憶部14、基準値算出部15、基準値記憶部16、及び、適応フィルタ更新部17を詳細に説明するための図である。
 参照信号記憶部14は、所定期間分の参照信号を記憶する。参照信号記憶部14は、例えばリングバッファ31として構成され、古い参照信号は新しい参照信号に順次置き換えられてよい。
 参照信号記憶部14は、例えば、期間[i]~[i-L3+1]の参照信号x[i]~x[i-L3+1]を記憶する。ここで、iは時刻インデックスを示し、x[i]は時刻インデックスiのときの参照信号を示す。L0、L1、L2、L3はタップ長を示す整数であり、L0<L1<L2<L3である。
 基準値算出部15は、互いに異なる複数のタップ長のそれぞれに対応する複数の基準値を並列に算出する。本実施の形態では、基準値をノルム値とする。例えば、基準値算出部15は、タップ長L0のノルム値算出部40と、タップ長L1のノルム値算出部41と、タップ長L2のノルム値算出部42と、タップ長L3のノルム値算出部43とを有する。タップ長L0のノルム値算出部40と、タップ長L1のノルム値算出部41と、タップ長L2のノルム値算出部42と、タップ長L3のノルム値算出部43とは、並列に算出処理を行ってよい。これにより、基準値算出部15は、4つのノルム値を高速に算出することができる。
 タップ長L0のノルム値算出部40は、次の式(1)により、タップ長L0のノルム値NL0[i]を算出する。
Figure JPOXMLDOC01-appb-M000001
 タップ長L1のノルム値算出部41は、次の式(2)により、タップ長L1のノルム値NL1[i]を算出する。
Figure JPOXMLDOC01-appb-M000002
 タップ長L2のノルム値算出部42は、次の式(3)により、タップ長L2のノルム値NL2[i]を算出する。
Figure JPOXMLDOC01-appb-M000003
 タップ長L3のノルム値算出部43は、次の式(4)により、タップ長L3のノルム値NL3[i]を算出する。
Figure JPOXMLDOC01-appb-M000004
 なお、上記の式(1)は、次の式(5)によって算出されてもよい。
Figure JPOXMLDOC01-appb-M000005
 これは、前回の時刻タイミング[i-1]で算出済みのノルム値NL0[i-1]に、現在の時刻インデックスiの参照信号の絶対値|x[i]|を加算し、期間外となった時刻インデックス[i-L0]の参照信号の絶対値|x[i-L0]|を減算して、タップ長L0のノルム値NL0[i]を算出する方法である。これにより、タップ長L0のすべての参照信号の絶対値を加算する方法と比べて計算量が少なくなるので、高速にノルム値を算出できる。タップ長L1のノルム値NL1[i]、タップ長L2のノルム値NL2[i]、タップ長L3のノルム値NL3[i]についても同様である。
 また、タップ長L0のノルム値NL0[i]は、上記の式(1)に代えて、次の式(6)によって算出されてもよい。タップ長L1のノルム値NL1[i]、タップ長L2のノルム値NL2[i]、タップ長L3のノルム値NL3[i]についても同様である。
Figure JPOXMLDOC01-appb-M000006
 タップ長L0のノルム値算出部40は、算出したタップ長L0のノルム値NL0[i]を、基準値記憶部16に格納する。タップ長L1のノルム値算出部41は、算出したタップ長L1のノルム値NL1[i]を、基準値記憶部16に格納する。タップ長L2のノルム値算出部42は、算出したタップ長L2のノルム値NL2[i]を、基準値記憶部16に格納する。タップ長L3のノルム値算出部43は、算出したタップ長L3のノルム値NL3[i]を、基準値記憶部16に格納する。これにより、基準値記憶部16には、NL0[i]、NL1[i]、NL2[i]、NL3[i]が格納される。
 適応フィルタ更新部17は、期間長決定部19による決定に応じて、基準値記憶部16から、NL0[i]、NL1[i]、NL2[i]、NL3[i]のうちのいずれか1つを選択する。以下、ここで選択されたタップ長をLと表現し、選択されたノルム値をN[i]と表現する。
 適応フィルタ更新部17は、次の式(7)により、適応フィルタ係数の更新量Δω(i)[l]を算出する。ここで、lはタップインデックスを示し、μ[l]はタップインデックスlに対応したステップゲインを示し、e[i]は送話信号を示す。φ()は非線形関数を示す。φ()の例として、恒等関数id(x)=x、sign()、tanh()等が挙げられる。例えば、φ(e[i])は、tanh(αe[i])であってよい。ここで、αはスケーリング係数である。
Figure JPOXMLDOC01-appb-M000007
 適応フィルタ更新部17は、式(7)で算出した適応フィルタ係数の更新量Δω(i)[l]を用いて、次の式(8)により、適応フィルタ係数ω(i+1)[l]を算出する。ここで、ω(i)[l]は、時刻インデックスiにおけるlタップ目の適応フィルタ係数を示す。
Figure JPOXMLDOC01-appb-M000008
 疑似エコー信号生成部18は、式(8)で算出された適応フィルタ係数を用いて、次の式(9)により、疑似エコー信号y^[i]を生成する。
Figure JPOXMLDOC01-appb-M000009
 エコー信号除去部12は、式(9)で算出された疑似エコー信号y^[i]を用いて、次の式(10)により、エコー除去後信号(送話信号)e[i]を生成する。すなわち、エコー信号除去部12は、マイク信号m[i]から疑似エコー信号y^[i]を除去し、エコー除去後信号(送話信号)e[i]を生成する。
Figure JPOXMLDOC01-appb-M000010
 出力信号生成部13は、このように生成されたエコー除去後信号(送話信号)e[i]を、WEB会議システム2へ出力する。これにより、エコー音を除去した送話信号を送信できる。
 上述した方法によれば、基準値記憶部16には、最新の時刻インデックスiにおける、タップ長がそれぞれ異なるノルム値NL0[i]、NL1[i]、NL2[i]、NL3[i]が格納される。よって、適応フィルタ更新部17は、接続されるマイク4の本数が変わった場合又はマイク4が存在する環境が変わった場合等、エコー音の特性が変化した場合に、基準値記憶部16に格納されている互いに異なる複数のノルム値のうち、特性が変化したエコー信号の除去に最適なノルム値を選択することにより、適応フィルタを、変化後のエコー信号を適切に除去可能なものに即座に更新できる。すなわち、エコー除去装置10は、エコー音の特性が変化した場合であっても、即座にエコー音の除去を行うことができる。
 なお、上述では、タップ長の数をL0、L1、L2、L3の4つとして説明したが、タップ長の数は2つ以上であればいくつであってもよい。
(実施の形態1のまとめ)
 実施の形態1には次の技術が開示される。
<技術A1>
 遠端側から受信した遠端信号に基づいてスピーカ5から出力された音が空間を伝搬してマイク4に入力された音に関する信号であるエコー信号を除去するエコー除去装置10は、マイク4から入力される音に基づいてマイク信号を生成するマイク信号生成部11と、エコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新部17と、所定期間の遠端信号を参照信号として記憶する参照信号記憶部14と、参照信号記憶部14に記憶された参照信号と適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成部18と、マイク信号から疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去部12と、エコー除去後信号に基づいて送話信号を生成する出力信号生成部13と、参照信号に基づいて、互いに異なる複数の期間長のそれぞれに対応する複数の基準値を並列に算出する基準値算出部15と、基準値算出部15によって算出された複数の基準値を記憶する基準値記憶部16と、複数の期間長のうちの1つを第1の期間長に決定する期間長決定部19と、を備え、適応フィルタ更新部17は、期間長決定部19にて決定された第1の期間長に対応する基準値である第1の基準値を基準値記憶部16から取得し、第1の基準値を用いて適応フィルタを更新する。
 これにより、基準値記憶部16には、互いに異なる複数の期間長のそれぞれに対応する複数の基準値が記憶されているため、適応フィルタ更新部17は、期間長決定部19の決定に応じて適切な第1の基準値を基準値記憶部16から即座に取得して適応フィルタを更新することができる。すなわち、エコー除去装置10は、マイク4の環境が変化した場合に、即座に適切なエコー除去を行うことができる。
<技術A2>
 技術A1に記載のエコー除去装置10において、期間長は、タップ長であり、基準値は、ノルム値であり、基準値算出部15は、タップ長に対応する参照信号に基づいて、タップ長に対応するノルム値を算出する。
 これにより、複数のタップ長のそれぞれに対応する複数のノルム値が基準値記憶部16に記憶される。
<技術A3>
 技術A1又はA2に記載のエコー除去装置10において、期間長決定部19は、接続されているマイクの数に基づいて第1の期間長を決定する。
 これにより、エコー除去装置10は、接続されているマイク4の数が変化した場合に、即座に適切なエコー除去を行うことができる。
<技術A4>
 遠端側から受信した遠端信号に基づいてスピーカ5から出力された音が空間を伝搬してマイク4に入力された音に関する信号であるエコー信号を除去するエコー除去方法は、マイク4から入力される音に基づいてマイク信号を生成するマイク信号生成ステップと、エコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新ステップと、所定期間の遠端信号を参照信号として参照信号記憶部14に記憶する参照信号記憶ステップと、参照信号記憶部14に記憶された参照信号と適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成ステップと、マイク信号から疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去ステップと、エコー除去後信号に基づいて送話信号を生成する出力信号生成ステップと、参照信号に基づいて、互いに異なる複数の期間長のそれぞれに対応する複数の基準値を並列に算出する基準値算出ステップと、基準値算出ステップによって算出された複数の基準値を基準値記憶部16に記憶する基準値記憶ステップと、複数の期間長のうちの1つを第1の期間長に決定する期間長決定ステップと、を含み、適応フィルタ更新ステップは、期間長決定ステップにて決定された第1の期間長に対応する基準値である第1の基準値を基準値記憶部16から取得し、第1の基準値を用いて前記適応フィルタを更新する。
 これにより、基準値記憶部16には、互いに異なる複数の期間長のそれぞれに対応する複数の基準値が記憶されているため、適応フィルタ更新ステップは、期間長決定ステップの決定に応じて適切な第1の基準値を基準値記憶部16から即座に取得して適応フィルタを更新することができる。すなわち、エコー除去装置10は、マイク4の環境が変化した場合に、即座に適切なエコー除去を行うことができる。
(実施の形態2)
 実施の形態2では、実施の形態1にて説明済みの構成要素については、共通の参照番号を付して説明を省略する場合がある。
 図4A及び図4Bは、実施の形態2に係るエコー除去装置10の構成例を示すブロック図である。
 エコー除去装置10は、マイク信号生成部11、エコー信号除去部12、出力信号生成部13、参照信号記憶部14、基準値算出部15、基準値記憶部16、適応フィルタ更新部17、疑似エコー信号生成部18、期間長決定部19、目的音判定部20、ゲイン調整部21、周波数スペクトル変換部22A、周波数スペクトル変換部22B、参照スペクトル平滑化部23、疑似エコー信号スペクトル生成部24、周波数領域適応フィルタ更新部25、及び、スペクトル減算部26を含む。
 なお、目的音判定部20、ゲイン調整部21、周波数スペクトル変換部22A、周波数スペクトル変換部22B、参照スペクトル平滑化部23、疑似エコー信号スペクトル生成部24、周波数領域適応フィルタ更新部25、及び、スペクトル減算部26は、エコー除去装置10が備える半導体回路として構成されてもよいし、エコー除去装置10が備えるプロセッサにて実行されるコンピュータプログラムとして実現されてもよい。
 マイク信号生成部11、エコー信号除去部12、参照信号記憶部14、基準値算出部15、基準値記憶部16、適応フィルタ更新部17、疑似エコー信号生成部18、期間長決定部19については、実施の形態1にて説明済みであるので、ここでは説明を省略する。
 目的音判定部20は、エコー信号除去部12から出力されるエコー除去後信号に目的音信号が含まれているか否かを判定する。目的音信号とは、遠端側に送信され、遠端側での受聴が期待される音声の信号である。例えば、マイク入力信号をm[i]、近端音声信号をs[i]、エコー信号をy[i]とした場合、m[i]=s[i]+y[i]と表現され、目的音信号はs[i]に相当する。このs[i]は、マイク4に対する近端話者の発話音声となる。なお、目的音判定部20の処理の詳細については後述する。
 ゲイン調整部21は、目的音判定部20による判定結果に基づいて、エコー信号除去部12から出力されるエコー除去後信号のゲインを調整し、ゲイン調整後信号を出力する。例えば、ゲイン調整部21は、目的音判定部20がエコー除去後信号に目的音信号が含まれていると判定した場合、エコー除去後信号のゲインを増幅させる調整を行う。これにより、受聴者が目的音を良く聞きとれるようになる。例えば、ゲイン調整部21は、目的音判定部20がエコー除去後信号に目的音信号が含まれていないと判定した場合、エコー除去後信号のゲインを減衰させる調整を行う。これにより、除去しきれなかったエコー音が不要に大きく遠端へと送話されることを抑止できる。なお、ゲイン調整部21の処理の詳細については後述する。
 出力信号生成部13は、ゲイン調整部21から出力されるゲイン調整後信号に基づいて送話信号を生成し、出力する。出力信号生成部13は、ゲイン調整後信号をそのまま送話信号として出力してもよいし、ゲイン調整後信号に所定の処理を施して送話信号を生成及び出力してもよい。
 なお、周波数スペクトル変換部22A、周波数スペクトル変換部22B、参照スペクトル平滑化部23、疑似エコー信号スペクトル生成部24、周波数領域適応フィルタ更新部25、及び、スペクトル減算部26の処理については、後に図6に示すフローチャートを参照しながら説明する。
 次に、ゲイン調整部21の処理について詳細に説明する。ゲイン調整部21は、以下の図5A又は図5Bのいずれかの処理を行ってよい。
 図5Aは、実施の形態2に係るゲイン調整部21の処理の第1例を示すフローチャートである。
 ゲイン調整部21は、目的音判定部20による判定結果に基づいてエコー除去後信号に目的音信号が含まれているか否かを判定する(S201)。
 エコー除去後信号に目的音信号が含まれる場合(S201:YES)、ゲイン調整部21は、次の処理を実行する。
 ゲイン調整部21は、マイク信号m[i]のピーク値を算出する(S202)。
 ゲイン調整部21は、ステップS202で算出したマイク信号のピーク値に基づき、ゲイン調整値γを決定する(S203)。例えば、ゲイン調整部21は、マイク信号のピーク値が所定の閾値T1よりも大きい場合、ゲイン調整値γを1よりも小さな値(例えば0.9999)に決定し、マイク信号のピーク値が所定の閾値T2(<T1)よりも小さい場合、ゲイン調整値γを1よりも大きな値(例えば1.0001)に決定する。
 そして、ゲイン調整部21は、決定したゲイン調整値γをゲイン値gに乗算することでゲイン値gを更新する(S204)。そして、ゲイン調整部21は、処理をステップS220に進める。
 エコー除去後信号に目的音信号が含まれない場合(S201:NO)、ゲイン調整部21は、次の処理を実行する。
 ゲイン調整部21は、前回のゲイン値gが1よりも大きいか否かを判定する(S210)。
 前回のゲイン値gが1以下である場合(S210:NO)、ゲイン調整部21は、処理をステップS220に進める。
 前回のゲイン値gが1よりも大きい場合(S210:YES)、ゲイン調整部21は、ゲイン調整値γを1よりも小さい値(例えば0.9999)に設定する。(S211)。
 そして、ゲイン調整部21は、決定したゲイン調整値γをゲイン値gに乗算することでゲイン値gを更新する。そして、ゲイン調整部21は、処理をステップS220に進める。
 ゲイン調整部21は、エコー除去後信号にゲイン値gを乗算し、ゲイン調整後信号を生成及び出力する(S220)。そして、ゲイン調整部21は、処理をステップS201に戻す。
 以上の処理によれば、エコー除去後信号に目的音信号が含まれていない場合、ゲイン調整値γは1よりも小さくなるので、上述した図5Aに示す処理を繰り返すことで、エコー除去後信号のレベルは徐々に小さくなる。つまり、除去しきれずエコー除去後信号に残っているエコー音も徐々に減衰する。これにより、除去しきれなかったエコー音が不要に大きくなった送話信号が遠端側に送信されることを抑止できる。
 図5Bは、実施の形態2に係るゲイン調整部21の処理の第2例を示すフローチャートである。
 ゲイン調整部21は、目的音判定部20による判定結果に基づいてエコー除去後信号に目的音信号が含まれているか否かを判定する(S231)。
 エコー除去後信号に目的音信号が含まれる場合(S231:YES)、ゲイン調整部21は、次の処理を実行する。
 ゲイン調整部21は、マイク信号m[i]のピーク値を算出する(S232)。
 ゲイン調整部21は、ステップS232で算出したマイク信号のピーク値に基づき、ゲイン調整値βを決定する(S233)。例えば、ゲイン調整部21は、マイク信号のピーク値が所定の閾値T1よりも大きい場合、ゲイン調整値βを正の値(例えば「+0.0001」)に決定し、マイク信号のピーク値が所定の閾値T2(<T1)よりも小さい場合、ゲイン調整値βを負の値(例えば「-0.0001」)に決定する。
 そして、ゲイン調整部21は、決定したゲイン調整値βをゲイン値gに加算することでゲイン値gを更新する(S234)。そして、ゲイン調整部21は、処理をステップS250に進める。
 エコー除去後信号に目的音信号が含まれない場合(S231:NO)、ゲイン調整部21は、次の処理を実行する。
 ゲイン調整部21は、前回のゲイン値gが1よりも大きいか否かを判定する(S240)。
 前回のゲイン値gが1以下である場合(S240:NO)、ゲイン調整部21は、処理をステップS250に進める。
 前回のゲイン値gが1よりも大きい場合(S240:YES)、ゲイン調整部21は、ゲイン調整値βを負の値(例えば「-0.0001」)に設定する。(S241)。
 そして、ゲイン調整部21は、決定したゲイン調整値βをゲイン値gに加算することでゲイン値gを更新する。そして、ゲイン調整部21は、処理をステップS250に進める。
 ゲイン調整部21は、エコー除去後信号にゲイン値gを乗算し、ゲイン調整後信号を生成及び出力する(S250)。そして、ゲイン調整部21は、処理をステップS231に戻す。
 以上の処理によれば、エコー除去後信号に目的音信号が含まれていない場合、ゲイン調整値βは負の値となるので、上述した図5Bに示す処理を繰り返すことで、エコー除去後信号のレベルは徐々に小さくなる。つまり、除去しきれずエコー除去後信号に残っているエコー音も徐々に減衰する。これにより、除去しきれなかったエコー音が不要に大きくなった送話信号が遠端側に送話されることを抑止できる。
 図6は、実施の形態2に係る周波数領域にてエコー信号を除去する処理例を示すフローチャートである。
 周波数スペクトル変換部22Aは、マイク信号生成部11からマイク信号を取得し(図4A参照)、周波数スペクトル変換部22Bは参照信号を取得する(S301)。
 周波数スペクトル変換部22Aはマイク信号を周波数スペクトルに変換し、周波数スペクトル変換部22Bは参照信号を周波数スペクトルに変換する(S302)。以下、マイク信号を周波数スペクトルに変換したものをマイク信号スペクトルと称し、参照信号を周波数スペクトルに変換したものを参照信号スペクトルと称する。ここで、周波数スペクトルとは時間領域信号を離散フーリエ変換または高速フーリエ変換によって変換することで得られる周波数領域信号を表し、複素スペクトル、その絶対値である振幅スペクトル、または二乗値であるパワースペクトルを表す。
 なお、周波数スペクトル変換部22Aは、ステップS301及びS302において、図4Bに示すように、エコー信号除去部12からエコー除去後信号を取得し、エコー除去後信号を周波数スペクトルに変換し、マイク信号スペクトルとしてもよい。図4A及び図4Bに示すいずれの方法によっても、目的音判定部20において目的音が存在するか否かの判別が可能である。
 参照スペクトル平滑化部23は、参照信号スペクトルを平滑化する(S303)。ここで、平滑化は周波数スペクトルを時間方向に平均化する処理を表し、移動平均処理や指数平滑化など、一般的に時系列信号に対して行われる平均化処理を表す。
 疑似エコー信号スペクトル生成部24は、平滑化した参照信号スペクトルと、周波数領域適応フィルタを用いて、疑似エコー信号の周波数スペクトルに相当する疑似エコースペクトルを生成する。周波数領域適応フィルタ更新部25は、平滑化した参照信号スペクトルと、スペクトル減算部26で算出される減算後のスペクトルに基づいて、周波数領域適応フィルタを更新する。周波数領域適応フィルタは、一般にLMS、NLMS、APA、RLS法などの適応アルゴリズムまたはICA、IVAなどの音源分離アルゴリズムを用いて減算後の周波数スペクトルが最小となるように更新される。
 スペクトル減算部26は、マイク信号スペクトルから疑似エコー信号スペクトルを減算し、近端音声信号の周波数スペクトルに相当する近端音声信号スペクトルを生成する(S305)。ここで、近端音声信号は、近端側のマイク4に入力された話者の音声の信号であり、目的音信号に相当する。
 なお、図7に示すように、周波数スペクトル変換部22Aの後段に非線形抑圧部28、周波数スペクトル逆変換部29を設け、非線形抑圧部28にて使用する抑圧量を算出するための抑圧量算出部27を設けても良い。抑圧量算出部27は、周波数スペクトル変換部22Aによって得られた周波数スペクトルとスペクトル減算部26で得られた周波数スペクトルとに基づいて、非線形抑圧部28にて使用する抑圧量を算出する。抑圧量はスペクトルサブトラクション法やウィーナフィルタといった一般的な方法によって算出される。非線形抑圧部28は、周波数スペクトル変換部22Aで得られた周波数領域の複素スペクトルに対し、抑圧量算出部27で得られた抑圧量を乗算することで非線形抑圧を行う。非線形抑圧が施された複素スペクトルは周波数スペクトル逆変換部29へと入力される。周波数スペクトル逆変換部29は入力された複素スペクトル信号を時間領域信号へと変換する処理であり、離散逆フーリエ変換や高速逆フーリエ変換によって求められる。
 図8は、実施の形態2に係る目的音判定部20の処理例を示すフローチャートである。
本処理は、図6に示す処理の後に実行されてよい。
 目的音判定部20には、スペクトル減算部26によって生成された近端音声信号スペクトルが入力される(S401)。
 目的音判定部20は、所定帯域の近端音声スペクトルを平均化する(S402)。ここで、所定帯域は、人間の音声スペクトルが含まれる帯域であり、例えば0.5kHz~4kHzであってよい。
 目的音判定部20は、平均化した近端音声信号スペクトルを時間方向に平滑化し、平滑化信号を生成する(S403)。ここで、平滑化は、第1の時間(短時間)の時定数と、当該第1の時間よりも長い第2の時間(長時間)の時定数とによる指数平滑化出力の相加平均として算出されてよい。短時間の平滑化は信号の立ち上がりを素早く検出し、長時間の平滑化は信号の立下りをゆっくりと検出する役割を果たす。
 目的音判定部20は、平滑化信号に対するノイズフロアレベルを算出する(S404)。
 目的音判定部20は、平滑化信号及びノイズフロアレベルに基づいて第1の閾値を算出する(S405)。例えば、目的音判定部20は、ステップS404で算出したノイズフロアレベルに所定の第2の閾値を加えた値、又は、当該値よりも大きい値を、第1の閾値とする。
 目的音判定部20は、ステップS403で算出された平滑化信号のレベルが第1の閾値以上であるか否かを判定する(S406)。
 ステップS403で算出された平滑化信号のレベルが第1の閾値以上である場合(S406:YES)、目的音判定部20は、エコー除去後信号に目的音信号が含まれていると判定し(S407)、本処理を終了する。
 ステップS403で算出された平滑化信号のレベルが第1の閾値未満である場合(S406:NO)、目的音判定部20は、エコー除去後信号に目的音信号が含まれていないと判定し(S408)、本処理を終了する。
 なお、目的音判定部20は、次の方法によってエコー除去後信号に目的音信号が含まれているか否かを判定してもよい。すなわち、目的音判定部20は、マイク信号のレベルとエコー除去後信号のレベルとの差分が所定の第3の閾値未満である場合、目的音信号がエコー除去後信号に含まれていると判定し、当該差分が第3の閾値以上である場合、目的音信号がエコー除去後信号に含まれていないと判定してもよい。
 以上の処理により、目的音判定部20は、エコー除去後信号に目的音信号が含まれているか否かを判定できる。また、周波数領域で処理を行うことにより、所定帯域におけるスペクトルの調整及び判定が容易になる。
(実施の形態2のまとめ)
 実施の形態2には次の技術が開示される。
<技術B1>
 スピーカ5から出力された音が空間を伝搬してマイク4に入力された音であるエコー音を除去するエコー除去装置10は、マイク4から入力される音に基づいてマイク信号を生成するマイク信号生成部11と、エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新部17と、スピーカ5から出力される音に関する信号である出力信号と適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成部18と、マイク信号から疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去部12と、エコー信号とは異なる信号である目的音信号がエコー除去後信号に含まれているか否かを判定する目的音判定部20と、目的音判定部20による判定結果に基づいてエコー除去後信号のゲインを調整するゲイン調整部21と、ゲイン調整部21によって調整されたエコー除去後信号に基づいて出力信号を生成する出力信号生成部13と、を備える。
 これにより、目的音信号がエコー除去後信号に含まれているか否かに応じてゲインを調整することができる。
<技術B2>
 技術B1に記載のエコー除去装置10において、目的音判定部20は、所定期間におけるエコー除去後信号を平滑化した平滑化信号のレベルが所定の第1の閾値以上である場合、目的音信号がエコー除去後信号に含まれていると判定する。
 これにより、目的音判定部20は、目的音信号がエコー除去後信号に含まれているか否かを判定できる。
<技術B3>
 技術B2に記載のエコー除去装置10において、第1の閾値は、平滑化信号に対するノイズフロアレベルに所定の第2の閾値を加えた値、又は、当該値よりも大きい値である。
 これにより、目的音信号がエコー除去後信号に含まれているか否かの判定に用いられる第1の閾値を決定できる。
<技術B4>
 技術B1に記載のエコー除去装置10において、目的音判定部20は、マイク信号のレベルとエコー除去後信号のレベルとの差分が所定の第3の閾値未満である場合、目的音信号がエコー除去後信号に含まれていると判定し、差分が前記第3の閾値以上である場合、目的音信号が前記エコー除去後信号に含まれていないと判定する。
 これにより、目的音判定部20は、目的音信号がエコー除去後信号に含まれているか否かを判定できる。
<技術B5>
 技術B1からB4のいずれか1つに記載のエコー除去装置10において、ゲイン調整部21は、目的音信号がエコー除去後信号に含まれていないという判定結果であった場合、エコー除去後信号のゲインを減衰させる調整を行う。
 これにより、目的音信号を含まないエコー除去後信号のゲインは減衰する。よって、エコー除去後信号に残っているエコー信号が不要に増幅された送話信号が遠端側に送信されることを抑止できる。
<技術B6>
 技術B1からB5のいずれか1つに記載のエコー除去装置10において、ゲイン調整部21は、目的音信号がエコー除去後信号に含まれているという判定結果であった場合、マイク信号のピーク値に基づいてエコー除去後信号のゲインの増幅又は減衰を決定する。
 これにより、目的音信号を含むエコー除去後信号のゲインは適切に調整される。よって、聴取者が目的音を良く聞きとれるようになる。
<技術B7>
 技術B1に記載のエコー除去装置10において、エコー信号除去部12からエコー信号除去後信号を取得し、エコー除去後信号を周波数スペクトルに変換する周波数スペクトル変換部22Aを備え、目的音判定部20は、周波数スペクトルに基づき、目的音信号がエコー信号除去後信号に含まれているか否かを判定する。
 これにより、目的音判定部20は、目的音信号がエコー除去後信号に含まれているか否かを判定できる。
<技術B8>
 スピーカ5から出力された音が空間を伝搬してマイク4に入力された音であるエコー音を除去するエコー除去方法は、マイク4から入力される音に基づいてマイク信号を生成するマイク信号生成ステップと、エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新ステップと、スピーカ5から出力される音に関する信号である出力信号と適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成ステップと、マイク信号から疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去ステップと、エコー信号とは異なる信号である目的音信号がエコー除去後信号に含まれているか否かを判定する目的音判定ステップと、目的音判定ステップによる判定結果に基づいてエコー除去後信号のゲインを調整するゲイン調整ステップと、ゲイン調整ステップによって調整されたエコー除去後信号に基づいて出力信号を生成する出力信号生成ステップと、を含む。
 これにより、目的音信号がエコー除去後信号に含まれているか否かに応じてゲインを調整することができる。
 以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。
 なお、本出願は、2022年9月28日出願の日本特許出願(特願2022-155170)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示の技術は、マイクとスピーカを有するシステム及び装置、並びに、当該システム及び装置にてマイクから入力された音声信号を処理する方法及びコンピュータプログラム等に有用である。
1 音声入出力システム
2 WEB会議システム
3 ラックマウントミキサ
4 マイク
5 スピーカ
10 エコー除去装置
11 マイク信号生成部
12 エコー信号除去部
13 出力信号生成部
14 参照信号記憶部
15 基準値算出部
16 基準値記憶部
17 適応フィルタ更新部
18 疑似エコー信号生成部
19 期間長決定部
20 目的音判定部
21 ゲイン調整部
31 リングバッファ
40 タップ長L0のノルム値算出部
41 タップ長L1のノルム値算出部
42 タップ長L2のノルム値算出部
43 タップ長L3のノルム値算出部
901 点線矢印

Claims (8)

  1.  スピーカから出力された音が空間を伝搬してマイクに入力された音であるエコー音を除去するエコー除去装置であって、
     前記マイクから入力される音に基づいてマイク信号を生成するマイク信号生成部と、
     前記エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新部と、
     前記スピーカから出力される音に関する信号である出力信号と前記適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成部と、
     前記マイク信号から前記疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去部と、
     前記エコー信号とは異なる信号である目的音信号が前記エコー除去後信号に含まれているか否かを判定する目的音判定部と、
     前記目的音判定部による判定結果に基づいて前記エコー除去後信号のゲインを調整するゲイン調整部と、
     前記ゲイン調整部によって調整された前記エコー除去後信号に基づいて前記出力信号を生成する出力信号生成部と、を備える、
     エコー除去装置。
  2.  前記目的音判定部は、
     所定期間における前記エコー除去後信号を平滑化した平滑化信号のレベルが所定の第1の閾値以上である場合、前記目的音信号が前記エコー除去後信号に含まれていると判定する、
     請求項1に記載のエコー除去装置。
  3.  前記第1の閾値は、前記平滑化信号に対するノイズフロアレベルに所定の第2の閾値を加えた値、又は、当該値よりも大きい値である、
     請求項2に記載のエコー除去装置。
  4.  前記目的音判定部は、
     前記マイク信号のレベルと前記エコー除去後信号のレベルとの差分が所定の第3の閾値未満である場合、前記目的音信号が前記エコー除去後信号に含まれていると判定し、前記差分が前記第3の閾値以上である場合、前記目的音信号が前記エコー除去後信号に含まれていないと判定する、
     請求項1に記載のエコー除去装置。
  5.  前記ゲイン調整部は、前記目的音信号が前記エコー除去後信号に含まれていないという前記判定結果であった場合、前記エコー除去後信号のゲインを減衰させる調整を行う、
     請求項1に記載のエコー除去装置。
  6.  前記ゲイン調整部は、前記目的音信号が前記エコー除去後信号に含まれているという前記判定結果であった場合、前記マイク信号のピーク値に基づいて前記エコー除去後信号のゲインの増幅又は減衰を決定する、
     請求項1又は5に記載のエコー除去装置。
  7.  前記エコー信号除去部から前記エコー信号除去後信号を取得し、前記エコー除去後信号を周波数スペクトルに変換する周波数スペクトル変換部を備え、
     前記目的音判定部は、前記周波数スペクトルに基づき、前記目的音信号が前記エコー信号除去後信号に含まれているか否かを判定する、
     請求項1に記載のエコー除去装置。
  8.  スピーカから出力された音が空間を伝搬してマイクに入力された音であるエコー音を除去するエコー除去方法であって、
     前記マイクから入力される音に基づいてマイク信号を生成するマイク信号生成ステップと、
     前記エコー音に関する信号であるエコー信号の推定に用いられる適応フィルタを更新する適応フィルタ更新ステップと、
     前記スピーカから出力される音に関する信号である出力信号と前記適応フィルタとに基づいて疑似エコー信号を生成する疑似エコー信号生成ステップと、
     前記マイク信号から前記疑似エコー信号を除去してエコー除去後信号を生成するエコー信号除去ステップと、
     前記エコー信号とは異なる信号である目的音信号が前記エコー除去後信号に含まれているか否かを判定する目的音判定ステップと、
     前記目的音判定ステップによる判定結果に基づいて前記エコー除去後信号のゲインを調整するゲイン調整ステップと、
     前記ゲイン調整ステップによって調整された前記エコー除去後信号に基づいて前記出力信号を生成する出力信号生成ステップと、を含む、
     エコー除去方法。
PCT/JP2023/031654 2022-09-28 2023-08-30 エコー除去装置、及び、エコー除去方法 WO2024070461A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-155170 2022-09-28
JP2022155170 2022-09-28

Publications (1)

Publication Number Publication Date
WO2024070461A1 true WO2024070461A1 (ja) 2024-04-04

Family

ID=90477276

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/031654 WO2024070461A1 (ja) 2022-09-28 2023-08-30 エコー除去装置、及び、エコー除去方法

Country Status (1)

Country Link
WO (1) WO2024070461A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008147822A (ja) * 2006-12-07 2008-06-26 Yamaha Corp 音声会議装置および音声会議システム
WO2018229821A1 (ja) * 2017-06-12 2018-12-20 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法
JP2019036917A (ja) * 2017-08-21 2019-03-07 沖電気工業株式会社 パラメータ制御装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008147822A (ja) * 2006-12-07 2008-06-26 Yamaha Corp 音声会議装置および音声会議システム
WO2018229821A1 (ja) * 2017-06-12 2018-12-20 ヤマハ株式会社 信号処理装置、遠隔会議装置、および信号処理方法
JP2019036917A (ja) * 2017-08-21 2019-03-07 沖電気工業株式会社 パラメータ制御装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP5036874B2 (ja) エコー消去装置
CN110838300B (zh) 回声消除的处理方法及处理系统
JP4104659B2 (ja) 入力信号の妨害成分を抑圧するための装置
KR100238630B1 (ko) 잡음 저감 장치
JP3568922B2 (ja) エコー処理装置
US7035398B2 (en) Echo cancellation processing system
JP5347794B2 (ja) エコー抑圧方法およびその装置
US8718562B2 (en) Processing audio signals
JP6283413B2 (ja) 適応型残留フィードバック抑制
JP2005142659A (ja) エコーキャンセラ
CN107005268B (zh) 回波消除装置和回波消除方法
US20120207327A1 (en) Processing Audio Signals
WO2024070461A1 (ja) エコー除去装置、及び、エコー除去方法
WO2024070079A1 (ja) エコー除去装置、及び、エコー除去方法
US10582315B2 (en) Feedback canceller and hearing aid
JP4396449B2 (ja) 残響除去方法及びその装置
JP4475155B2 (ja) エコーキャンセラ
JP6180689B1 (ja) エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
JP6356087B2 (ja) エコー消去装置、その方法及びプログラム
KR100431965B1 (ko) 시변 적응알고리즘이 적용된 음향반향 제거장치 및 그 방법
WO2022202012A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
WO2024009892A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
JP2013005106A (ja) 場内拡声装置、場内拡声方法、及びそのプログラム
JP2006148375A (ja) エコー除去方法、エコーキャンセラ及び電話中継装置
JP2000252883A (ja) エコーキャンセラの制御装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23871701

Country of ref document: EP

Kind code of ref document: A1