WO2010110071A1 - 信号処理方法、装置及びプログラム - Google Patents

信号処理方法、装置及びプログラム Download PDF

Info

Publication number
WO2010110071A1
WO2010110071A1 PCT/JP2010/054032 JP2010054032W WO2010110071A1 WO 2010110071 A1 WO2010110071 A1 WO 2010110071A1 JP 2010054032 W JP2010054032 W JP 2010054032W WO 2010110071 A1 WO2010110071 A1 WO 2010110071A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal sequence
value
function
signal
correction
Prior art date
Application number
PCT/JP2010/054032
Other languages
English (en)
French (fr)
Inventor
薫 鈴木
皇 天田
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Publication of WO2010110071A1 publication Critical patent/WO2010110071A1/ja
Priority to US13/240,353 priority Critical patent/US8630850B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Definitions

  • the present invention relates to a signal processing method, apparatus and program for echo cancellation.
  • the acoustic echo canceller transmits / receives voice through, for example, a transmission path, amplifies the voice (far-end voice) from the received counterpart terminal from the speaker, and transmits the voice of the own terminal (close-end voice) received by the microphone It is used for the loud speaker communication device.
  • a phenomenon occurs in which the voice produced by itself is returned as an echo (referred to as an acoustic echo) at the opposite terminal.
  • acoustic echo is known to interfere in conversation because a certain amount of delay occurs in the transmission path.
  • An echo canceller is used to remove or reduce such acoustic echoes. Since the receiving input that is the source of the acoustic echo is known on the own terminal side, if the same conversion as the transfer characteristic of the echo path, which is the wraparound path of the acoustic echo, is applied to the receiving input, the acoustic echo mixed in the microphone output Echo replicas can be generated internally to simulate. By subtracting this echo replica from the microphone output, it is possible to generate an output signal (error signal) in which the acoustic echo is suppressed. The trick to perform this process is the echo canceller.
  • a non-recursive linear filter with N taps is often used as a linear filter for simulating the transfer characteristics of the echo path, and an echo replica is generated by convolving the filter's tap coefficient with the reception input Do.
  • an adaptive algorithm is used which finds asymptotically based on the observation signal.
  • probability gradient algorithms are known that correct tap coefficients in the gradient (probability gradient) direction of the instantaneous squared error with respect to the tap coefficients.
  • LMS algorithm minimum mean square error algorithm
  • NLMS algorithm normalized LMS algorithm
  • the tap coefficient correction amount in the LMS algorithm or the NLMS algorithm is an amount of blue ceiling proportional to the reference signal and also proportional to the error signal. Therefore, in the case of double talk where near end speech and far end speech are simultaneously present, a large erroneous correction occurs in response to the near end speech included in the error signal. In order to avoid this erroneous correction, it is necessary to quantitatively suppress or completely stop the correction of the tap coefficient during double talk. When these algorithms are employed, it is necessary to provide a double talk detector in order to detect double talk and control the tap coefficient correction unit.
  • Patent Document 1 Japanese Patent No. 3870861 discloses an echo in which independent component analysis (Infomax method) based on information entropy maximization is applied to correct tap coefficients so that a reference signal and an error signal become independent of each other.
  • a canceller is disclosed.
  • the echo canceller of Patent Document 1 uses a function G (e (t)) of the error signal e (t) as a sign function: sign (e (t)), a hyperbolic tangent function: tanh (e (t)), or a sigmoid
  • the tap coefficient correction formula is used with the function: 1 / (1 + exp (-e (t))).
  • An algorithm using these functions is generically referred to as the Infomax system hereinafter.
  • the correction at the time of double talk can be suppressed because the correction scale of the coefficient becomes a limit with the Infomax method at the limit of a fixed level. From this, the Infomax system has an advantage that the apparatus configuration can be further reduced without the need to provide a double talk detector.
  • the residual echo level of the Infomax system is high, that is, the echo remains unerased. This is considered to be due to the occurrence of an overshoot since the coefficient correction scale at the time of a minute error is excessive.
  • Patent Document 2 Japanese Patent No. 2885269
  • a tap coefficient is provided in a function G (e (t)) in which a linear band in which the correction amount is proportional to the error signal e (t) in the small error range of the sign algorithm
  • G e (t)
  • the algorithm of Patent Document 2 Due to the overshoot suppression effect of the linear band, the algorithm of Patent Document 2 has a residual echo level smaller than that of the coding algorithm.
  • the algorithm of Patent Document 2 is an algorithm in which a limiter of a correction scale is provided to the LMS algorithm. An algorithm using this function is hereinafter referred to as the Ideal Limiter scheme.
  • Patent Document 3 Japanese Patent Laid-Open No. 2004-64681 discloses an adaptive algorithm that has the same effect of accelerating the convergence as the LMF (Least Mean Fourth) algorithm.
  • the algorithm of Patent Document 3 does not provide robustness to double talk as the LMS algorithm does.
  • the correction scale of the tap coefficient monotonously increases in accordance with the instantaneous absolute value of the error signal, erroneous correction at the time of double talk becomes large as in the LMF (Least Mean Fourth) algorithm.
  • An object of the present invention is to provide a signal processing method, apparatus and program with improved echo cancellation capability and convergence speed.
  • a filter that performs filter processing to convolute tap coefficients into a first signal sequence to generate a second signal sequence, and a third signal sequence that includes an echo of the first signal sequence
  • a subtractor configured to subtract the second signal sequence from the second signal sequence to generate a fourth signal sequence
  • a correction unit configured to correct the tap coefficient according to a correction amount using a function of the fourth signal sequence as a parameter
  • the fourth signal series is smaller than the straight line in a negative range with respect to a straight line having the slope and the value of the function as the slope and the intercept, respectively, when the fourth signal series is 0.
  • at least one of the first region having a value and the second region having a value larger than the straight line in the positive range, and the value of the function is limited. Characteristics and Providing that the signal processing device.
  • Block diagram showing a signal processing apparatus (acoustic echo canceller) according to an embodiment of the present invention A flowchart showing the flow of processing of the signal processing device of FIG. 1 Diagram showing graphs of three functions of Infomax method Diagram showing a graph of the function of Ideal Limiter method Diagram schematically showing the shape of a function G (e (t)) based on the prior art Diagram schematically showing the shape of a function G (e (t)) based on an embodiment of the present invention Diagram showing a graph of the function of the overcorrected band Ideal Limiter scheme according to an embodiment of the present invention Transition of ERLE maximum value when over-correction bandwidth B is changed Transition of convergence speed when the overcorrection bandwidth B is changed Transition of ERLE maximum value when amplitude is changed Figure showing a graph of the sign function with deadband Diagram showing transition of ERLE maximum value when dead zone width C is changed Diagram showing transition of ERLE maximum value when amplitude is changed Diagram showing transition of ERLE maximum value when changing function Diagram showing transition (normalization) of ERLE maximum
  • a signal processing apparatus 1 includes a linear filter 2, a subtractor 3 and a tap coefficient correction unit 4.
  • the far-end voice which is the reception input from the transmission path to the reception input terminal 5, is input to the linear filter 2 and the tap coefficient correction unit 4 of the signal processing device 1 as a reference signal x (t) (first signal sequence).
  • the speaker 6 outputs a loud sound.
  • an output m (t) (third signal sequence) from the microphone 7 from which the near-end voice and the acoustic echo in which the loudspeaker output of the loudspeaker 6 wraps around through the echo path is received is input to the signal processing device 1 Be done.
  • the linear filter 2 is a non-recursive linear filter (FIR filter) with N taps for simulating the transfer characteristic of the echo path, and the echo replica signal y (t of acoustic echo) from the received reference signal x (t) ) (Second signal sequence) is generated according to equation (1). That is, in the linear filter 2, the echo replica signal y (t) is generated by performing filter processing in which the tap coefficient w (k, t) of the filter 2 is convoluted with the reference signal x (t).
  • FIR filter non-recursive linear filter
  • the echo replica signal y (t) is a time-series signal and represents the value of the echo replica at time t.
  • w (k, t) represents the value of the tap coefficient of the tap number k of the filter 2 at time t.
  • x (tk) is the value of the reference signal which went back to time k from time t.
  • N is the number of taps.
  • W (t) and X (t) are values of tap coefficient w (k, t) and reference signal x (tk) when k is changed from 0 to N-1 as shown in the following equation (2) It is a column vector which arranged each.
  • the echo replica signal y (t) thus generated is subtracted from the microphone output m (t) in the subtractor 3 as shown in equation (3).
  • an error signal (fourth signal sequence) e (t) instantaneous value which is a transmission output is generated and output from the transmission output terminal 8.
  • the tap coefficient correction unit 4 corrects the tap coefficient of the linear filter 2 using the tap coefficient correction equation represented by the recurrence equation of Equation (4).
  • Equation (4) is a generalized tap coefficient correction equation based on the probability gradient algorithm.
  • W (t) is a tap coefficient before correction
  • W (t + 1) is a tap coefficient after correction.
  • the second term on the right side of Equation (4) represents the correction amount of the tap coefficient.
  • a positive number ⁇ is a normalization coefficient
  • a positive number ⁇ is a step size for controlling the magnitude of correction
  • G (e (t)) is a function of the error signal (instant value) e (t), both of which are scalar quantities It is.
  • the product of the normalization coefficient ⁇ and the step size ⁇ is referred to as a step size as one quantity, but for the sake of explanation, these two quantities ⁇ and ⁇ are treated separately.
  • the shape of the function G (e (t)) of the error signal e (t), which is one of the parameters of the coefficient correction amount used in the tap coefficient correction unit 4, is It is different from technology.
  • the state of the signal processing device 1 is initialized. Specifically, the tap coefficient of the linear filter 2 is set to an initial value (in many cases, this initial value is 0).
  • the microphone output m (t) and the far-end voice x (t) are input.
  • the signal input processing step S2 includes processing to output the far-end voice x (t) by the speaker 6 as a loud output.
  • an echo replica y (t) of acoustic echo is generated according to the equation (1) using the input far-end speech x (t) as a reference signal. This process is performed by the linear filter 2.
  • an error signal e (t) is generated by subtracting the echo replica y (t) from the microphone output m (t) according to the equation (2).
  • the subtraction processing step S4 includes processing of transmitting and outputting the obtained error signal e (t). This process is performed by the subtractor 3.
  • the tap coefficients of the linear filter 2 are corrected from the error signal e (t) using the tap coefficient correction equation of equation (4). This process is executed by the tap coefficient correction unit 4.
  • an algorithm in which the normalization coefficient ⁇ of the LMS algorithm is not 1 but 1 / X T X is the NLMS algorithm (normalized LMS algorithm).
  • the definition of the NLMS algorithm will be described later.
  • X T X is the sum of powers of N reference signal values from the present to N-1 past times.
  • the LMS algorithm or the NLMS algorithm is an algorithm that finds tap coefficients that minimize the mean square value of the error signal asymptotically using the error signal e (t) (instant value) of each time.
  • the tap coefficient correction amount is generally proportional to the reference signal x (t) as shown in the equation (4)
  • FIGS. 3 (a), (b) and (c) The graphs of these functions are shown in FIGS. 3 (a), (b) and (c).
  • the horizontal axis of the graph is the value (instantaneous value) of the error signal e (t), and the vertical axis is the value of the function G (e (t)).
  • a scheme adopting sign (e (t)) is known as a sign algorithm.
  • tanh (e (t)) and 1 / (1 + exp (-e (t)) are sign (sign) in the full wave range (both positive and negative range) and half wave range (only positive range) of e (t) respectively It is a function approximating e (t)), and these functions are considered to function in the same way as the sign algorithm.
  • the correction scale of the coefficient becomes a ceiling with a certain level at the limit, so erroneous correction at double talk is suppressed and a double talk detector is unnecessary. It becomes.
  • the residual echo level is high in the Infomax system. This is considered to be due to the occurrence of an overshoot since the coefficient correction scale at the time of a minute error (the origin of FIGS. 3A, 3B, 3C) is excessive.
  • the correction amount of the tap coefficient is within the small error range (
  • a linear band proportional to the error is provided in the function G (e (t)).
  • FIG. 4 A graph of the function of equation (7) is shown in FIG.
  • the horizontal axis of the graph of FIG. 4 is the error signal e (t) (instantaneous value), and the vertical axis is the value of the function G (e (t)).
  • a linear band (referred to as a width A) in which the correction amount of the tap coefficient is proportional to the error signal e (t) in the small error range of the sign algorithm is provided in the function G (e (t)).
  • the residual echo level decreases due to the overshoot suppression effect of the linear band.
  • the algorithm of Patent Document 2 provides the LMS algorithm with a limiter on the scale of correction of tap coefficients. Therefore, the system of Patent Document 2 is hereinafter referred to as the Ideal Limiter system. Due to the effect of this limiter, similar to the Infomax system, the Ideal Limiter system exhibits robustness to double talk.
  • FIG. 5 schematically shows the geometrical feature of the function G (e (t)) of the above-described prior art (LMS algorithm, NLMS algorithm, Infomax method and Ideal Limiter method).
  • FIG. 6 schematically shows the shape feature of the function G (e (t)) in the present embodiment.
  • the function G (e (t)) in the prior art will be described below.
  • the function G (e (t)) is identical to the straight line F (e (t)). That is, it has a linear correction characteristic over the entire range of the error. It is said that the correction scale of the tap coefficient is constant.
  • the function G (e (t)) passes through the left side of the straight line F (e (t)) at e (t) ⁇ 0, and the straight line F (e (t)> 0 at e (t)> 0. Pass the right side of t)). That is, it has a characteristic of correcting the tap coefficient more than others in the minute error range. In other words, the correction magnitudes of the other error bands are smaller than the correction magnitudes of the small error band.
  • the linear band is the same as the LMS algorithm, and the other is the same as the Infomax system.
  • the function G (e (t)) is a straight line F (e (t) at (t) ⁇ 0. It does not pass on the right side of) and does not pass on the left side of the straight line F (e (t)) when e (t)> 0.
  • ⁇ D: C> 0, D> C) away from the origin is set to a small error range (
  • C and D are a first threshold and a second threshold.
  • the function G (e (t)) of the shape shown in FIG. 6 based on the present embodiment has two regions corresponding to the error signal e (t) as an overcorrection band, that is, a range where the error signal e (t) is negative.
  • (E (t) ⁇ 0) passes through the right side of the straight line F (e (t)) (that is, it has a smaller value than F (e (t))), and the error signal is in a positive range (e (t)> 0) has a second region passing through the left side of the straight line F (e (t)) (that is, having a value larger than F (e (t))).
  • the first region and the second region can be expressed as follows using the magnitude relationship between the function G (e (t)) and the straight line F (e (t)).
  • the first area is an area where G (e (t)) ⁇ F (e (t)) when e (t) ⁇ 0
  • the second area is G (e (e (t)) when e (t)> 0. t))> F (e (t)).
  • the function G (e (t)) in FIG. 6 has both the first region and the second region as the overcorrection zone, but may have one or both as the overcorrection zone.
  • the function G (e (t)) in FIG. 6 is provided with a limiter so that the robustness to double talk can be obtained as in the Infomax system and the Ideal Limiter system. Specifically, it is assumed that the value of the function G (e (t)) does not deviate from ⁇ ⁇ , that is,
  • ⁇ , a function of
  • the function G (e (t)) it needs to be included.
  • the intercept b does not necessarily have to be 0, by using a function G (e (t)) in which b is 0, tap coefficient correction characteristics symmetrical with respect to the sign of the error signal e (t) can be obtained. It becomes possible to give.
  • a tap coefficient correction equation having an overcorrection band which is defined as described above, will be collectively referred to as an overcorrection banded algorithm.
  • the function G (e (t)) is such that (a) the absolute value
  • the tap coefficient correction unit 4 in FIG. 1 can realize one or more implementation methods of the overcorrection banded algorithm described below, and can be appropriately selected according to the setting.
  • the function G (e (t)) of the equation (8) is an edge portion of the linear band of the Ideal Limiter scheme (A ⁇ B ⁇
  • AB corresponds to the first threshold D described above.
  • Equation (8) linearly corrects in a small error region where
  • This algorithm is expected to accelerate convergence of the Ideal Limiter method by applying correction.
  • this will be referred to as an over-correction banded Ideal Limiter method.
  • the overcorrection bandwidth B is a threshold for the amplitude value of the signal, it depends on the scale of the error signal e (t). Therefore, the echo cancellation ability (ERLE maximum value) was investigated when the amplitudes of the microphone output m (t) and the reference signal x (t) were doubled, tripled and quadrupled. This corresponds to doubling, three times, or four times the amplitude of the error signal e (t).
  • 10 (a) (b) (c) (d) show the relationship between the overcorrection band width B and the ERLE maximum value when the amplitude magnification is changed.
  • C A ⁇ B (0 ⁇ C ⁇ A)
  • the amplitude is doubled, tripled, quadrupled from this experiment.
  • C A-B which becomes ERLE maximum also becomes large.
  • C0 is the lower end of the over-correction band at which ERLE maximum is obtained by a previous experiment
  • M0 is the average value (average amplitude absolute value) of the amplitude absolute values of the error signal e (t) used at that time. is there.
  • Me is an average (moving average amplitude absolute value) of amplitude absolute values from the present of the actual error signal e (t) to the past of a predetermined period.
  • the ERLE maximum value drops sharply on the right side of the over-correction bandwidth B at which the ERLE is maximum. Therefore, if the overcorrection band lower end C calculated according to the equation (10) is applied as it is, there is a risk that the ERLE maximum value may rush into a region where the ERLE maximum value falls sharply due to measurement errors such as C0, M0, Me.
  • the tap coefficient correction unit 4 sets the overcorrection band lower limit C to a value obtained by adding a slight margin to the value while calculating the overcorrection band lower end C according to the equation (10). This margin shall be experimentally selected as a good value. At least the tap coefficient correction unit 4 performs control to reduce the overcorrection bandwidth B according to the increase of the moving average amplitude absolute value Me.
  • the function G (e (t)) of the equation (11) is a dead zone in which the correction magnitude is 0 within the minute error range (
  • the feature is that the The function G (e (t)) in FIG. 11 can be realized by adding only one threshold process. At this time, a value C larger than 0 corresponds to the lower end of the overcorrection band of the equation (9), but here, it will be particularly referred to as a dead band width.
  • the algorithm of equation (11) is expected to have the effect of suppressing over-correction of the Infomax system by the dead zone.
  • the dead band width C is related to the size of the signal. Of course, if the signal level in the operation environment is expected to some extent, a fixed dead band C may be used. On the other hand, if not, it is better to control C dynamically. Since the dead zone width C is a threshold for the absolute value
  • the function G (e (t)) has an absolute value
  • the first function which outputs 0, and is given by the second function which outputs the value of the same sign as that of the error signal e (t) at other times.
  • the second function is specifically sign (e (t)), tanh (e (t)), 1 / (1 + exp (-e (t))), or 1 / (1 + exp (-e (t))).
  • FIG. 11 is an example of the case where the second function is sign (e (t)).
  • FIG. 12 shows the change of the ERLE maximum value in 29 seconds when the dead zone width C is changed.
  • the dead zone width C is a threshold for the amplitude value of the signal, it depends on the scale of the error signal e (t). Therefore, the echo cancellation capability (ERLE maximum value) was investigated when the amplitudes of the microphone output m (t) and the reference signal x (t) were doubled, tripled, and quadrupled. This corresponds to doubling, three times, or four times the amplitude of the error signal e (t).
  • the dead zone width C 0 is the Infomax system.
  • the dead band width C at which the ERLE is maximum becomes approximately four times, nine times, or sixteen times. That is, the dead band width C at which ERLE is maximum is proportional to the square of the amplitude (power). Therefore, the dead band width C at which ERLE is maximum in this example is determined by equation (12).
  • C0 is a dead band width in the vicinity of the ERLE maximum obtained by a preliminary experiment
  • P0 is the average power of the error signal e (t) used at that time.
  • C0 and P0 are referred to as reference dead zone width C0 and reference power P0.
  • Pe is the moving average power from the present of the actual error signal e (t) to the past of a predetermined period.
  • the dead zone width C is experimentally selected to be a good value.
  • the ERLE maximum value falls steeper on the left side of the dead zone width C where ERLE is maximum than on the right side. Therefore, if the dead zone width C calculated according to the equation (12) is applied as it is, there is a risk that the ERLE maximum value may rush into a region where the ERLE maximum value falls sharply due to measurement errors such as C0, P0 and Pe.
  • the tap coefficient correction unit 4 sets the dead zone width to a value obtained by adding a margin to that value. This margin shall be experimentally selected as a good value. At least the tap coefficient correction unit 4 performs control to increase the dead zone width C according to the increase of the moving average power Pe.
  • Equation (7) (Normalized Ideal Limiter method with overcorrection zone)
  • the Ideal Limiter scheme shown in Equation (7) is a scheme in which a limiter is provided to the correction scale of the LMS algorithm. Then, what happens if a similar limiter is provided to the NLMS algorithm defined by the following equation (13)?
  • Equation (13) is called a normalized Ideal Limiter method, and is defined by the following equation (14).
  • 1 / X T X is the reciprocal of the sum of the power of N reference signal values from the present to N-1 time past, but instead of calculating it each time, the current value to be determined of X T X Pw (t), the value of one time past already calculated is Pw (t-1), and the current value x (t) of the reference signal and the positive coefficient ⁇ (forgetting factor) less than 1 are used to obtain the equation (19) It is also possible to calculate as in). Only by calculating X T X once at first, thereafter, the approximate value P w (t) of X T X is obtained with a small amount of calculation by equation (19). This is also a method of approximating 1 / X T X.
  • the tap coefficient correction unit 4 sets the overcorrection band width B to a value obtained by subtracting the margin from the overcorrection band width B at which the ERLE is maximum. This margin shall be experimentally selected as a good value.
  • FIG. 16 shows the result of comparison of ERLE at 4.46 seconds in the input signal 1-fold data as a measure of convergence speed.
  • the shape of the function G (e (t)) is not limited to the above (Equation 8) or (Equation 15), and e (t) falls within the over-correction band range.
  • G (e (t) is negative G (e (t)) ⁇ e (t) / A
  • e (t) is positive G (e (t))> e (t) / A
  • the function G (e (t)) conforms to the Ideal Limiter method shown in Expression (7) and the normalized Ideal Limiter method shown in Expression (14) over the entire range of the error signal e (t).
  • the over-correction band is the same as the over-correction band Ideal Limiter method shown in equation (10) or the over-correction band normalizing Ideal Limiter method shown in equation (15) It can produce an effect.
  • the function G (e (t)) conforms to the Infomax system of Equation (6) in the entire region of the error signal e (t).
  • H (e (t)) satisfies the feature of the function G (e (t)) based on this embodiment, where H (e (t)) is a function corresponding to the product of ⁇ , ⁇ and G.
  • H (e (t)) is a function corresponding to the product of ⁇ , ⁇ and G.
  • the adaptive filter converges quickly when the step size ⁇ is large but with low accuracy, and converges accurately when the step size ⁇ is small. Therefore, for example, by monitoring the tendency of the magnitude of the error signal becoming smaller and knowing that the filter convergence is progressing, control is performed such as making the step size ⁇ smaller according to the degree of progress, for example. It is possible to perform long-term control of ⁇ in which the convergence speed is prioritized and the convergence is advanced, the accuracy is prioritized. However, since the instantaneous value e (t) of the error signal is the signal itself, the value dynamically changes momentarily.
  • the convergence speed is first prioritized exclusively by the former effect, while maintaining the robustness to the double talk by the latter effect, If convergence is advanced, it is expected that it is possible to improve speed while giving priority to accuracy solely by the latter effect. That is, both are techniques that can be combined.
  • the LMF algorithm uses e 3 (t) rather than e (t) as the function G (e (t)). Therefore, in the whole range of error excluding 0, when e (t) ⁇ 0, G (e (t)) ⁇ F (e (t)), when e (t)> 0, G (e (t))> It becomes F (e (t)). This is a condition to be satisfied of the overcorrection band according to the present embodiment. Further, in the LMF algorithm, the correction scale monotonously increases in accordance with the instantaneous absolute value
  • the LMF algorithm is not limited to another condition to be satisfied by the function G (e (t)) based on the present embodiment,
  • the robustness to double talk can not be obtained.
  • the correction error at the double talk becomes larger than the LMS algorithm because the correction scale increases monotonously according to
  • Patent Document 3 is not limited to another condition to be satisfied by G (e (t)) based on the present embodiment,
  • the correction scale of the tap coefficient monotonously increases in accordance with the instantaneous absolute value
  • the linear filter 2 of FIG. 1 has been used as a filter for simulating the transfer characteristic of the echo path in the above description, it is also possible to replace the linear filter 2 with a non-linear filter.
  • a non-linear filter instead of the linear filter 2, it is possible to use a second or higher order Volterra filter known as a non-linear filter.
  • an arithmetic expression for calculating the echo replica y (t) in the second-order Volterra filter is shown in Expression (24).
  • the first term on the right side is a first-order linear term, which is similar to the linear filter equation described above.
  • the second term on the right side is a second-order nonlinear term.
  • the tap coefficients are corrected by the tap coefficients shown in equations (25) and (26) for N tap coefficients w1 forming a linear term of the Volterra filter and N ⁇ N tap coefficients w2 forming a nonlinear term. It is implemented by applying a correction expression.
  • the normalization coefficient ⁇ , the step size ⁇ , and the function G can be determined independently by Equation (25) and Equation (26).
  • the embodiment of the present invention not only makes the signal processing apparatus shown by the block diagram of FIG. 1 or the signal processing method shown by the flow chart of FIG. 2 but makes a computer function as the signal processing apparatus of FIG.
  • the present invention can also be implemented as a program that executes a procedure, or a computer-readable recording medium that stores the program.
  • the present invention can be implemented using a computer as shown in FIG.
  • the microphone 11 and the speaker 23 correspond to the microphone 7 and the speaker 6 shown in FIG.
  • the voice on the near end side is converted into an electrical sound signal by the microphone 11 and converted into digital sound data by the A / D converter 12.
  • the digital audio data from A / D converter 112 is processed by CPU 13 which executes program instructions.
  • Connected to the CPU 13 are a RAM 14, a ROM 15, an HDD 16, a LAN 17, a mouse / keyboard 18 and a display 19 which are standard devices constituting a computer.
  • the line interface 20 is a device that transmits and receives at least digital audio data to and from the far end.
  • Drives (other storage) 21 for supplying programs and data to the computer from outside via storage media are specifically CD-ROM drive, floppy (registered trademark) disk drive, CF / SD card slot and USB It is an interface etc.
  • the digital audio data on the far end side received and input via the line interface 20 is converted into an audio signal by the D / A converter 22 and output as an audio signal by the speaker 23.
  • a signal processing program for echo cancellation that executes the processing steps shown in FIG.
  • the microphone 11 and the A / D converter 12 are used for the input of the microphone output m (t) on the near end side, and the reception input x (t) from the far end side received and input via the line interface 20
  • the echo cancellation output (error signal) e (t) is generated by processing the microphone output m (t) and the reception input x (t) by the CPU 13 using the D / A converter 22 and the speaker 23 for the loud sound output. And transmit to the far end via the line interface 20.
  • the computer system of FIG. 17 functions as an acoustic echo canceller.
  • the computer apparatus can also receive the echo cancellation processing program from a recording medium inserted into the other storage 21 or another apparatus connected via the LAN 17.
  • the computer device can also receive an operation input from the user or present information to the user by using the mouse / keyboard 18 and the display 19.
  • the present invention can be implemented as a recording medium storing a program as shown in FIG.
  • a recording medium 31 realized by a CD-ROM or CF, an SD card, a floppy disk, a USB storage, or the like in which an echo cancellation signal processing program according to an embodiment of the present invention is recorded is used as the electronic device 32 or 33 or the robot 34.
  • the program can be executed, or the program can be supplied from the electronic device 33 supplied to the other electronic device 35 or the robot 34 to the electronic device 35 or the robot 34 by communication. Make the program executable.
  • the signal processing apparatus has been described above as an example of the acoustic echo canceller for removing the echo (acoustic echo) of the speaker output from the microphone output.
  • the acoustic echo canceller for removing the echo (acoustic echo) of the speaker output from the microphone output.
  • line echo generation of an echo in which the transmission output loops around to the reception input due to the hybrid transformer. This echo is called line echo.
  • the signal processing apparatus according to the embodiment of the present invention can also be used for a line echo canceller for removing such line echo.
  • FIG. 19 shows a speech communication apparatus provided with both the acoustic echo canceller 1 and the line echo canceller 9.
  • the signal processing apparatus described in the first embodiment is used for each echo canceller 1 and 9.
  • the acoustic echo is removed by the acoustic echo canceller 1 from the microphone output m (t) from the microphone 7 that receives and receives near-end speech, and the error signal e (t) is output.
  • the line echo canceller 9 the line echo is removed from the reception input x (t) received via the transmission line, and the error signal f (t) is output.
  • the error signal f (t) is amplified and output by the speaker 6.
  • the acoustic echo canceller 1 uses the error signal f (t) output from the line echo canceller 9 as the reference signal x (t).
  • the line echo canceller 9 uses the error signal e (t) output from the acoustic echo canceller 1 as a reference signal.
  • the present invention is not limited to the above embodiment as it is, and at the implementation stage, the constituent elements can be modified and embodied without departing from the scope of the invention.
  • various inventions can be formed by appropriate combinations of a plurality of constituent elements disclosed in the above embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, components in different embodiments may be combined as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

 第1の信号系列x(t)にタップ係数を畳み込むフィルタ処理を行って第2の信号系列y(t)を生成するフィルタ2と、第1の信号系列x(t)のエコーが含まれる第3の信号系列m(t)から第2の信号系列を減算して第4の信号系列e(t)を生成する減算器3と、タップ係数を第4の信号系列e(t)の関数G(e(t))をパラメータとする修正量に従って修正する修正部4と有する信号処理装置において、関数G(e(t))はe(t)が0のときのG(e(t))の傾き及び値をそれぞれ傾き及び切片として持つ直線F(e(t))に対して、e(t)が負の範囲においてF(e(t))より小さい値をとる第1領域、及び第4の信号系列e(t)が正の範囲においてF(e(t))より大きい値をとる第2領域の少なくとも一方を有し、かつ関数G(e(t))の値はリミッタがかけられていることを特徴とする。

Description

信号処理方法、装置及びプログラム
 本発明は、エコーキャンセルのための信号処理方法、装置及びプログラムに関する。
 音響エコーキャンセラは、例えば伝送路を通じて音声の送受信を行い、受信した相手端末からの音声(遠端音声)をスピーカから拡声出力し、マイクで受音した自端末の音声(近端音声)を送信する拡声通話装置に用いられる。スピーカから出力された遠端音声がマイクに拾われると、相手端末では自分の発した音声がエコー(音響エコーという)となって返ってくる現象が発生する。通常、伝送路にはある程度の遅延が発生するため、音響エコーは会話を行う上で妨害となることが知られている。
 このような音響エコーを除去または低減するために、エコーキャンセラが用いられる。自端末側では音響エコーの元になっている受信入力が判っているので、音響エコーの回り込み経路であるエコーパスの伝達特性と同じ変換を受信入力に施せば、マイク出力に混入している音響エコーを模擬するエコーレプリカを内部的に作り出すことができる。このエコーレプリカをマイク出力から差し引くことで、音響エコーが抑えられた出力信号(誤差信号)を生成することができる。この処理を行う仕掛けがエコーキャンセラである。
 エコーキャンセラでは、エコーパスの伝達特性を模擬するための線形フィルタとしてタップ数Nの非巡回型線形フィルタ(FIRフィルタ)がよく使われ、このフィルタのタップ係数を受信入力に畳み込むことでエコーレプリカを生成する。
 一般に、時々刻々変化する未知のエコーパスの伝達特性を瞬時に正しくフィルタに与えることは難しい。そこで、観測信号に基づいて漸近的に見出していく適応アルゴリズムが用いられる。適応アルゴリズムの1グループとして、タップ係数に関する瞬時二乗誤差の勾配(確率勾配)方向にタップ係数を修正する確率勾配アルゴリズムが知られている。確率勾配アルゴリズムとしては、LMSアルゴリズム(最小平均二乗誤差アルゴリズム)やNLMSアルゴリズム(正規化LMSアルゴリズム)が知られている。
 しかし、LMSアルゴリズムやNLMSアルゴリズムにおけるタップ係数修正量は、参照信号に比例し、かつ誤差信号にも比例する青天井の量となる。そのため、近端音声と遠端音声が同時に存在するダブルトーク時には、誤差信号に含まれる近端音声に呼応して大きな誤修正が発生してしまう。この誤修正を避けるため、ダブルトーク時にはタップ係数の修正を量的に抑制するか完全に停止する必要がある。これらのアルゴリズムを採用する場合、ダブルトークを検出してタップ係数修正部を制御するためにダブルトーク検出器を設けることが必要となる。
 特許文献1(特許第3870861号公報)には、参照信号と誤差信号が相互に独立となるようタップ係数を修正させるために、情報エントロピー最大化に基づく独立成分分析(Infomax法)を応用したエコーキャンセラが開示されている。特許文献1のエコーキャンセラは、誤差信号e(t)の関数G(e(t))を符号関数:sign(e(t))、ハイパーボリックタンジェント関数:tanh(e(t))、あるいはシグモイド関数:1/(1+exp(-e(t)))としたタップ係数修正式を用いる。これらの関数を用いるアルゴリズムを総称して以後Infomax方式と呼ぶことにする。これらの関数の形状からInfomax方式では一定レベルを限界に係数の修正規模が頭打ちになるため、ダブルトーク時の誤修正が抑えられると考えられる。このことから、Infomax方式はダブルトーク検出器をことさら設ける必要がなく、装置構成をより小さくできるという長所を持つ。
 しかしながら、Infomax方式の残留エコーレベルは高い、すなわちエコーの消し残しが大きい。これは微小誤差時の係数修正規模が過大であるため、オーバーシュートが発生するためと考えられる。
 一方、特許文献2(特許第2885269号公報)には、符号アルゴリズムの小誤差域で修正量が誤差信号e(t)に比例する線形帯を関数G(e(t))に設けたタップ係数修正式が開示されている。この線形帯のオーバーシュート抑制効果により、特許文献2のアルゴリズムでは符号アルゴリズムよりも残留エコーレベルが小さくなる。別の見方をすれば、特許文献2のアルゴリズムはLMSアルゴリズムに修正規模のリミッタを設けたアルゴリズムである。この関数を用いるアルゴリズムを以後Ideal Limiter方式と呼ぶことにする。このリミッタの効果により、Infomax方式と同様、特許文献2の方式もダブルトークへの頑健性を発揮する。しかし、Ideal Limiter方式によるタップ係数の収束速度は、Infomax方式のそれに比べて遅い。その理由が線形帯での相対的な修正規模の少なさにあることは、明白である。
 さらに、特許文献3(特開2004-64681号公報)にはLMF(Least Mean Fourth)アルゴリズムと同様の収束性を加速する効果を奏する適応アルゴリズムが開示されている。しかし、特許文献3のアルゴリズムではLMSアルゴリズムと同様にダブルトークへの頑健性は得られない。また、タップ係数の修正規模が誤差信号の瞬時絶対値に応じて単調増加するため、LMF(Least Mean Fourth)アルゴリズムと同様にダブルトーク時の誤修正が大きくなる。
特許第3870861号公報 特許第2885269号公報 特開2004-64681号公報
 本発明の目的は、エコー消去能力や収束速度を改善した信号処理方法と装置及びプログラムを提供することである。
 本発明の一態様によると、第1の信号系列にタップ係数を畳み込むフィルタ処理を行って第2の信号系列を生成するフィルタと、前記第1の信号系列のエコーが含まれる第3の信号系列から前記第2の信号系列を減算して第4の信号系列を生成する減算器と、前記タップ係数を前記第4の信号系列の関数をパラメータとする修正量に従って修正する修正部と、を具備し、前記関数は、前記第4の信号系列が0のときの前記関数の傾き及び値をそれぞれ傾き及び切片として持つ直線に対して、前記第4の信号系列が負の範囲において前記直線より小さい値をとる第1領域、及び前記第4の信号系列が正の範囲において前記直線より大きい値をとる第2領域の少なくとも一方を有し、かつ前記関数の値はリミッタがかけられていることを特徴とする信号処理装置を提供する。
 本発明によれば、エコーキャンセラにおけるエコー消去能力と収束速度の改善を図ることができる。
本発明の一実施形態に係る信号処理装置(音響エコーキャンセラ)を示すブロック図 図1の信号処理装置の処理の流れを示すフローチャート Infomax方式の3つの関数のグラフを示す図 Ideal Limiter方式の関数のグラフを示す図 従来技術に基づく関数G(e(t))の形状を模式的に表した図 本発明の一実施形態に基づく関数G(e(t))の形状を模式的に表した図 本発明の一実施形態に基づく過修正帯Ideal Limiter方式の関数のグラフを示す図 過修正帯幅Bを変えたときのERLE最大値の推移 過修正帯幅Bを変えたときの収束速度の推移 振幅を変えたときのERLE最大値の推移 不感帯を与えたsign関数のグラフを示す図 不感帯幅Cを変えたときのERLE最大値の推移を示す図 振幅を変えたときのERLE最大値の推移を示す図 関数を変えたときのERLE最大値の推移を示す図 振幅を変えたときのERLE最大値の推移(正規化)を示す図 振幅を変えたときの収束速度の推移(正規化)を示す図 コンピュータを使った本発明の一実施形態に基づく信号処理装置を示すブロック図 記録媒体を用いた実施形態を示す図 本発明の他の実施形態に係る、音響エコーキャンセラと回線エコーキャンセラを備える拡声通話装置を示すブロック図
 以下、図面を参照して本発明の実施形態について説明する。 
 図1に示されるように、本発明の一実施形態に係る信号処理装置1は線形フィルタ2、減算器3及びタップ係数修正部4を有する。伝送路から受信入力端子5への受信入力である遠端音声は、参照信号x(t)(第1の信号系列)として信号処理装置1の線形フィルタ2とタップ係数修正部4に入力されると共に、スピーカ6から拡声出力される。
 一方、近端音声とスピーカ6からの拡声出力がエコーパスを通じて回り込んだ音響エコーとが受音されるマイクロホン7からの出力m(t)(第3の信号系列)は、信号処理装置1に入力される。
 線形フィルタ2は、エコーパスの伝達特性を模擬するためのタップ数Nの非巡回型線形フィルタ(FIRフィルタ)であり、受信入力された参照信号x(t)から音響エコーのエコーレプリカ信号y(t)(第2の信号系列)を式(1)に従って生成する。すなわち、線形フィルタ2では参照信号x(t)にフィルタ2のタップ係数w(k,t)を畳み込むフィルタ処理を行うことで、エコーレプリカ信号y(t)を生成する。
Figure JPOXMLDOC01-appb-M000001
ここで、エコーレプリカ信号y(t)は時系列信号であり、時刻tにおけるエコーレプリカの値を表す。w(k,t)は、フィルタ2のタップ番号kのタップ係数の時刻tにおける値を表す。x(t-k)は、時刻tからk時刻過去に遡った参照信号の値である。Nは、タップ数である。W(t)とX(t)は、下記の式(2)に示すようにkを0からN-1まで変えたときのタップ係数w(k,t)及び参照信号x(t-k)の値をそれぞれ並べた列ベクトルである。
Figure JPOXMLDOC01-appb-M000002
 こうして生成されたエコーレプリカ信号y(t)は、式(3)に示すように減算器3においてマイク出力m(t)から差し引かれる。これにより送信出力たる誤差信号(第4の信号系列)e(t)(瞬時値)が生成され、送信出力端子8から出力される。
Figure JPOXMLDOC01-appb-M000003
 タップ係数修正部4では、式(4)の漸化式で表されるタップ係数修正式を用いて線形フィルタ2のタップ係数を修正する。
Figure JPOXMLDOC01-appb-M000004
 式(4)は、確率勾配アルゴリズムに基づく一般化されたタップ係数修正式である。W(t)は修正前のタップ係数、W(t+1)は修正後のタップ係数である。式(4)の右辺第2項は、タップ係数の修正量を表す。正数γは正規化係数、正数μは修正の規模を制御するためのステップサイズ、G(e(t))は誤差信号(瞬時値)e(t)の関数であり、いずれもスカラ量である。なお、一般的には正規化係数γとステップサイズμの積を1つの量としてステップサイズと呼ぶが、ここでは説明のため、これら2つの量γ,μを分けて扱うものとする。
 ここで、本実施形態では後述するようにタップ係数修正部4において使用される係数修正量のパラメータの一つである、誤差信号e(t)の関数G(e(t))の形状が従来技術とは異なる。
 次に、図2を用いて本実施形態における処理の流れを説明する。 
 初期設定処理ステップS1では、信号処理装置1の状態を初期化する。具体的には、線形フィルタ2のタップ係数をある初期値(多くの場合、この初期値は0である)に設定する。
 信号入力処理ステップS2では、マイク出力m(t)と遠端音声x(t)を入力する。また、信号入力処理ステップS2は遠端音声x(t)をスピーカ6より拡声出力する処理を含むこととする。
 フィルタ処理ステップS3では、入力された遠端音声x(t)を参照信号として音響エコーのエコーレプリカy(t)を式(1)に従って生成する。この処理は、線形フィルタ2によって実行される。
 減算処理ステップS4では、マイク出力m(t)からエコーレプリカy(t)を式(2)に従って差し引くことで、誤差信号e(t)を生成する。また、減算処理ステップS4は得られた誤差信号e(t)を送信出力する処理を含むこととする。この処理は、減算器3によって実行される。
 タップ係数修正処理ステップS5では、誤差信号e(t)から式(4)のタップ係数修正式を用いて線形フィルタ2のタップ係数を修正する。この処理は、タップ係数修正部4によって実行される。
 次に、式(4)に含まれる、誤差信号e(t)の関数G(e(t))の形状について説明するが、その前に従来技術のアルゴリズムについて説明しておく。
 式(4)に下記の式(5)で定義される関数G(e(t))と正規化係数γを適用したアルゴリズムは、LMSアルゴリズム(最小平均二乗誤差アルゴリズム)として知られている。
Figure JPOXMLDOC01-appb-M000005
 また、LMSアルゴリズムの正規化係数γを1ではなく1/XTXとしたアルゴリズムは、NLMSアルゴリズム(正規化LMSアルゴリズム)である。NLMSアルゴリズムの定義については、後述する。ここで、XTXは現在からN-1時刻過去までのN個の参照信号値のパワーの総和である。LMSアルゴリズムやNLMSアルゴリズムは、誤差信号の二乗平均値を最小化するタップ係数を各時刻の誤差信号e(t)(瞬時値)を用いて漸近的に求めていくアルゴリズムとなる。
 タップ係数修正量は、一般に式(4)に示したように参照信号x(t)に比例するが、LMSアルゴリズムやNLMSアルゴリズムにおける係数修正量は、式(5)のG(e(t))=e(t)に示されるように誤差e(t)にも比例する、いわゆる青天井の量となる。
 一方、特許文献1のInfomax方式では、以下の式(6)に示す符号関数:sign(e(t))、ハイパーボリックタンジェント関数:tanh(e(t))、あるいはシグモイド関数:1/(1+exp(-e(t)))をパラメータとする係数修正式を用いる。
Figure JPOXMLDOC01-appb-M000006
 これら関数のグラフを図3(a)(b)(c)に示す。グラフの横軸は誤差信号e(t)の値(瞬時値)、縦軸は関数G(e(t))の値である。sign(e(t))を採用した方式は、符号アルゴリズムとして知られている。tanh(e(t))と1/(1+exp(-e(t)))は、それぞれe(t)の全波領域(正負両域)と半波領域(専ら正領域)でsign(e(t))を近似する関数であり、これらの関数も符号アルゴリズムと同等の働きをすると考えられる。
 図3(a)(b)(c)に示すように、Infomax方式では一定レベルを限界に係数の修正規模が頭打ちになるため、ダブルトーク時の誤修正が抑えられ、ダブルトーク検出器が不要となる。しかしながら、Infomax方式では残留エコーレベルが高い。これは微小誤差時(図3(a)(b)(c)の原点)の係数修正規模が過大であるため、オーバーシュートが発生するためと考えられる。
 一方、特許文献2に開示されたタップ係数修正式は、次式(7)で定義されるように、符号アルゴリズムの小誤差域(|e(t)|≦A)でタップ係数の修正量が誤差に比例する線形帯が関数G(e(t))に設けられている。
Figure JPOXMLDOC01-appb-M000007
 式(7)の関数のグラフを図4に示す。図4のグラフの横軸は誤差信号e(t)(瞬時値)、縦軸は関数G(e(t))の値である。図4では、符号アルゴリズムの小誤差域でタップ係数の修正量が誤差信号e(t)に比例する線形帯(幅Aとする)が関数G(e(t))に設けられており、この線形帯のオーバーシュート抑制効果により残留エコーレベルが小さくなる。別の見方をすれば、特許文献2のアルゴリズムはLMSアルゴリズムにタップ係数の修正規模についてのリミッタを設けたものである。そこで、特許文献2の方式を以後Ideal Limiter方式と呼ぶことにする。このリミッタの効果により、Infomax方式と同様、Ideal Limiter方式もダブルトークへの頑健性を発揮する。
 しかし、図4の線形帯での相対的なタップ係数修正規模が少ないため、特許文献2のIdeal Limiter方式によるタップ係数の収束速度は、特許文献1のInfomax方式のそれに比べて遅いという問題がある。
 特許文献1のInfomax方式と特許文献2のIdeal Limiter方式の間では、誤差信号e(t)(瞬時値)の関数であるG(e(t))の違いにより、上述のように残留エコーや収束速度の相違が生じている。このような相違が生じる理由は、e(t)の出現確率にあると思われる。一般的に、タップ係数の修正初期には誤差の規模が大きい状態が続く。この状態では、微小誤差域や線形帯域に入るe(t)の出現確率は相対的に低い。従って、タップ係数の修正初期の期間では、両方式に差が生じにくいと考えられる。
 一方、タップ係数の修正が進んで誤差の規模が小さくなると、微小誤差域や線形帯域に入るe(t)の出現確率は相対的に高くなる。そのため、特許文献1のInfomax方式では確率的にオーバーシュートが多く発生し、特許文献2のIdeal Limiter方式では相対的に修正量の不足が生じるのではないかと考えられる。
 そこで、本実施形態では式(4)の関数G(e(t))の形状を変更することにより、オーバーシュートの確率的発生を抑えるために微小誤差域に対する修正規模を抑えつつ、収束を加速するために微小誤差域よりも値の大きい小誤差域で相対的に大きな修正規模を与えられるようにする。
 図5は、上述した従来技術(LMSアルゴリズム、NLMSアルゴリズム、Infomax方式及びIdeal Limiter方式)の関数G(e(t))の形状的特徴を模式的に示している。同様に、図6は本実施形態における関数G(e(t))の形状的特徴を模式的に示している。ここで、直線F(e(t))は関数G(e(t))のe(t)=0における接線を表し、誤差信号(瞬時値)e(t)が0に近いとき(微小誤差域)の修正特性を与える。
 以下、従来技術における関数G(e(t))の形状的特徴について述べる。式(5)に示したLMSアルゴリズムやNLMSアルゴリズムでは、関数G(e(t))は直線F(e(t))と同一である。すなわち、誤差の全域で線形の修正特性を持つ。これをタップ係数の修正規模が一定であるという。
 式(6)のInfomax方式では、関数G(e(t))はe(t)<0で直線F(e(t))の左側を通り、e(t)>0で直線F(e(t))の右側を通る。すなわち、微小誤差域に対して他よりもタップ係数を大きく修正する特性を持つ。言い替えれば、微小誤差域の修正規模に対して他の誤差域の修正規模が小さくなっている。
 式(7)のIdeal Limiter方式では、線形帯ではLMSアルゴリズムと同じ、それ以外ではInfomax方式と同じである。
 このようにLMSアルゴリズム、NLMSアルゴリズム、Infomax方式及びIdeal Limiter方式といった従来技術では、いずれも図5に示されるように関数G(e(t))は(t)<0で直線F(e(t))の右側を通ることがなく、e(t)>0で直線F(e(t))の左側を通ることがない。
 これに対して、本実施形態では原点から離れた小誤差域(C<|e(t)|<D:C>0、D>C)に対する修正規模を原点近傍の微小誤差域(|e(t)|≦C)に対する修正規模よりも相対的に増大させた領域(過修正帯という)を設ける。ここで、C及びDは第1の閾値及び第2の閾値である。このような過修正帯を設けて小誤差域で相対的に大きな修正を施すことで、小誤差域から微小誤差域への収束を加速する効果を期待できる。また、これは微小誤差域(|e(t)|≦C)に対する修正規模を相対的に低下させることを意味し、微小誤差域での修正規模過大を防止する効果も期待している。
 本実施形態に基づく図6に示した形状の関数G(e(t))は、過修正帯として誤差信号e(t)に応じた2つの領域、すなわち誤差信号e(t)が負の範囲(e(t)<0)において直線F(e(t))の右側を通る(すなわち、F(e(t))より小さい値をとる)第1領域と、誤差信号が正の範囲(e(t)>0)において直線F(e(t))の左側を通る(すなわち、F(e(t))より大きい値をとる)第2領域を有する。これら第1領域及び第2領域を関数G(e(t))と直線F(e(t))の大小関係を用いて表現すると、以下のようになる。
 まず、直線F(e(t))はe(t)=0のときの関数G(e(t))の傾き及び値をそれぞれ傾きa及び切片bとして持つ直線と定義される。数式で表すと、F(e(t))=a・e(t)+b=ΔG(0)・e(t)+G(0)である。この場合、第1領域はe(t)<0においてG(e(t))<F(e(t))となる領域であり、第2領域はe(t)>0においてG(e(t))>F(e(t))となる領域である。図6の関数G(e(t))は、過修正帯として第1領域及び第2領域の両方を有しているが、いずれか一方または両方を過修正帯として有してもよい。
 さらに、図6の関数G(e(t))はInfomax方式やIdeal Limiter方式と同様にダブルトークへの頑健性が得られるように、リミッタが設けられている。具体的には、ある有限の正数δについて関数G(e(t))の値が±δを逸脱しない、すなわち|G(e(t))|≦δであるとする。この正数δの値は実験的に良好な値を選ぶものとするが、最低限の条件として|e(t)|=∞のとき、|G(e(t))|<∞となる関数G(e(t))を採用することを意味する。
 なお、直線F(e(t))の上記の定義により、e(t)=0のときの関数G(e(t))の傾きaは有限の値でなければならない。すなわち、a=∞となる場合は含まれない。また、関数G(e(t))が前述の過修正帯(第1領域及び第2領域の少なくとも一方)を持つためには、関数G(e(t))は傾きaが正の領域を含む必要がある。さらに、切片bは必ずしも0である必要はないが、bが0となる関数G(e(t))を用いることで、誤差信号e(t)の符号に対して対称なタップ係数修正特性を与えることが可能になる。
 以上のように定義される、過修正帯を持つタップ係数修正式を総称して過修正帯付きアルゴリズムと呼ぶことにする。この過修正帯付きアルゴリズムを一般化して表現すると、関数G(e(t))は、(a)誤差信号e(t)の絶対値|e(t)|が第1の閾値D以下であるとき、第1の閾値Dより大きい第2の閾値Aの逆数を誤差信号e(t)に乗じた第1の値e(t)/Aを出力し、(b)|e(t)|が第1の閾値Dを越え、第2の閾値A未満であるとき、e(t)が負であればe(t)/Aより小さい第2の値を出力し、e(t)が正であればe(t)/Aより大きい第3の値を出力し、(c)|e(t)|が第2の閾値A以上であるとき、誤差信号e(t)の符号関数を表す第4の値sign(e(t))を出力する、というアルゴリズムである。
 次に、本実施形態における関数G(e(t))の形状を具体的に示しつつ、幾つかの過修正帯付きアルゴリズムの実装方法について説明する。図1のタップ係数修正部4は、以下に述べる過修正帯付きアルゴリズムの1つまたは複数の実装方法を実現可能であり、設定により適宜選択することができるものとする。
 (過修正帯付きIdeal Limiter方式) 
 図6に示した関数G(e(t))の形状的特徴を式(8)により簡便に実現する。
Figure JPOXMLDOC01-appb-M000008
 図7に例示するように、式(8)の関数G(e(t))はIdeal Limiter方式の線形帯の辺縁部(A-B<|e(t)|<A:0<B<A)にまでsign関数の影響範囲を拡大することで、この辺縁部に対する修正規模が線形帯より大きくなる、すなわち辺縁部が過修正帯となることが特徴である。ここで、A-Bは先の第1の閾値Dに相当する。図6のような関数G(e(t))は、式(7)の閾値A(線形帯幅)を第1の閾値D=A-Bに変更するだけで実現できる。このとき、Bを過修正帯幅と呼ぶことにする。
 式(8)のアルゴリズムは、|e(t)|≦A-Bとなる微小誤差領域では線形に修正を行うが、そこに至るまでの小誤差領域(過修正帯)では線形よりも多めに修正を掛けることでIdeal Limiter方式の収束が加速することを期待したアルゴリズムである。以後、これを過修正帯付きIdeal Limiter方式と呼ぶことにする。ここで、線形帯幅Aとすると、式(8)はB=0のときIdeal Limiter方式、B=AのときInfomax方式、0<B<Aのとき過修正帯付きIdeal Limiter方式となる。
 (過修正帯の効果を検証する簡単な実験) 
 上述した過修正帯を設けることによる効果を検証すべく、11,025Hz、16bitでサンプリングされた約29秒間のガウス性白色雑音を参照信号x(t)とし、これを32サンプル分遅延させた音声をマイク出力m(t)としたデータを使い、Ideal Limiter方式(B=0)、過修正帯付きIdeal Limiter方式(0<B<A)及びInfomax方式(B=A)について比較を行った。なお、線形帯幅Aを100、正規化係数γを1、ステップゲインμを0.0000001、タップ数Nを256とした。
 図8に、過修正帯幅Bを変えたときのERLE最大値の変化を示す。この実験から、エコー消去能力(ERLE最大値)に関して、Infomax方式(B=100)に対するIdeal Limiter方式(B=0)の優位が分かるとともに、適度な過修正帯を与えることで、さらにエコー消去能力を改善できることが判明した。
 次に、図9に過修正帯幅Bを変えたときのIdeal Limiter方式(B=0)のERLEが30dBを超える4.46秒経過時のERLEの変化を収束速度(ERLEの立ち上がりの速さ)の目安として比較した結果を示す。図9からIdeal Limiter方式(B=0)に対するInfomax方式(B=100)の優位が分かるとともに、適度な過修正帯を与えることで、さらに収束速度を改善できることが判明した。
 ところで、過修正帯幅Bは信号の振幅値に対する閾値であるから、誤差信号e(t)のスケールに依存する。そこで、マイク出力m(t)と参照信号x(t)の振幅をともに2倍、3倍、4倍したときのエコー消去能力(ERLE最大値)を調べた。これは誤差信号e(t)の振幅を2倍、3倍、4倍することに相当する。
 図10(a)(b)(c)(d)に、振幅倍率を変えたときの過修正帯幅BとERLE最大値の関係を示す。図10(a)(b)(c)(d)において、過修正帯幅B=0がIdeal Limiter方式、過修正帯幅B=100がInfomax方式である。ここで、過修正帯の原点寄りの端(過修正帯下端)をCとすると、C=A-B(0<C<A)であり、この実験から振幅を2倍、3倍、4倍すると、ERLE最大となるC=A-Bも大きくなる。この実験では、Cは概ね2倍、4倍、8倍になることが分かる。すなわち、振幅をn倍すると、ERLE最大となる過修正帯下端Cがほぼ2n-1倍になっている。このとき、Cを導入して記述した過修正帯付きIdeal Limiter方式は式(9)となる。また、この例における過修正帯下端Cの計算式は式(10)と推察される。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 ここで、C0は事前の実験によって求められたERLE最大となる過修正帯下端であり、M0はそのとき用いられた誤差信号e(t)の振幅絶対値の平均値(平均振幅絶対値)である。また、Meは実際の誤差信号e(t)の現在から所定期間過去までの振幅絶対値の平均(移動平均振幅絶対値)である。このように、過修正帯下端Cは実験的に良好な値を選ぶものとする。
 なお、図10(a)(b)(c)(d)から分かるように、ERLE最大となる過修正帯幅Bの右側では、急峻にERLE最大値が落ち込んでいる。そのため、式(10)に従って計算された過修正帯下端Cをそのまま適用すると、C0,M0,Meなどの計測誤差のために、ERLE最大値が急峻に落ち込む領域に突入してしまう恐れがある。
 そこで、タップ係数修正部4は、式(10)に従って過修正帯下端Cを計算しつつも、その値に若干のマージンを加えた値に過修正帯下限Cを設定する。このマージンは実験的に良好な値を選ぶものとする。少なくともタップ係数修正部4は、移動平均振幅絶対値Meの増大に応じて過修正帯幅Bを減少させる制御を行う。
 (不感帯付きInfomax方式) 
 図6に示した関数G(e(t))の特殊な場合として、e(t)=0におけるG(e(t))の傾きが0、すなわち直線F(e(t))が水平であるとき、微小誤差域ではタップ係数の修正が行われない不感帯を形成させることができる。これをInfomax方式に適用すると、式(11)のようになる。これを不感帯付きInfomax方式と呼ぶことにする。
Figure JPOXMLDOC01-appb-M000011
 図11に例示するように、式(11)の関数G(e(t))はInfomax方式の微小誤差範囲(|e(t)|<C:0<C)に修正規模が0となる不感帯を設けたことが特徴である。図11の関数G(e(t))は、唯1つの閾値処理を加えるだけで実現できる。このとき、0より大きい値Cは式(9)の過修正帯下端に相当するが、ここでは特に不感帯幅と呼ぶことにする。式(11)のアルゴリズムは、Infomax方式の修正規模過大を不感帯によって抑止する効果を期待したものである。
 不感帯幅Cは信号の大きさに関係する。もちろん、運用環境における信号レベルがある程度予想されている場合には、固定の不感帯幅Cを用いても良い。一方、そうでない場合には、Cを動的に制御した方が良い。不感帯幅Cは誤差信号e(t)の絶対値|e(t)|に対する閾値であるから、タップ係数修正部4は現在から所定期間過去までの誤差信号e(t)の振幅絶対値の移動平均値(移動平均振幅絶対値)を計算し、その値の増加に対して不感帯幅Cを増加させ、その減少に対して不感帯幅Cを減少させる。
 式(11)の不感帯付きInfomax方式を不感帯付きアルゴリズムとして一般化した場合、関数G(e(t))は、誤差信号e(t)の絶対値|e(t)|が閾値C以下であるとき0を出力する第1の関数で与えられ、それ以外のとき誤差信号e(t)と同符号の値を出力する第2の関数で与えられる、ということになる。ここで、第2の関数は具体的にはsign(e(t))、tanh(e(t))、1/(1+exp(-e(t)))、あるいは1/(1+exp(-e(t)))である。図11は、第2の関数がsign(e(t))の場合の例である。
 (不感帯の効果を検証する簡単な実験) 
 上述した不感帯を設けることによる効果を検証すべく、11,025Hz、16bitでサンプリングされた約29秒間のガウス性白色雑音を参照信号x(t)とし、これを32サンプル分遅延させた音声をマイク出力m(t)としたデータを使い、sign(e(t))を採用した場合の式(6)に示したInfomax方式と式(11)に示した不感帯付きInfomax方式を比較した。なお、正規化係数γを1、ステップゲインμを0.0000001、タップ数Nを256とした。
 図12に、不感帯幅Cを変えたときの29秒間におけるERLE最大値の変化を示す。この図12で、不感帯幅C=0のときが従来のInfomax方式である。この実験から、sign(e(t))に適度な不感帯を与えることで、エコー消去能力を改善できることが分かる。
 ところで、不感帯幅Cは信号の振幅値に対する閾値であるから、誤差信号e(t)のスケールに依存する。そこで、マイク出力m(t)と参照信号x(t)の振幅を共に2倍、3倍、4倍したときのエコー消去能力(ERLE最大値)を調べた。これは誤差信号e(t)の振幅を2倍、3倍、4倍することに相当する。
 図13(a)(b)(c)(d)に、振幅倍率を変えたときの不感帯幅CとERLE最大値の関係を示す。図13(a)(b)(c)(d)中、不感帯幅C=0がInfomax方式である。この実験データでは、振幅を2倍、3倍、4倍するとERLE最大となる不感帯幅Cは概ね4倍、9倍、16倍になることが分かる。すなわち、ERLE最大となる不感帯幅Cは振幅の二乗(パワー)に比例している。よって、この例におけるERLE最大となる不感帯幅Cは式(12)によって求められる。
Figure JPOXMLDOC01-appb-M000012
 ここで、C0は事前の実験によって求められたERLE最大となる付近の不感帯幅であり、P0はそのとき用いられた誤差信号e(t)の平均パワーである。これらを基準不感帯幅C0、基準パワーP0と呼ぶことにする。また、Peは実際の誤差信号e(t)の現在から所定期間過去までの移動平均パワーである。このように、不感帯幅Cは実験的に良好な値を選ぶものとする。
 なお、図13(a)(b)(c)(d)から分かるように、ERLE最大となる不感帯幅Cの左側では右側よりも急峻にERLE最大値が落ち込んでいる。そのため、式(12)に従って計算された不感帯幅Cをそのまま適用すると、C0,P0,Peなどの計測誤差のために、ERLE最大値が急峻に落ち込む領域に突入してしまう恐れがある。
 そこで、タップ係数修正部4は、式(12)に従って不感帯幅Cを計算しつつも、その値にマージンを加えた値に不感帯幅を設定する。このマージンは実験的に良好な値を選ぶものとする。少なくともタップ係数修正部4は、移動平均パワーPeの増大に応じて不感帯幅Cを増加させる制御を行う。
 以上は関数をsign(e(t))としたときの結果であった。次に、関数をtanh(e(t))及び1/(1+exp(-e(t)))としたときの、不感帯幅CとERLE最大値の関係を図14(a)(b)に示す。図14(a)(b)において、不感帯幅C=0が従来のInfomax方式である。sign(e(t))の場合と比べてERLE最大値がわずかに変動したものの、不感帯幅CとERLE最大値の関係はほとんど変わらず、同様の効果を得られることが判明した。
 以上の実験から、sign(e(t))に限らず、Infomax方式として提案されているtanh(e(t))や1/(1+exp(-e(t)))においても同様の不感帯を与えることでエコー消去能力を改善できることが確認された。なお、式(11)にはtanh(e(t))と同様の形状を有する関数として、2/(1+exp(-e(t)))-1も選択できるように記載している。また、tanh(α・e(t))のように、正数αを誤差信号のゲインとして与えることも可能である。
 (過修正帯付き正規化Ideal Limiter方式) 
 式(7)に示したIdeal Limiter方式は、LMSアルゴリズムの修正規模にリミッタを設けたものである。では、以下の式(13)で定義されるNLMSアルゴリズムに同様のリミッタを設けるとどうなるであろうか。
Figure JPOXMLDOC01-appb-M000013
 式(13)を正規化Ideal Limiter方式と呼ぶことにし、以下の式(14)で定義する。
 さらに、過修正帯を設けた過修正帯付き正規化Ideal Limiter方式を定義すると、式(15)となる。また、Infomax方式を正規化したものを式(16)で定義し、正規化Infomax方式と呼ぶことにする。B=A(A>0)のとき式(15)は、式(16)と同一になり、またB=0のとき式(14)と同一になる。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
 (0除算を防止するためのタップ係数修正停止) 
 なお、参照信号x(t)が継続して無音になると、上記式(13)~(16)の正規化係数γの分母項XTXが0になり、γを計算することができなくなる。そこで、分母項XTXが小さな正数bを下回るときには、タップ係数の修正を一時的に停止させる。
 なお、同様の効果を得るために、例えば小さな正数cで下駄を履かせて式(17)のようにすることも可能である。あるいは、式(18)のように、XTXが小さな正数bを下回るときには、強制的にγ=1/bとすることも可能である。これらはタップ係数の修正を一時的に停止する代わりに、1/XTXを近似する決して0除算の発生しない正変数を用いる例である。
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000018
 また、1/XTXは現在からN-1時刻過去までのN個の参照信号値のパワーの総和の逆数であるが、それを毎回計算する代わりに、XTXの求めるべき現在値をPw(t)、既に計算済みの1時刻過去の値をPw(t-1)として、参照信号の現在値x(t)と、1未満の正係数α(忘却係数)を用いて式(19)のように計算することも可能である。最初に1回XTXを計算するだけで、以後式(19)によって少ない計算量でXTXの近似値Pw(t)を求めていく。これも1/XTXを近似する方法である。
Figure JPOXMLDOC01-appb-M000019
 (正規化を伴う場合の過修正帯の効果を検証する簡単な実験) 
 約29秒間のガウス性白色雑音を参照信号とし、これを32サンプル遅延させた音声をマイク出力としたデータを使って、過修正帯付き正規化Ideal Limiter方式(式(14)について、マイク出力と参照信号の振幅をともに2倍、3倍、4倍したときのエコー消去能力(ERLE最大値)を調べた。なお、線形帯幅Aを100、正規化係数γをXTX、ステップサイズμを0.5×A=50、タップ数Nを256とした。また、0除算を防止するために、XXが1024を下回るときには修正を停止させた。
 振幅倍率を変えたときの過修正帯幅BとERLE最大値の関係を図15(a)(b)(c)(d)に示す。図15(a)(b)(c)(d)において、過修正帯幅B=0が正規化Ideal Limiter方式(14)、過修正帯幅B=100が正規化Infomax方式の式(16)である。試みた全ての信号倍率で、B=80(すなわち過修正帯下限C=20)付近の性能が最大となることが分かる。このように、過修正帯幅Bは実験的に良好な値を選ぶものとする。
 なお、図15(a)(b)(c)(d)から分かるように、ERLE最大となる過修正帯幅Bの右側では左側よりも急峻にERLE最大値が落ち込んでいる。そこで、タップ係数修正部4は、ERLE最大となる過修正帯幅Bからマージンを差し引いた値に過修正帯幅Bを設定する。このマージンは実験的に良好な値を選ぶものとする。
 また、収束速度の目安として入力信号1倍データにおける4.46秒経過時のERLEを比較した結果を図16に示す。正規化Infomax方式(B=100)に対する正規化Ideal Limiter方式(B=0)の優位が分かるとともに、適度な過修正帯を与えることで、さらに収束速度を若干改善できることが判明した。
 なお、過修正帯付きIdeal Limiter方式においては、関数G(e(t))の形状は上記(式8)や(式15)に限定されず、e(t)が過修正帯の範囲内にあるとき、e(t)が負であればG(e(t))<e(t)/A、e(t)が正であればG(e(t))>e(t)/Aに設定されれば良い。
 (変形例) 
 なお、本発明は上述した例に限定されず、その要旨を逸脱しない範囲で様々に変形して実施することが可能である。
 (μ・Gの形状について) 
 先の実施形態では、関数G(e(t))の形状に所定の特徴を与えているが、関数G(e(t))にステップサイズを乗じた後の関数μ・G(e(t))の形状に同様の特徴を与えてもよい。
 例えば、関数G(e(t))が誤差信号e(t)の全域において式(7)に示すIdeal Limiter方式や式(14)に示す正規化Ideal Limiter方式に従うとする。式(4)におけるステップサイズμは、過修正帯ではμ=μ1、それ以外ではμ=μ2に設定されるものとする。この場合、μ1>μ2であるとしても、式(10)に示した過修正帯付きIdeal Limiter方式や、式(15)に示した過修正帯付き正規化Ideal Limiter方式と同様の過修正帯による効果を奏することができる。
 また、例えば関数G(e(t))が誤差信号e(t)の全域において式(6)のInfomax方式に従うとする。式(4)におけるステップサイズμは、不感帯ではμ=μ1、それ以外ではμ=μ2に設定されるものとする。この場合、μ1=0、μ2>0であるとしても、式(8)に示した不感帯付きInfomax方式と同様の不感帯効果を奏することができる。
 さらに、例えば関数G(e(t))を一定値(例えば1)に固定して、ステップサイズμを正数に限定せずに関数G(e(t))の形状に比例するように誤差e(t)の関数として制御するようにしても、同様の効果を奏することができる。
 要するに、μとγとGの積に相当する関数をH(e(t))としたとき、H(e(t))が本実施形態に基づく関数G(e(t))の特徴を満たすように誤差信号の瞬時値e(t)の関数として制御されるのであれば、その値の計算方法は様々に実施可能である。このときのタップ係数修正式を式(20)に示す。
Figure JPOXMLDOC01-appb-M000020
 (ステップサイズを長期的に制御する方式との相違) 
 なお、一般に適応フィルタはステップサイズμが大きいと精度は悪いが速く収束し、ステップサイズμが小さいと速度は遅いが正確に収束することが知られている。したがって、例えば誤差信号の規模が小さくなっていく傾向を監視してフィルタ収束が進んでいることを知り、この進み具合に応じてステップサイズμを例えば小さくするなどの制御を行うことで、最初は収束速度を優先させ、収束が進んできたら精度を優先させるというμの長期的制御を行うことが可能である。しかしながら、誤差信号の瞬時値e(t)は信号そのものであるから時々刻々とダイナミックに値を変化させる。そのため、誤差信号が小さくなっていく傾向はその瞬時値から読むことはできず、これを知るためにはある程度長い期間Mに対して測られる例えば誤差信号の平均パワー<e>などを求める必要がある。このときのタップ係数修正式は式(21)のようになる。
Figure JPOXMLDOC01-appb-M000021
 これは誤差信号の瞬時値e(t)に従って毎時刻のタップ係数の修正規模を制御する本発明とは異なる。本発明は小誤差域に対する微小誤差域の修正規模を相対的に小さくすることから、専ら収束の進んだ(大誤差域の出現が減少し、小誤差域や微小誤差域が多く出現するようになる)段階で同様の効果(小誤差域で大きく修正して加速し、微小誤差域で小さく修正して精度を得る)効果を奏するところであるが、式(21)のように一定期間の観測に基づいて収束の段階を推定し、推定された段階に応じて修正規模を(μの値として)制御して確定的に効果を得ようとするのではなく、常に誤差信号の瞬時値に従って修正規模を(Gの値として)制御しながら確率的に同様の効果を奏するものと考えられる。しかも、本発明では|G(e(t))|≦δと制限することにより、Ideal Limiter方式と同様のダブルトークへの頑健性を実現する。よって、ステップサイズの長期的制御式(20)と本発明を組み合わせて使用することにより、後者の効果によってダブルトークへの頑健性を保ちながら、最初は専ら前者の効果によって収束速度を優先させ、収束が進んできたら専ら後者の効果によって精度を優先させつつ速度も改善することが可能になると期待される。すなわち、両者は組み合わせ可能な技術である。
 (LMFアルゴリズムなどとの相違) 
 また、上述したステップサイズの長期的制御式である式(21)を誤差瞬時値e(t)に適用した形式のアルゴリズムとして、式(22)に示すLMF(Least Mean Fourth)アルゴリズムが知られている。
Figure JPOXMLDOC01-appb-M000022
 LMFアルゴリズムは、関数G(e(t))としてe(t)ではなくe3(t)を用いる。そのため、0を除く誤差の全域において、e(t)<0のときG(e(t))<F(e(t))、e(t)>0のときG(e(t))>F(e(t))となる。これは本実施形態に基づく過修正帯の満たすべき条件である。また、LMFアルゴリズムでは修正規模は誤差信号e(t)の瞬時絶対値|e(t)|に応じて単調増加する。この特性により、LMFアルゴリズムは最初は収束速度を優先させ、収束が進んできたら精度を優先させることを確率的に行うものと考えられる。
 しかし、LMFアルゴリズムには、本実施形態に基づく関数G(e(t))の満たすべきもう一つの条件、|G(e(t))|≦δとする制限がないので、LMSアルゴリズムと同様、ダブルトークへの頑健性は得られない。そればかりか、修正規模が|e(t)|に応じて単調増加するため、ダブルトーク時の誤修正はLMSアルゴリズムよりも大きくなる。
 さらに、LMFアルゴリズムと同様の効果を奏するアルゴリズムとして、先の特許文献3(特開2004-64681号公報)に開示されたアルゴリズムについて説明する。特許文献3に開示されたアルゴリズムは、式(23)で表される。
Figure JPOXMLDOC01-appb-M000023
 この特許文献3に開示されたアルゴリズムでは、前述した正規化係数γ(特許文献2ではステップサイズμとしている)、具体的には式(17)におけるcの項に誤差信号の瞬時値e(t)を含む。また、H(e(t))=μ・γ・Gとした場合、0を除く誤差の全域においてe(t)<0のときH(e(t))<F(e(t))、e(t)>0のときH(e(t))>F(e(t))となる。これは先に述べた過修正帯の満たすべき条件である。そして、タップ係数の修正規模は誤差信号e(t)の瞬時絶対値|e(t)|に応じて単調増加する。
 しかし、特許文献3に開示されたアルゴリズムにも、本実施形態に基づくG(e(t))の満たすべきもう一つの条件、|G(e(t))|≦δとする制限がなく、またタップ係数の修正規模が誤差信号e(t)の瞬時絶対値|e(t)|に応じて単調増加するため、ダブルトーク時の誤修正が大きくなるという点は、LMFアルゴリズムと同様である。
 (非線形フィルタによる実施) 
 これまでの説明においては、エコーパスの伝達特性を模擬するためのフィルタとして図1の線形フィルタ2を用いてきたが、線形フィルタ2を非線形フィルタに置き換えて実施することも可能である。例えば、線形フィルタ2の代わりに非線形フィルタとして知られる2次以上のボルテラフィルタを使用することが可能である。ここで、2次のボルテラフィルタにおけるエコーレプリカy(t)を算出するための演算式を式(24)に示す。右辺第1項は1次線形項であり、これまで述べた線形フィルタの式と同様である。右辺第2項は2次非線形項である。
Figure JPOXMLDOC01-appb-M000024
 タップ係数の修正は、ボルテラフィルタの線形項を成すN個のタップ係数w1と非線形項を成すN×N個のタップ係数w2に対して、それぞれ式(25)と式(26)に示すタップ係数修正式を適用することで実行される。なお、正規化係数γとステップサイズμと関数Gは式(25)と式(26)でそれぞれ独立に定めることができる。
Figure JPOXMLDOC01-appb-M000025
Figure JPOXMLDOC01-appb-M000026
 (プログラムや記録媒体による実施) 
 本発明の実施形態は図1のブロック図によって示される信号処理装置や図2のフローチャートによって示される信号処理方法のみでなく、コンピュータを図1の信号処理装置として機能させる、または図2の信号処理手順を実行させるプログラム、さらには当該プログラムを格納したコンピュータに読み取り可能な記録媒体として実施することも可能である。
 (コンピュータを使った実施形態:プログラム) 
 具体的には、本発明は図17に示すようにコンピュータを使って実施することが可能である。マイクロホン11及びスピーカ23は、図1に示したマイクロホン7及びスピーカ6に対応している。
 マイクロホン11によって近端側の音声が電気的な音響信号に変換され、A/D変換器12によってデジタル音響データに変換される。A/D変換器112からのデジタル音響データは、プログラム命令を実行するCPU13によって処理される。CPU13には、コンピュータを構成する標準的なデバイスであるRAM14、ROM15、HDD16、LAN17、マウス/キーボード18及びディスプレイ19が接続される。回線インタフェース20は、遠端側と少なくともデジタル音響データの送受信を行うデバイスである。外部から記憶メディアを介してプログラムやデータをコンピュータに供給するためのドライブ類(その他ストレージ)21は、具体的にはCD-ROMドライブ、フロッピー(登録商標)ディスクドライブ、CF/SDカードスロットやUSBインタフェースなどである。回線インタフェース20を経由して受信入力された遠端側のデジタル音響データは、D/A変換器22により音響信号に変換され、スピーカ23によって拡声出力される。
 図17のコンピュータ装置では、図2に示した処理ステップを実行するエコーキャンセルのための信号処理プログラムをHDD16に記憶し、これをRAM14に読み出してCPU13で実行する。その際、近端側のマイク出力m(t)の入力にマイクロホン11とA/D変換器12を使い、回線インタフェース20を経由して受信入力した遠端側からの受信入力x(t)の拡声出力にD/A変換器22とスピーカ23を使い、このマイク出力m(t)と受信入力x(t)をCPU13で処理することでエコーキャンセル出力(誤差信号)e(t)を生成し、回線インタフェース20を経由して遠端側に送信出力する。
 この結果、図17コンピュータ装置は音響エコーキャンセラとして機能する。また、このコンピュータ装置は、その他ストレージ21に挿入される記録媒体やLAN17を介して接続される他の装置からエコーキャンセル処理プログラムの供給を受けることが可能である。なお、このコンピュータ装置は、マウス/キーボード18やディスプレイ19を使うことで、利用者の操作入力を受け付けたり、利用者への情報呈示を行ったりすることも可能である。
 (記録媒体) 
 また、本発明は図18に示すようにプログラムを格納した記録媒体として実施することが可能である。本発明の実施形態に係るエコーキャンセルの信号処理プログラムを記録したCD-ROMやCFやSDカードやフロッピーディスクやUSBストレージなどで実現される記録媒体31は、電子装置32や33、あるいはロボット34に挿入することで当該プログラムを実行可能としたり、あるいはプログラムを供給された電子装置33から通信によって別の電子装置35やロボット34に当該プログラムを供給したりすることで電子装置35やロボット34上で当該プログラムを実行可能とする。
 (回線エコーキャンセラとしての実施) 
 なお、これまで本発明に係る信号処理装置をマイク出力からスピーカ出力のエコー(音響エコー)を取り除くための音響エコーキャンセラを例として説明してきた。一方、伝送路内に位置するハイブリッドトランスを介した2線4線式回線においても、ハイブリッドトランスに起因して送信出力が受信入力に回り込むエコーの発生が知られている。このエコーを回線エコーと呼ぶことにする。本発明の実施形態に係る信号処理装置は、このような回線エコーを取り除くための回線エコーキャンセラに用いることも可能である。
 図19に、音響エコーキャンセラ1と回線エコーキャンセラ9の両方を備える拡声通話装置を示す。各エコーキャンセラ1及び9には、第1の実施形態で説明した信号処理装置が用いられる。近端側の音声を受音するマイクロホン7からのマイク出力m(t))は、音響エコーキャンセラ1によって音響エコーが除去され、誤差信号e(t)が出力される。
 一方、回線エコーキャンセラ9では伝送路を経由して受信した受信入力x(t)から回線エコーが除去され、誤差信号f(t)が出力される。誤差信号f(t)はスピーカ6によって拡声出力される。このとき、音響エコーキャンセラ1は参照信号x(t)として、回線エコーキャンセラ9から出力される誤差信号f(t)を用いる。また、回線エコーキャンセラ9では、参照信号として音響エコーキャンセラ1から出力される誤差信号e(t)を用いる。
 なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
 1・・・信号処理装置(音響エコーキャンセラ)
 2・・・線形フィルタ
 3・・・減算器
 4・・・タップ係数修正部
 5・・・受信入力端子
 6・・・スピーカ
 7・・・マイクロホン
 8・・・送信出力端子
 9・・・信号処理装置(回線エコーキャンセラ)

Claims (9)

  1.  第1の信号系列にタップ係数を畳み込むフィルタ処理を行って第2の信号系列を生成するステップと、
     前記第1の信号系列のエコーが含まれる第3の信号系列から前記第2の信号系列を減算して第4の信号系列を生成するステップと、
     前記タップ係数を前記第4の信号系列の関数をパラメータとする修正量に従って修正するステップと、を具備し、
     前記関数は、前記第4の信号系列が0のときの前記関数の傾き及び値をそれぞれ傾き及び切片として持つ直線に対して、前記第4の信号系列が負の範囲において前記直線より小さい値をとる第1領域及び前記第4の信号系列が正の範囲において前記直線より大きい値をとる第2領域の少なくとも一方を有し、かつ前記関数の値はリミッタがかけられていることを特徴とする信号処理方法。
  2.  第1の信号系列にタップ係数を畳み込むフィルタ処理を行って第2の信号系列を生成するフィルタと、
     前記第1の信号系列のエコーが含まれる第3の信号系列から前記第2の信号系列を減算して第4の信号系列を生成する減算器と、
     前記タップ係数を前記第4の信号系列の関数をパラメータとする修正量に従って修正する修正部と、を具備し、
     前記関数は、前記第4の信号系列が0のときの前記関数の傾き及び値をそれぞれ傾き及び切片として持つ直線に対して、前記第4の信号系列が負の範囲において前記直線より小さい値をとる第1領域、及び前記第4の信号系列が正の範囲において前記直線より大きい値をとる第2領域の少なくとも一方を有し、かつ前記関数の値はリミッタがかけられていることを特徴とする信号処理装置。
  3.  前記関数は、傾きが正の領域を含むことを特徴とする請求項2に記載の信号処理装置。
  4.  前記関数は、(a)前記第4の信号系列の絶対値が第1の閾値以下であるとき、前記第1の閾値より大きい第2の閾値の逆数を前記第4の信号系列に乗じた第1の値を出力し、(b)前記絶対値が前記第1の閾値を越え、前記第2の閾値未満であるとき、前記第4の信号系列が負であれば前記第1の値より小さい第2の値を出力し、前記第4の信号系列が正であれば前記第1の値より大きい第3の値を出力し、(c)前記絶対値が前記第2の閾値以上であるとき、前記第4の信号系列の符号関数を表す第4の値を出力することを特徴とする請求項2に記載の信号処理装置。
  5.  前記関数は、前記第4の信号系列の絶対値が前記第1の閾値を超えるとき前記第4の信号系列の符号関数であることを特徴とする請求項4に記載の信号処理装置。
  6.  前記関数は、傾きが0の領域を含むことを特徴とする請求項2に記載の信号処理装置。
  7.  前記切片が0であることを特徴とする請求項2に記載の信号処理装置。
  8.  前記関数は、前記第4の信号系列の絶対値が予め設定された閾値以下であるとき0を出力する第1の関数で与えられ、それ以外のとき前記第4の信号系列と同符号の値を出力する第2の関数で与えられることを特徴とする請求項2に記載の信号処理装置。
  9.  コンピュータを
     第1の信号系列にタップ係数を畳み込むフィルタ処理を行って第2の信号系列を生成するフィルタと、
     前記第1の信号系列のエコーが含まれる第3の信号系列から前記第2の信号系列を減算して第4の信号系列を生成する減算器と、
     前記タップ係数を前記第4の信号系列の関数をパラメータとする修正量に従って修正する修正部と、を具備し、
     前記関数は、前記第4の信号系列が0のときの前記関数の傾き及び値をそれぞれ傾き及び切片として持つ直線に対して、前記第4の信号系列が負の範囲において前記直線より小さい値をとる第1領域、及び前記第4の信号系列が正の範囲において前記直線より大きい値をとる第2領域の少なくとも一方を有し、かつ前記関数の値はリミッタがかけられていることを特徴とする信号処理装置として機能させるための信号処理プログラム。
PCT/JP2010/054032 2009-03-25 2010-03-10 信号処理方法、装置及びプログラム WO2010110071A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/240,353 US8630850B2 (en) 2009-03-25 2011-09-22 Signal processing method, apparatus and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-073902 2009-03-25
JP2009073902A JP5430990B2 (ja) 2009-03-25 2009-03-25 信号処理方法、装置及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/240,353 Continuation US8630850B2 (en) 2009-03-25 2011-09-22 Signal processing method, apparatus and program

Publications (1)

Publication Number Publication Date
WO2010110071A1 true WO2010110071A1 (ja) 2010-09-30

Family

ID=42780764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/054032 WO2010110071A1 (ja) 2009-03-25 2010-03-10 信号処理方法、装置及びプログラム

Country Status (3)

Country Link
US (1) US8630850B2 (ja)
JP (1) JP5430990B2 (ja)
WO (1) WO2010110071A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363821B2 (en) 2010-03-31 2013-01-29 Kabushiki Kaisha Toshiba Apparatus and method for canceling echo
CN110767245A (zh) * 2019-10-30 2020-02-07 西南交通大学 基于s型函数的语音通信自适应回声消除方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
JP5887535B2 (ja) 2012-02-17 2016-03-16 パナソニックIpマネジメント株式会社 エコー消去装置、エコー消去方法、及び、通話装置
US8832170B2 (en) 2012-03-26 2014-09-09 King Fahd University Of Petroleum And Minerals System and method for least mean fourth adaptive filtering
US10381031B2 (en) 2015-03-31 2019-08-13 Seagate Technology Llc Adaptive disturbance rejection using dead zone filter
JP6678545B2 (ja) * 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム
JP6672209B2 (ja) 2017-03-21 2020-03-25 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
JP7187183B2 (ja) * 2018-06-14 2022-12-12 株式会社トランストロン エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08213880A (ja) * 1995-02-01 1996-08-20 Nec Corp 適応制御ろ波器
JPH1028080A (ja) * 1996-07-12 1998-01-27 Nec Corp 低消費電力型通信用適応等化フィルタ
JP2000286763A (ja) * 1999-03-31 2000-10-13 Mitsubishi Electric Corp 波形等化装置
JP2005124026A (ja) * 2003-10-20 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体
JP2005124027A (ja) * 2003-10-20 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4654863A (en) * 1985-05-23 1987-03-31 At&T Bell Laboratories Wideband adaptive prediction
JPS6365722A (ja) * 1986-09-05 1988-03-24 Fujitsu Ltd ハウリングキヤンセラ
DE3887057T2 (de) * 1987-10-02 1994-08-25 Advanced Micro Devices Inc Adaptiver Echokompensator mit Doppel-Spracherkennung.
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JPH102239A (ja) * 1996-06-14 1998-01-06 Toyota Motor Corp ハイブリッド型車両のエンジン制御装置
KR100233463B1 (ko) * 1997-03-07 1999-12-01 윤종용 반향제거장치 및 방법
US6563803B1 (en) * 1997-11-26 2003-05-13 Qualcomm Incorporated Acoustic echo canceller
JP3296330B2 (ja) * 1999-05-20 2002-06-24 日本電気株式会社 適応フィルタ、適応フィルタの制御方法及びプログラムを記憶した記憶媒体
US6804203B1 (en) * 2000-09-15 2004-10-12 Mindspeed Technologies, Inc. Double talk detector for echo cancellation in a speech communication system
JP3870861B2 (ja) 2002-07-10 2007-01-24 株式会社デンソー エコーキャンセラ装置、及び音声通信装置
JP2004064681A (ja) 2002-07-31 2004-02-26 Japan Science & Technology Corp 適応フィルタ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08213880A (ja) * 1995-02-01 1996-08-20 Nec Corp 適応制御ろ波器
JPH1028080A (ja) * 1996-07-12 1998-01-27 Nec Corp 低消費電力型通信用適応等化フィルタ
JP2000286763A (ja) * 1999-03-31 2000-10-13 Mitsubishi Electric Corp 波形等化装置
JP2005124026A (ja) * 2003-10-20 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体
JP2005124027A (ja) * 2003-10-20 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 反響消去装置、方法、及び反響消去プログラム、そのプログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363821B2 (en) 2010-03-31 2013-01-29 Kabushiki Kaisha Toshiba Apparatus and method for canceling echo
CN110767245A (zh) * 2019-10-30 2020-02-07 西南交通大学 基于s型函数的语音通信自适应回声消除方法

Also Published As

Publication number Publication date
JP2010226629A (ja) 2010-10-07
US8630850B2 (en) 2014-01-14
US20120072210A1 (en) 2012-03-22
JP5430990B2 (ja) 2014-03-05

Similar Documents

Publication Publication Date Title
WO2010110071A1 (ja) 信号処理方法、装置及びプログラム
JP4697465B2 (ja) 信号処理の方法、信号処理の装置および信号処理用プログラム
US9543926B2 (en) Signal processing method and device
EP2330752B1 (en) Echo cancelling device
US9805734B2 (en) Signal processing device, signal processing method and signal processing program for noise cancellation
US7778408B2 (en) Method and apparatus for acoustic echo cancellation utilizing dual filters
JP4377952B1 (ja) 適応フィルタ及びこれを有するエコーキャンセラ
WO2005125168A1 (en) Echo canceling apparatus, telephone set using the same, and echo canceling method
JP2003158476A (ja) エコーキャンセラ
JP4457639B2 (ja) エコーキャンセラ
US9312913B2 (en) Echo cancellation apparatus, echo cancellation method and communications apparatus
JP5057109B2 (ja) エコーキャンセラ装置
JP3982823B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN111654585B (zh) 回声声场状态确定方法及装置、存储介质、终端
JP5025753B2 (ja) エコーキャンセル装置、方法
JP4964267B2 (ja) 適応フィルタ及びこれを有するエコーキャンセラ
JP2008263441A (ja) 非線形エコーキャンセラ装置
JP4452162B2 (ja) 通話状態値算出装置および算出方法
KR100431965B1 (ko) 시변 적응알고리즘이 적용된 음향반향 제거장치 및 그 방법
JP4903842B2 (ja) 適応フィルタ及びこれを有するエコーキャンセラ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10755871

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10755871

Country of ref document: EP

Kind code of ref document: A1