WO2019244535A1 - エコー消去装置、エコー消去方法、プログラム - Google Patents

エコー消去装置、エコー消去方法、プログラム Download PDF

Info

Publication number
WO2019244535A1
WO2019244535A1 PCT/JP2019/019835 JP2019019835W WO2019244535A1 WO 2019244535 A1 WO2019244535 A1 WO 2019244535A1 JP 2019019835 W JP2019019835 W JP 2019019835W WO 2019244535 A1 WO2019244535 A1 WO 2019244535A1
Authority
WO
WIPO (PCT)
Prior art keywords
echo
signal
residual echo
residual
error signal
Prior art date
Application number
PCT/JP2019/019835
Other languages
English (en)
French (fr)
Inventor
江村 暁
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2019244535A1 publication Critical patent/WO2019244535A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/58Anti-side-tone circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Definitions

  • the present invention relates to a technique for canceling an acoustic echo (hereinafter, simply referred to as "echo") wrapping around a microphone via an echo path when a received signal is reproduced from a speaker, and particularly to echo cancellation in a loud-speaking communication system such as a video conference system.
  • echo an acoustic echo
  • the echo is generated when the sound of the reception signal reproduced by the speaker is collected by the microphone. Transmitting the echo as it is may cause trouble or discomfort in the call. Also, if the volume of the speaker or microphone is high, howling occurs, and a call cannot be made. In particular, in a loudspeaker system, such a problem becomes remarkable.
  • Non-Patent Document 1 a conventional echo cancellation technique using an adaptive filter.
  • Non-Patent Document 1 if the multi-channel echo canceling technique described in Non-Patent Document 1 is used in an actual environment, the echo is not always always sufficiently canceled, and a residual echo may occur, which may deteriorate the speech quality.
  • One reason is that echo path estimation by an adaptive filter is not completed instantaneously. Further, in the double talk state, echo path estimation is slightly disturbed.
  • Non-Patent Document 2 a residual echo is subtracted from an error signal of a collected echo signal and an error signal predicted by an adaptive filter.
  • the transmission characteristic from the received signal to the residual echo is quickly estimated by using the correlation between the received signal and the error signal for each frequency, and the residual echo is estimated.
  • the transfer characteristic and the residual echo are estimated as a complex number including not only the amplitude but also the phase.
  • the bias of the residual echo estimation value is corrected according to the conversation state. Because of the features described above, the method described in Non-Patent Document 2 can be applied regardless of the number of channels, and the transmitted sound quality distortion during double talk is smaller than the echo cancellation method using only amplitude. Become.
  • Non-Patent Document 2 has a problem that when the transmission power is much larger than the residual echo power, the quality of the transmission deteriorates. Such a situation appears when the adaptive filter satisfactorily cancels the echo in the double talk state.
  • the residual echo is estimated using the correlation between the received signal and the error signal.
  • the frame length of the input / output signal severe tens of ms
  • the reverberation time of the room severe hundred ms
  • an object of the present invention is to provide a technique for eliminating a residual echo component derived from a rear reverberation included in an output of a multi-channel adaptive filter in a double talk state without extending a frame length of an input / output signal.
  • speaker reproduction signals x 1 (k), .., X M (k) is an echo canceling device for canceling an echo wrapping around the microphone via an echo path when it is reproduced, wherein y (k) is a sound pickup signal obtained by collecting the echo wrapping around the microphone.
  • An adaptive filter unit, a first subtraction unit that generates an error signal u (k) that is a difference between the collected sound signal y (k) and the echo replica y ⁇ (k), and the speaker reproduction signal x 1 (k ),..., X M (k) are frequency domain transformed to obtain a speaker reproduction signal X 1 (f, j) ,.
  • a first frequency domain transform unit for generating (f, j), and a second frequency domain transform for generating an error signal U (f, j) in the frequency domain by frequency domain transforming the error signal u (k).
  • a third frequency-domain conversion unit that generates a frequency-domain echo replica Y ⁇ (f, j) by frequency-domain-converting the echo replica y ⁇ (k); and the speaker reproduction signal X 1 (f , j),..., X M (f, j) and the error signal U (f, j), a first residual echo component estimating a first residual echo component ⁇ Y ⁇ 1 (f, j) as a residual echo
  • An estimation unit that estimates a second residual echo component ⁇ Y ⁇ 3 (f, j) as a residual echo from the echo replica Y ⁇ (f, j) and the error signal U (f, j).
  • a second subtraction unit that generates a frequency-domain transmission signal V (f, j) as a difference between the error signal U (f, j) and the residual echo ⁇ Y ⁇ (f, j);
  • a time domain transform unit that generates a time domain transmission signal v (k) by time domain transforming the transmission signal V (f, j).
  • FIG. 2 is a block diagram showing a configuration of the echo canceling apparatus 100.
  • 5 is a flowchart showing the operation of the echo canceling apparatus 100.
  • FIG. 2 is a block diagram showing a configuration of the echo canceling apparatus 200.
  • 5 is a flowchart illustrating the operation of the echo canceller 200.
  • the invention of each embodiment uses an echo replica that is an output of a multi-channel adaptive filter (hereinafter, referred to as an adaptive filter) in order to estimate a residual echo component derived from a rear reverberation.
  • an adaptive filter a multi-channel adaptive filter
  • the echo replica contains a sufficient amount of components derived from the rear reverberation.Therefore, by using the echo replica, the residual echo component derived from the rear reverberation can be satisfactorily reduced. It becomes possible to estimate.
  • the echo canceller 100 outputs speaker reproduction signals x 1 (k),. x Eliminates echo that goes around the microphone via the echo path when playing back M (k).
  • the speaker reproduction signal corresponds to the above-described reception signal.
  • FIG. 1 is a block diagram showing the configuration of the echo canceling apparatus 100.
  • FIG. 2 is a flowchart showing the operation of the echo canceling apparatus 100.
  • the sound field in FIG. 1 shows that M speakers 2 1 ,..., 2 M and one microphone 3 are commonly arranged. Although the number of microphones is set to one in FIG. 1, the number of microphones arranged in the sound field is not limited to one, and may be one or more in general.
  • the echo canceller 100 sets the M echo paths h 1 (k), when the speaker reproduction signals x 1 (k),..., X M (k) are reproduced from the speakers 2 1 ,..., 2 M , respectively, the echo canceller 100 sets the M echo paths h 1 (k),.
  • the echo canceling apparatus 100 is connected with the receiving terminals 11 1 ,..., 1 M of the M channel on the receiving side, the transmitting terminal 4 of the one channel on the transmitting side, and the microphone 3.
  • 1 (k),..., X M (k) and a picked-up signal y (k) obtained by picking up an echo wrapping around the microphone 3 are input, and a transmission signal v (k) is output to the transmission terminal 4.
  • the echo canceling apparatus 100 includes an adaptive filter unit 110, a first subtraction unit 120, a first frequency domain transform unit 130, a second frequency domain transform unit 131, and a third frequency domain transform unit 132 , A first residual echo component estimating unit 140, a second residual echo component estimating unit 150, a mixing unit 160, a second subtracting unit 170, a time domain transforming unit 180, and a recording unit 190 (not shown).
  • the recording unit 190 is a component that appropriately records information necessary for processing of the echo canceling apparatus 100.
  • Adaptive filter unit 110 In S110, the adaptive filter unit 110, receiving terminal 1 1, ..., a speaker reproducing signal x 1 is input from the 1 M (k), ..., as input x M (k), the loudspeaker reproduction signals x 1 (k ),..., X M (k) are filtered by an adaptive filter to generate and output an echo replica y ⁇ (k) which is a prediction signal of the collected signal y (k). Any adaptive filter can be used.
  • the adaptive filter unit 110 receiving terminal 1 1, ..., a speaker reproducing signal x 1 is input from the 1 M (k), ..., and x M (k), collected sound signal y (k) And an echo replica y ⁇ (k), an error signal u (k) is input, and the speaker reproduction signals x 1 (k),..., X M (k) and the error signal u (k) are used. Update the filter coefficients of the adaptive filter.
  • the first frequency domain transform section 130 receiving terminal 1 1, ..., a speaker reproducing signal x 1 is input from the 1 M (k), ..., as input x M (k), the loudspeaker reproduction signal x 1 (k), ..., by the frequency domain transform to x M (k), the loudspeaker reproduction signal X 1 in the frequency domain (f, j), ..., generates X M (f, j), and outputs.
  • f represents a frequency index
  • j represents a frame number. The frequency domain conversion is performed for each signal frame.
  • the second frequency domain transforming unit 131 receives the error signal u (k) generated in S120 as an input, and performs frequency domain transform on the error signal u (k), thereby obtaining a frequency domain error signal U (f, j ) Is generated and output.
  • the third frequency domain transforming unit 132 receives the echo replica y ⁇ (k) generated in S110 as an input, and frequency-domain transforms the echo replica y ⁇ (k) to obtain a frequency domain echo replica Y ⁇ (k). f, j) is generated and output.
  • the first residual echo component estimating unit 140 outputs the speaker reproduction signal X 1 (f, j),..., X M (f, j) generated in S130 and the error signal U (f, j) generated in S131.
  • a first residual echo component ⁇ Y ⁇ 1 (f, j) which is a residual echo from the speaker reproduction signal X 1 (f, j),..., X M (f, j) and the error signal U (f, j).
  • the estimation process will be described in detail.
  • a first residual echo component estimation unit 140, a speaker reproduction signal X 1 (f, j), ..., X M (f, j) of M ⁇ M cross-spectral matrix P (f, j) and a speaker reproduction signal X 1 (f, j),..., X M (f, j) and an error signal U (f, j) are obtained as an M-dimensional cross spectrum vector Q (f, j).
  • the (a, b) element P (a, b) (f, j) of the cross spectrum matrix P (f, j) and the (a) element Q (a) (f, j) of the cross spectrum vector Q (f, j) ) Is calculated by the following equation.
  • a and b are indices satisfying 1 ⁇ a ⁇ M and 1 ⁇ b ⁇ M.
  • X * represents the complex conjugate of X.
  • E [•] represents a process for taking an average.
  • the first residual echo component estimating unit 140 calculates the transfer characteristic from the speaker reproduced signal X 1 (f, j),..., X M (f, j) to the error signal U (f, j) by the following equation. Find ⁇ H ⁇ 1 (f, j).
  • the first residual echo component estimating unit 140 obtains the first residual echo component ⁇ Y ⁇ 1 (f, j) according to the following equation.
  • the second residual echo component estimator 150 receives as input the echo replica Y ⁇ (f, j) generated in S132 and the error signal U (f, j) generated in S131, and returns the echo replica Y ⁇ (f, j) and the error signal U (f, j) are used to estimate and output a second residual echo component ⁇ Y ⁇ 3 (f, j) which is a residual echo.
  • the estimation process will be described in detail.
  • the error signal comprises a transmission signal and a residual echo.
  • the residual echo can be modeled as a deformed echo replica
  • a transfer characteristic ⁇ H ⁇ 2 (f, j) corresponding to the deformation can be obtained by the following equation.
  • the second residual echo component ⁇ Y ⁇ 2 (f, j) before correction can be obtained by the following equation.
  • Reference Document 1 V. Benignus, “Estimation of the coherence spectrum and its confidence interval using the fast Fourier transform”, IEEE Transactions on Audio and Electroacoustics, vol.17, no.2, pp.145-150, 1969.
  • ⁇ ′ 2 (f, j) which is an approximate value of the true coherence ⁇ 2 (f, j) can be obtained by the following equation.
  • the corrected second residual echo component ⁇ Y ⁇ 3 (f, j) is obtained by the following equation.
  • the second residual echo component estimating unit 150 calculates the second residual echo component ⁇ Y ⁇ 3 (f, j) as
  • the mixing unit 160 In S160, the mixing unit 160 generates the error signal U (f, j) generated in S131, the first residual echo component ⁇ Y ⁇ 1 (f, j) estimated in S140, and the second residual echo component ⁇ Y ⁇ estimated in S150. 3 (f, j) is input, and the first residual echo component ⁇ Y ⁇ 1 (f, j) and the second residual echo component ⁇ Y ⁇ 3 (f, j) are mixed using the error signal U (f, j). By doing so, a residual echo ⁇ Y ⁇ (f, j) is generated and output.
  • the mixing process will be described in detail.
  • the mixing unit 160 obtains a coherence c between the error signal U (f, j) and the first residual echo component ⁇ Y1 ⁇ (f, j) by the following equation.
  • the coherence c indicates that the closer the value is to 0, the less the residual echo included in the error signal U (f, j).
  • the mixing unit 160 mixes the first residual echo component ⁇ Y ⁇ 1 (f, j) and the second residual echo component ⁇ Y ⁇ 3 (f, j) using the predetermined function mixr (x) according to the following equation. Then, a residual echo ⁇ Y ⁇ (f, j) is generated.
  • the function mixr (x) is a monotonically decreasing function whose domain is [0, 1] and whose range is [0, 1].
  • FIG. 3 shows an example of the function mixr (x). Note that TH1 and TH2 may be set to satisfy 0 ⁇ TH1 ⁇ 0.5 and 0.5 ⁇ TH2 ⁇ 1, respectively.
  • time domain conversion unit 180 receives the transmission signal V (f, j) generated in S170 as an input, and performs time domain conversion on the transmission signal V (f, j), thereby obtaining a transmission signal v (k ) Is generated and output.
  • the output transmission signal v (k) is transmitted to a remote place via the transmission terminal 4.
  • the present embodiment by estimating the residual echo component derived from the rear reverberation using the echo replica including the component derived from the rear reverberation, it is possible to eliminate the residual echo component derived from the rear reverberation. It becomes possible.
  • FIG. 4 is a block diagram showing the configuration of the echo canceling apparatus 200.
  • FIG. 5 is a flowchart showing the operation of the echo canceling apparatus 200.
  • the echo canceling apparatus 200 includes an adaptive filter unit 210, a first subtraction unit 120, a first frequency domain transform unit 130, a second frequency domain transform unit 131, and a third frequency domain transform unit 132 A first residual echo component estimating unit 140, a second residual echo component estimating unit 150, a mixing unit 160, a second subtracting unit 170, a time domain transforming unit 180, a residual echo power ratio estimating unit 280, It includes a recording unit 190 (not shown).
  • the recording unit 190 is a component that appropriately records information necessary for processing of the echo canceling apparatus 200.
  • the echo canceling apparatus 200 is different from the echo canceling apparatus 100 in including the adaptive filter section 210 instead of the adaptive filter section 110 and further including the residual echo power ratio estimating section 280.
  • the adaptive filter unit 110 and the adaptive filter unit 210 differ in the method of updating the filter coefficients.
  • the residual echo power ratio estimating unit 280 receives the error signal U (f, j) generated in S131 and the residual echo ⁇ Y ⁇ (f, j) generated in S160, and outputs the error signal U (f, j). And a residual echo power ratio ⁇ (f, j) is generated and output using the residual echo ⁇ Y ⁇ (f, j).
  • the residual echo power ratio ⁇ (f, j) is the power ratio of the residual echo in the error signal at each frequency.
  • the residual echo power ratio estimating unit 280 obtains the residual echo power ratio ⁇ (f, j) according to the following equation.
  • Adaptive filter section 210 In S210, the adaptive filter unit 210, receiving terminal 1 1, ..., a speaker reproducing signal x 1 is input from the 1 M (k), ..., as input x M (k), the loudspeaker reproduction signals x 1 (k ),..., X M (k) are filtered by an adaptive filter to generate and output an echo replica y ⁇ (k) which is a prediction signal of the collected signal y (k).
  • the adaptive filter unit 210 receiving terminal 1 1, ..., a speaker reproducing signal x 1 is input from the 1 M (k), ..., the error signal u generated by x M (k) and S120 ( k) and the residual echo power ratio ⁇ (f, j) generated in S280 are input, and the residual echo power ratio ⁇ (f, j), the speaker reproduction signal x 1 (k),..., x M (k) and the error Using the signal u (k), the filter coefficient of the adaptive filter is updated. That is, the adaptive filter unit 210 controls the filter update amount (update of the filter coefficient) based on the residual echo power ratio ⁇ (f, j). For example, when a multi-delay filter is used as the adaptive filter, the filter coefficient can be updated using the method described in Reference 2. (Reference 2: JP-A-2015-78787)
  • the frame length of the adaptive filter is set to L.
  • an L-dimensional vector y ⁇ ⁇ ⁇ ⁇ (j) (hereinafter referred to as a collected sound signal vector) is defined by the following equation.
  • picked-up signal vector a 2L-dimensional vector Y ⁇ (j) in the frequency domain (hereinafter referred to as a picked-up signal vector) is defined by the following equation.
  • 0 L is an L-dimensional zero vector
  • F is a 2L ⁇ 2L Fourier transform matrix
  • an L-dimensional vector x ⁇ m (j) (hereinafter, referred to as an m-th speaker reproduction signal vector) is defined by the following equation.
  • an L ⁇ L Toeplitz matrix generated from the m-th speaker reproduction signal vector x to m (j) is defined as X to m (j).
  • a 2L ⁇ 2L matrix D m (j) (1 ⁇ m ⁇ M) and a 2L ⁇ 2LM matrix D (j) are defined by the following equations.
  • the filter coefficient update equation is as follows.
  • a H represents the conjugate transpose of the matrix A (that is, H at the right shoulder is conjugate transpose).
  • 0 L is an L ⁇ L zero matrix
  • IL is an L ⁇ L unit matrix.
  • ⁇ and ⁇ are predetermined constants.
  • Equation (1) a fixed step size ⁇ is used when updating the filter coefficient vector H (j ⁇ 1). By multiplying this ⁇ by the power ratio of the residual echo in the error signal, updating of the filter coefficient can be made robust to the non-echo signal. The details will be described below.
  • a 2L ⁇ 2L diagonal matrix R (j) is defined by the following equation.
  • diag (v) is a function that generates a matrix having each element of the vector v as a diagonal element
  • flipud (v) is a function that turns the vector v upside down.
  • a 2LM ⁇ 2LM block matrix B having M R (j) on the diagonal is defined by the following equation.
  • 0 2L is a 2L ⁇ 2L zero matrix.
  • the filter coefficient can be updated according to the residual echo power ratio.
  • Equation (3) was derived on the assumption that the frame length of the residual echo canceling process and the frame length of the adaptive filter were the same. However, in practice, in order to reduce the processing delay, it is necessary to make the frame length of the residual echo cancellation processing smaller than the frame length L of the adaptive filter.
  • This function ext (v, T) residual echo power of the length L / T ratio vector [rho - using (j), 2L ⁇ 2L diagonal matrix R - a (j) is defined by the following equation.
  • a 2LM ⁇ 2LM block matrix B ⁇ having M R ⁇ (j) diagonals is defined by the following equation.
  • the block matrix B - is used to modify as follows equation (3).
  • the update processing of the filter coefficients in the adaptive filter unit 210 is different from the update processing of the filter coefficients in the adaptive filter unit 210 of the second embodiment.
  • the adaptive filter unit 210 receiving terminal 1 1, ..., 1 loudspeaker reproduction signal x 1 is the input from M (k), ..., with x M (k) and the sound collection signal y (k) and S280
  • the generated residual echo power ratio ⁇ (f, j) is input, and the residual echo power ratio ⁇ (f, j) and the speaker reproduction signal x 1 (k), ..., with x M (k) and the sound collection signal y (k), to update the filter coefficients of the adaptive filter.
  • adaptive filter section 210 updates a filter coefficient, that is, a 2LM dimensional vector H (j) representing a filter coefficient for M channels in the frequency domain by the following equation.
  • L is the frame length of the adaptive filter
  • is a predetermined constant
  • is a predetermined constant
  • Y ⁇ (j) is a 2L-dimensional vector defined using the picked-up signal y (k)
  • D (j) is defined using the speaker reproduction signals x 1 (k),...
  • B ⁇ is a 2LM ⁇ 2LM block matrix having a 2L ⁇ 2L diagonal matrix R ⁇ (j) diagonally defined using the residual echo power ratio ⁇ (f, j) It is.
  • the filter coefficient of the adaptive filter can be updated robustly.
  • the device of the present invention is, for example, a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a communication device (for example, a communication cable) that can communicate outside the hardware entity.
  • a communication unit a CPU (which may include a central processing unit, a cache memory and a register, etc.), a RAM and a ROM as a memory, an external storage device as a hard disk, and an input unit, an output unit, and a communication unit thereof.
  • the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM.
  • a physical entity provided with such hardware resources includes a general-purpose computer.
  • the external storage device of the hardware entity stores a program necessary for realizing the above-described functions, data necessary for processing the program, and the like. It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM or the like) and data necessary for processing of each program are read into the memory as needed, and interpreted and executed / processed by the CPU as appropriate. .
  • the CPU realizes a predetermined function (each of the above-described components, such as a unit, a unit, etc.).
  • the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. Further, the processing described in the above embodiment may be performed not only in chronological order according to the order described, but also in parallel or individually according to the processing capability of the apparatus that executes the processing or as necessary. .
  • the processing function of the hardware entity (the device of the present invention) described in the above embodiment is implemented by a computer, the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on a computer, the processing functions of the hardware entities are realized on the computer.
  • a program describing this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • a hard disk device, a flexible disk, a magnetic tape, or the like is used as a magnetic recording device, and a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), and a CD-ROM (Compact Disc Read Only) are used as optical disks.
  • DVD Digital Versatile Disc
  • DVD-RAM Random Access Memory
  • CD-ROM Compact Disc Read Only
  • CD-R Recordable
  • RW ReWritable
  • a magneto-optical recording medium MO (Magneto-Optical disk), etc.
  • EEP-ROM Electrically Erasable and Programmable-Read Only Memory
  • This program is distributed by selling, transferring, lending, or the like, a portable recording medium such as a DVD or a CD-ROM on which the program is recorded. Further, the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • the computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when executing the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and further, the program may be transferred from the server computer to the computer. Each time, the processing according to the received program may be sequentially executed.
  • ASP Application ⁇ Service ⁇ Provider
  • the program in the present embodiment includes information used for processing by the computer and which is similar to the program (data that is not a direct command to the computer but has characteristics that define the processing of the computer).
  • a hardware entity is configured by executing a predetermined program on a computer.
  • at least a part of the processing may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ダブルトーク状態において、マルチチャネル適応フィルタ出力に含まれる後部残響由来の残留エコー成分を、入出力信号のフレーム長を伸ばすことなく消去する技術を提供する。M個のスピーカと1個以上のマイクロホンが配置された音場において、M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介してマイクロホンに回り込むエコーを消去するエコー消去装置であって、エコーレプリカY^(f, j)と誤差信号U(f, j)から、残留エコーである第2残留エコー成分ΔY^3(f, j)を推定する第2残留エコー成分推定部と、誤差信号U(f, j)を用いて第1残留エコー成分ΔY^1(f, j)と第2残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部とを含む。

Description

エコー消去装置、エコー消去方法、プログラム
 本発明は、スピーカから受話信号を再生した際にエコー経路を介してマイクロホンに回り込む音響エコー(以下、単に“エコー”という)を消去する技術に関し、特にテレビ会議システムなどの拡声通話系におけるエコー消去技術に関する。
 エコーは、スピーカで再生された受話信号の音声がマイクロホンで収音されることにより生じる。エコーをそのまま送信すると、通話における障害や不快感になる。また、スピーカやマイクロホンの音量が大きい場合にはハウリングが生じ、通話が不可能になる。特に拡声通話系では、このような問題が顕著となる。
 この問題を解決するために、従来、適応フィルタを用いたエコー消去技術がある(非特許文献1)。
 しかし、実際の環境で非特許文献1に記載の多チャネルエコー消去技術を使用すると、常にエコーが十分に消去されるとは限らず、残留エコーが生じ、通話品質が劣化することがある。その一因は、適応フィルタによるエコー経路推定が瞬時には完了しないことにある。また、ダブルトーク状態ではエコー経路推定が若干乱れてしまうことにある。
 通話品質の劣化が抑制された快適な拡声通話を実現するには、適応フィルタによるエコー経路推定及びエコー消去が十分でない状態において、受話信号のチャネル数や会話状態によらず、迅速に残留エコーを低減する必要がある。このようなチャネル数や会話状態によらず残留エコーを低減させる方法として、非特許文献2に記載の方法がある。非特許文献2に記載の方法では、収音したエコー信号と適応フィルタによる予測エコー信号の誤差信号から残留エコーを差し引く。この方法では、周波数毎に受話信号と誤差信号の相関を利用することで、受話信号から残留エコーへの伝達特性を高速に推定し、残留エコーを推定する。その際、伝達特性と残留エコーを振幅だけでなく位相も含む複素数として推定する。また、この方法では、会話状態に応じて残留エコー推定値のバイアスを補正する。以上のような特徴を有するため、非特許文献2に記載の方法は、チャネル数によらず適用可能であり、振幅のみを用いるエコー消去方法と比較してダブルトーク時の送話音質歪みが小さくなる。
M.M. Sondhi, D.R. Morgan, and J.L. Hall, "Stereophonic Acoustic Echo Cancellation - An Overview of the Fundamental Problem", IEEE Signal Processing Letters, vol.2, no.8, pp.148-151, 1995. S. Emura and Y. Haneda, "A method for posterior frequency-domain multi-channel residual echo canceling", in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2011, pp.421-424, 2011.
 しかし、非特許文献2に記載の方法では、送話パワーが残留エコーパワーよりもずっと大きいとき、送話の品質が低下するという問題がある。このような状況は、ダブルトーク状態において適応フィルタがエコーを良好に消去している場合に現れる。
 非特許文献2に記載の方法では、上述の通り、受話信号と誤差信号の相関を利用して残留エコーを推定する。この方法では、入出力信号のフレーム長(数十ms)が部屋の残響時間(数百ms)よりずっと短いために、部屋の初期反射に由来する残留エコー成分は良好に消去できる一方で、部屋の残響、特に後部残響に由来する残留エコー成分の推定及び消去が困難になる。
 この問題を解決するために、入出力信号のフレーム長を伸ばすことが考えられる。入出力信号のフレーム長を伸ばすことにより、非特許文献2に記載の方法でも部屋の後部残響に対応することは可能である。しかし、フレーム長を伸ばすと、エコー消去処理による処理遅延が大きくなるという問題が生じてしまう。これは、エコー消去処理では、フレームごとに信号を時間領域から周波数領域に変換し、周波数領域で処理し、時間領域に戻していることに起因している。また、処理遅延が大きくなると、遠隔地の音声が収音され、伝送後に再生されるまでの時間が長くなり、拡声通話の使い勝手が悪くなってしまうという問題も生じる。例えば、IP電話では通話の使い勝手を劣化させないためにフレーム長が数十msに設定されている。
 そこで、本発明は、ダブルトーク状態において、マルチチャネル適応フィルタ出力に含まれる後部残響由来の残留エコー成分を、入出力信号のフレーム長を伸ばすことなく消去する技術を提供することを目的とする。
 本発明の一態様は、M個(ただし、Mは1以上の整数)のスピーカと1個以上のマイクロホンが配置された音場において、前記M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、前記スピーカ再生信号x1(k), …, xM(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタ部と、前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第1減算部と、前記スピーカ再生信号x1(k), …, xM(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X1(f, j), …, XM(f, j)を生成する第1周波数領域変換部と、前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第2周波数領域変換部と、前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第3周波数領域変換部と、前記スピーカ再生信号X1(f, j), …, XM(f, j)と前記誤差信号U(f, j)から、残留エコーである第1残留エコー成分ΔY^1(f, j)を推定する第1残留エコー成分推定部と、前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第2残留エコー成分ΔY^3(f, j)を推定する第2残留エコー成分推定部と、前記誤差信号U(f, j)を用いて前記第1残留エコー成分ΔY^1(f, j)と前記第2残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部と、前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第2減算部と、前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換部とを含む。
 本発明によれば、後部残響に由来する残留エコー成分を消去することが可能となる。
エコー消去装置100の構成を示すブロック図。 エコー消去装置100の動作を示すフローチャート。 関数mixr(x)の一例を示す図。 エコー消去装置200の構成を示すブロック図。 エコー消去装置200の動作を示すフローチャート。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<技術的背景>
 各実施形態の発明は、後部残響に由来する残留エコー成分を推定するために、マルチチャネル適応フィルタ(以下、適応フィルタという)の出力であるエコーレプリカを用いる。適応フィルタによりエコーが良好に推定されている場合、エコーレプリカには後部残響に由来する成分が十分に含まれているため、エコーレプリカを用いることにより、後部残響に由来する残留エコー成分を良好に推定することが可能になる。
<第1実施形態>
 エコー消去装置100は、M個(ただし、Mは1以上の整数)のスピーカと1個以上のマイクロホンが配置された音場において、M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介してマイクロホンに回り込むエコーを消去する。ここで、スピーカ再生信号は、先述の受話信号に対応するものである。
 以下、図1~図2を参照してエコー消去装置100を説明する。図1は、エコー消去装置100の構成を示すブロック図である。図2は、エコー消去装置100の動作を示すフローチャートである。図1の音場は、M個のスピーカ21,…,2Mと1個のマイクロホン3が共通に配置されていることを示している。図1ではマイクロホンの数を1としているが、音場に配置されるマイクロホンの数は1に限らず、一般に1以上でよい。スピーカ21,…,2Mからそれぞれスピーカ再生信号x1(k), …, xM(k)を再生した場合に、エコー消去装置100は、M本のエコー経路h1(k), …, hM(k)を介してマイクロホンに回り込むエコーを消去する。エコー消去装置100には、受話側のMチャネルの受話端子11,…,1Mと、送話側の1チャネルの送話端子4と、マイクロホン3とが接続されており、スピーカ再生信号x1(k), …, xM(k)及びマイクロホン3に回り込むエコーを収音した収音信号y(k)が入力され、送信信号v(k)を送話端子4に出力する。
 図1に示すようにエコー消去装置100は、適応フィルタ部110と、第1減算部120と、第1周波数領域変換部130と、第2周波数領域変換部131と、第3周波数領域変換部132と、第1残留エコー成分推定部140と、第2残留エコー成分推定部150と、混合部160と、第2減算部170と、時間領域変換部180と、記録部190(図示しない)を含む。記録部190は、エコー消去装置100の処理に必要な情報を適宜記録する構成部である。
 以下、図2を参照して、エコー消去装置100の動作について説明する。
[適応フィルタ部110]
 S110において、適応フィルタ部110は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)を入力とし、スピーカ再生信号x1(k), …, xM(k)を適応フィルタによりフィルタリングすることにより、収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成し、出力する。任意の適応フィルタを用いることができる。
 また、S111において、適応フィルタ部110は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)と、収音信号y(k)とエコーレプリカy^(k)との差である誤差信号u(k)を入力とし、スピーカ再生信号x1(k), …, xM(k)と誤差信号u(k)を用いて、適応フィルタのフィルタ係数を更新する。
[第1減算部120]
 S120において、第1減算部120は、M個のスピーカ21,…,2Mからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介してマイクロホン3に回り込むエコーを収音した収音信号y(k)とS110で生成したエコーレプリカy^(k)を入力とし、収音信号y(k)とエコーレプリカy^(k)との差である誤差信号u(k)を生成し、出力する。つまり、u(k)=y(k)-y^(k)である。
[第1周波数領域変換部130/第2周波数領域変換部131/第3周波数領域変換部132]
 S130において、第1周波数領域変換部130は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)を入力とし、スピーカ再生信号x1(k), …, xM(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X1(f, j), …, XM(f, j)を生成し、出力する。ただし、fは周波数インデックス、jはフレーム番号を表す。周波数領域変換は信号フレームごとに行われる。
 S131において、第2周波数領域変換部131は、S120で生成した誤差信号u(k)を入力とし、誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成し、出力する。
 S132において、第3周波数領域変換部132は、S110で生成したエコーレプリカy^(k)を入力とし、エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成し、出力する。
[第1残留エコー成分推定部140]
 S140において、第1残留エコー成分推定部140は、S130で生成したスピーカ再生信号X1(f, j), …, XM(f, j)とS131で生成した誤差信号U(f, j)を入力とし、スピーカ再生信号X1(f, j), …, XM(f, j)と誤差信号U(f, j)から残留エコーである第1残留エコー成分ΔY^1(f, j)を推定し、出力する。以下、推定処理について詳しく説明する。
 まず、第1残留エコー成分推定部140は、スピーカ再生信号X1(f, j), …, XM(f, j)のM×Mクロススペクトル行列P(f, j)と、スピーカ再生信号X1(f, j), …, XM(f, j)と誤差信号U(f, j)とのM次元クロススペクトルベクトルQ(f, j)を求める。クロススペクトル行列P(f, j)の(a, b)要素P(a, b)(f, j)及びクロススペクトルベクトルQ(f, j)の(a)要素Q(a)(f, j)は、次式で計算する。ただし、a, bは、1≦a≦M, 1≦b≦Mを満たすインデックスである。
Figure JPOXMLDOC01-appb-M000003
 ここで、X*はXの複素共役を表す。また、E[・]は平均をとる処理を表す。
 例えば、Q(a)(f, j)を、1フレーム前の処理結果Q(a)(f, j-1)と平滑化定数β(0<β<1)を用いて、
Figure JPOXMLDOC01-appb-M000004
により、求めてもよい。また、過去の数フレームに時定数を乗じて求めてもよい。
 次に、第1残留エコー成分推定部140は、次式により、スピーカ再生信号X1(f, j), …, XM(f, j)から誤差信号U(f, j)への伝達特性ΔH^1(f, j)を求める。
Figure JPOXMLDOC01-appb-M000005
 最後に、第1残留エコー成分推定部140は、次式により、第1残留エコー成分ΔY^1(f, j)を求める。
Figure JPOXMLDOC01-appb-M000006
[第2残留エコー成分推定部150]
 S150において、第2残留エコー成分推定部150は、S132で生成したエコーレプリカY^(f, j)とS131で生成した誤差信号U(f, j)を入力とし、エコーレプリカY^(f, j)と誤差信号U(f, j)から残留エコーである第2残留エコー成分ΔY^3(f, j)を推定し、出力する。以下、推定処理について詳しく説明する。
 第2残留エコー成分ΔY^3(f, j)の推定に際して、誤差信号U(f, j)とエコーレプリカY^(f, j)との相関
Figure JPOXMLDOC01-appb-M000007
に着目する。
 周波数領域において、誤差信号は送信信号と残留エコーからなる。残留エコーを変形されたエコーレプリカとしてモデル化できると仮定すると、変形に相当する伝達特性ΔH^2(f, j)は、次式により求めることができる。
Figure JPOXMLDOC01-appb-M000008
したがって、補正前の第2残留エコー成分ΔY^2(f, j)は次式により求めることができる。
Figure JPOXMLDOC01-appb-M000009
 送信信号のパワーが残留エコーのパワーよりずっと大きい場合、補正前の第2残留エコー成分ΔY^2(f, j)が過大に推定されることが知られている。この影響は、誤差信号U(f, j)とエコーレプリカY^(f, j)から算出されるコヒーレンスγ^2(f, j)が、真のコヒーレンスγ2(f, j)よりも大きくなる現象として現れる。
Figure JPOXMLDOC01-appb-M000010
 この過大な推定を補正する方法として、参考文献1の方法がある。
(参考文献1: V. Benignus, “Estimation of the coherence spectrum and its confidence interval using the fast Fourier transform”, IEEE Transactions on Audio and Electroacoustics, vol.17, no.2, pp.145-150, 1969.)
 参考文献1の方法によれば、真のコヒーレンスγ2(f, j)の近似値であるγ’2(f, j)を次式で求めることができる。
Figure JPOXMLDOC01-appb-M000011
 ここでは、平滑化定数βを用いて各クロススペクトルを求めている場合、フレーム数1/(1-β)を用いて平均化を行っているとみなしている。
 補正後の第2残留エコー成分ΔY^3(f, j)は、次式により求まる。
Figure JPOXMLDOC01-appb-M000012
 つまり、第2残留エコー成分推定部150は、第2残留エコー成分ΔY^3(f, j)を式
Figure JPOXMLDOC01-appb-M000013
(ただし、βは0<β<1を満たす平滑化定数である)により推定する。
[混合部160]
 S160において、混合部160は、S131で生成した誤差信号U(f, j)とS140で推定した第1残留エコー成分ΔY^1(f, j)とS150で推定した第2残留エコー成分ΔY^3(f, j)を入力とし、誤差信号U(f, j)を用いて第1残留エコー成分ΔY^1(f, j)と第2残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成し、出力する。以下、混合処理について詳しく説明する。
 まず、混合部160は、誤差信号U(f, j)と第1残留エコー成分ΔY1^(f, j)とのコヒーレンスcを次式により求める。
Figure JPOXMLDOC01-appb-M000014
 コヒーレンスcは、その値が0に近いほど、誤差信号U(f, j)に含まれる残留エコーが少ないことを示す。
 そして、混合部160は、所定の関数mixr(x)を用いて、次式により第1残留エコー成分ΔY^1(f, j)と第2残留エコー成分ΔY^3(f, j)を混合し、残留エコーΔY^(f, j)を生成する。
Figure JPOXMLDOC01-appb-M000015
 ただし、関数mixr(x)は定義域を[0, 1]、値域を[0, 1]とする単調減少関数である。図3は、関数mixr(x)の一例を示す。なお、TH1, TH2はそれぞれ0<TH1<0.5, 0.5<TH2<1を満たすように設定するとよい。
[第2減算部170]
 S170において、第2減算部170は、S131で生成した誤差信号U(f, j)とS160で生成した残留エコーΔY^(f, j)を入力とし、誤差信号U(f, j)と残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成し、出力する。つまり、V(f, j)=U(f, j)- ΔY^(f, j)である。これにより、誤差信号から残留エコーが消去される。
[時間領域変換部180]
 S180において、時間領域変換部180は、S170で生成した送信信号V(f, j)を入力とし、送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成し、出力する。出力された送信信号v(k)は送話端子4を介して遠隔地に送信される。
 本実施形態の発明によれば、後部残響に由来する成分が含まれるエコーレプリカを用いて後部残響に由来する残留エコー成分を推定することにより、後部残響に由来する残留エコー成分を消去することが可能となる。
<第2実施形態>
 残留エコーΔY^(f, j)を用いることにより、非エコー信号が含まれる状況において、適応フィルタのフィルタ係数を頑健に更新することができるようになる。ここでは、そのような実施形態について説明する。
 以下、図4~図5を参照してエコー消去装置200を説明する。図4は、エコー消去装置200の構成を示すブロック図である。図5は、エコー消去装置200の動作を示すフローチャートである。図4に示すようにエコー消去装置200は、適応フィルタ部210と、第1減算部120と、第1周波数領域変換部130と、第2周波数領域変換部131と、第3周波数領域変換部132と、第1残留エコー成分推定部140と、第2残留エコー成分推定部150と、混合部160と、第2減算部170と、時間領域変換部180と、残留エコーパワー比率推定部280と、記録部190(図示しない)を含む。記録部190は、エコー消去装置200の処理に必要な情報を適宜記録する構成部である。
 つまり、エコー消去装置200は、適応フィルタ部110の代わりに適応フィルタ部210を含む点と、更に残留エコーパワー比率推定部280を含む点とにおいてエコー消去装置100と異なる。後述するように、適応フィルタ部110と適応フィルタ部210はフィルタ係数の更新方法が異なる。
 以下、図5を参照して、エコー消去装置200の動作について説明する。
[残留エコーパワー比率推定部280]
 S280において、残留エコーパワー比率推定部280は、S131で生成した誤差信号U(f, j)とS160で生成した残留エコーΔY^(f, j)を入力とし、誤差信号U(f, j)と残留エコーΔY^(f, j)を用いて残留エコーパワー比率ρ(f, j)を生成し、出力する。残留エコーパワー比率ρ(f, j)は、各周波数における誤差信号に占める残留エコーのパワー比率である。残留エコーパワー比率推定部280は、次式により残留エコーパワー比率ρ(f, j)を求める。
Figure JPOXMLDOC01-appb-M000016
[適応フィルタ部210]
 S210において、適応フィルタ部210は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)を入力とし、スピーカ再生信号x1(k), …, xM(k)を適応フィルタによりフィルタリングすることにより、収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成し、出力する。
 また、S211において、適応フィルタ部210は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)とS120で生成した誤差信号u(k)とS280で生成した残留エコーパワー比率ρ(f, j)を入力とし、残留エコーパワー比率ρ(f, j)とスピーカ再生信号x1(k), …, xM(k)と誤差信号u(k)を用いて、適応フィルタのフィルタ係数を更新する。つまり、適応フィルタ部210は、残留エコーパワー比率ρ(f, j)に基づいてフィルタ更新量(フィルタ係数の更新)を制御する。例えば、適応フィルタとしてマルチディレイフィルタを用いる場合、参考文献2に記載の方法を用いてフィルタ係数を更新することができる。
(参考文献2:特開2015-201787号公報)
<第2実施形態の変形例>
 ここでは、適応フィルタとして参考文献3に記載のリカーシブ・リースト・スクエア(recursive least square)型適応フィルタを用いる場合における、フィルタ係数の更新方法について説明する。
(参考文献3: J. Benesty and D.R. Morgan, “Frequency-domain adaptive filtering revisited, generalization to the multi-channel case, and application to acoustic echo cancellation”, Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2000, pp.789-792, 2000.)
 まず、フィルタ係数の更新方法に関する技術的背景について説明する。
[技術的背景]
 以下、適応フィルタのフレーム長をLとする。
 収音信号y(k)を用いて、L次元ベクトルy~(j)(以下、収音信号ベクトルという)を次式により定義する。
Figure JPOXMLDOC01-appb-M000017
 収音信号ベクトルy~(j)を用いて、周波数領域の2L次元ベクトルY~(j)(以下、収音信号ベクトルという)を次式により定義する。
Figure JPOXMLDOC01-appb-M000018
 ただし、0LはL次元ゼロベクトル、Fは2L×2Lのフーリエ変換行列である。
 また、第mスピーカ再生信号xm(k)(1≦m≦M)を用いて、L次元ベクトルx~m(j)(以下、第mスピーカ再生信号ベクトルという)を次式により定義する。
Figure JPOXMLDOC01-appb-M000019
 さらに、第mスピーカ再生信号ベクトルx~m(j)から生成されるL×Lテプリッツ行列をX~m(j)とする。
 ここで、テプリッツ行列X~m(j)を用いて、2L×2Lの巡回行列Cmを次式により定義すると、X~’m(j)はL×Lテプリッツ行列となる(参考文献3参照)。
Figure JPOXMLDOC01-appb-M000020
 この巡回行列Cmを用いて、2L×2Lの行列Dm(j)(1≦m≦M)、2L×2LMの行列D(j)を次式により定義する。
Figure JPOXMLDOC01-appb-M000021
 周波数領域におけるMチャネル分のフィルタ係数を2LM次元ベクトルH(j)(以下、フィルタ係数ベクトルという)として表すことにすると、フィルタ係数の更新式は以下のようになる。
Figure JPOXMLDOC01-appb-M000022
 ただし、AHは行列Aの共役転置行列(つまり、右肩のHは共役転置)を表す。また、0LはL×L零行列、ILはL×L単位行列である。λおよびμは所定の定数である。
 式(1)では、フィルタ係数ベクトルH(j-1)を更新するときに、固定のステップサイズμを用いている。このμに、誤差信号に占める残留エコーのパワー比率を乗じることで、フィルタ係数の更新を非エコー信号に対して頑健にすることができる。以下、詳しく説明する。
 残留エコー消去処理のフレーム長が適応フィルタのフレーム長と同一、つまりLである場合、残留エコーパワー比率ρ(f, j) (f=1, …, L)からなるL次元ベクトルをρ~(j)とする。
 L次元ベクトルρ~(j)を用いて、2L×2L対角行列R(j)を次式により定義する。
Figure JPOXMLDOC01-appb-M000023
 ただし、diag(v)はベクトルvの各要素を対角成分にもつ行列を生成する関数、flipud(v)はベクトルvの上下をひっくり返す関数である。
 M個のR(j)を対角にもつ2LM×2LMのブロック行列Bを次式により定義する。
Figure JPOXMLDOC01-appb-M000024
 ただし、02Lは2L×2L零行列である。
 このブロック行列Bを用いて、式(1)を以下のように修正する。
Figure JPOXMLDOC01-appb-M000025
 式(3)を用いてフィルタ係数ベクトルH(j)を更新すると、残留エコーパワー比率に応じてフィルタ係数を更新することができる。
 以上の議論では、残留エコー消去処理のフレーム長と適応フィルタのフレーム長とが同一であるものとして、式(3)を導出した。しかし、実際には、処理遅延を減らすために、残留エコー消去処理のフレーム長を適応フィルタのフレーム長Lよりも小さくする必要がある。
 そこで、以下では、残留エコー消去処理のフレーム長がL/T(ただし、Tは1以上の整数)の場合におけるフィルタ係数の更新式を導出する。
 残留エコー消去処理のフレーム長がL/Tである場合、残留エコーパワー比率はρ(f, j) (f=1, …, L/T)になるため、適応フィルタと残留エコー消去処理では周波数の分解能が異なる。この周波数分解能の違いを吸収することを考える。
 残留エコーパワー比率ρ(f, j) (f=1, …, T)からなるT次元ベクトルをρ-(j)(以下、残留エコーパワー比率ベクトルという)とする。上記フレーム長の関係から、適応フィルタにおける周波数インデックスf’は、f’=T(f-1)+1, …, TfのT個の周波数インデックスfと対応する。そこで、同じ値をT個繰り返すことで違いを吸収することにする。そのために、ベクトルvからベクトル長をT倍にしたベクトルを生成する関数ext(v, T)を用いることにする。例えば、v=[v1 v2]である場合、ext(v, 2)は次式のようになる。
Figure JPOXMLDOC01-appb-M000026
 この関数ext(v, T)と長さL/Tの残留エコーパワー比率ベクトルρ-(j)を用いて、2L×2L対角行列R-(j)を次式により定義する。
Figure JPOXMLDOC01-appb-M000027
 式(4)は式(2)の自然な拡張になっており、式(4)においてT=1とすると式(2)が得られる。
 M個のR-(j)を対角にもつ2LM×2LMのブロック行列B-を次式により定義する。
Figure JPOXMLDOC01-appb-M000028
 このブロック行列B-を用いて、式(3)を以下のように修正する。
Figure JPOXMLDOC01-appb-M000029
 これにより、式(3)を用いた場合と同様、残留エコーパワー比率に応じてフィルタ係数を更新することができ、非エコー信号に対してフィルタ係数を頑健に更新できるようになる。
 この変形例では、適応フィルタ部210におけるフィルタ係数の更新処理が第2実施形態の適応フィルタ部210におけるフィルタ係数の更新処理と異なるものとなる。以下、説明する。
[適応フィルタ部210]
 S211において、適応フィルタ部210は、受話端子11,…,1Mからの入力であるスピーカ再生信号x1(k), …, xM(k)と収音信号y(k)とS280で生成した残留エコーパワー比率ρ(f, j)を入力とし、残留エコーパワー比率ρ(f, j)とスピーカ再生信号x1(k),
…, xM(k)と収音信号y(k)を用いて、適応フィルタのフィルタ係数を更新する。具体的には、適応フィルタ部210は、次式によりフィルタ係数、つまり、周波数領域におけるMチャネル分のフィルタ係数を表す2LM次元ベクトルH(j)を更新する。
Figure JPOXMLDOC01-appb-M000030
 ただし、Lは適応フィルタのフレーム長、λは所定の定数、μは所定の定数である。また、Y~(j)は収音信号y(k)を用いて定義される2L次元ベクトル、D(j)はスピーカ再生信号x1(k), …, xM(k)を用いて定義される2L×2LMの行列、B-は残留エコーパワー比率ρ(f, j)を用いて定義される2L×2Lの対角行列R-(j)を対角にもつ2LM×2LMのブロック行列である。
 本実施形態の発明によれば、後部残響に由来する成分が含まれるエコーレプリカを用いて後部残響に由来する残留エコー成分を推定することにより、後部残響に由来する残留エコー成分を消去することが可能となる。また、残留エコーを用いて適応フィルタのフィルタ係数を更新することにより、フィルタ係数を頑健に更新することが可能となる。
<補記>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1.  M個(ただし、Mは1以上の整数)のスピーカと1個以上のマイクロホンが配置された音場において、前記M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去装置であって、
     y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、
     前記スピーカ再生信号x1(k), …, xM(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタ部と、
     前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第1減算部と、
     前記スピーカ再生信号x1(k), …, xM(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X1(f, j), …, XM(f, j)を生成する第1周波数領域変換部と、
     前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第2周波数領域変換部と、
     前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第3周波数領域変換部と、
     前記スピーカ再生信号X1(f, j), …, XM(f, j)と前記誤差信号U(f, j)から、残留エコーである第1残留エコー成分ΔY^1(f, j)を推定する第1残留エコー成分推定部と、
     前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第2残留エコー成分ΔY^3(f, j)を推定する第2残留エコー成分推定部と、
     前記誤差信号U(f, j)を用いて前記第1残留エコー成分ΔY^1(f, j)と前記第2残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合部と、
     前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第2減算部と、
     前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換部と
     を含むエコー消去装置。
  2.  請求項1に記載のエコー消去装置であって、
     更に、
     前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)を用いて、残留エコーパワー比率ρ(f, j)を生成する残留エコーパワー比率推定部を含み、
     前記適応フィルタ部は、
     前記残留エコーパワー比率ρ(f, j)と前記スピーカ再生信号x1(k), …, xM(k)と前記誤差信号u(k)を用いて、前記適応フィルタのフィルタ係数を更新する
     ことを特徴とするエコー消去装置。
  3.  請求項1または2に記載のエコー消去装置であって、
     前記第2残留エコー成分推定部は、前記第2残留エコー成分ΔY^3(f, j)を式
    Figure JPOXMLDOC01-appb-M000001

    (ただし、βは0<β<1を満たす平滑化定数である)により推定することを特徴とするエコー消去装置。
  4.  請求項1または2に記載のエコー消去装置であって、
     前記混合部は、前記残留エコーΔY^(f, j)を式
    Figure JPOXMLDOC01-appb-M000002

    (ただし、cは前記誤差信号U(f, j)と前記第1残留エコー成分ΔY^1(f, j)とのコヒーレンス、関数mixr(x):[0, 1]→[0, 1]は単調減少関数である)により生成することを特徴とするエコー消去装置。
  5.  M個(ただし、Mは1以上の整数)のスピーカと1個以上のマイクロホンが配置された音場において、エコー消去装置が、前記M個のスピーカからスピーカ再生信号x1(k), …, xM(k)を再生した際にエコー経路を介して前記マイクロホンに回り込むエコーを消去するエコー消去方法であって、
     y(k)を前記マイクロホンに回り込むエコーを収音した収音信号とし、
     前記スピーカ再生信号x1(k), …, xM(k)を適応フィルタによりフィルタリングすることにより、前記収音信号y(k)の予測信号であるエコーレプリカy^(k)を生成する適応フィルタステップと、
     前記収音信号y(k)と前記エコーレプリカy^(k)との差である誤差信号u(k)を生成する第1減算ステップと、
     前記スピーカ再生信号x1(k), …, xM(k)を周波数領域変換することにより、周波数領域のスピーカ再生信号X1(f, j), …, XM(f, j)を生成する第1周波数領域変換ステップと、
     前記誤差信号u(k)を周波数領域変換することにより、周波数領域の誤差信号U(f, j)を生成する第2周波数領域変換ステップと、
     前記エコーレプリカy^(k)を周波数領域変換することにより、周波数領域のエコーレプリカY^(f, j)を生成する第3周波数領域変換ステップと、
     前記スピーカ再生信号X1(f, j), …, XM(f, j)と前記誤差信号U(f, j)から、残留エコーである第1残留エコー成分ΔY^1(f, j)を推定する第1残留エコー成分推定ステップと、
     前記エコーレプリカY^(f, j)と前記誤差信号U(f, j)から、残留エコーである第2残留エコー成分ΔY^3(f, j)を推定する第2残留エコー成分推定ステップと、
     前記誤差信号U(f, j)を用いて前記第1残留エコー成分ΔY^1(f, j)と前記第2残留エコー成分ΔY^3(f, j)を混合することにより、残留エコーΔY^(f, j)を生成する混合ステップと、
     前記誤差信号U(f, j)と前記残留エコーΔY^(f, j)との差として周波数領域の送信信号V(f, j)を生成する第2減算ステップと、
     前記送信信号V(f, j)を時間領域変換することにより、時間領域の送信信号v(k)を生成する時間領域変換ステップと
     を含むエコー消去方法。
  6.  請求項1ないし4のいずれか1項に記載のエコー消去装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/019835 2018-06-22 2019-05-20 エコー消去装置、エコー消去方法、プログラム WO2019244535A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018118853A JP2019220917A (ja) 2018-06-22 2018-06-22 エコー消去装置、エコー消去方法、プログラム
JP2018-118853 2018-06-22

Publications (1)

Publication Number Publication Date
WO2019244535A1 true WO2019244535A1 (ja) 2019-12-26

Family

ID=68983638

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/019835 WO2019244535A1 (ja) 2018-06-22 2019-05-20 エコー消去装置、エコー消去方法、プログラム

Country Status (2)

Country Link
JP (1) JP2019220917A (ja)
WO (1) WO2019244535A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009207021A (ja) * 2008-02-29 2009-09-10 Yamaha Corp 音響エコーキャンセラ
JP2012039441A (ja) * 2010-08-09 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム
JP2015201787A (ja) * 2014-04-09 2015-11-12 日本電信電話株式会社 エコー消去装置、その方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009207021A (ja) * 2008-02-29 2009-09-10 Yamaha Corp 音響エコーキャンセラ
JP2012039441A (ja) * 2010-08-09 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム
JP2015201787A (ja) * 2014-04-09 2015-11-12 日本電信電話株式会社 エコー消去装置、その方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EMURA S. ET AL.: "A method for posterior frequency-domain multi-channel residual echo canceling", PROC. IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, vol. 2011, 2011, pages 421 - 424, XP032000764, DOI: 10.1109/ICASSP.2011.5946430 *
SONDHI M. ET AL.: "Stereophonic Acoustic Echo Cancellation - An Overview of the Fundamental Problem", IEEE SIGNAL PROCESSING LETTERS, vol. 2, no. 8, August 1995 (1995-08-01), pages 148 - 151, XP000527174, DOI: 10.1109/97.404129 *

Also Published As

Publication number Publication date
JP2019220917A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
JP5075042B2 (ja) エコー消去装置、エコー消去方法、そのプログラム、記録媒体
TWI458331B (zh) 用於計算回聲抑制濾波器的控制資訊的裝置和方法,以及用於計算延遲值的裝置和方法
JP4161628B2 (ja) エコー抑圧方法及び装置
JP5391103B2 (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
US20140016794A1 (en) Echo cancellation system and method with multiple microphones and multiple speakers
JP2004537219A (ja) 高調波計算のための非線形エコーサプレッサを備えたエコーキャンセラ
KR102190833B1 (ko) 에코 억제
JP2004349806A (ja) 多チャネル音響エコー消去方法、その装置、そのプログラム及びその記録媒体
JP5469564B2 (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム
JP5662232B2 (ja) エコー消去装置、その方法及びプログラム
CN115175063A (zh) 啸叫抑制方法、装置、音响及扩音系统
JP5762479B2 (ja) 音声スイッチ装置、音声スイッチ方法、及びそのプログラム
WO2019098178A1 (ja) 音声コミュニケーション装置、音声コミュニケーション方法、プログラム
US6694020B1 (en) Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations
JP4119328B2 (ja) 収音方法、その装置、そのプログラム、およびその記録媒体。
JP2003188776A (ja) 音響エコー消去方法、装置及び音響エコー消去プログラム
CN112929506B (zh) 音频信号的处理方法及装置,计算机存储介质及电子设备
JP2003250193A (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2019244535A1 (ja) エコー消去装置、エコー消去方法、プログラム
CN1605186A (zh) 具有频谱回波尾部估计器的回波消除器
JP3673727B2 (ja) 反響消去方法、その装置、そのプログラム及びその記録媒体
JP5937451B2 (ja) エコー消去装置、エコー消去方法及びプログラム
US11197093B2 (en) Echo suppression device, echo suppression method, and non-transitory computer-readable recording medium which records echo suppression program
JP4041770B2 (ja) 音響エコー消去方法、その装置、プログラム及びその記録媒体
JP6537997B2 (ja) エコー抑圧装置、その方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19821576

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19821576

Country of ref document: EP

Kind code of ref document: A1