WO2013032001A1 - 音声処理装置、その制御方法および制御プログラム - Google Patents

音声処理装置、その制御方法および制御プログラム Download PDF

Info

Publication number
WO2013032001A1
WO2013032001A1 PCT/JP2012/072287 JP2012072287W WO2013032001A1 WO 2013032001 A1 WO2013032001 A1 WO 2013032001A1 JP 2012072287 W JP2012072287 W JP 2012072287W WO 2013032001 A1 WO2013032001 A1 WO 2013032001A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
echo
output
input
signal
Prior art date
Application number
PCT/JP2012/072287
Other languages
English (en)
French (fr)
Inventor
宝珠山 治
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2013032001A1 publication Critical patent/WO2013032001A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Definitions

  • the present invention relates to a technique for suppressing echo in voice.
  • Patent Document 1 a technique for suppressing echo as shown in Patent Document 1 is known.
  • the technique of Patent Literature 1 generates a pseudo linear echo from an output audio signal (far end signal) using an adaptive filter, thereby suppressing a linear echo component in an input audio signal and further suppressing a nonlinear echo component.
  • a non-linear echo mixed in the input audio signal is estimated using a pseudo linear echo, so that a desired audio signal is extracted from the input audio signal relatively clearly.
  • an apparatus provides: Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice; Nonlinear echo extraction means for extracting a nonlinear echo signal from the second input voice signal output from the second voice input means; A voice signal arriving from the voice output means as seen from the first voice input means and the second voice input means by synthesizing the first input voice signal output from the first voice input means and the nonlinear echo signal.
  • Directivity forming means for forming a directivity such that the sensitivity is low with respect to the direction in which the nonlinear echo component arrives, including.
  • the method according to the present invention comprises: Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice; A method of controlling a speech processing apparatus comprising: A non-linear echo extraction step of extracting a non-linear echo signal from the second input audio signal output from the second audio input means; A voice signal arriving from the voice output means as seen from the first voice input means and the second voice input means by synthesizing the first input voice signal output from the first voice input means and the nonlinear echo signal.
  • a program according to the present invention provides: Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice; A control program for a voice processing device comprising: A non-linear echo extraction step of extracting a non-linear echo signal from the second input audio signal output from the second audio input means; A voice signal arriving from the voice output means as seen from the first voice input means and the second voice input means by synthesizing the first input voice signal output from the first voice input means and the nonlinear echo signal.
  • the nonlinear echo component can be suppressed without deteriorating the desired voice component mixed in the input voice signal.
  • a speech processing apparatus 100 according to a first embodiment of the present invention will be described with reference to FIG.
  • the speech processing apparatus 100 includes a speech output unit 101, a first speech input unit 102, a second speech input unit 103, a directivity forming unit 104, and a nonlinear echo extraction unit 105.
  • the audio output unit 101 outputs audio based on the output audio signal.
  • the first voice input unit 102 and the second voice input unit 103 input voice.
  • the second audio input unit 103 is provided closer to the audio output unit 101 than the first audio input unit 102.
  • the nonlinear echo extraction unit 105 extracts a nonlinear echo signal from the second input audio signal output from the second audio input unit 103.
  • the directivity forming unit 104 then synthesizes the first input voice signal output from the first voice input unit 102 and the nonlinear echo signal extracted from the nonlinear echo extraction unit 105. As a result, directivity is formed such that the sensitivity is low with respect to the direction in which the nonlinear echo component arrives in the audio signal arriving from the audio output unit 101 when viewed from the first audio input unit 102 and the second audio input unit 103. To do.
  • FIG. 2 is a diagram showing an outline in which the voice processing device according to the present embodiment is mounted on the mobile phone 210. As shown in FIG. 2, a speaker 201 for hands-free call outputs sound, and two microphones 202 and 203 installed at different distances from the speaker 201 input sound. Then, by the audio processing specifically described in FIG.
  • FIG. 3 is a configuration diagram of the speech processing apparatus 300 according to the present embodiment.
  • the sound processing device 300 includes a speaker 201, microphones 202 and 203, a directivity forming unit 304, a pseudo echo generation unit 305, an echo suppression unit 306, and a nonlinear echo extraction unit 307.
  • the nonlinear echo extraction unit 307 of the second embodiment includes an adaptive filter 371 and a subtracter 372.
  • the adaptive filter 371 generates a pseudo linear echo from the far end signal.
  • the function of the adaptive filter 371 is desirably the same as that of the adaptive filter 351.
  • the subtracter 372 subtracts the pseudo linear echo generated by the adaptive filter 371 from the second input audio signal obtained by the microphone 203.
  • the directivity forming unit 304 of the second embodiment includes a delay unit 341, an adaptive filter 342, and a subtracter 343.
  • the delay unit 341 delays the first input audio signal input from the microphone 202.
  • the adaptive filter 342 receives the nonlinear echo component extracted from the second input speech signal from the microphone 203, and generates a pseudo nonlinear echo corresponding to the nonlinear echo component mixed in the first input speech signal.
  • the subtracter 343 subtracts the output of the adaptive filter 342 from the output of the delay unit 341. As a result, it is possible to form directivity that lowers the sensitivity with respect to the direction in which the nonlinear echo component (distortion component) of the audio signal output from the speaker 201 arrives.
  • the pseudo echo generation unit 305 includes an adaptive filter 351 that generates pseudo linear echo y (k) that is estimated to be mixed in the voice input by the microphone 202.
  • the echo suppression unit 306 includes a subtractor 361 and a nonlinear echo suppression unit 362 that suppress the linear echo mixed in the output from the directivity forming unit 304 using the pseudo linear echo y (k).
  • the nonlinear echo suppression unit 362 generates a pseudo nonlinear echo using the pseudo linear echo generated by the pseudo echo generation unit 305. Furthermore, the nonlinear echo suppression unit 362 suppresses the nonlinear echo component in the residual signal d (k) output from the subtractor 361 using the pseudo nonlinear echo.
  • the directivity can be formed by the two microphones to effectively attenuate the nonlinear echo, and the near-end voice can be sufficiently left.
  • the nonlinear echo suppression unit 362 includes fast Fourier transform units (FFT) 401 and 402, a spectrum amplitude estimation unit 403, a spectrum flooring unit 404, a spectrum gain calculation unit 405, and an inverse fast Fourier transform unit (IFFT) 406. Is provided.
  • FFT fast Fourier transform units
  • IFFT inverse fast Fourier transform unit
  • FFT Fast Fourier transform units
  • a spectrum amplitude estimation unit 403, a spectrum flooring unit 404, and a spectrum gain calculation unit 405 are prepared for each frequency component.
  • the inverse fast Fourier transform unit (IFFT) 414 integrates the amplitude spectrum derived for each frequency component with the corresponding phase, performs inverse fast Fourier transform, and outputs the time-domain output signal zi (k), that is, the voice to be sent to the other party. Re-synthesize to waveform. Linear echo and nonlinear echo are completely different waveforms. However. Looking at the spectrum amplitude for each frequency, when the quasi-linear echo is large, the non-linear echo also tends to be large, and the amplitude is correlated. That is, the amount of non-linear echo can be estimated based on the quasi-linear echo.
  • IFFT inverse fast Fourier transform unit
  • the spectrum amplitude estimation unit 403 estimates the spectrum amplitude of a desired audio signal based on the estimated amount of nonlinear echo.
  • the spectrum flooring unit 404 adds a flooring process so that the estimation error does not become subjectively unpleasant. For example, when the estimated spectral amplitude of the audio signal is excessively small and lower than the spectral amplitude of the background noise, the signal level fluctuates depending on the presence or absence of an echo, causing a sense of discomfort.
  • the spectrum flooring unit 404 reduces the level fluctuation by estimating the background noise level and setting it as the lower limit of the estimated spectrum amplitude.
  • the spectrum gain calculation unit 405 does not subtract the estimated non-linear echo, but multiplies the gain so that the amplitude becomes the subtracted amplitude in order to eliminate the echo. By performing smoothing to prevent sudden changes in gain, it is possible to suppress intermittent changes in residual echo.
  • the internal configuration of the spectrum amplitude estimation unit 403, the spectrum flooring unit 404, and the spectrum gain calculation unit 405 will be described using mathematical expressions.
  • the residual signal d (k) input to the nonlinear echo suppression unit 362 is the sum of the near-end signal s (k) and the residual nonlinear echo q (k).
  • d (k) s (k) + q (k) (1)
  • the frequency domain focusing on the nonlinear component is considered.
  • the expression (1) is converted into the frequency domain and becomes the following expression.
  • D (m) S (m) + Q (m) (2)
  • m is a frame number
  • vectors D (m), S (m), and Q (m) are expressions obtained by converting d (k), s (k), and q (k) into the frequency domain.
  • Si (m) Di (m) ⁇ Qi (m) (3) Since the adaptive filter 351 and the subtractor 361 perform correlation removal, there is almost no correlation between Di (m) and Yi (m). Therefore, by taking the root mean square of equation (3) with subtractor 436, Is obtained. Is derived from Di (m) using the absolute value circuit 431 and the averaging circuit 433.
  • is the regression coefficient ai and the average echo replica
  • the product can be modeled as follows. Therefore, the average echo replica is obtained from Yi (m) using the absolute value circuit 432 and the average circuit 434. Then, the multiplication unit 435 is used to further multiply the regression coefficient ai.
  • the regression coefficient ai is a regression coefficient indicating a correlation between
  • Expression (3) is an additive model widely used in noise suppression.
  • the spectrum shaping in FIG. 4 takes a spectrum multiplication type configuration that is less likely to cause unpleasant musical noise due to noise suppression.
  • is obtained as the product of the spectral gain Gi (m) and the residual signal
  • Is obtained.
  • Estimated amplitude because model is not elaborate Has errors that cannot be ignored. If the error is large and oversubtraction occurs, a high-frequency component is reduced or a sense of modulation occurs in the near-end signal. In particular, when the near-end signal is steady like air-conditioning sound, the sense of modulation is unpleasant. In order to subjectively reduce this modulation feeling, flooring on the spectrum is used in the flooring unit 404.
  • the averaging circuit 441 estimates the steady component
  • the inverse fast Fourier transform unit 406 performs inverse Fourier transform on the amplitude
  • ⁇ Summary of Second Embodiment >> According to the present embodiment, linear echoes and nonlinear echoes can be suppressed very effectively with the above configuration.
  • the directivity forming unit 304 cancels a part of the nonlinear echo (511), and further cancels the linear echo by the adaptive filter 351 (512).
  • the nonlinear echo suppression unit 362 suppresses the nonlinear echo (513).
  • the speech processing apparatus 600 of the third embodiment mainly cancels the non-linear echo by the directivity forming unit 604 (521), and further uses the non-linear adaptive filter 351.
  • the linear echo and the non-linear echo are canceled (522), and the non-linear echo is suppressed by the non-linear echo suppressing unit 362 (523).
  • a specific configuration of the speech processing apparatus 600 according to the third embodiment will be described with reference to FIG. The difference from the second embodiment is that a nonlinear echo extraction unit 607 including a nonlinear adaptive filter 671 and a pseudo echo generation unit 605 including a nonlinear adaptive filter 651 are employed.
  • the pseudo echo generation unit 605 and the echo suppression unit 306 can effectively suppress nonlinear echoes in addition to linear echoes. Therefore, the directivity forming unit 304 can be concentrated on the elimination of nonlinear echo components that cannot be handled by the nonlinear adaptive filter 651. Therefore, the nonlinear echo extraction unit 607 extracts nonlinear echoes that cannot be handled by the nonlinear adaptive filter 671. According to the present embodiment, with the above configuration, linear echoes and nonlinear echoes can be suppressed more effectively than in the second embodiment. (Fourth embodiment) Next, a speech processing apparatus 700 according to the fourth embodiment of the present invention will be described with reference to FIG.
  • the sound processing apparatus 700 according to the fourth embodiment is different from the third embodiment in that a directivity forming unit 704 is provided instead of the directivity forming unit 604. Since other configurations and operations are the same as those of the third embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the directivity forming unit 704 includes an echo suppression unit 745 that suppresses the linear echo component of the input audio signal from the microphone 202.
  • the echo suppression unit 745 includes an adaptive filter 792 that generates a pseudo linear echo from the far-end signal, and a subtractor 791 that subtracts the pseudo linear echo from the input voice signal from the microphone 202.
  • the adaptive filter 342 generates a pseudo echo using the suppressed input speech signal output from the linear echo suppression unit 644.
  • the linear echo component of the input audio signal from the microphone 202 is suppressed by the echo suppression unit 745 and then delayed by the delay unit 341 to obtain a delayed signal.
  • the subtracter 343 subtracts the nonlinear echo component from the delayed signal obtained by delaying the input audio signal from the microphone 202 by the delay unit 341.
  • the description has been made so that the direction in which the nonlinear echo component arrives is clear, but there is a case where there is actually no clear direction.
  • the nonlinear echo suppression unit 362 included in the echo suppression unit 806 has the same configuration as that described with reference to FIG. 4, but the pseudo echo y (k) as the input signal is output from the adaptive filter 792. It is different in diverting. That is, the echo suppression unit 745 suppresses the linear echo component of the first input voice signal using the pseudo echo derived from the far-end signal, and the echo suppression unit 806 determines the pseudo echo guided by the echo suppression unit 745. And echo suppression processing is performed. According to the present embodiment, echo suppression similar to that of the fourth embodiment can be achieved with a simpler configuration.
  • the speech processing apparatus 900 according to the sixth embodiment is different from the fifth embodiment in that it includes a pseudo echo generation unit 905. Since other configurations and operations are the same as those of the fifth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the nonlinear echo suppression unit 362 included in the echo suppression unit 806 has the same configuration as that described with reference to FIG. 4, but the pseudo echo y (k) as the input signal is output from the pseudo echo generation unit 905. Use output.
  • the pseudo echo generation unit 905 delays the pseudo linear echo obtained by the adaptive filter 792, and subtracts the pseudo non-linear echo obtained by the non-linear adaptive filter 671 through the non-linear adaptive filter 951 by the subtracter 953. To do. As a result, a new pseudo echo is derived and sent to the nonlinear echo suppression unit 362.
  • the echo suppression unit 745 suppresses the linear echo component of the input audio signal from the microphone 202 using the pseudo echo derived from the far-end signal.
  • the echo suppression unit 806 performs echo suppression processing using a new pseudo echo obtained by synthesizing the pseudo echo derived from the echo suppression unit 745. According to the present embodiment, echo suppression similar to that of the fourth embodiment can be achieved. (Seventh embodiment) FIG.
  • the directivity forming units 304, 604, and 704 may further include a control unit 1044 that controls the adaptive filter 342 according to the output of the subtracter 343 and the input to the adaptive filter 342.
  • the control unit 1044 updates the coefficient of the adaptive filter 342 when the input to the adaptive filter 342 is large and the output of the subtracter 343 is small.
  • the coefficient of the adaptive filter 342 is not updated.
  • the directivity forming units 304, 604, and 704 further include a control unit 1144 that controls the adaptive filter 342 by the output of the subtracter 343, the output of the adaptive filter 371, or the output of the nonlinear adaptive filter 671. You may prepare.
  • the control unit 1144 updates the coefficient of the adaptive filter 342 when the pseudo linear echo is large and the output of the subtracter 343 is small. When the pseudo linear echo is small, the coefficient of the adaptive filter 342 is not updated. Thus, by controlling the coefficient update of the adaptive filter, the directivity can be formed more effectively.
  • the echo suppression unit 1206 inputs the signal before subtraction, not the signal after subtraction in the subtractor 361, to the nonlinear echo suppression unit 362.
  • the subtractor 361 in the echo suppression unit 1206 cancels the linear echo mixed in the output from the directivity forming unit, using the pseudo linear echo generated by the adaptive filter 351.
  • the nonlinear echo suppression unit 362 in the echo suppression unit 1206 generates a pseudo nonlinear echo using the pseudo linear echo, and uses the pseudo nonlinear echo together with the nonlinear echo mixed in the output from the directivity forming unit. Suppresses linear echo. Also in this embodiment, it is possible to suppress nonlinear echoes as in the second to sixth embodiments described above.
  • audio signals are input from the microphones 202 and 203 using the input unit 1301 and stored in the memory 1304 (S1301).
  • a nonlinear echo signal is extracted from the second input audio signal output from the microphone 203 (S1303).
  • the input audio signal of the microphone 202 is delayed and synthesized with respect to the result of the processing in step S1303 (S1305). Directivity with two microphones is formed by the processing of steps S1303 and S1305.
  • the directivity is formed such that the sensitivity is low with respect to the direction in which the nonlinear echo component arrives in the audio signal coming from the speaker 201.
  • the voice in this specification represents general signals in the voice band such as an environmental sound and an animal voice in addition to a human voice.
  • the audio output unit 101 and the second audio input units 102 and 103 have been described as being provided in the audio processing apparatus 100. However, the present invention is not limited to this.
  • a wireless headset (not shown) is provided with the functions of the audio output unit 101 and the audio input units 102 and 103, and the functions of the audio output unit 101 and the audio input units 102 and 103 are removed from the audio processing apparatus 100. It can also be applied to.
  • an audio signal between the wireless headset and the audio processing device 100 can be transmitted by mounting a short-range wireless communication function such as Bluetooth (registered trademark) on the wireless headset and the audio processing device.
  • a short-range wireless communication function such as Bluetooth (registered trademark)
  • One of the audio output unit 101 (or speaker 201) or the audio input units 102 and 103 (microphones 202 and 203) may be separated from the audio processing apparatus.
  • the audio processing apparatus may separate the audio processing apparatus.
  • Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice; Nonlinear echo extraction means for extracting a nonlinear echo signal from the second input voice signal output from the second voice input means; The non-linear echo signal is synthesized with the first input sound signal output from the first sound input means, and arrives from the sound output means as viewed from the first sound input means and the second sound input means.
  • Directivity forming means for forming directivity such that the sensitivity is low with respect to the direction in which the nonlinear echo component arrives in the audio signal;
  • a speech processing apparatus including: (Appendix 2)
  • the nonlinear echo extraction means includes An adaptive filter that generates a quasi-linear echo component corresponding to a linear echo component mixed in the second input audio signal based on the output audio signal; A subtractor for subtracting the pseudo-linear echo component from the second input audio signal;
  • the nonlinear echo extraction means includes An adaptive filter that generates a pseudo echo component corresponding to a linear echo component and a nonlinear echo component mixed in the second input audio signal based on the output audio signal; A subtractor for subtracting the pseudo echo component from the second input audio signal;
  • the directivity forming means includes: A delay unit for delaying the first input audio signal; An adaptive filter that generates, from the
  • the speech processing apparatus includes: Additional notes further comprising control means for controlling the adaptive filter included in the directivity forming means based on the output of the subtractor included in the directivity forming means and the output of the adaptive filter included in the nonlinear echo extraction means. 5.
  • the voice processing device according to 4.
  • (Appendix 7) Pseudo echo generation means for generating a pseudo echo corresponding to an echo component mixed in the voice input by the first voice input means due to the voice output means from the output voice signal; Echo suppression means for applying echo suppression processing to the signal output from the directivity forming means using a pseudo echo derived from the output audio signal;
  • the speech processing apparatus according to any one of appendices 1 to 6, further comprising: (Appendix 8) The speech processing apparatus according to appendix 7, wherein the pseudo echo generation means includes an adaptive filter that generates a pseudo nonlinear echo estimated to be mixed in the speech input by the first speech input means.
  • Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice; A method of controlling a speech processing apparatus comprising: A non-linear echo extraction step of extracting a non-linear echo signal from the second input audio signal output from the second audio input means; The nonlinear echo signal is synthesized with the first input sound signal output from the first sound input means, and arrives from the sound output means as viewed from the first sound input means and the second sound input means.
  • a method for controlling a speech processing apparatus including: (Appendix 10) Audio output means for outputting audio based on the output audio signal; First voice input means for inputting voice; A second voice input means that is provided closer to the voice output means than the first voice input means and inputs voice;
  • a control program for a voice processing device comprising: A non-linear echo extraction step of extracting a non-linear echo signal from the second input audio signal output from the second audio input means; The nonlinear echo signal is synthesized with the first input sound signal output from the first sound input means, and arrives from the sound output means as viewed from the first sound input means and the second sound input means.
  • a control program for a voice processing apparatus including: While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-186625 for which it applied on August 29, 2011, and takes in those the indications of all here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

 入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧する。 出力音声信号に基づいて音声を出力する音声出力手段と、音声を入力する第1音声入力手段と、第1音声入力手段よりも音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、第2音声 入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、第1音声入力手段から出力された第1入力音声信号と非線形エコー信号を合成して、第1音声入力手段および第2音声入力手段から見て音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、を含む。

Description

音声処理装置、その制御方法および制御プログラム
 本発明は、音声中のエコーを抑圧する技術に関する。
 上記技術分野において、特許文献1に示すようなエコーを抑圧する技術が知られている。特許文献1の技術は、適応フィルタを用いて出力音声信号(遠端信号)から擬似線形エコーを生成することで、入力音声信号中の線形エコー成分を抑圧し、さらに非線形エコー成分を抑圧している。特に、入力音声信号に混在する非線形エコーを、擬似線形エコーを用いて推定することにより、比較的クリアに入力音声信号から所望の音声信号を抽出している。
国際公開WO09−051197号公報 特開2008−005347号公報 特開06−083372号公報 特開平5−129989号公報 特開2010−183434号公報
 しかしながら、特許文献1に示す技術では、入力音声信号中に非線形エコー成分が混在している場合には、所望音声成分を劣化させずに非線形エコー成分を抑圧することができない場合があった。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係る装置は、
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
 前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
 を含む。
 上記目的を達成するため、本発明に係る方法は、
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 を備えた音声処理装置の制御方法であって、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
 前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
 を含む。
 上記目的を達成するため、本発明に係るプログラムは、
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 を備えた音声処理装置の制御プログラムであって、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
 前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
 を含む。
 本発明によれば、入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望音声成分を劣化させずに非線形エコー成分を抑圧することができる。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る音声処理装置の効果を説明する図である。 本発明の第2実施形態に係る音声処理装置の構成を説明する図である。 本発明の第2実施形態に係る非線形エコー抑圧部の構成を説明する図である。 本発明の第3実施形態に係る音声処理装置の効果を説明する図である。 本発明の第3実施形態に係る音声処理装置の構成を説明する図である。 本発明の第4実施形態に係る音声処理装置の構成を説明する図である。 本発明の第5実施形態に係る音声処理装置の構成を説明する図である。 本発明の第6実施形態に係る音声処理装置の構成を説明する図である。 本発明の第7実施形態に係る音声処理装置の構成を説明する図である。 本発明の第8実施形態に係る音声処理装置の構成を説明する図である。 本発明の第9実施形態に係る音声処理装置の構成を説明する図である。 本発明のその他の実施形態に係る音声処理装置の構成を説明する図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 (第1実施形態)
 本発明の第1実施形態に係る音声処理装置100について、図1を用いて説明する。図1に示すように、音声処理装置100は、音声出力部101と第1音声入力部102と第2音声入力部103と指向性形成部104と非線形エコー抽出部105とを含む。
 音声出力部101は、出力音声信号に基づいて音声を出力する。第1音声入力部102および第2音声入力部103は、音声を入力する。第2音声入力部103は、第1音声入力部102よりも音声出力部101に近接して設けられる。非線形エコー抽出部105は、第2音声入力部103から出力された第2入力音声信号から非線形エコー信号を抽出する。
 そして、指向性形成部104は、第1音声入力部102から出力された第1入力音声信号と非線形エコー抽出部105から抽出した非線形エコー信号を合成する。それにより、第1音声入力部102および第2音声入力部103から見て音声出力部101から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する。
 以上の構成により、入力音声信号中に非線形エコー成分が混在している場合でも、入力音声信号中に混合された所望の音声成分を劣化させずに非線形エコー成分を抑圧することができる。
 (第2実施形態)
 本発明の第2実施形態に係る音声処理装置について、図2乃至図4を用いて説明する。
 図2は、本実施形態に係る音声処理装置を携帯電話210に実装した概要を示す図である。図2に示すように、ハンズフリー通話用のスピーカ201が、音声を出力し、スピーカ201から異なる距離に設置された2つのマイク202、203が、音声を入力する。そして、図3以降で具体的に説明する音声処理により、2つのマイク202、203から見て、スピーカ201から出力された音声信号のうち非線形エコー成分(歪み成分)が到来する方向に対して感度が低くなるような指向性を形成する。言い換えれば、指向性のヌル点がマイク202、203から見て非線形エコー成分が到来する方向に位置するように指向性を形成する。これにより、ユーザ230の話し声である近端音声240を劣化させずに、スピーカ201からマイク202、203に漏れ込む非線形エコー成分を抑圧することが可能となる。
 《全体構成》
 図3は、本実施形態に係る音声処理装置300の構成図である。音声処理装置300は、スピーカ201、マイク202、203、指向性形成部304、擬似エコー生成部305、エコー抑圧部306および非線形エコー抽出部307を備えている。
 第2実施形態の非線形エコー抽出部307は、適応フィルタ371と減算器372とを含む。適応フィルタ371は、遠端信号から、擬似線形エコーを生成する。適応フィルタ371の機能は、適応フィルタ351と同様であることが望ましい。そして、減算器372は、マイク203で得た第2入力音声信号から、適応フィルタ371で生成された擬似線形エコーを減算する。
 第2実施形態の指向性形成部304は、遅延部341と適応フィルタ342と減算器343とを含む。遅延部341は、マイク202から入力した第1入力音声信号を遅延させる。適応フィルタ342は、マイク203からの第2入力音声信号から抽出された非線形エコー成分を入力して、第1入力音声信号に混在している非線形エコー成分に対応する擬似非線形エコーを生成する。減算器343は、遅延部341の出力から適応フィルタ342の出力を減算する。
 これにより、スピーカ201から出力された音声信号のうち非線形エコー成分(歪み成分)が到来する方向に対して感度が低くなるような指向性を形成できる。
 擬似エコー生成部305は、マイク202が入力した音声に混在すると推定される擬似線形エコーy(k)を生成する適応フィルタ351を含む。
 エコー抑圧部306は、擬似線形エコーy(k)を用いて、指向性形成部304からの出力に混在する線形エコーを抑圧する減算器361と、非線形エコー抑圧部362とを含む。非線形エコー抑圧部362は、擬似エコー生成部305が生成した擬似線形エコーを用いて擬似非線形エコーを生成する。さらに、非線形エコー抑圧部362は、その擬似非線形エコーを用いて、減算器361から出力された残差信号d(k)中の非線形エコー成分を抑圧する。
 以上の構成によれば、2つのマイクで指向性を形成して効果的に非線形エコーを減衰させることができ、かつ近端音声を十分に残すことができる。
 《非線形エコー抑圧部の構成》
 次に図4を用いて非線形エコー抑圧部362の構成について説明する。非線形エコー抑圧部362は、高速フーリエ変換部(FFT)401、402と、スペクトル振幅推定部403と、スペクトルフロアリング部404と、スペクトル利得計算部405と、逆高速フーリエ変換部(IFFT)406とを備える。
 高速フーリエ変換部(FFT)401、402は、それぞれ、残差信号d(k)と擬似線形エコーy(k)とを周波数スペクトルに変換する。スペクトル振幅推定部403、スペクトルフロアリング部404、および、スペクトル利得計算部405は、周波数成分ごとに用意されている。逆高速フーリエ変換部(IFFT)414は、周波数成分ごとに導き出された振幅スペクトルを対応する位相と統合して逆高速フーリエ変換し、時間領域の出力信号zi(k)、つまり通話先に送る音声波形に再合成する。
 線形エコーと非線形エコーはまったく違う波形である。しかし。周波数ごとのスペクトル振幅を見ると、擬似線形エコーが大きい時は非線形エコーも大きくなる傾向があり、振幅に相関が見られる。つまり、擬似線形エコーに基づいて、非線形エコーの量を推定することができる。
 そこで、スペクトル振幅推定部403は、推定した非線形エコーの量に基づいて、所望の音声信号のスペクトル振幅を推定する。推定された音声信号のスペクトル振幅には誤差があるが、その推定誤差が主観的に不快にならないようスペクトルフロアリング部404でフロアリング処理を加えている。例えば、音声信号の推定スペクトル振幅が過剰に小さく、背景雑音のスペクトル振幅を下回る場合、エコーの有無で信号レベルが変動し、違和感を生じさせる。その対策としてスペクトルフロアリング部404では、背景雑音レベルを推定して、推定スペクトル振幅の下限とすることにより、レベル変動を低減する。
 一方、推定誤差により推定スペクトル振幅にエコーが大きく残留してしまった場合、残留したエコーは断続的かつ急激に変化して、ミュージカルノイズと呼ばれる、人工的な付加音となる。その対策としてスペクトル利得計算部405では、エコーを消去するために、推定した非線形エコーを減算するのではなく、減算された程度の振幅になるように利得を乗じる。利得の急激な変化を防止する平滑化を行うことにより、残留エコーの断続的変化を抑えることができる。
 以下、スペクトル振幅推定部403、スペクトルフロアリング部404、スペクトル利得計算部405の内部構成について数式を用いて説明する。
 非線形エコー抑圧部362に入力される残差信号d(k)は、近端信号s(k)と、残留非線形エコーq(k)の和である。
 d(k) = s(k) + q(k)・・・(1)
 適応フィルタ351と減算器361によって線形エコーがほぼ完全に除去されていると仮定して、非線形成分に着目した周波数領域を考える。FFT401、402によって、式(1)は周波数領域に変換され、以下の式となる。
 D(m) = S(m) + Q(m)・・・(2)
ここでmは、フレーム番号、ベクトルD(m),S(m),Q(m)は、d(k),s(k),q(k)を周波数領域に変換した表現である。各周波数を独立に考えて式(2)を変形すると、i番目の周波数では、以下の式となる。
 Si(m)= Di(m) − Qi(m)・・・(3)
 適応フィルタ351および減算器361は、相関除去を行うため、Di(m)とYi(m)の間にほとんど相関はない。したがって、減算器436で式(3)の二乗平均を取ることにより、以下のように
Figure JPOXMLDOC01-appb-I000001
が得られる。
Figure JPOXMLDOC01-appb-I000002
は、絶対値化回路431と平均化回路433とを用いてDi(m)から導かれる。一方、非線形エコー|Qi(m)|は、回帰係数aiと平均エコーレプリカ
Figure JPOXMLDOC01-appb-I000003
の積として以下の様にモデル化できる。
Figure JPOXMLDOC01-appb-I000004
 そこで、絶対値化回路432と平均化回路434とを用いてYi(m)から平均エコーレプリカ
Figure JPOXMLDOC01-appb-I000005
を導き、積算部435を用いてさらに回帰係数aiを乗算する。ここで回帰係数aiは、|Qi(m)|と|Yi(m)|との相関を示す回帰係数である。このモデルは、|Qi(m)|と|Yi(m)|との間に有意な相関があるという実験結果に基づいている。
 式(3)は、ノイズ抑圧で広く用いられている加法型のモデルである。図4のスペクトル整形では、ノイズ抑圧で、不快なミュージカルノイズを生じにくい、スペクトル乗算型の構成をとる。スペクトル乗算を用いて、出力信号の振幅|Zi(m)|を、スペクトルゲインGi(m)と残差信号|Di(m)|の積として得る。
Figure JPOXMLDOC01-appb-I000006
 式(6)の平方根をとり、式(4)の
Figure JPOXMLDOC01-appb-I000007

Figure JPOXMLDOC01-appb-I000008
を代入することにより、以下のように|Si(m)|の推定値
Figure JPOXMLDOC01-appb-I000009
が得られる。但し、
Figure JPOXMLDOC01-appb-I000010
 モデルが精緻ではないため、推定した振幅
Figure JPOXMLDOC01-appb-I000011
には無視できない誤差がある。誤差が大きく、オーバーサブトラクションがおきると、近端信号において、高域成分の減少、あるいは変調感を生じることになる。特に、近端信号が空調音のよう定常である場合、変調感は不快である。この変調感を主観的に低減するために、フロアリング部404でスペクトル上のフロアリングを用いる。
 フロアリングでは、まず、平均化回路441で近端信号Di(m)の定常成分|Ni(m)|を推定し、最大値選択回路442でこれを下限とするフロアリングを行う。その結果、よりよい近端信号の振幅推定値
Figure JPOXMLDOC01-appb-I000012
が得られる。その後、除算器451で、
Figure JPOXMLDOC01-appb-I000013

Figure JPOXMLDOC01-appb-I000014
の比を求め、さらに平均化回路452で平均化してスペクトルゲイン
Figure JPOXMLDOC01-appb-I000015
を得る。
 最後に数式(5)に示したように、積算器453でスペクトルゲインGi(m)と残差信号|Di(m)|の積を求めることで振幅|Zi(m)|を出力信号として得ることができる。逆高速フーリエ変換部406は、振幅|Zi(m)|を逆フーリエ変換し、非線形のエコーが効果的に抑圧された音声信号zi(k)を出力する。
 《第2実施形態のまとめ》
 本実施形態によれば、以上の構成により、非常に効果的に線形エコーおよび非線形エコーを抑圧することができる。
 (第3実施形態)
 図5の上段501に示すように、上記第2実施形態は、指向性形成部304によって、非線形エコーの一部をキャンセルし(511)、さらに、適応フィルタ351で線形エコーをキャンセルし(512)、非線形エコー抑圧部362で非線形エコーを抑圧した(513)。
 これに対し、図5の下段502に示すように、第3実施形態の音声処理装置600は、指向性形成部604によって、主に非線形エコーをキャンセルし(521)、さらに、非線形適応フィルタ351で線形エコーおよび非線形エコーをキャンセルし(522)、非線形エコー抑圧部362で非線形エコーを抑圧する(523)。
 第3実施形態に係る音声処理装置600の具体的な構成について、図6を用いて説明する。第2実施形態との相違は、非線形適応フィルタ671を含む非線形エコー抽出部607と、非線形適応フィルタ651を含む擬似エコー生成部605とを採用した点にある。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 非線形適応フィルタについては、以下の文献に詳細な説明がある。
 ・F.Kuech,A.Mitnacht,W.Kellermann,「Nonlinear acoustic echo cancellation using adaptive orthogonalized power filters」in IEEE International Conferenceon Acoustics,Speech,and Signal Processing,2005.Proceedings
 ・A.Stenger,L.Trautmann,R.Rabenstein,「Nonlinear acoustic echo cancellation with 2nd order adaptive Volterra filters」in IEEE International Conferenceon Acoustics,Speech,and Signal Processing,1999.ICASSP ’99.Proceedings,1999
 ・KG Buttle−US Patent 5,148,427,1992。
 非線形適応フィルタ651を採用することにより、擬似エコー生成部605およびエコー抑圧部306は、線形エコーに加え、非線形エコーをも効果的に抑圧可能となる。そこで、指向性形成部304を、非線形適応フィルタ651で対応できない非線形エコー成分の排除に集中させることが可能となる。そこで、非線形エコー抽出部607では、非線形適応フィルタ671で対応できない非線形エコーを抽出する。
 本実施形態によれば、以上の構成により、第2実施形態以上に効果的に線形エコーおよび非線形エコーを抑圧することができる。
 (第4実施形態)
 次に本発明の第4実施形態に係る音声処理装置700について、図7を用いて説明する。第4実施形態に係る音声処理装置700は、上記第3実施形態と比べると、指向性形成部604の代わりに、指向性形成部704を備えた点で相違する。その他の構成および動作は、第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 指向性形成部704は、指向性形成部604の構成に加えて、マイク202からの入力音声信号の線形エコー成分を抑圧するエコー抑圧部745を含む。
 エコー抑圧部745は、遠端信号から擬似線形エコーを生成する適応フィルタ792と、マイク202からの入力音声信号からその擬似線形エコーを減算する減算器791とを備えている。
 適応フィルタ342は、線形エコー抑圧部644から出力された抑圧済の入力音声信号を用いて擬似エコーを生成する。そして、マイク202からの入力音声信号の線形エコー成分をエコー抑圧部745で抑圧した後に遅延部341で遅延させて遅延信号とする。
 減算器343は、マイク202からの入力音声信号を遅延部341で遅延させた遅延信号から、非線形エコー成分を減算する。これにより、スピーカ201から出力された音声信号のうち非線形エコー成分(歪み成分)が到来する方向に対して感度が低くなるような指向性を形成できる。
 ここでは分かりやすく、非線形エコー成分が到来する方向が明瞭であるように説明したが、実際には明瞭な方向がない場合もある。その場合も、非線形エコー成分(歪成分)に対する感度が低くなるような指向性が形成される。
 本実施形態によれば、以上の構成により、上記第3実施形態の効果に加えて、さらに効果的に線形エコーおよび非線形エコーを抑圧することができる。なお、図7、図8、図9において、適応フィルタ792を非線形適応フィルタに置換しても同様の効果を奏することができる。
 (第5実施形態)
 次に本発明の第5実施形態に係る音声処理装置800について、図8を用いて説明する。第5実施形態に係る音声処理装置800は、上記第4実施形態と比べると、擬似エコー生成部305を有していない点で相違する。その他の構成および動作は、第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 エコー抑圧部806に含まれる非線形エコー抑圧部362は、図4を用いて説明したものと同じ構成であるが、その入力信号としての、擬似エコーy(k)を、適応フィルタ792からの出力を流用する点で異なる。つまり、エコー抑圧部745は、遠端信号から導いた擬似エコーを用いて、第1入力音声信号の線形エコー成分を抑圧し、エコー抑圧部806は、エコー抑圧部745において導かれた擬似エコーを用いて、エコー抑圧処理を施す。
 本実施形態によれば、より単純な構成で、第4実施形態と同様のエコー抑圧を達成することができる。
 (第6実施形態)
 次に本発明の第6実施形態に係る音声処理装置900について、図9を用いて説明する。第6実施形態に係る音声処理装置900は、上記第5実施形態と比べると、擬似エコー生成部905を有する点で相違する。その他の構成および動作は、第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 エコー抑圧部806に含まれる非線形エコー抑圧部362は、図4を用いて説明したものと同じ構成であるが、その入力信号としての、擬似エコーy(k)として、擬似エコー生成部905からの出力を用いる。
 擬似エコー生成部905は、適応フィルタ792で求めた擬似線形エコーを遅延させ、そこから、非線形適応フィルタ671で求めた擬似非線形エコーをさらに非線形適応フィルタ951に通したものを、減算器953で減算する。これによって新たな擬似エコーを導き出し、非線形エコー抑圧部362に送る。
 エコー抑圧部745は、遠端信号から導いた擬似エコーを用いて、マイク202からの入力音声信号の線形エコー成分を抑圧する。エコー抑圧部806は、エコー抑圧部745において導かれた擬似エコーを合成した新たな擬似エコーを用いて、エコー抑圧処理を施す。本実施形態によれば、第4実施形態と同様のエコー抑圧を達成することができる。
 (第7実施形態)
 図10は、上記第2~第6実施形態の変形構成例としての第7実施形態について説明するための図である。図10に示すように、指向性形成部304、604、704は、減算器343の出力および適応フィルタ342への入力によって適応フィルタ342を制御する制御部1044をさらに備えてもよい。制御部1044は、適応フィルタ342への入力が大きく減算器343の出力が小さい場合には、適応フィルタ342の係数を更新する。また、適応フィルタ342への入力が小さい場合には、適応フィルタ342の係数を更新しない。
 このように適応フィルタの係数更新を制御することにより、効果的に指向性を形成することが可能となる。
 (第8実施形態)
 図11は、上記第2~第6実施形態の変形構成例としての第8実施形態について説明するための図である。図11に示すように、指向性形成部304、604、704は、減算器343の出力、適応フィルタ371の出力、または、非線形適応フィルタ671の出力によって適応フィルタ342を制御する制御部1144をさらに備えてもよい。制御部1144は、擬似線形エコーが大きく減算器343の出力が小さい場合には、適応フィルタ342の係数を更新する。また、擬似線形エコーが小さい場合には、適応フィルタ342の係数を更新しない。
 このように適応フィルタの係数更新を制御することにより、より効果的に指向性を形成することが可能となる。
 (第9実施形態)
 上記第2~第6実施形態において、エコー抑圧部306に代えて図12に示すエコー抑圧部1206を用いてもよい。エコー抑圧部1206は、非線形エコー抑圧部362に対して、減算器361での減算後の信号ではなく、減算前の信号を入力する。
 エコー抑圧部1206における減算器361は、適応フィルタ351で生成した擬似線形エコーを用いて、指向性形成部からの出力に混在する線形エコーをキャンセルする。また、エコー抑圧部1206における非線形エコー抑圧部362は、擬似線形エコーを用いて擬似非線形エコーを生成した上で、その擬似非線形エコーを用いて、指向性形成部からの出力に混在する非線形エコーと共に線形エコーを抑圧する。
 本実施形態によっても、上述の第2~第6実施形態と同様に非線形エコーを抑圧することが可能である。
 (他の実施形態)
 以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 以下、一例として、第3実施形態で説明した音声処理をソフトウェアで実現する場合に、コンピュータ1300に設けられたCPU1302で実行される処理の流れを図13を用いて説明する。まず、入力部1301を用いて、マイク202、203から音声信号を入力してそれぞれメモリ1304に格納する(S1301)。次に、マイク203から出力された第2入力音声信号から非線形エコー信号を抽出する(S1303)。さらに、ステップS1303での処理の結果に対し、マイク202の入力音声信号を遅延させて合成する(S1305)。ステップS1303、S1305の処理により2マイクでの指向性が形成される。すなわちスピーカ201から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性が形成される。
 以上の処理により、第2実施形態と同様の効果を得ることができる。
 なお、本明細書における音声とは、人間の声の他に環境音や動物の声など、音声帯域の信号一般を表すものである。
 また、第1実施形態において、音声出力部101、第2音声入力部102、103を音声処理装置100に設けた例で説明したが、これに限られるものではない。例えば、無線ヘッドセット(図示せず)に音声出力部101と音声入力部102、103の機能を持たせ、音声処理装置100から音声出力部101と音声入力部102、103の機能を外した形態にも適用できる。この場合、無線ヘッドセットと音声処理装置100の間の音声信号は、Bluetooth(登録商標)などの近距離無線の通信機能を無線ヘッドセットおよび音声処理装置に搭載することで伝送可能となる。
 なお、他の実施形態のスピーカ201、マイク202、マイク203も第1実施形態と同様に音声処理装置から離しても適用できることは上記説明から明らかである。
 音声出力部101(又はスピーカ201)、或いは、音声入力部102と103(マイク202、203)の何れかが一方が音声処理装置から離れた形態であってもよい。
 [実施形態の他の表現]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
 前記第1音声入力手段から出力された第1入力音声信号に対し、前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
 を含む音声処理装置。
(付記2)
 前記非線形エコー抽出手段は、
 前記出力音声信号に基づいて、前記第2入力音声信号中に混在している線形エコー成分に対応する擬似線形エコー成分を生成する適応フィルタと、
 前記第2入力音声信号から前記擬似線形エコー成分を減算する減算器と、
 を含む付記1に記載の音声処理装置。
(付記3)
 前記非線形エコー抽出手段は、
 前記出力音声信号に基づいて、前記第2入力音声信号中に混在している線形エコー成分および非線形エコー成分に対応する擬似エコー成分を生成する適応フィルタと、
 前記第2入力音声信号から前記擬似エコー成分を減算する減算器と、
 を含む付記1に記載の音声処理装置。
(付記4)
 前記指向性形成手段は、
 前記第1入力音声信号を遅延させる遅延部と、
 前記第2入力音声信号から、前記第1入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する適応フィルタと、
 前記遅延部の出力から前記擬似エコー成分を減算する減算器と、
 を含む付記1乃至3のいずれか1項に記載の音声処理装置。
(付記5)
 前記指向性形成手段は、
 前記指向性形成手段に含まれる前記減算器の出力および前記指向性形成手段に含まれる前記適応フィルタへの入力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた付記4に記載の音声処理装置。
(付記6)
 前記指向性形成手段は、
 前記指向性形成手段に含まれる前記減算器の出力および前記非線形エコー抽出手段に含まれる前記適応フィルタの出力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた付記4に記載の音声処理装置。
(付記7)
 前記音声出力手段を要因として前記第1音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
 前記指向性形成手段から出力された信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
 をさらに有する付記1乃至6のいずれか1項に記載の音声処理装置。
(付記8)
 前記擬似エコー生成手段は、前記第1音声入力手段が入力した音声に混在すると推定される擬似非線形エコーを生成する適応フィルタを含む付記7に記載の音声処理装置。
(付記9)
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 を備えた音声処理装置の制御方法であって、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
 前記第1音声入力手段から出力された第1入力音声信号に対し、前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
 を含む音声処理装置の制御方法。
(付記10)
 出力音声信号に基づいて音声を出力する音声出力手段と、
 音声を入力する第1音声入力手段と、
 前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
 を備えた音声処理装置の制御プログラムであって、
 前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
 前記第1音声入力手段から出力された第1入力音声信号に対し、前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
 を含む音声処理装置の制御プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
 この出願は、2011年8月29日に出願された日本出願特願2011−186625を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (10)

  1.  出力音声信号に基づいて音声を出力する音声出力手段と、
     音声を入力する第1音声入力手段と、
     前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
     前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出手段と、
     前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成手段と、
     を含む音声処理装置。
  2.  前記非線形エコー抽出手段は、
     前記出力音声信号に基づいて、前記第2入力音声信号中に混在している線形エコー成分に対応する擬似線形エコー成分を生成する適応フィルタと、
     前記第2入力音声信号から前記擬似線形エコー成分を減算する減算器と、
     を含む請求項1に記載の音声処理装置。
  3.  前記非線形エコー抽出手段は、
     前記出力音声信号に基づいて、前記第2入力音声信号中に混在している線形エコー成分および非線形エコー成分に対応する擬似エコー成分を生成する適応フィルタと、
     前記第2入力音声信号から前記擬似エコー成分を減算する減算器と、
     を含む請求項1に記載の音声処理装置。
  4.  前記指向性形成手段は、
     前記第1入力音声信号を遅延させる遅延部と、
     前記第2入力音声信号から、前記第1入力音声信号中に混在しているエコー成分に対応する擬似エコー成分を生成する適応フィルタと、
     前記遅延部の出力から前記擬似エコー成分を減算する減算器と、
     を含む請求項1乃至3のいずれか1項に記載の音声処理装置。
  5.  前記指向性形成手段は、
     前記指向性形成手段に含まれる前記減算器の出力および前記指向性形成手段に含まれる前記適応フィルタへの入力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた請求項4に記載の音声処理装置。
  6.  前記指向性形成手段は、
     前記指向性形成手段に含まれる前記減算器の出力および前記非線形エコー抽出手段に含まれる前記適応フィルタの出力によって、前記指向性形成手段に含まれる前記適応フィルタを制御する制御手段をさらに備えた請求項4に記載の音声処理装置。
  7.  前記音声出力手段を要因として前記第1音声入力手段が入力した音声に混在するエコー成分に対応する擬似エコーを、前記出力音声信号から生成する擬似エコー生成手段と、
     前記指向性形成手段から出力された信号に対し、前記出力音声信号から導いた擬似エコーを用いて、エコー抑圧処理を施すエコー抑圧手段と、
     をさらに有する請求項1乃至6のいずれか1項に記載の音声処理装置。
  8.  前記擬似エコー生成手段は、前記第1音声入力手段が入力した音声に混在すると推定される擬似非線形エコーを生成する適応フィルタを含む請求項7に記載の音声処理装置。
  9.  出力音声信号に基づいて音声を出力する音声出力手段と、
     音声を入力する第1音声入力手段と、
     前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
     を備えた音声処理装置の制御方法であって、
     前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
     前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
     を含む音声処理装置の制御方法。
  10.  出力音声信号に基づいて音声を出力する音声出力手段と、
     音声を入力する第1音声入力手段と、
     前記第1音声入力手段よりも前記音声出力手段に近接して設けられ、音声を入力する第2音声入力手段と、
     を備えた音声処理装置の制御プログラムであって、
     前記第2音声入力手段から出力された第2入力音声信号から非線形エコー信号を抽出する非線形エコー抽出ステップと、
     前記第1音声入力手段から出力された第1入力音声信号と前記非線形エコー信号を合成して、前記第1音声入力手段および前記第2音声入力手段から見て前記音声出力手段から到来する音声信号のうち非線形エコー成分が到来する方向に対して感度が低くなるような指向性を形成する指向性形成ステップと、
     を含む音声処理装置の制御プログラム。
PCT/JP2012/072287 2011-08-29 2012-08-28 音声処理装置、その制御方法および制御プログラム WO2013032001A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011186625 2011-08-29
JP2011-186625 2011-08-29

Publications (1)

Publication Number Publication Date
WO2013032001A1 true WO2013032001A1 (ja) 2013-03-07

Family

ID=47756473

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/072287 WO2013032001A1 (ja) 2011-08-29 2012-08-28 音声処理装置、その制御方法および制御プログラム

Country Status (2)

Country Link
JP (1) JPWO2013032001A1 (ja)
WO (1) WO2013032001A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016518628A (ja) * 2013-05-03 2016-06-23 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチチャネルエコー消去および雑音抑圧
US20220301577A1 (en) * 2019-12-06 2022-09-22 Spreadtrum Communications (Shanghai) Co., Ltd. Echo cancellation method and apparatus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290320A (ja) * 1991-03-19 1992-10-14 Fujitsu Ltd エコーキャンセラ
JPH06152724A (ja) * 1992-10-30 1994-05-31 Sony Corp 通話装置
JP2008263441A (ja) * 2007-04-12 2008-10-30 Matsushita Electric Ind Co Ltd 非線形エコーキャンセラ装置
JP2009212927A (ja) * 2008-03-05 2009-09-17 Yamaha Corp 収音装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04290320A (ja) * 1991-03-19 1992-10-14 Fujitsu Ltd エコーキャンセラ
JPH06152724A (ja) * 1992-10-30 1994-05-31 Sony Corp 通話装置
JP2008263441A (ja) * 2007-04-12 2008-10-30 Matsushita Electric Ind Co Ltd 非線形エコーキャンセラ装置
JP2009212927A (ja) * 2008-03-05 2009-09-17 Yamaha Corp 収音装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016518628A (ja) * 2013-05-03 2016-06-23 クゥアルコム・インコーポレイテッドQualcomm Incorporated マルチチャネルエコー消去および雑音抑圧
US20220301577A1 (en) * 2019-12-06 2022-09-22 Spreadtrum Communications (Shanghai) Co., Ltd. Echo cancellation method and apparatus

Also Published As

Publication number Publication date
JPWO2013032001A1 (ja) 2015-03-23

Similar Documents

Publication Publication Date Title
JP5762956B2 (ja) ヌル処理雑音除去を利用した雑音抑制を提供するシステム及び方法
JP4161628B2 (ja) エコー抑圧方法及び装置
EP3080975B1 (en) Echo cancellation
JP5038143B2 (ja) エコーキャンセル
JP3727258B2 (ja) エコー抑制処理システム
JP4702372B2 (ja) エコー抑圧方法及び装置
US9100736B2 (en) Control of an adaptive feedback cancellation system based on probe signal injection
US20080112568A1 (en) Echo Canceller and Communication Audio Processing Apparatus
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
KR20160055871A (ko) 부 경로를 트레이닝하기 위해 내부 백색 잡음을 적응적으로 형성함으로써 적응형 잡음 소거를 위한 시스템들 및 방법들
CN107017004A (zh) 噪声抑制方法、音频处理芯片、处理模组及蓝牙设备
WO2012153452A1 (ja) エコー消去装置およびエコー検出装置
JPWO2007049643A1 (ja) エコー抑圧方法及び装置
WO2014193874A1 (en) Echo cancellation
JP6160403B2 (ja) エコー抑圧装置及びエコー抑圧プログラム
US11380312B1 (en) Residual echo suppression for keyword detection
JP5422054B2 (ja) 時間領域・周波数領域統合反響消去装置及び方法
KR20040030817A (ko) 통신 시스템, 에코 제거 수단 및 에코 제거 방법
KR20160014709A (ko) 에코 억제
TWI465121B (zh) 利用全方向麥克風改善通話的系統及方法
WO2013032001A1 (ja) 音声処理装置、その制御方法および制御プログラム
JP3756828B2 (ja) 反響消去方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2012157783A1 (ja) 音声処理装置、音声処理方法および音声処理プログラムを記録した記録媒体
JP4345208B2 (ja) 反響及び雑音除去装置
JP6369189B2 (ja) エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12828937

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013531449

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12828937

Country of ref document: EP

Kind code of ref document: A1