WO2012176932A1 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
WO2012176932A1
WO2012176932A1 PCT/JP2012/066449 JP2012066449W WO2012176932A1 WO 2012176932 A1 WO2012176932 A1 WO 2012176932A1 JP 2012066449 W JP2012066449 W JP 2012066449W WO 2012176932 A1 WO2012176932 A1 WO 2012176932A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
microphone
input signal
signal
sound
Prior art date
Application number
PCT/JP2012/066449
Other languages
English (en)
French (fr)
Inventor
隆行 荒川
宝珠山 治
剛範 辻川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2012176932A1 publication Critical patent/WO2012176932A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Definitions

  • the present invention relates to a voice processing device, a voice processing method, and a voice processing program for processing a mixed signal in which desired voice and noise are mixed.
  • Patent Document 1 discloses a voice detection device that detects whether or not a target voice is input based on voice signals from voices picked up by two directional microphones. That is, based on the level difference between the two audio signals and the power ratio, the desired audio is detected regardless of the noise level.
  • An object of the present invention is to solve the above problems and provide a voice processing device, a voice processing method, and a program for accurately detecting a desired voice regardless of the intensity of the desired voice.
  • a speech processing apparatus includes a first ratio of a noise source, a first microphone, and a second microphone, and a second input signal output from the second microphone. From noise estimation means for estimating noise originally, noise suppression means for suppressing a noise signal included in the first input signal output from the first microphone based on the output from the noise estimation means, and noise suppression means And a threshold value having a predetermined value to determine whether or not a desired voice is present.
  • an audio processing method includes a first ratio of a noise source, a first microphone, and a second microphone, and a second input signal output from the second microphone.
  • an audio processing program includes a first ratio of a noise source, a first microphone, and a second microphone, and a second input signal output from the second microphone.
  • Noise estimation processing for estimating noise originally noise suppression processing for suppressing a noise signal included in the first input signal output from the first microphone based on the output of the noise estimation processing, and output of the noise suppression processing And a threshold value having a predetermined value, and causing the computer to perform a determination process for determining whether or not a desired sound exists.
  • the sound is detected with high accuracy regardless of the intensity of the desired sound.
  • voice input into the audio processing apparatus which concerns on the 2nd and 3rd embodiment of this invention is shown.
  • generated in the audio processing apparatus which concerns on the 2nd Embodiment of this invention is shown.
  • generated in the audio processing apparatus which concerns on the 2nd Embodiment of this invention is shown.
  • a speech processing apparatus 100 according to a first embodiment of the present invention will be described with reference to FIG.
  • the speech processing apparatus 100 includes a derivation unit 101, an integration unit 102, a subtraction unit 103, and a determination unit 104.
  • the deriving unit 101 generates the first attenuation factor in the first microphone 110 generated by the noise source and propagated to the first microphone 110, and the noise generated by the noise source and propagated to the second microphone 120.
  • the attenuation factor ratio is derived.
  • the integrating unit 102 integrates the attenuation rate ratio with the second input signal output from the second microphone 120. Further, the subtracting unit 103 subtracts the integration result obtained by the integrating unit 102 from the first input signal output from the first microphone 110.
  • the determination unit 104 compares the subtraction result obtained by the subtraction 103 with a predetermined threshold value, and determines that the desired sound exists when the subtraction result is larger than the threshold value. According to the present embodiment, the noise is suppressed in consideration of the attenuation rate of noise propagating from the noise source to the microphone, and a desired voice is detected with high accuracy.
  • FIG. 2 shows an example of the arrangement of a microphone that generates an input signal input to the sound processing apparatus according to the present embodiment and a sound source that generates sound.
  • the sound from the two sound sources propagates to each of the two microphones.
  • desired sound is generated from the sound source 210, and noise is generated from the sound source 220.
  • a time series of the power of the sound generated from the sound source 210 is denoted as PA (t).
  • a time series of the power of the sound generated from the sound source 220 is denoted as PB (t).
  • PA (t) and PB (t) are not directly observable quantities.
  • the microphone 201 and the microphone 202 are arranged so that the distance between the microphone 201 and the sound source 210 is shorter than the distance between the microphone 202 and the sound source 201.
  • the microphone 201 generates a sound signal whose power time series is represented by P1 (t) based on the collected sound.
  • the microphone 202 generates a sound signal whose power time series is represented by P2 (t) based on the collected sound.
  • P1 (t) and P2 (t) are directly observable quantities.
  • the sound generated by the sound source 210 propagates to the microphone 201 and the microphone 202, and the power of the sound at the time of arrival at the microphone 201 and the microphone 202 is attenuated by the attenuation rates represented by dA1 and dA2, respectively.
  • the sound generated by the sound source 220 propagates to the microphone 201 and the microphone 202, and the power of the sound at the time of arrival at the microphone 201 and the microphone 202 is attenuated by attenuation factors represented by dB1 and dB2, respectively.
  • the sound source is a point sound source
  • the sound power is proportional to the inverse square of the distance between the sound source and the microphone, so the attenuation rate is the inverse of the square of the distance.
  • the time series P1 (t) and P2 (t) of the sound power collected by the microphone 201 and the microphone 202 are proportional to the sum of the sound power from the sound source 210 and the sound source 220 weighted by the attenuation rate.
  • DA (t) PA (t) ⁇ (dA1-dA2)
  • RA (t) dA1 / dA2 It is. Note that RA (t) and RB (t) have constant values over time.
  • a time series D (t) of power difference in a state where noise and desired speech are generated and a time series R (t) of power ratio are represented.
  • FIG. 3 shows an example of the time change of D (t), DA (t), and DB (t).
  • the power ratio time series R (t) is a linear combination of RA (t) and RB (t).
  • R (t) ⁇ (t) ⁇ RA (t) + (1 ⁇ (t)) ⁇ RB (t) It is.
  • ⁇ (t) 1 / (1 + PB (t) / PA (t) ⁇ dB2 / dA2). If the values of PA (t) and PB (t) are non-negative, ⁇ takes a value between 0 and 1.
  • FIG. 4 shows an example of temporal changes in R (t), RA (t), and RB (t).
  • the time series of R (t) includes the time values of the time series of RA (t) and RB (t) at a ratio of (1- ⁇ (t)) and ⁇ (t). It is a time series of divided values.
  • the detection efficiency depends on the conditions described below.
  • voice detection the presence of a desired voice is determined by comparing a feature amount with a threshold value.
  • a feature quantity having a large difference between a state where the desired sound is present and a state where the desired voice is not present is referred to as a “good” feature quantity
  • a feature quantity having a small difference is referred to as a “bad” feature quantity.
  • the following four conditions can be cited as conditions under which the power difference time series D (t) is a “bad” feature quantity.
  • Condition 1-1 The temporal variation of the time series PA (t) of the desired voice power is small. For example, the difference between the maximum value and the minimum value of PA (t) is small. At this time, the time variation of DA (t) is small.
  • Condition 1-2 The time variation of the noise power time series PB (t) is large. At this time, the time variation of DB (t) is large.
  • Condition 1-3 Desired sound is equally input to the microphone 201 and the microphone 202. At this time, dA1 is substantially equal to dA2, and DA (t) is substantially zero. Therefore, the time variation of DA (t) is small.
  • Condition 1-4 The sound signal generated from noise by the microphone 202 is much larger than the sound signal generated from noise by the microphone 201.
  • the temporal variation of DB (t) increases.
  • the temporal variation of DA (t) becomes smaller than the temporal variation of DB (t), and it is difficult to determine the threshold value. That is, as shown in FIG. 3, if the time variation of DB (t) is larger than the time variation of DA (t), it is difficult to detect DA (t) from D (t). At this time, D (t) is a “bad” feature quantity.
  • the voice detection using the power ratio time series R (t) the following two conditions can be cited as conditions for R (t) to be “bad” feature quantities.
  • Condition 2-1 Desired sound is equally input to the microphone 201 and the microphone 202.
  • dA1 is approximately equal to dA2, and RA (t) is approximately 1.
  • Condition 2-2 Noise is equally input to the microphone 201 and the microphone 202.
  • dB1 is approximately equal to dB2, and RB (t) is approximately 1.
  • RA (t) is approximately equal to dB2
  • RB (t) is approximately 1.
  • the difference between RA (t) and RB (t) becomes small, making it difficult to determine the threshold value.
  • the distance between the speaker's mouth and the microphone which is the sound source of the desired sound, is large, the levels of the desired sound input to the microphone 201 and the microphone 202 are close to each other. For this reason, it is difficult to determine the threshold value regardless of which of the power difference D (t) and the power ratio R (t) is used.
  • time series E of power in which noise is suppressed from the sound signal of the microphone 201. (T) is used.
  • the time series of power with suppressed noise is denoted as E (t) and will be described below.
  • the estimated value of the noise attenuation rate ratio RB (t) is denoted as Q (t).
  • Q (t) the power time series E (t) with suppressed noise is proportional to the time series PA (t) of the desired speech power. That is, E (t) is rewritten as follows.
  • E (t) is non-zero if the ratio dA1 / dA2 of the desired voice attenuation rate is larger than the ratio dB1 / dB2 of the noise attenuation rate. For this reason, it is possible to determine the presence of a desired voice by setting the threshold value to a positive value. Since the absolute value of the threshold can be arbitrarily set to a small value, the desired audio power value may be small.
  • E (t) does not depend on the magnitude relationship between the noises input to the two microphones.
  • the threshold value may be fixed to a positive value. Since the threshold value can be arbitrarily set to a small absolute value, the voice can be detected regardless of the desired voice level. Furthermore, since the noise time is not included in the time series E (t) of the power in which noise is suppressed, voice detection is performed without depending on the magnitude of the noise.
  • FIG. 5 is a block diagram showing the configuration of the speech processing apparatus according to this embodiment.
  • the speech processing apparatus 500 includes a microphone 201, a microphone 202, a power calculation unit 503, a power calculation unit 504, a noise power ratio estimation unit 505, a noise power estimation unit 506, a noise A suppression power estimation unit 507 and a threshold comparison unit 508 are included.
  • the microphone 201 is closer to the desired sound source than the microphone 202.
  • the microphone 201 outputs a first mixed signal in which desired voice and noise are mixed.
  • the microphone 202 outputs a second mixed signal in which desired voice and noise are mixed at a mixing ratio different from that of the first mixed signal.
  • the power calculation unit 503 calculates and outputs power based on the first mixed signal.
  • the power calculation unit 504 calculates and outputs power based on the second mixed signal.
  • the noise power ratio estimation unit 505 estimates and outputs the noise power ratio based on the power of the first mixed signal and the power of the second mixed signal.
  • the noise power estimation unit 506 estimates and outputs the noise power included in the first mixed signal based on the power of the second mixed signal and the noise power ratio.
  • the noise suppression power estimation unit 507 estimates and outputs the noise suppression power based on the power of the first mixed signal and the estimated value of the noise power included in the first mixed signal.
  • the threshold value comparison unit 508 compares the noise suppression power with a preset threshold value, and determines whether or not a desired voice exists.
  • a first mixed signal in which desired voice and noise are mixed is acquired in the microphone 201, and a second mixed signal in which desired voice and noise are mixed in the microphone 202 at a mixing ratio different from that of the first input signal.
  • a signal is acquired (step S601). That is, an analog signal such as a potential difference is converted by an analog-digital (AD) converter into digital data having a quantization size of 16 bits and a sampling number of 44 kHz, for example, and the first mixed signal and the second mixed signal. Is output as The power calculation unit 503 calculates a power time series based on the first mixed signal, and the power calculation unit 504 calculates a power time series based on the second mixed signal (step S602).
  • AD analog-digital
  • the power is obtained for the first or second mixed signal that is cut out in units of a short time length such as 20 milliseconds.
  • the time series of the power of the first mixed signal and the power value of the second mixed signal at time t are denoted as P1 (t) and P2 (t), respectively.
  • a power calculation method for example, a process of averaging the square of input waveform data for each sample over the number of samplings in a unit time is employed. Or the process which averages the square of the spectrum calculated
  • the noise power ratio estimation unit 505 estimates the ratio Q (t) of the noise power contained in the first mixed signal and the noise power contained in the second mixed signal (step S603).
  • the following methods can be considered as a method for estimating Q (t).
  • the ratio of the noise power does not depend on the value of the noise power generated by the noise source, and takes a constant value determined by the positional relationship. For this reason, the ratio of the power P1 (t) of the first mixed signal and the power P2 (t) of the second mixed signal is obtained at a plurality of times before the desired sound is generated, and the average value of the ratio is obtained.
  • the estimated value of RB (t) is used.
  • the noise power ratio Q (t) at time t is equal to the noise power ratio Q (t ⁇ 1) at time t ⁇ 1, the power P1 (t) of the first mixed signal at time t, and the second. Is obtained according to the following relational expression from the power P2 (t) of the mixed signal.
  • Q (t) ⁇ ⁇ P1 (t) / P2 (t) + (1 ⁇ ) ⁇ Q (t ⁇ 1)
  • takes a value in the range from 0 to 1.
  • is substantially zero when P1 (t) / P2 (t)> Q (t ⁇ 1), and when P1 (t) / P2 (t) ⁇ Q (t ⁇ 1), The value is almost 1.
  • the follow-up of the value of Q (t) with respect to the increase in the value of P1 (t) / P2 (t) is slow and the follow-up with respect to the decrease is fast.
  • the noise power ratio Q (t) the same procedure as in the other general noise estimation methods described above may be used.
  • P1 (t) / P2 (t) is regarded as the power of an input signal in which desired speech and noise are mixed.
  • Q (t) is the noise power estimated from the signal power using the noise estimation method.
  • a general noise estimation method a method of storing the minimum value of the power of the input signal over a predetermined time and outputting it as noise power may be employed.
  • the noise power estimation unit 506 estimates the power of noise included in the first mixed signal (step S604).
  • the noise power is estimated by multiplying the power P2 (t) of the second mixed signal by the noise power ratio Q (t).
  • the ratio RB () of the power P2 (t) of the second mixed signal and the power of the noise has high accuracy of estimated noise.
  • the noise suppression power estimation unit 507 suppresses the noise included in the first mixed signal, and estimates the time series E (t) of the power with the noise suppressed (step S605).
  • the other general noise removal method described above may be used for the estimation of the time series E (t) of the power in which noise is suppressed.
  • P1 (t) is regarded as the power of an input signal in which desired speech and noise are mixed, and Q (t) ⁇ P2 (t) is regarded as the estimated noise power. Then, the noise power estimated from the power of the input signal is removed using a noise removal method.
  • a general noise removal method in addition to the subtraction process as described above, a method of suppressing the noise power by a process of multiplying the calculated noise reduction filter by the power of the input signal may be employed. .
  • the threshold comparison unit 508 compares the time series E (t) of the power with suppressed noise and a preset threshold ⁇ to determine whether or not a desired voice exists (step S606).
  • E (t) is larger than the threshold ⁇ , it is determined that there is a voice, and if not, it is determined that there is no voice.
  • the value of the threshold ⁇ is arbitrarily set to a value slightly larger than 0. In the time series E (t) of power with suppressed noise, the noise is almost completely removed regardless of the magnitude of the noise.
  • the desired voice is included in the second mixed signal, a part of the desired voice is suppressed together with the noise by the above-described processing such as subtraction.
  • the desired sound input to the microphone 201 is slightly larger than the desired sound input to the microphone 202, all the desired sounds are canceled and do not disappear.
  • the presence of the desired voice is detected by comparing the time series E (t) of power with suppressed noise and the threshold value ⁇ . Further, since the value of the threshold ⁇ does not depend on the magnitude of noise, a constant value that does not depend on noise is used. According to the speech processing method according to the present embodiment, the object of the present invention is achieved.
  • the voice detection in the voice processing method according to the present embodiment described above may be performed in each of the divided frequency bands. In this case, noise suppression power E (t) may be obtained for each frequency band, and the average or sum thereof may be compared with a threshold value, or E (t) may be compared with a threshold value for each frequency band, and the result may be It may be integrated by majority vote or the like.
  • the speech processing apparatus 700 includes an adaptive filter 701.
  • the adaptive filter 701 receives the second mixed signal, and estimates the noise signal included in the first mixed signal from the noise signal included in the second mixed signal. That is, from the second microphone 202 to which the noise that is the noise signal included in the second mixed signal is input, to the first microphone 201 to which the noise that is the noise signal included in the first mixed signal is input.
  • An impulse response method is applied to the noise path to estimate a pseudo noise signal included in the first mixed signal.
  • a pseudo-emphasized signal that is estimated to remove noise is obtained.
  • the adaptive filter 701 for example, an adaptive filter disclosed in Japanese Patent Laid-Open No. 08-056180 is employed.
  • the pseudo enhancement signal is input to the power calculation unit 503, and the pseudo noise signal is input to the power calculation unit 504. Based on the input signal, the same processing as in the second embodiment is performed.
  • the same processing as in the second embodiment is performed.
  • FIG. 2 shows an arrangement of a sound source that generates sound input to the sound processing apparatus according to the present embodiment and a microphone that acquires sound.
  • the desired sound source 210 is near the microphone 201 and far from the microphone 202
  • the noise source 220 is near the microphone 202 and far from the microphone 201.
  • a speech processing apparatus 800 according to the fourth embodiment of the present invention will be described with reference to FIGS. As shown in FIG. 8, the sound processing apparatus according to this embodiment includes a first beamformer 801, a second microphone 202, and a power calculation unit 504 between the first microphone 201 and the power calculation unit 503. And a second beam former 802.
  • the first beamformer 801 calculates the sum of the first mixed signal and the second mixed signal in the time waveform region, and obtains a sum signal.
  • the second beamformer 802 calculates a difference in the time waveform region between the first mixed signal and the second mixed signal, and obtains a difference signal.
  • the sum signal is input to the power calculation unit 503, and the difference signal is input to the power calculation unit 504.
  • the subsequent processing is the same as the processing in the second embodiment.
  • FIG. 9 shows an arrangement of a sound source that generates sound input to the sound processing apparatus according to the present embodiment and a microphone that acquires sound.
  • the sound source 210 that generates the desired sound is equidistant from the microphone 201 and the microphone 202, and the sound source 220 that generates noise is close to either the microphone 201 or the microphone 202.
  • the difference signal generated by the second beam former 802 the audio signal from the desired audio is canceled and disappears, and only the noise signal remains.
  • the noise in the sum signal is suppressed.
  • the first beamformer 801 is preferably used.
  • the difference signal is calculated, and the second beamformer 802 calculates the sum signal.
  • the difference signal is input to the power calculation unit 503, and the sum signal is input to the power calculation unit 504.
  • the output from the first beamformer and the output from the second beamformer are corrected in consideration of the ratio of the noise attenuation rate.
  • the first beamformer 801 may perform a beamformer that directs the beam in a direction in which desired sound is generated, or the second beamformer 802 may direct the beam in a direction in which noise is generated. May be performed.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device.
  • the present invention can also be applied to a case where an information processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention with a computer, a program installed in the computer, a medium storing the program, and a WWW (World Wide Web) server to which the program is downloaded are also included in the scope of the present invention. It is.
  • This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-140668 for which it applied on June 24, 2011, and takes in those the indications of all here.
  • the present invention can be suitably applied to a sound processing device that detects a desired sound.
  • the present invention is suitably applied to a voice processing apparatus that suppresses noise mixed in from the surrounding environment and detects the utterance of a desired voice even in a situation where the signal level of the desired voice is not high.

Abstract

所望の音声の強度にかかわらず、精度良く所望の音声を検出する音声処理装置を提供する。 音声処理装置は、雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する雑音推定手段と、雑音推定手段からの出力を元に第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する雑音抑圧手段と、雑音抑圧手段からの出力と所定の値を有する閾値とを比較して所望の音声が存在するか否かを判定する判定手段とを備える。

Description

音声処理装置、音声処理方法および音声処理プログラム
 本発明は、所望の音声と雑音とが混在する混在信号を処理する、音声処理装置、音声処理方法及び音声処理プログラムに関する。
 マイクロホンが取得する音声は、所望の音声と、マイクロホンの周辺の環境からの雑音を含む。携帯電話での通話、音声による電子機器の制御処理、音声認識処理などにおいて、雑音の除去が近年ますます重要になっている。
 特許文献1は、2つの指向性マイクロホンにより収音された音声からの音声信号を元に、目的音声が入力されたか否かを検出する、音声検出装置を開示する。すなわち、2つの音声信号のレベル差とパワー比に基づいて、雑音の大きさに依らずに所望の音声が検知される。
特開2008−304498号公報
 しかしながら、特許文献1に開示される音声検出装置においては、音声信号のレベル差とパワー比のそれぞれに閾値が設定され、該閾値との比較により音声の入力が判定される。このため、所望の音声が存在する状態と、該音声が存在しない状態との間で、信号のレベル差及びパワー比の変化が小さい場合は、閾値の設定が困難であり、音声検出の精度が低いという問題があった。
 本発明の目的は、以上のような問題を解決し、所望の音声の強度にかかわらず、精度良く所望の音声を検出する音声処理装置、音声処理方法及びプログラムを提供することにある。
 上記目的を達成するため、本発明に係る音声処理装置は、雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する雑音推定手段と、雑音推定手段からの出力を元に第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する雑音抑圧手段と、雑音抑圧手段からの出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定手段とを備えたことを特徴とする。
 上記目的を達成するため、本発明に係る音声処理方法は、雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する雑音推定ステップと、雑音推定ステップの出力を元に第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、雑音抑圧ステップの出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定ステップとを含むことを特徴とする。
 上記目的を達成するため、本発明に係る音声処理プログラムは、雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する雑音推定処理と、雑音推定処理の出力を元に第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する雑音抑圧処理と、雑音抑圧処理の出力と所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する判定処理とをコンピュータに行わせることを特徴とする。
 本発明によれば、所望の音声の強度にかかわらず、精度良く該音声が検出される。
本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第2および第3の実施形態に係る音声処理装置に入力される音声を発生する音源の配置の一例を示す。 本発明の第2の実施形態に係る音声処理装置において生成される音信号のパワーの時間変動の一例を示す。 本発明の第2の実施形態に係る音声処理装置において生成される音信号のパワーの時間変動の一例を示す。 本発明の第2の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第2の実施形態に係る音声処理装置の処理の流れを示すフローチャートである。 本発明の第3の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第4の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第4の実施形態に係る音声処理装置に入力される音声を発生する音源の配置の一例を示す。
 以下、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載される構成要素は単なる例示であり、本発明の技術範囲はそれらのみに限定されない。
 [第1の実施形態]
 本発明の第1の実施形態に係る音声処理装置100について、図1を参照して説明する。
 音声処理装置100は、導出部101と積算部102と減算部103と判定部104とを備える。
 導出部101は、雑音源で発生して第1のマイクロホン110まで伝播した雑音の第1のマイクロホン110における第1の減衰率と、雑音源で発生して第2のマイクロホン120まで伝播した雑音の第2のマイクロホン120における第2の減衰率を元に、減衰率比を導出する。
 積算部102は、第2のマイクロホン120から出力された第2の入力信号に減衰率比を積算する。さらに、減算部103は、第1のマイクロホン110から出力された第1の入力信号から、積算部102による積算結果を減算する。判定部104は、減算103による減算結果と、あらかじめ定められた閾値とを比較し、減算結果が閾値より大きい場合に、所望の音声が存在すると判定する。
 本実施形態によれば、雑音源からマイクロホンに伝播する雑音の減衰率を考慮して、雑音が抑圧され、所望の音声が高い精度で検出される。
 [第2の実施形態]
 本発明の第2の実施形態に係る音声処理装置について、図3乃至6を参照して説明する。
 図2は、本実施形態に係る音声処理装置に入力される入力信号を生成するマイクロホンと、音声を発生する音源の配置の一例を示す。図2において、2つのマイクロホンのそれぞれに、2つの音源からの音声が伝播する。
 図2において、所望の音声は音源210から発生し、雑音は音源220から発生する。音源210から発生する音声のパワーの時系列がPA(t)と記される。音源220から発生する音声のパワーの時系列がPB(t)と記される。PA(t)およびPB(t)は、直接観測可能な量ではない。
 マイクロホン201とマイクロホン202は、マイクロホン201と音源210間の距離がマイクロホン202と音源201間の距離よりも短いように、配置される。マイクロホン201は、収音された音声を元に、パワーの時系列がP1(t)で表される音信号を生成する。マイクロホン202は、収音された音声を元に、パワーの時系列がP2(t)で表される音信号を生成する。P1(t)およびP2(t)は、直接観測可能な量である。
 音源210で発生した音声は、マイクロホン201およびマイクロホン202に伝播し、マイクロホン201およびマイクロホン202において、到達時の音声のパワーはそれぞれdA1およびdA2で表される減衰率で減衰する。音源220で発生した音声は、マイクロホン201およびマイクロホン202に伝播し、マイクロホン201およびマイクロホン202において、到達時の音声のパワーはそれぞれdB1およびdB2で表される減衰率で減衰する。音源が点音源であれば、音声のパワーは音源とマイクロホン間の距離の逆二乗に比例するので、減衰率は該距離の二乗の逆数となる。
 マイクロホン201およびマイクロホン202で収音される音声のパワーの時系列P1(t)およびP2(t)は、音源210および音源220からの音声のパワーに、減衰率を重み付けした和に比例する。すなわち、
P1(t)= PA(t)×dA1 + PB(t)×dB1
および
P2(t)= PA(t)×dA2 + PB(t)×dB2
である。
 以下、マイクロホン201とマイクロホン202で生成される音信号のパワーの差の時系列を、D(t)と記す。すなわち、
 D(t)= P1(t)−P2(t)
である。
 さらに、マイクロホン201とマイクロホン202で生成される音信号のパワーの比の時系列を、R(t)と記す。すなわち、
 R(t)= P1(t)/P2(t)
である。
 上記のように定義された2つの量を、パラメタを用いて表現するために、2つの極端な状態を考える。
 まず、所望の音声が発生せず、雑音のみが発生する状態を考える。
 音源210からは音声が発生せず、音源220から発生する音声のみがマイクロホン201およびマイクロホン202により収音される。すなわち、PA(t)はゼロであり、PB(t)は非ゼロである。
 この状態において、パワーの差の時系列D(t)をDB(t)と記し、パワーの比の時系列R(t)をRB(t)と記す。すなわち、
 DB(t)= PB(t)×(dB1−dB2)
および
 RB(t)= dB1/dB2
である。
 次に、雑音が発生せず、所望の音声のみが発生する状態を考える。
 この状態においては、PA(t)が非ゼロであり、PB(t)がゼロである。
 さらに、パワーの差の時系列をDA(t)と記し、パワーの比の時系列をRA(t)と記す。すなわち、
 DA(t)= PA(t)×(dA1−dA2)
および
 RA(t)= dA1/dA2
である。なお、RA(t)およびRB(t)は時間的に一定の値をとる。
 上記の2つの状態での、パワーの差の時系列DA(t)、DB(t)、およびパワーの比の時系列RA(t)、RB(t)を用いて、一般の場合、すなわち、雑音と所望の音声が発生する状態のパワーの差の時系列D(t)およびパワーの比の時系列R(t)が表わされる。
 パワーの差の時系列D(t)は、DA(t)とDB(t)の和である。すなわち、
 D(t)= DA(t)+DB(t)
である。図3は、D(t)、DA(t)およびDB(t)の時間変化の一例を示す。
 パワーの比の時系列R(t)は、RA(t)とRB(t)の線型結合である。すなわち、
 R(t)= α(t)×RA(t)+(1−α(t))×RB(t)
である。ここで、α(t)= 1/(1+PB(t)/PA(t)×dB2/dA2)である。PA(t)およびPB(t)の値が非負であれば、αは0から1の間の値をとる。
 図4は、R(t)、RA(t)、RB(t)の時間変化の一例を示す。
 図4に示されるようにR(t)の時系列はRA(t)とRB(t)の時系列の各時刻の値を(1−α(t))とα(t)の割合で内分した値の時系列である。
 パワーの差の時系列D(t)およびパワーの比の時系列R(t)を用いた音声検出において、検出効率が高くない状態がある。検出効率は、以下に説明する条件により左右される。
 音声検出では、特徴量と閾値との比較により所望の音声の存在が判定される。以下では、所望の音声が存在する状態と存在しない状態との間で、差分が大きい特徴量を「よい」特徴量と記し、差分が小さい特徴量を「悪い」特徴量と記す。
 パワーの差の時系列D(t)が「悪い」特徴量である条件として、以下の4つの条件が挙げられる。
 条件1−1:所望の音声のパワーの時系列PA(t)の時間的変動が小さい。例えば、PA(t)の最大値と最小値との差が小さい。このとき、DA(t)の時間的変動が小さい。
 条件1−2:雑音のパワーの時系列PB(t)の時間的変動が大きい。このとき、DB(t)の時間的変動が大きい。
 条件1−3:所望の音声がマイクロホン201およびマイクロホン202に均等に入力される。このとき、dA1はdA2にほぼ等しく、DA(t)はほぼゼロである。従って、DA(t)の時間的変動が小さい。
 条件1−4:マイクロホン202により雑音から生成された音信号が、マイクロホン201により雑音から生成された音信号よりも非常に大きい。このとき、DB(t)の時間的変動が大きくなる。
 上記の条件のいずれかが該当する場合、DA(t)の時間的変動がDB(t)の時間的変動よりも小さくなり、閾値の決定が困難である。すなわち、図3に示されるように、DB(t)の時間的変動がDA(t)の時間的変動に比較して大きければ、D(t)からのDA(t)の検出が困難であり、このとき、D(t)は「悪い」特徴量である。
 次に、パワーの比の時系列R(t)を用いた音声検出において、R(t)が「悪い」特徴量となる条件として、以下の2つの条件が挙げられる。
 条件2−1:所望の音声がマイクロホン201およびマイクロホン202に均等に入力される。このとき、dA1はdA2にほぼ等しく、RA(t)はほぼ1である。
 条件2−2:雑音がマイクロホン201およびマイクロホン202に均等に入力される。このとき、dB1はdB2にほぼ等しく、RB(t)はほぼ1である。
 上記の2つの条件に該当する場合に、RA(t)とRB(t)との差が小さくなり、閾値の決定が困難になる。
 所望の音声の音源である、話者の口元とマイクロホンとの距離が大きいと、マイクロホン201とマイクロホン202に入力される所望の音声のレベルが互いに近づく。このため、パワーの差D(t)およびパワーの比R(t)のいずれが用いられても、閾値の決定は困難である。
 上記の問題を解決するため、本発明の本実施形態に係る音声検出処理においては、D(t)やR(t)の代わりに、マイクロホン201の音信号から雑音を抑圧したパワーの時系列E(t)が用いられる。
 雑音を抑圧したパワーの時系列をE(t)と記し、以下で説明される。
 雑音を抑圧したパワーの時系列E(t)は、マイクロホン201から生成される音信号のパワーの時系列と、マイクロホン202から生成される音信号のパワーの時系列と雑音の減衰率の比の推定値との積との差として定義される。すなわち、
 E(t)= P1(t)−Q(t)×P2(t)
である。ここで、雑音の減衰率の比RB(t)の推定値をQ(t)と記す。
 Q(t)が正しくRB(t)として推定されたと仮定すると、雑音を抑圧したパワーの時系列E(t)は、所望の音声のパワーの時系列PA(t)に比例する。すなわち、E(t)は次のように書き直される。
 E(t)= P1(t)−RB(t)×P2(t)= PA(t)×dA1×(1 − dB1/dB2×dA2/dA1)
 この関係式において、所望の音声の減衰率の比dA1/dA2が雑音の減衰率の比dB1/dB2よりも大きければ、E(t)は非ゼロである。このため、閾値を正の値に設定することにより、所望の音声の存在の判定が可能である。閾値の絶対値は小さい値に任意に設定できるので、所望の音声のパワーの値が小さくてもよい。さらに、上記の関係式には雑音のパワーの値が含まれないため、E(t)は、2つのマイクロホンに入力される雑音の大小関係に依存しない。
 雑音を抑圧したパワーの時系列E(t)による音声の判定においては、閾値を正の値に固定してよい。該閾値は、絶対値の小さな値に任意に設定できるので、所望の音声の大きさに依らずに音声の検出ができる。さらに、雑音を抑圧したパワーの時系列E(t)には、雑音の項が含まれないので、雑音の大きさに依存せずに音声検出が行われる。
 本発明の第2の実施形態に係る音声処理装置500の構成が、図5を参照して説明される。
 図5は、本実施形態に係る音声処理装置の構成を示すブロック図である。
 図5に示されるように、音声処理装置500は、マイクロホン201と、マイクロホン202と、パワー算出部503と、パワー算出部504と、雑音パワー比推定部505と、雑音パワー推定部506と、雑音抑圧パワー推定部507と、閾値比較部508とを含む。好ましくは、マイクロホン201はマイクロホン202に比べて所望の音声の発生源により近い。
 マイクロホン201は、所望の音声と雑音とが混在した第1の混在信号を出力する。マイクロホン202は、第1の混在信号とは異なる混在比で、所望の音声と雑音とが混在した第2の混在信号を出力する。パワー算出部503は、第1の混在信号を元に、パワーを算出して出力する。パワー算出部504は、第2の混在信号を元に、パワーを算出して出力する。雑音パワー比推定部505は、第1の混在信号のパワーと第2の混在信号のパワーを元に、雑音パワー比を推定して出力する。雑音パワー推定部506は、第2の混在信号のパワーと雑音パワー比を元に、第1の混在信号に含まれる雑音パワーを推定して出力する。雑音抑圧パワー推定部507は、第1の混在信号のパワーと第1の混在信号に含まれる雑音パワーの推定値を元に、雑音抑圧パワーを推定して出力する。閾値比較部508は、雑音抑圧パワーを、あらかじめ設定された閾値と比較して、所望の音声が存在するか否かを判定する。
 次に、図5のブロック図および図6のフローチャートを参照して、本実施形態に係る音声処理装置の動作が、詳細に説明される。
 まず、マイクロホン201において所望の音声と雑音とが混在した第1の混在信号が取得され、マイクロホン202において第1の入力信号とは異なる混在比で所望の音声と雑音とが混在した第2の混在信号が取得される(ステップS601)。すなわち、電位差などのアナログ信号は、アナログ−デジタル(AD)変換器により、例えば、量子化サイズが16ビットでサンプリング数が44kHzのデジタルデータに変換され、第1の混在信号および第2の混在信号として出力される。
 パワー算出部503において第1の混在信号を元にパワーの時系列が算出され、パワー算出部504において第2の混在信号を元にパワーの時系列が算出される(ステップS602)。パワーは、例えば20ミリ秒などの短い時間長を単位として、切り出された第1または第2の混在信号に対して、求められる。時刻tにおける第1の混在信号のパワーの時系列および第2の混在信号のパワーの値をそれぞれ、P1(t)、P2(t)と記す。パワーの算出方法として、例えば、サンプルごとの入力された波形データの二乗を、単位時間において、サンプリング数に亘って平均する処理が採用される。或いは、短時間でのフーリエ変換により求められたスペクトルの二乗を、周波数について平均する処理が採用される。以下に説明される処理は、単位時間ごとに行われる。
 雑音パワー比推定部505において、第1の混在信号に含まれる雑音のパワーと第2の混在信号に含まれる雑音のパワーの比Q(t)が推定される(ステップS603)。Q(t)の推定方法として、以下の方法が考えられる。
 移動しない一つの雑音源のみを有する環境では、雑音パワーの比は、雑音源で発生する雑音のパワーの値には依存せず、位置関係によって決まる一定の値をとる。このため、所望の音声が発生する前の、複数の時刻において第1の混在信号のパワーP1(t)と第2の混在信号のパワーP2(t)の比を求め、この比の平均値をRB(t)の推定値とする。この時点以降は、推定値Q(t)に同じ値が用いられる。
 あるいは、立ち上がりが遅く立ち下りが早い平均を用いてQ(t)を推定する方法を採用してもよい。すなわち、時刻tにおける雑音のパワーの比Q(t)は、時刻t−1における雑音パワーの比Q(t−1)と、時刻tにおける第1の混在信号のパワーP1(t)と第2の混在信号のパワーP2(t)から、以下の関係式に従って求められる。
 Q(t)= β×P1(t)/P2(t)+(1−β)×Q(t−1)
 ここで、βは0から1までの範囲の値をとる。さらに、βは、P1(t)/P2(t)>Q(t−1)のとき、ほぼゼロの値であり、P1(t)/P2(t)≦ Q(t−1)のとき、ほぼ1の値をとる。上記の漸化式によれば、P1(t)/P2(t)の値の増加に対するQ(t)の値の追従は遅く、減少に対する追従は速い。
 雑音のパワーの比Q(t)の推定には、上記の他の、一般的な雑音推定法と同様の手順が用いられてよい。一般的な雑音推定法を用いる場合は、P1(t)/P2(t)を所望の音声と雑音が混在した入力信号のパワーとみなす。Q(t)は、この信号のパワーから雑音推定法を用いて推定された雑音のパワーである。一般的な雑音推定法して、一定時間にわたり入力信号のパワーの最小値を記憶し、雑音のパワーとして出力する方法などを採用してよい。
 雑音パワー推定部506において、第1の混在信号に含まれる雑音のパワーが推定される(ステップS604)。雑音のパワーは、第2の混在信号のパワーP2(t)に、雑音のパワーの比Q(t)が乗算されて、推定される。
 関連技術のように第2の混在信号のパワーP2(t)を用いて直接推定する方法に較べて、上記のように第2の混在信号のパワーP2(t)と雑音のパワーの比RB(t)を乗算する方法は、推定される雑音の精度が高い。これは、雑音のパワーの比Q(t)の値が雑音の大きさにほとんど依存しないためである。
 雑音抑圧パワー推定部507において、第1の混在信号に含まれる雑音が抑圧され、雑音を抑圧したパワーの時系列E(t)が推定される(ステップS605)。第1の混在信号から、推定された雑音のパワーが差し引かれる。すなわち、以下の関係式
 E(t)=P1(t)−Q(t)×P2(t)
に従って、E(t)が求められる。
 また、上記の関係式において減算する項は、所定の定数を乗じた、第1の混在信号から推定された雑音のパワーでもよい。雑音を抑圧したパワーの時系列E(t)の推定には、上記の他の、一般的な雑音除去の方法が用いられてもよい。一般的な雑音除去の方法を用いる場合は、P1(t)を所望の音声と雑音が混在した入力信号のパワーとみなし、Q(t)×P2(t)を推定された雑音のパワーとみなし、雑音除去の方法を用いて入力信号のパワーから推定された雑音のパワーを除去する。一般的な雑音除去の方法として、上記のような減算処理に加えて、算出された雑音低減フィルタを、入力信号のパワーに乗算する処理により、雑音のパワーを抑圧する方法などを採用してよい。
 閾値比較部508において、雑音を抑圧したパワーの時系列E(t)とあらかじめ設定された閾値Θが比較され、所望の音声が存在するか否かが判定される(ステップS606)。E(t)が閾値Θより大きければ音声があると判定され、そうでなければ音声が無いと判定される。閾値Θの値は0より少し大きい値に任意に設定される。
 雑音を抑圧したパワーの時系列E(t)においては、雑音の大きさによらず、雑音はほぼ完全に除去される。第2の混在信号に所望の音声が含まれる場合、上記の減算などの処理により、雑音と共に所望の音声の一部が抑圧される。しかしながら、マイクロホン201に入力される所望の音声が、マイクロホン202に入力される所望の音声よりも少しでも大きければ、所望の音声がすべて相殺されて消失することはない。このため、雑音を抑圧したパワーの時系列E(t)と閾値Θとの比較により所望の音声の存在が検出される。また、閾値Θの値は、雑音の大きさには依存しないため、雑音によらない一定の値が用いられる。本実施形態に係る音声処理方法によれば、本発明の目的が達成される。
 上記で説明された本実施形態に係る音声処理方法における音声検出は、分割された周波数帯域のそれぞれで行ってもよい。この場合、周波数帯域ごとに雑音抑圧パワーE(t)が求められ、その平均或いは和が閾値と比較されてもよいし、周波数帯域ごとでE(t)と閾値が比較され、その結果が、多数決などにより、統合されてもよい。
 [第3の実施形態]
 本発明の第3の実施形態に係る音声処理装置700の構成が、図7を参照して説明される。
 図7に示されるように、本実施形態に係る音声処理装置は適応フィルタ701を備えることを特徴とする。
 適応フィルタ701には、第2の混在信号が入力され、第2の混在信号に含まれる雑音信号から、第1の混在信号に含まれる雑音信号が推定される。すなわち、第2の混在信号に含まれる雑音信号となる雑音が入力される第2のマイクロホン202から、第1の混在信号に含まれる雑音信号となる雑音が入力される第1のマイクロホン201までの雑音の経路に、インパルス応答の方法が適用されて、第1の混在信号に含まれる、擬似雑音信号が推定される。第1の混在信号から、該擬似雑音信号を差し引くことにより、雑音が除去されると推定される、擬似強調信号が得られる。該適応フィルタ701としては、例えば、特開平08−056180に開示される適応フィルタが採用される。
 擬似強調信号はパワー算出部503に入力され、擬似雑音信号はパワー算出部504に入力される。入力された信号に元に、第2の実施形態と同様の処理が行われる。
 第1の混在信号により多くの雑音が混入する場合、或いは、第2の混在信号により多くの所望の音声が混入する場合、雑音を抑圧したパワーの時系列E(t)においては雑音だけでなく音声の一部も除去される。第1の混在信号の代わりに擬似強調信号を用い、第2の混在信号の代わりに擬似雑音信号を用いることにより、雑音を抑圧したパワーの時系列E(t)は、雑音だけが抑圧された値に近づけられる。このため、第2の実施形態に較べて、誤りの少ない音声検出が行われる。
 本実施形態に係る音声処理装置に入力される音声を発生する音源と、音声を取得するマイクロホンの配置が図2に示される。好ましくは、所望の音声の発生源210はマイクロホン201に近くマイクロホン202から遠く、雑音源220はマイクロホン202に近くマイクロホン201から遠い。すなわち、所望の音声の発生源210からマイクロホン201およびマイクロホン202までの距離をそれぞれ、rA1、rB1とし、雑音源220からマイクロホン201およびマイクロホン202までの距離をそれぞれ、rA2、rB2とすると、好ましくは、rA1/rB1の値がrA2/rB2の値に較べて小さい。
 [第4の実施形態]
 本発明の第4の実施形態に係る音声処理装置800について、図8および9を参照して説明する。
 図8に示されるように、本実施形態に係る音声処理装置は、第1のマイクロホン201とパワー算出部503との間に第1のビームフォーマ801と、第2のマイクロホン202とパワー算出部504との間に第2のビームフォーマ802を備えることを特徴とする。
 第1のビームフォーマ801は、第1の混在信号と第2の混在信号を時間波形領域での和を算出し、和信号を得る。第2のビームフォーマ802は、第1の混在信号と第2の混在信号の時間波形領域での差を算出し、差信号を得る。
 和信号はパワー算出部503に入力され、差信号はパワー算出部504に入力される。これ以降の処理は、第2の実施形態における処理と同一である。
 本実施形態に係る音声処理装置に入力される音声を発生する音源と、音声を取得するマイクロホンの配置が図9に示される。好ましくは、所望の音声が発生する音源210はマイクロホン201とマイクロホン202から等距離にあり、雑音を発生する音源220はマイクロホン201とマイクロホン202のいずれかに近い。
 上記の状態で、第2のビームフォーマ802が生成する差信号においては、所望の音声からの音声信号が相殺されて消失し、雑音信号のみが残る。差信号の雑音信号から、和信号に混入した雑音信号を推定することにより、和信号における雑音が抑圧される。
 所望の音声が発生する音源210がマイクロホン201とマイクロホン202のいずれかに近く、雑音が発生する音源220がマイクロホン201とマイクロホン202から等距離にある場合は、好ましくは、第1のビームフォーマ801が差信号を算出し、第2のビームフォーマ802が和信号を算出する。差信号はパワー算出部503に入力され、和信号はパワー算出部504に入力される。
 上記の配置で、第1のビームフォーマ801が生成する差信号においては、雑音信号が相殺されて消失し、所望の音声からの音声信号のみが残る。これにより、所望の音声の存在が検出される。
 なお、音源の配置が、図9に示される音源の配置でない場合は、雑音の減衰率の比と考慮して、第1のビームフォーマから出力と第2のビームフォーマからの出力を補正してよい。
 さらに、第1のビームフォーマ801により、所望の音声が発生する方向にビームを向けるビームフォーマを行ってもよいし、第2のビームフォーマ802により、雑音の発生する方向にビームを向ける適応ビームフォーマを行ってもよい。
 [他の実施形態]
 以上、実施形態を参照して本発明を説明したが、本発明は上記の実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。それぞれの実施形態に含まれる特徴を組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムがダウンロードされるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は2011年6月24日に出願された日本出願特願2011−140668を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、所望の音声を検知する音声処理装置に好適に適用可能である。本発明は特に、周囲の環境から混入する雑音を抑圧して、所望の音声の信号レベルが大きくない状況でも、所望の音声の発声を検知する音声処理装置に好適に適用される。
 100、500、700、800 音声処理装置
 101 導出部
 102 積算部
 103 減算部
 104 判定部
 110 第1のマイクロホン
 120 第2のマイクロホン
 201、202 マイクロホン
 210、220 音源
 503、504 パワー算出部
 505 雑音パワー比推定部
 506 雑音パワー推定部
 507 雑音抑圧パワー推定部
 508 閾値比較部
 701 適応フィルタ
 801 第1のビームフォーマ
 802 第2のビームフォーマ

Claims (11)

  1.  雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、前記第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する、雑音推定手段と、
     前記雑音推定手段からの出力を元に、前記第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する、雑音抑圧手段と、
     前記雑音抑圧手段からの出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定手段と
    を備えたことを特徴とする、音声処理装置。
  2.  前記第1の比は、前記雑音源から発生した音声の前記雑音源から前記第1のマイクロホンまでに伝播する間の第1の減衰率と、前記雑音源から発生した音声の前記雑音源から前記第2のマイクロホンまでに伝播する間の第2の減衰率との比であることを特徴とする、請求項1に記載の音声処理装置。
  3.  所望の音声が発生していないときに、前記第1の入力信号と、前記第2の入力信号を元に、前記第1の比を生成する入力信号比算出手段をさらに備えることを特徴とする、請求項1または2に記載の音声処理装置。
  4.  前記雑音推定手段は、前記雑音源から前記第2のマイクロホンまで音声が伝播する経路と、前記雑音源から前記第1のマイクロホンまで音声が伝播する経路を元に、前記雑音を推定することを特徴とする、請求項1に記載の音声処理装置。
  5.  前記第1の入力信号と前記第2の入力信号との和信号を生成する第1のビームフォーマと、
     前記第1の入力信号と前記第2の入力信号との差信号を生成する第2のビームフォーマと、
    をさらに備え、
     前記雑音推定手段は、前記差信号をもとに、雑音を推定し、
     前記雑音抑圧手段は、前記雑音推定手段からの出力を元に、前記和信号に含まれる雑音信号を抑圧することを特徴とする、請求項1に記載の音声処理装置。
  6.  雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、前記第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する、雑音推定ステップと、
     前記雑音推定ステップの出力を元に、前記第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する、雑音抑圧ステップと、
     前記雑音抑圧ステップの出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定ステップと
    を含むことを特徴とする、音声処理方法。
  7.  前記第1の比は、前記雑音源から発生した音声の前記雑音源から前記第1のマイクロホンまでに伝播する間の第1の減衰率と、前記雑音源から発生した音声の前記雑音源から前記第2のマイクロホンまでに伝播する間の第2の減衰率との比であることを特徴とする、請求項6に記載の音声処理方法。
  8.  所望の音声が発生していないときに、前記第1の入力信号と、前記第2の入力信号を元に、前記第1の比を生成する入力信号比算出ステップをさらに備えることを特徴とする、請求項6または7に記載の音声処理方法。
  9.  前記雑音推定ステップは、前記雑音源から前記第2のマイクロホンまで音声が伝播する経路と、前記雑音源から前記第1のマイクロホンまで音声が伝播する経路を元に、前記雑音を推定することを特徴とする、請求項6に記載の音声処理方法。
  10.  前記第1の入力信号と前記第2の入力信号との和信号を生成するステップと、
     前記第1の入力信号と前記第2の入力信号との差信号を生成するステップとをさらに備え、
     前記雑音推定ステップは、前記差信号をもとに、雑音を推定し、
     前記雑音抑圧ステップは、前記雑音推定手段からの出力を元に、前記和信号に含まれる雑音信号を抑圧することを特徴とする、請求項6に記載の音声処理方法。
  11.  雑音源と第1のマイクロホンと第2のマイクロホンについての第1の比と、前記第2のマイクロホンから出力された第2の入力信号を元に雑音を推定する、雑音推定処理と、
     前記雑音推定処理の出力を元に、前記第1のマイクロホンから出力された第1の入力信号に含まれる雑音信号を抑圧する、雑音抑圧処理と、
     前記雑音抑圧処理の出力と、所定の値を有する閾値とを比較して、所望の音声が存在するか否かを判定する、判定処理とをコンピュータに行わせることを特徴とする、音声処理プログラム。
PCT/JP2012/066449 2011-06-24 2012-06-21 音声処理装置、音声処理方法および音声処理プログラム WO2012176932A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011140668A JP2014194437A (ja) 2011-06-24 2011-06-24 音声処理装置、音声処理方法および音声処理プログラム
JP2011-140668 2011-06-24

Publications (1)

Publication Number Publication Date
WO2012176932A1 true WO2012176932A1 (ja) 2012-12-27

Family

ID=47422754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/066449 WO2012176932A1 (ja) 2011-06-24 2012-06-21 音声処理装置、音声処理方法および音声処理プログラム

Country Status (2)

Country Link
JP (1) JP2014194437A (ja)
WO (1) WO2012176932A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106024004A (zh) * 2016-05-11 2016-10-12 Tcl移动通信科技(宁波)有限公司 一种移动终端双麦降噪处理方法、系统及移动终端
CN107331407A (zh) * 2017-06-21 2017-11-07 深圳市泰衡诺科技有限公司 下行通话降噪方法及装置
JP2018164156A (ja) * 2017-03-24 2018-10-18 沖電気工業株式会社 収音装置、プログラム及び方法
US11395079B2 (en) * 2020-04-28 2022-07-19 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for detecting audio input module, and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110199528B (zh) * 2017-01-04 2021-03-23 哈曼贝克自动系统股份有限公司 远场声音捕获

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03212697A (ja) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd 信号処理装置
JP2005529379A (ja) * 2001-11-21 2005-09-29 アリフコム 電子的信号からノイズを除去する方法および装置
JP2009503568A (ja) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド 雑音環境における音声信号の着実な分離

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03212697A (ja) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd 信号処理装置
JP2005529379A (ja) * 2001-11-21 2005-09-29 アリフコム 電子的信号からノイズを除去する方法および装置
JP2009503568A (ja) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド 雑音環境における音声信号の着実な分離

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASANO: "Griffiths-Jim Type Adaptive Beamformer with Divided Structure", IEICE TECHNICAL REPORT, vol. 95, no. 587, 15 March 1996 (1996-03-15), pages 17 - 24 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106024004A (zh) * 2016-05-11 2016-10-12 Tcl移动通信科技(宁波)有限公司 一种移动终端双麦降噪处理方法、系统及移动终端
CN106024004B (zh) * 2016-05-11 2019-03-26 Tcl移动通信科技(宁波)有限公司 一种移动终端双麦降噪处理方法、系统及移动终端
JP2018164156A (ja) * 2017-03-24 2018-10-18 沖電気工業株式会社 収音装置、プログラム及び方法
CN107331407A (zh) * 2017-06-21 2017-11-07 深圳市泰衡诺科技有限公司 下行通话降噪方法及装置
CN107331407B (zh) * 2017-06-21 2020-10-16 深圳市泰衡诺科技有限公司 下行通话降噪方法及装置
US11395079B2 (en) * 2020-04-28 2022-07-19 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for detecting audio input module, and storage medium

Also Published As

Publication number Publication date
JP2014194437A (ja) 2014-10-09

Similar Documents

Publication Publication Date Title
JP5817366B2 (ja) 音声信号処理装置、方法及びプログラム
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US8355511B2 (en) System and method for envelope-based acoustic echo cancellation
EP1995940B1 (en) Method and apparatus for processing at least two microphone signals to provide an output signal with reduced interference
US8472616B1 (en) Self calibration of envelope-based acoustic echo cancellation
JP4916394B2 (ja) エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
US9336767B1 (en) Detecting device proximities
US8068619B2 (en) Method and apparatus for noise suppression in a small array microphone system
US8891780B2 (en) Microphone array device
EP2773137A2 (en) Microphone sensitivity difference correction device
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
WO2012176932A1 (ja) 音声処理装置、音声処理方法および音声処理プログラム
TW202117706A (zh) 具多麥克風之語音增強裝置及方法
US9330677B2 (en) Method and apparatus for generating a noise reduced audio signal using a microphone array
JP2011024072A (ja) ハウリングキャンセラ
US20170310360A1 (en) Echo removal device, echo removal method, and non-transitory storage medium
CN112272848A (zh) 使用间隙置信度的背景噪声估计
CN110148421B (zh) 一种残余回声检测方法、终端和装置
JP6265136B2 (ja) 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム
JP2010220087A (ja) 音響処理装置およびプログラム
JP2005142756A (ja) エコーキャンセラ
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP4395105B2 (ja) 音響結合量推定方法、音響結合量推定装置、プログラム、記録媒体
JP2018142819A (ja) 非目的音判定装置、プログラム及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12802041

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12802041

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP