WO2016092837A1 - 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 - Google Patents

音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 Download PDF

Info

Publication number
WO2016092837A1
WO2016092837A1 PCT/JP2015/006120 JP2015006120W WO2016092837A1 WO 2016092837 A1 WO2016092837 A1 WO 2016092837A1 JP 2015006120 W JP2015006120 W JP 2015006120W WO 2016092837 A1 WO2016092837 A1 WO 2016092837A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
speech
input signal
value
expected
Prior art date
Application number
PCT/JP2015/006120
Other languages
English (en)
French (fr)
Inventor
秀治 古明地
剛範 辻川
亮輔 磯谷
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/528,848 priority Critical patent/US10347273B2/en
Priority to JP2016563514A priority patent/JPWO2016092837A1/ja
Publication of WO2016092837A1 publication Critical patent/WO2016092837A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Definitions

  • the present invention relates to a voice processing device, a noise suppression device, a voice processing method, and a recording medium.
  • model-based noise suppression has been developed that uses a speech model that models speech features for noise suppression.
  • the model-based noise suppression method is a method for suppressing noise with high accuracy by referring to voice information of a voice model.
  • Patent Document 1 Non-Patent Document 1
  • Non-Patent Document 2. there are those described in Patent Document 1, Non-Patent Document 1, and Non-Patent Document 2. .
  • Patent Document 1 discloses a noise suppression system using a speech model.
  • the noise suppression system of Patent Document 1 obtains temporary estimated speech in a spectral region from an input signal and an average spectrum of noise, and corrects the temporary estimated speech using a standard pattern.
  • the noise suppression system calculates a noise reduction filter from the corrected temporary estimated speech and the noise average spectrum, and calculates an estimated speech from the noise reduction filter and the input signal spectrum.
  • Non-Patent Document 1 cannot correctly suppress noise when there is a mismatch between the voice power of the input signal and the voice power information of the voice model. Therefore, the technique of Non-Patent Document 1 is not robust against fluctuations in audio power of the input signal.
  • the model-based noise suppression methods described in Patent Document 1 and Non-Patent Document 2 estimate speech power from an input signal. Therefore, the model-based noise suppression methods described in Patent Document 1 and Non-Patent Document 2 are robust against a mismatch between the power of the input signal and the power information of the speech model.
  • the voice power ⁇ estimated from this input signal is as shown in the following equation (1).
  • the voice power included in the input signal cannot be correctly estimated when the input signal includes noise or is suppressed.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a technique for accurately estimating the audio power included in the input signal.
  • a speech processing apparatus uses a signal expectation that is an expected value of a spectrum of a speech component included in the input signal spectrum, using an input signal spectrum and a speech model obtained by modeling a feature amount of speech.
  • Expected value calculating means for calculating a value; and voice power estimating means for estimating the voice power of the voice component of the input signal spectrum based on the input signal spectrum and the expected spectrum value.
  • a noise suppression apparatus includes: a noise estimation unit that calculates estimated noise from an input signal; an expected value of a spectrum of a speech component included in the spectrum of the input signal from the spectrum of the input signal; and A speech processing apparatus that estimates speech power of the speech component, an expected value of the spectrum of the speech component, the speech power, and a suppression gain calculation unit that calculates a suppression gain using the spectrum of the estimated noise; Noise suppression means for suppressing noise of the input signal using the suppression gain and the spectrum of the input signal, and the speech processing apparatus is a speech modeled on the input signal spectrum and speech feature quantity.
  • An expected value calculation means for calculating an expected value of the spectrum of the speech component using a model, and a spectrum of the input signal spectrum and the speech component. Based on the expected value of torque, and a speech power estimation means for estimating the sound power.
  • the speech processing method uses a spectrum expectation that is an expected value of a spectrum of a speech component included in the input signal spectrum, using an input signal spectrum and a speech model obtained by modeling a feature amount of speech. A value is calculated, and the speech power of the speech component of the input signal spectrum is estimated based on the input signal spectrum and the expected spectrum value.
  • FIG. 1 is a functional block diagram showing an example of a functional configuration of the speech processing apparatus according to the first embodiment of the present invention.
  • the speech processing apparatus 10 includes a storage unit 11, an expected value calculation unit 12, and a speech power estimation unit 13.
  • the direction of the arrow in a drawing shows an example and does not limit the direction of the signal between blocks.
  • the directions of the arrows in the drawings show an example and do not limit the direction of signals between the blocks.
  • This spectrum S in (k) is referred to as an input spectrum or an input signal spectrum.
  • the speech processing apparatus 10 outputs the power (sound power) ⁇ (scalar amount) of the speech component included in the input spectrum.
  • the storage unit 11 stores a speech model obtained by modeling a feature amount of speech. Specifically, the storage unit 11 stores a Gaussian Mixture Model (GMM).
  • GMM Gaussian Mixture Model
  • the GMM uses, as learning data, feature quantities extracted from previously collected voice data (in this embodiment, M-dimensional vectors (M is a natural number)).
  • M is a natural number
  • the GMM is composed of a plurality of Gaussian distributions. Each Gaussian distribution has a weight, a mean vector, and a variance matrix as parameters.
  • the number of GMM mixtures (the number of Gaussian distributions constituting the GMM) is N
  • the weight of the i-th Gaussian distribution is w i
  • the average vector is ⁇ i ( ⁇ R M , where R M is an M-dimensional real vector space )
  • the parameters of the i-th Gaussian distribution are collectively described as (w i , ⁇ i , ⁇ i ).
  • the feature amount of speech data (hereinafter referred to as learning data) used for learning the GMM is a feature amount such as a mel spectrum or a mel cepstrum, but the feature amount is not limited to these in the present embodiment.
  • the feature quantity may further include higher order dynamic components such as a primary dynamic component and a secondary dynamic component.
  • the speech model stored in the storage unit 11 may be a hidden Markov model (HMM).
  • HMM hidden Markov model
  • the expected value calculation unit 12 uses the input spectrum S in (k) input to the speech processing apparatus 10 and the GMM stored in the storage unit 11 to calculate the speech component included in the input spectrum S in (k).
  • An expected spectrum value S ⁇ E (k) (hereinafter referred to as an expected spectrum value) is calculated.
  • a hat ( ⁇ ) indicates an estimated value (expected value). Note that the hat symbol is written to the right of the immediately preceding character in this specification, but the hat symbol ( ⁇ ) is arranged above the immediately preceding character.
  • the expected value calculation unit 12 first describes the input spectrum S in (k) as a feature vector s in ( ⁇ R M ) (hereinafter referred to as an input feature value) in order to calculate a spectrum expected value. ).
  • This input feature amount is equivalent to the feature amount of GMM learning data.
  • the expected value calculation unit 12 uses the calculated input feature value s in , average logarithm spectrum S ⁇ , i (k), and GMM parameters (w i , ⁇ i , ⁇ i ) as expected spectrum value S ⁇ E (K) is calculated using the following equation (2).
  • N (x; ⁇ , ⁇ ) can be expressed by the following equation (3).
  • m is the number of dimensions of the feature vector.
  • the expected value calculation unit 12 supplies the calculated expected spectrum value S E (k) to the speech power estimation unit 13.
  • the speech power estimation unit 13 is based on the input spectrum S in (k) input to the speech processing device 10 and the expected spectrum value S ⁇ E (k) supplied from the expected value calculation unit 12.
  • the speech power ⁇ of the speech component of in (k) is estimated. This audio power ⁇ becomes an output of the audio processing device 10.
  • the speech power estimation unit 13 controls the spectral expectation value S ⁇ E (k) controlled so that the square error between the spectral expectation value S ⁇ E (k) and the input spectrum Sin (k) is minimized. ) Is the audio power ⁇ .
  • the voice power estimation unit 13 estimates the voice power ⁇ by calculating the voice power ⁇ using the following equation (4).
  • the voice power estimation unit 13 may calculate the voice power ⁇ using Expression (5).
  • Equations (4) and (5) ⁇ is a coefficient that defines the magnification of the voice power, and an experimentally obtained value may be given.
  • represents a set of frequency bins k used for addition.
  • indicates the number of elements of the set ⁇ .
  • the following equation (6) is used to derive the set ⁇ .
  • the set ⁇ is a set of frequency bins k in which the spectrum expectation value S E (k) is equal to or greater than the predetermined value ⁇ .
  • is a set of frequency bins k in which the spectrum expectation value S E (k) is equal to or greater than the predetermined value ⁇ .
  • the set ⁇ when Expression (7) is used is a set of frequency bins k that gives the maximum value to the expected spectrum value S ⁇ E (k).
  • the set ⁇ when using the equation (8) is a set of frequency bins that exceeds the average of the spectrum expected values S E (k).
  • the set ⁇ when using Equation (9) is a set of frequency bins that exceed the geometric mean of the expected spectrum value S ⁇ E (k).
  • ⁇ in the equations (8) and (9) is a scalar quantity, which is given in advance. ⁇ may be an experimentally derived value. Further, the upper P frequency bins of the expected spectrum value S E (k) may be ⁇ . Note that “upper P number of expected spectrum values S E (k)” indicates P in order from the highest expected value of the expected spectrum values.
  • Equation (6) the set ⁇ is calculated by comparing the spectrum expected value S ⁇ E (k) with ⁇ , but ⁇ , the spectrum expected value S ⁇ E (k), and the input spectrum S in (k Comparison with a linear combination of
  • the speech power estimation unit 13 determines that the expected spectrum value S ⁇ E (k) or the expected spectrum value S ⁇ E (k) and the input spectrum Sin (k) are equal to or larger than the predetermined value ⁇ .
  • the audio power ⁇ of a certain frequency component k is calculated. Thereby, since the audio power estimation unit 13 calculates the audio power ⁇ using only the frequency component equal to or greater than the predetermined value ⁇ , the audio processing apparatus 10 according to the present embodiment estimates the audio power ⁇ with higher accuracy. can do.
  • the voice power estimation unit 13 may calculate a voice quality value of the input spectrum.
  • the voice power estimation unit 13 may further include a calculation unit that calculates the voice-likeness value in the voice power estimation unit 13.
  • voice power estimation part 13 may change the method of audio
  • the voice power estimation unit 13 may change the value of ⁇ in the formula (4) or the formula (5) according to the voice quality. For example, when the input spectrum is likely to be speech, the speech power estimation unit 13 may increase the value of ⁇ , and may set the value of ⁇ to 0 if it is not likely to be speech. Further, the voice power estimation unit 13 changes the value of ⁇ in the formula (8) and the formula (9) that are predetermined formulas (threshold values) ⁇ or formulas for defining the value of the threshold ⁇ in accordance with the likelihood of voice. You may let them.
  • the speech power estimation unit 13 inputs a predetermined value ⁇ to be compared with the expected spectrum value S E (k) or the expected spectrum value S E (k) and the input spectrum S in (k). You may change based on the audio
  • speech quality may be calculated by using a prepared speech model, a noise model parameter, and an input spectrum.
  • L is calculated using the following equation (10).
  • (w l ,, ⁇ l , ⁇ l ) represents the parameters of each Gaussian distribution when the prepared speech model is GMM
  • (w j ,, ⁇ j , ⁇ j ) is prepared in advance.
  • Sin is a feature vector of the input spectrum.
  • the speech power estimation unit 13 sets the value of the threshold ⁇ to a smaller value so that the number of elements of ⁇ becomes larger. .
  • the speech power estimation unit 13 increases the value of the threshold ⁇ so that the number of elements of ⁇ is smaller. Set.
  • the voice power estimation unit 13 can calculate the voice power ⁇ more accurately.
  • the voice power estimation unit 13 may derive the voice power using the following formula (11) using the voice quality index L.
  • ⁇ 1 and ⁇ 2 may be calculated based on Expression (4) or Expression (5) under sets ⁇ and ⁇ calculated using different ⁇ s. Further, for ⁇ 1 and ⁇ 2 , values obtained experimentally so that ⁇ 1 > ⁇ 2 may be used.
  • ⁇ 1 and ⁇ 2 may be predetermined values (first audio power and second audio power), respectively. Further, the audio power estimation unit 13 may set the first audio power ⁇ 1 and / or the second audio power ⁇ 2 so that ⁇ 1 > ⁇ 2 . As described above, when the index L indicating the likelihood of speech is smaller, the speech power estimation unit 13 sets the speech power ⁇ to the second speech power ⁇ 2 that is a smaller value, whereby the input spectrum S in ( The voice power ⁇ of k) can be estimated more accurately.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of the audio processing device 10 according to the present embodiment.
  • the speech processing apparatus 10 includes a CPU (Central Processing Unit) 1, a communication I / F (communication interface) 2 for network connection, a memory 3, a storage device 4 such as a hard disk for storing programs, and an input device. 5 and an output device 6, each connected via a system bus 9.
  • CPU Central Processing Unit
  • I / F communication interface
  • the CPU 1 operates the operating system to control the voice processing device 10 according to the present embodiment. Further, the CPU 1 reads out a program or data from a recording medium mounted on the drive device and writes it in the memory 3, for example.
  • the CPU 1 functions as, for example, a part of the expected value calculation unit 12 and the audio power estimation unit 13 of the present embodiment, and executes various processes based on, for example, a program written in the memory 3.
  • the storage device 4 is, for example, an optical disk, a flexible disk, a magnetic optical disk, an external hard disk, or a semiconductor memory.
  • a part of the storage medium of the storage device 4 is a nonvolatile storage device, and stores a program therein.
  • the program may be downloaded from an external computer (not shown) connected to the communication network, for example, via the communication I / F2.
  • the storage device 4 functions as, for example, the storage unit 11 in the present embodiment.
  • the input device 5 is realized by, for example, a touch sensor and used for input operation.
  • the output device 6 is realized by a display, for example, and is used for confirming the output.
  • the speech processing apparatus 10 is realized by the hardware configuration shown in FIG.
  • the means for realizing each unit included in the speech processing apparatus 10 is not particularly limited.
  • FIG. 3 is a flowchart showing an example of the flow of the sound power estimation process of the sound processing apparatus 10 according to the present embodiment.
  • the expected value calculation unit 12 of the speech processing device 10 uses the input spectrum S in (k) and the GMM parameters of the storage unit 11 to calculate the expected spectrum value S ⁇ E (k). Calculate (step S31).
  • the voice power estimation unit 13 calculates the voice power ⁇ using the input spectrum S in (k) and the expected spectrum value S ⁇ E (k) calculated by the expected value calculation unit 12 (step S32). The process is terminated.
  • the expected value calculation unit 12 uses the input spectrum S in (k) and a speech model (GMM) obtained by modeling the feature amount of speech to calculate the speech component included in the input spectrum S in (k). This is because the expected value of the spectrum (spectrum expected value S ⁇ E (k)) is calculated. Then, the voice power estimation unit 13 estimates the voice power ⁇ of the voice component of the input spectrum S in (k) based on the input spectrum S in (k) and the expected spectrum value S ⁇ E (k). .
  • GMM speech model
  • the speech power ⁇ estimated by the speech power estimation unit 13 is calculated by referring to the expected spectrum value S ⁇ E (k) calculated from the speech model and the input spectrum S in (k). Therefore, even when the input signal includes noise or is suppressed, it is possible to calculate the voice power ⁇ with high accuracy. Therefore, the speech processing apparatus 10 according to the present embodiment can accurately calculate the speech power ⁇ of the speech component included in the input spectrum S in (k).
  • the speech power estimation unit 13 of the speech processing apparatus 10 has a predetermined band in which the error between the spectrum expected value S ⁇ E (k) and the input spectrum Sin (k) is less affected by noise.
  • the power of the expected spectrum value S ⁇ E (k) controlled to be minimum in FIG.
  • the spectrum expected value S ⁇ E (k) can be brought close to the speech spectrum included in the input spectrum Sin (k). Therefore, the speech processing apparatus 10 according to the present embodiment can estimate the speech power included in the input signal with higher accuracy.
  • the noise suppression device is model-based noise suppression described in Non-Patent Document 1, and uses the voice power calculated in the first embodiment as a noise suppression gain. To do.
  • members having the same functions as those included in the drawings described in the first embodiment described above are given the same reference numerals, and descriptions thereof are omitted.
  • FIG. 4 is a functional block diagram showing an example of a functional configuration of the noise suppression device 20 according to the second embodiment of the present invention.
  • the noise suppression device 20 includes the speech processing device 10 described in the first embodiment, an input signal acquisition unit 21, a noise estimation unit 22, a temporary noise suppression unit 23, and a suppression gain calculation. Unit 24 and a noise suppression unit 25.
  • the noise suppression device 20 receives a digital signal as an input and outputs a digital signal whose voice power is controlled.
  • the input signal acquisition unit 21 acquires (receives) a digital signal input to the noise suppression device 20. This digital signal is also called an input signal.
  • the input signal acquisition unit 21 cuts the acquired digital signal into frames for each unit time and converts them into a spectrum.
  • the input signal acquisition unit 21 supplies the converted input signal spectrum X (t, k) to the noise estimation unit 22, the temporary noise suppression unit 23, and the noise suppression unit 25, respectively.
  • the number of samples T included in the frame will be described.
  • the digital signal is 16 bits with a sampling frequency of 8000 Hz converted by linear PCM (Pulse Code Modulation)
  • the digital signal includes values for 8000 points per second.
  • the length of one frame is 25 milliseconds
  • the digital signal acquired by the input signal acquisition unit 21 is, for example, (1) a digital signal supplied from a microphone or the like through an A / D converter, (2) a digital signal read from the hard disk, and (3) a communication packet. Examples of the digital signal that can be obtained. However, the digital signal is not limited to these in the present embodiment. In addition, the digital signal may be not only an audio signal recorded in a noise environment but also an audio signal subjected to noise suppression processing.
  • the noise estimation unit 22 is means for estimating the estimated noise from the input signal spectrum.
  • the spectrum N ⁇ (t, k) of the estimated noise component (estimated noise) is hereinafter referred to as an estimated noise spectrum. Then, the noise estimation unit 22 supplies the estimated noise spectrum N ⁇ (t, k) estimated to the temporary noise suppression unit 23 and the suppression gain calculation unit 24, respectively.
  • the noise estimation unit 22 calculates the estimated noise by using a known weighted noise estimation method (Weighted Noise Estimation; WiNE) or the like, but the noise estimation unit 22 calculates the estimated noise.
  • WiNE Weighted Noise Estimation
  • the noise estimation unit 22 may calculate the estimated noise by a desired method.
  • the noise estimation unit 22 can estimate the noise included in the input signal.
  • this estimated noise is also called temporary noise.
  • the temporary noise suppression unit 23 supplies the calculated temporary noise suppression spectrum S ⁇ (t, k) to the speech processing apparatus 10.
  • the temporary noise suppression unit 23 converts the temporary noise suppression spectrum S ⁇ (t, k) into a known technique (for example, spectral subtraction (SS), Wiener filter method (Wiener Filter: WF) etc.), but the present embodiment is not limited to this.
  • the temporary noise suppression unit 23 may calculate the spectrum of the temporary estimated speech by a desired method. Note that when the amount of noise included in the input signal is small, or when the input signal has already been subjected to noise suppression, the noise suppression device 20 may omit the process of the temporary noise suppression unit 23. In this case, the temporary noise suppression spectrum S (t, k) becomes the input signal spectrum X (t, k).
  • the temporary noise suppression unit 23 supplies the temporary noise suppression spectrum S ⁇ (t, k) in which the temporary noise is suppressed to the voice processing device 10, so that the voice processing device 10 suppresses the temporary noise.
  • the provisional noise suppression spectrum S ⁇ (t, k) can be used as the input spectrum S in (k). Thereby, the voice processing device 10 can estimate the voice power more accurately.
  • the speech processing apparatus 10 calculates speech power ⁇ (t) from the provisional noise suppression spectrum S ⁇ (t, k) supplied by the provisional noise suppression unit 23. Then, the audio processing device 10 supplies the audio power ⁇ (t) to the suppression gain calculation unit 24. Further, the speech processing apparatus 10 also supplies the calculated spectrum expected value S ⁇ E (t, k) to the suppression gain calculation unit 24 in the process of calculating the speech power ⁇ (t).
  • the expected spectrum value S ⁇ E (t, k) is calculated by the expected value calculator 12 as described in the first embodiment.
  • the input spectrum S in (k), the expected spectrum value S ⁇ E (k), and the voice power ⁇ in the first embodiment are respectively converted to the temporary noise suppression spectrum S ⁇ (t, k), expected spectrum value S ⁇ E (t, k), and voice power ⁇ (t).
  • the suppression gain calculation unit 24 is a means for calculating a suppression gain using the expected spectrum value S ⁇ E (t, k), the speech power ⁇ (t), and the estimated noise spectrum N ⁇ (t, k). is there.
  • molecules of the right side of the equation (12) is a spectrum divided by the sum of k spectral expectation S ⁇ E (t, k) the spectral expectation S ⁇ E (t, k) It is the product of the expected value and the audio power ⁇ (t).
  • the denominator on the right side of Equation (12) is the sum of the product and the estimated noise spectrum N ⁇ (t, k). That is, the suppression gain calculation unit 24 calculates the ratio of (a) the product of the expected spectrum value and the speech power ⁇ (t) to (b) the sum of the product and the estimated noise spectrum N ⁇ (t, k). The value is calculated as a suppression gain W (t, k).
  • the suppression gain calculation unit 24 calculates the suppression gain W (t, k), the expected spectrum value S ⁇ E (t, k) calculated by the speech processing apparatus 10 and the speech power ⁇ (t ).
  • the voice power ⁇ (t) is calculated by referring to the voice model and the expected spectrum value S ⁇ E (t, k) calculated from the temporary noise suppression spectrum S ⁇ (t, k). Therefore, the suppression gain calculation unit 24 can calculate the suppression gain W (t, k) using the speech power ⁇ (t) with higher estimation accuracy.
  • the suppression gain calculation unit 24 supplies the calculated suppression gain W (t, k) to the noise suppression unit 25.
  • the noise suppression spectrum Y (t, k) W (t, k) X (t, k) (13)
  • the noise suppression spectrum Y (t, k) is obtained by suppressing noise included in the input signal spectrum X (t, k) from the input signal spectrum X (t, k).
  • the noise suppression unit 25 outputs the calculated noise suppression spectrum Y (t, k) converted to a feature vector to the speech recognition apparatus as a feature vector of estimated speech. Further, when outputting to a sound reproduction device such as a speaker, the noise suppression unit 25 performs inverse Fourier transform on the spectrum of the estimated speech obtained from the converted feature vector, converts the spectrum into a time domain signal, and outputs the signal. (Digital signal) is output.
  • the feature vector or digital signal output by the noise suppression unit 25 is referred to as an output signal.
  • the hardware configuration of the noise suppression device 20 according to the present embodiment is the same as the hardware configuration of the speech processing device 10 according to the first embodiment shown in FIG.
  • FIG. 5 is a flowchart showing an example of the flow (noise suppression processing) for deriving the noise suppression spectrum Y (t, k) of the noise suppression device 20 according to the present embodiment.
  • the input signal acquisition unit 21 of the noise suppression device 20 calculates an input signal spectrum X (t, k) (step S51).
  • the noise estimation unit 22 estimates the noise included in the input signal. That is, the noise estimation unit 22 estimates the estimated noise spectrum N ⁇ (t, k) from the input signal spectrum X (t, k) (step S52).
  • the temporary noise suppression unit 23 suppresses temporary noise in the input signal spectrum X (t, k). That is, the temporary noise suppression unit 23 removes the estimated noise spectrum N ⁇ (t, k) from the input signal spectrum X (t, k) and calculates the temporary noise suppression spectrum S ⁇ (t, k) (step S53). ). As described above, this step may be omitted. In this case, the temporary noise suppression spectrum S ⁇ (t, k) is set as the input signal spectrum X (t, k).
  • the speech processing apparatus 10 receives the temporary noise suppression spectrum S (t, k) as an input and calculates a spectrum expected value S E (t, k) (step S54). Then, the voice processing device 10 calculates the voice power ⁇ (t) (step S55). Steps S54 and S55 are the same processes as steps S31 and S32 described in the first embodiment, respectively.
  • the suppression gain calculation unit 24 calculates the suppression gain W (t, k) from the estimated noise spectrum N ⁇ (t, k), the expected spectrum value S ⁇ E (t, k), and the speech power ⁇ (t). Is calculated (step S56).
  • the noise suppression unit 25 suppresses the noise of the input signal. That is, the noise suppression unit 25 calculates the noise suppression spectrum Y (t, k) by multiplying the input signal spectrum X (t, k) by the suppression gain W (t, k) (step S57).
  • step S58 the input signal acquisition unit 21 of the noise suppression device 20 confirms whether or not a digital signal to be processed remains. If the digital signal to be processed remains (YES in step S58), the process returns to step S51. If not (NO in step S58), the process ends.
  • the speech processing device 10 of the noise suppression device 20 according to the present embodiment estimates the speech power included in the input signal with higher accuracy, similar to the speech processing device 10 according to the first embodiment described above. Can do.
  • the noise suppression apparatus 20 since the noise suppression apparatus 20 according to the present embodiment suppresses noise included in the input signal using such highly accurate voice power, it is possible to suppress noise with higher accuracy.
  • the configuration in which the voice processing device 10 includes the storage unit 11 has been described.
  • the storage unit 11 is realized by a device separate from the voice processing device 10. There may be.
  • the configuration will be described with reference to FIG.
  • members having the same functions as the members included in the drawings described in the above-described embodiments are denoted by the same reference numerals and description thereof is omitted.
  • the hardware configuration of the speech processing apparatus 30 according to the present embodiment is the same as the hardware configuration of the speech processing apparatus 10 in the first embodiment shown in FIG.
  • FIG. 6 is a functional block diagram showing an example of a functional configuration of the voice processing device 30 according to the present embodiment.
  • the speech processing apparatus 30 includes an expected value calculation unit 12 and a speech power estimation unit 13.
  • the expected value calculation unit 12 calculates an expected spectrum value, which is an expected value of a spectrum of a speech component included in the input signal spectrum, using the input signal spectrum and a speech model obtained by modeling a speech feature amount. This speech model is stored in the storage unit 11 described in the first and second embodiments.
  • the expected value calculation unit 12 supplies the calculated spectrum expected value to the voice power estimation unit 13.
  • the voice power estimation unit 13 estimates the voice power of the voice component of the input signal spectrum based on the input signal spectrum and the expected spectrum value supplied from the expected value calculation unit 12.
  • the speech power estimation unit 13 calculates the speech power of the speech component of the input signal using the input signal spectrum and the speech model. Estimate using.
  • the speech processing apparatus 30 can estimate the speech power included in the input signal with higher accuracy.
  • each operation in the above-described embodiment can be executed by hardware or software, or a combination of both.
  • Expected value calculating means for calculating an expected spectrum value that is an expected value of a spectrum of a speech component included in the input signal spectrum by using an input signal spectrum and a speech model obtained by modeling a feature amount of speech.
  • a speech power estimation unit that estimates speech power of a speech component of the input signal spectrum based on the input signal spectrum and the expected spectrum value.
  • the voice power estimation means uses the power of the expected spectrum value controlled so as to minimize an error between the expected spectrum value and the input signal spectrum as the voice power.
  • the speech processing apparatus according to attachment 1.
  • voice power estimation means calculates the said audio
  • the speech processing apparatus according to Supplementary Note 1 or 2.
  • the voice power estimation means changes the predetermined value to be compared with the expected spectrum value or the expected spectrum value and the input signal spectrum value based on the voice quality of the input signal spectrum.
  • the voice power estimation means sets the predetermined value to a smaller value when the index indicating the speech likelihood is larger, and sets the predetermined value when the index is smaller.
  • the speech processing apparatus according to appendix 4, wherein a larger value is set.
  • voice power estimation means makes the said audio
  • the voice processing device according to 5.
  • Noise estimation means for calculating estimated noise from an input signal, and the expected value of the spectrum of the speech component included in the spectrum of the input signal and the speech power of the speech component are estimated from the spectrum of the input signal
  • a speech processing apparatus a speech gain spectrum expectation value, the speech power, the estimated noise spectrum, and a suppression gain calculation means for calculating a suppression gain, the suppression gain and the input signal
  • Noise suppression means that suppresses noise of the input signal using a spectrum
  • the speech processing device uses the spectrum of the input signal and a speech model that models a feature amount of speech.
  • An expected value calculating means for calculating an expected value of the spectrum of the speech component; Noise suppression device characterized by and a speech power estimation means for estimating the sound power.
  • the speech power estimation means uses the power of the expected value of the spectrum of the speech component controlled so that an error between the expected value of the spectrum of the speech component and the spectrum of the input signal is minimized.
  • the noise suppression device according to appendix 8, wherein the noise suppression device is power.
  • the voice power estimation means may calculate the expected value of the spectrum of the voice component, or the frequency component of the frequency component in which the expected value of the spectrum of the voice component and the spectrum value of the input signal are equal to or greater than a predetermined value
  • the noise suppression apparatus according to appendix 8 or 9, wherein the sound power is calculated.
  • the speech power estimation means is configured to input the predetermined value to be compared with an expected value of the spectrum of the speech component, or an expected value of the spectrum of the speech component and a spectrum value of the input signal.
  • the noise suppression device according to appendix 10, wherein the noise suppression device is changed based on the sound quality of a signal spectrum.
  • the voice power estimation means sets the predetermined value to a smaller value when the index indicating the likelihood of voice is larger, and sets the predetermined value when the index is smaller.
  • voice power estimation means makes the said audio
  • the noise suppression device according to 12.
  • Noise estimation means for calculating estimated noise from the input signal, the speech processing device according to any one of supplementary notes 1 to 7, and an expected value of the spectrum of the speech component included in the spectrum of the input signal
  • a suppression gain calculating means for calculating a suppression gain using the speech power of the speech component and the spectrum of the estimated noise, and suppressing the noise of the input signal using the suppression gain and the spectrum of the input signal.
  • a noise suppression device for calculating a suppression gain using the speech power of the speech component and the spectrum of the estimated noise, and suppressing the noise of the input signal using the suppression gain and the spectrum of the input signal.
  • Temporary noise suppression means for generating a temporary noise suppression signal that suppresses temporary noise from the input signal using the input signal and the estimated noise is further provided, and the speech processing apparatus includes the temporary noise 16.
  • the noise suppression apparatus according to any one of appendices 8 to 15, wherein an expected value of the spectrum of the speech component and the speech power are estimated using a spectrum of the suppression signal as a spectrum of the input signal.
  • the suppression gain calculating means calculates, as the suppression gain, a ratio of a product of an expected value of a spectrum of the audio component and the audio power to a sum of the product and the estimated noise.
  • the noise suppression device according to any one of appendices 8 to 16.
  • Estimated noise is calculated from an input signal, and is included in the spectrum of the input signal by using the spectrum of the input signal and a speech model obtained by modeling a feature amount of speech. Calculating an expected value of the spectrum of the voice component, estimating a voice power of the voice component based on the expected value of the spectrum of the input signal and the spectrum of the voice component, and an expected value of the spectrum of the voice component; A noise suppression method comprising: calculating a suppression gain using speech power and a spectrum of the estimated noise; and suppressing noise of the input signal using the suppression gain and the spectrum of the input signal.
  • the spectrum of the input signal and the speech model obtained by modeling the feature amount of speech are converted into the spectrum of the input signal.
  • a process of calculating an expected value of the spectrum of the included audio component, a process of estimating the audio power of the audio component based on the expected value of the spectrum of the input signal and the spectrum of the audio component, and the spectrum of the audio component A process of calculating a suppression gain using the expected value of the signal, the speech power, and the spectrum of the estimated noise, and a process of suppressing the noise of the input signal using the suppression gain and the spectrum of the input signal And causing a computer to execute the program.
  • Appendix 22 A computer-readable recording medium storing the program according to Appendix 20 or 21.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 入力信号が含む音声パワーを精度よく推定する技術を提供する。音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。

Description

音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
 本発明は、音声処理装置、雑音抑圧装置、音声処理方法および記録媒体に関する。
 近年、音声特徴をモデル化した音声モデルを雑音抑圧に用いるモデルベースの雑音抑圧が発展している。モデルベース雑音抑圧法は、音声モデルがもつ音声情報を参照して高精度に雑音を抑圧する方法であり、例えば、特許文献1、非特許文献1および非特許文献2に記載されるものがある。
 例えば、特許文献1には、音声モデルを用いた雑音抑制システムが開示されている。特許文献1の雑音抑制システムは、入力信号と雑音の平均スペクトルとからスペクトル領域で仮推定音声を求め、標準パタンを用いて仮推定音声を補正している。そして、前記雑音抑制システムは、補正した仮推定音声と雑音平均スペクトルとから雑音低減フィルタを算出し、当該雑音低減フィルタと入力信号スペクトルとから推定音声を算出している。
特許第4765461号公報
Pedro J. Moreno, Bhiksha Raj and Richard M. Stern, "A Vector Taylor Series Approach for Environment Independent Speech Recognition," Proc. ICASSP1996, pp. 733-736 vol. 2, 1996. M. Tsujikawa, T. Arakawa, and R. Isotani, "In-car speech recognition using model-based wiener filter and multi-condition training," INTERSPEECH 2008, pp. 972-975, 2008. 09.
 非特許文献1に記載のモデルベース雑音抑圧法は、入力信号の音声パワーと音声モデルが持つ音声パワーの情報との間にミスマッチがある場合に、正しく雑音を抑圧できない。そのため、非特許文献1の技術では、入力信号の音声パワーの変動に対して頑健でない。
 一方、特許文献1および非特許文献2に記載のモデルベース雑音抑圧法は、入力信号から音声パワーを推定する。したがって、特許文献1および非特許文献2に記載のモデルベース雑音抑圧法は、入力信号のパワーと音声モデルがもつパワー情報との間のミスマッチに対して頑健である。
 この入力信号から推定した音声パワーγは、下記の式(1)に示すものとなる。
Figure JPOXMLDOC01-appb-M000001
ここで、Sin(k)(k=0,...,K-1,但し、kは周波数ビン、Kはナイキスト周波数)は、入力信号スペクトルである。
 しかしながら、式(1)を用いての音声パワーの推定では、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合に、入力信号が含む音声パワーを正しく推定することができない。
 本発明は、上記問題に鑑みてなされたものであり、その目的は、入力信号が含む音声パワーを精度よく推定する技術を提供することにある。
 本発明の一態様に係る音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。
 本発明の一態様に係る雑音抑圧装置は、入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備える。
 本発明の一態様に係る音声処理方法は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する。
 なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
 本発明によれば、入力信号が含む音声パワーを精度よく推定することができる。
本発明の第1の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。 本発明の第1の実施の形態に係る音声処理装置のハードウェア構成の一例を示す図である。 本発明の第1の実施の形態に係る音声処理装置の音声パワー推定処理の流れの一例を示すフローチャートである。 本発明の第2の実施の形態に係る雑音抑圧装置の機能構成の一例を示す機能ブロック図である。 本発明の第2の実施の形態に係る雑音抑圧装置の雑音抑圧処理の流れの一例を示すフローチャートである。 本発明の第3の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。
 <第1の実施の形態>
 以下、本発明の第1の実施の形態について、図面を参照して説明する。
 (音声処理装置10の構成)
 図1は、本発明の第1の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。図1に示すとおり、音声処理装置10は、記憶部11、期待値算出部12および音声パワー推定部13を備えている。なお、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。以降に参照する、他のブロック図においても同様に、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
 音声処理装置10には、デジタル信号の1区間から算出されるスペクトルSin(k)(k=0,...,K-1。但し、kは周波数ビン、Kはナイキスト周波数)が入力される。以下、このスペクトルSin(k)を入力スペクトルまたは入力信号スペクトルと呼ぶ。また、音声処理装置10は、入力スペクトルが含む音声成分のパワー(音声パワー)γ(スカラ量)を出力する。
 (記憶部11)
 記憶部11には、音声の特徴量をモデル化した音声モデルが格納されている。具体的には、記憶部11には、混合ガウス分布モデル(Gaussian Mixture Model;GMM)が格納されている。
 GMMは、予め収集した音声データから抽出した特徴量(本実施の形態ではM次元ベクトルとする(Mは自然数))を学習データとする。具体的には、GMMは、複数のガウス分布から構成される。各ガウス分布は、重み、平均ベクトル、および分散行列をパラメタとして有する。
 以降、GMMの混合数(GMMを構成するガウス分布の数)をN、i番目のガウス分布の重みをw、平均ベクトルをμ(∈R、但し、RはM次元実ベクトル空間)、分散行列をΣ(∈RM×M)(但し、i=0,...,N-1)(Nは自然数)とする。以降、i番目のガウス分布の各パラメタをまとめて、(w,μ,Σ)と記載する。
 なお、GMMを学習するために用いる音声データ(以下、学習データと記す)の特徴量は、メルスペクトルやメルケプストラムといった特徴量とするが、本実施の形態では特徴量はこれらに限定されない。また、特徴量には1次動的成分、2次動的成分等、高次の動的成分をさらに含んでもよい。
 また、記憶部11に格納される音声モデルは、隠れマルコフモデル(Hidden Markov Model;HMM)であってもよい。
 (期待値算出部12)
 期待値算出部12は、音声処理装置10に入力される入力スペクトルSin(k)と、記憶部11に格納されたGMMとを用いて、入力スペクトルSin(k)に含まれる音声成分のスペクトルの期待値S^(k)(以下、スペクトル期待値と記す)を算出する。ここで、ハット(^)は推定値(期待値)を示している。なお、ハット記号を、本明細書では直前文字の右に記しているが、当該ハット記号(^)は、直前の文字の上側に配置される。
 具体的には、期待値算出部12は、スペクトル期待値の算出のために、まず、入力スペクトルSin(k)を、特徴量ベクトルsin(∈R)(以下、入力特徴量と記す)に変換する。この入力特徴量は、GMMの学習データの特徴量と同等のものである。また、期待値算出部12は、GMMの平均ベクトルμを対数スペクトルSμ,i(k)(k=0,...,K-1)(以下、平均対数スペクトルと記す)に逆変換する。
 そして、期待値算出部12は、算出した入力特徴量sin、平均対数スペクトルSμ,i(k)、GMMのパラメタ(w,μ,Σ)を用いてスペクトル期待値S^(k)を、以下の式(2)を用いて算出する。
Figure JPOXMLDOC01-appb-M000002
 ここで、N(x;μ,Σ)は、以下の式(3)で表すことができる。
Figure JPOXMLDOC01-appb-M000003
 なお、mは特徴量ベクトルの次元数である。
 期待値算出部12は、算出したスペクトル期待値S^(k)を音声パワー推定部13に供給する。
 (音声パワー推定部13)
 音声パワー推定部13は、音声処理装置10に入力される入力スペクトルSin(k)と、期待値算出部12から供給されるスペクトル期待値S^(k)とに基づいて、入力スペクトルSin(k)の音声成分の音声パワーγを推定する。この音声パワーγは、音声処理装置10の出力となる。
 具体的には、音声パワー推定部13は、スペクトル期待値S^(k)と入力スペクトルSin(k)との2乗誤差が最小になるように制御したスペクトル期待値S^(k)のパワーを、音声パワーγとする。音声パワー推定部13は、以下の式(4)を用いて、音声パワーγを算出することにより、音声パワーγを推定する。
Figure JPOXMLDOC01-appb-M000004
 または、音声パワー推定部13は、式(5)を用いて、音声パワーγを算出してもよい。
Figure JPOXMLDOC01-appb-M000005
 式(4)および式(5)において、ηは音声パワーの倍率を規定する係数であり、実験的に求めた値を与えてもよい。また、Ωは、加算で用いる周波数ビンkの集合を示す。|Ω|は集合Ωの要素数を示す。集合Ωの導出には、以下の式(6)を用いる。
Figure JPOXMLDOC01-appb-M000006
 つまり、集合Ωは、スペクトル期待値S^(k)が所定の値θ以上となる周波数ビンkの集合となる。このθの算出にはいくつかバリエーションを持たすことができ、それらを以下の式(7)~式(9)に示す。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 ここで、式(7)を用いた際の集合Ωは、スペクトル期待値S^(k)に最大値を与える周波数ビンkの集合となる。式(8)を用いた際の集合Ωは、スペクトル期待値S^(k)の加算平均を上回る周波数ビンの集合となる。式(9)を用いた際の集合Ωは、スペクトル期待値S^(k)の相乗平均を上回る周波数ビンの集合となる。
 ここで、式(8)および式(9)のαは、スカラ量であり、予め与えられるものである。なお、αは実験的に導出した値を与えてもよい。さらに、スペクトル期待値S^(k)の上位P個の周波数ビンをΩとしてもよい。なお、「スペクトル期待値S^(k)の上位P個」とは、スペクトル期待値のうち、期待値が高いものから順にP個を示す。
 なお、式(6)ではスペクトル期待値S^(k)とθとの比較により集合Ωを算出しているが、θと、スペクトル期待値S^(k)および入力スペクトルSin(k)の線形結合との比較でもよい。
 このように、音声パワー推定部13は、スペクトル期待値S^(k)、または、スペクトル期待値S^(k)および入力スペクトルSin(k)の値が、所定の値θ以上である周波数成分kの音声パワーγを算出する。これにより、音声パワー推定部13が所定の値θ以上の周波数成分のみを用いて音声パワーγを算出するため、本実施の形態に係る音声処理装置10は、より精度が高い音声パワーγを推定することができる。
 また、音声パワー推定部13は、入力スペクトルの音声らしさの値を算出してもよい。このとき、音声パワー推定部13は、音声パワー推定部13内に、この音声らしさの値を算出する算出部をさらに備える構成であってもよい。そして、音声パワー推定部13は、上記算出部で算出される値に応じて、音声パワーの推定の方法を変更してもよい。
 例えば、音声らしさに応じて、音声パワー推定部13は、式(4)または式(5)のηの値を変化させてもよい。例えば、入力スペクトルが音声らしい場合、音声パワー推定部13は、ηの値をより大きくし、音声らしくない場合はηの値を0に設定してもよい。また、音声パワー推定部13は、音声らしさに応じて、所定の値(閾値)θ、または、閾値θの値を規定する式である式(8)および式(9)のαの値を変化させてもよい。つまり、音声パワー推定部13は、スペクトル期待値S^(k)、または、スペクトル期待値S^(k)および入力スペクトルSin(k)の値と比較する、所定の値θを入力スペクトルの音声らしさに基づいて変化させてもよい。例えば、音声パワー推定部13は、入力スペクトルが音声らしい場合、Ωの要素数がより大きくなるように閾値θを設定し、音声らしくない場合は、Ωの要素数をより小さくするように閾値θを設定してもよい。
 ここで、「音声らしさ」とは、予め用意した音声モデルと雑音モデルのパラメタと入力スペクトルとを用いることにより、算出されるものであってもよい。例えば、音声らしさの指標をLとすると、Lは、以下の式(10)を用いて算出される。
Figure JPOXMLDOC01-appb-M000010
 ここで、(wl,,μ,Σ)は、予め用意した音声モデルをGMMとした場合の各ガウス分布のパラメタを表し、(wj,,μ,Σ)は、予め用意した雑音モデルをGMMとした場合の各ガウス分布のパラメタを表す。なおこれらのパラメタは記憶部11に格納されるものであってもよい。また、sinは入力スペクトルの特徴量ベクトルである。
 この音声らしさを示す指標Lがより大きい場合、例えば、所定の値より大きい場合、入力スペクトルが音声らしいことを示し、Lがより小さい場合、例えば、他の所定の値より小さい場合、入力スペクトルが音声らしくないことを示す。したがって、音声パワー推定部13は、入力スペクトルが音声らしい場合、つまり、Lの値がより大きい値の場合、Ωの要素数がより大きくなるように、閾値θの値をより小さい値に設定する。同様に、音声パワー推定部13は、入力スペクトルが音声らしくない場合、つまり、Lの値がより小さい値の場合、Ωの要素数がより小さくなるように、閾値θの値をより大きい値に設定する。このように、θの値を設定することにより、音声パワー推定部13は、より精度よく音声パワーγを算出することができる。
 また、音声パワー推定部13は、この音声らしさの指標Lを用いて、音声パワーを以下の式(11)を用いて導出してもよい。
Figure JPOXMLDOC01-appb-M000011
 ここで、γとγとは、それぞれ異なるθを用いて算出した集合Ωとηの下で、式(4)または式(5)に基づいて算出されるものであってもよい。また、φおよびφは、φ>φとなるように実験的に求めた値を用いてもよい。
 また、γとγとは、夫々、所定の値(第1の音声パワーおよび第2の音声パワー)であってもよい。また、音声パワー推定部13は、γ>γとなるように、第1の音声パワーγおよび/または第2の音声パワーγとを設定してもよい。このように、音声パワー推定部13は、音声らしさを示す指標Lがより小さい場合に、音声パワーγを、より小さい値である第2の音声パワーγとすることにより、入力スペクトルSin(k)の音声パワーγをより精度よく推定することができる。
 (音声処理装置10のハードウェア構成)
 次に、図2を参照して、音声処理装置10のハードウェア構成について説明する。図2は、本実施の形態に係る音声処理装置10のハードウェア構成の一例を示す図である。図2に示すとおり、音声処理装置10は、CPU(Central Processing Unit)1、ネットワーク接続用の通信I/F(通信インターフェース)2、メモリ3、プログラムを格納するハードディスク等の記憶装置4、入力装置5および出力装置6を含み、夫々、システムバス9を介して接続している。
 CPU1は、オペレーティングシステムを動作させて本実施の形態に係る音声処理装置10を制御する。また、CPU1は、例えば、ドライブ装置に装着された記録媒体からプログラムやデータを読み出し、メモリ3に書き込む。
 また、CPU1は、例えば、本実施の形態の期待値算出部12および音声パワー推定部13の一部として機能し、例えば、メモリ3に書き込んだプログラムに基づいて各種の処理を実行する。
 記憶装置4は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等である。記憶装置4の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶している。また、プログラムは通信網に接続されている図示しない外部コンピュータから、例えば通信I/F2を介してダウンロードされてもよい。記憶装置4は、例えば、本実施の形態における記憶部11として機能する。
 入力装置5は、例えば、タッチセンサなどで実現され、入力操作に用いられる。また、出力装置6は、例えば、ディスプレイで実現され、出力を確認するために用いられる。
 以上のように、本実施の形態に係る音声処理装置10は、図2に示されるハードウェア構成によって実現される。但し、音声処理装置10が備える各部の実現手段は特に限定されない。
 (音声処理装置10の処理)
 次に、図3を参照して音声処理装置10の処理の流れについて説明する。図3は、本実施の形態に係る音声処理装置10の音声パワー推定処理の流れの一例を示すフローチャートである。
 図3に示すとおり、まず、音声処理装置10の期待値算出部12が、入力スペクトルSin(k)と記憶部11のGMMのパラメタとを用いて、スペクトル期待値S^(k)を算出する(ステップS31)。
 次に、音声パワー推定部13が、入力スペクトルSin(k)と期待値算出部12が算出したスペクトル期待値S^(k)とを用いて、音声パワーγを算出し(ステップS32)、処理を終了する。
 (効果)
 本実施の形態に係る音声処理装置10によれば、入力信号が含む音声パワーを精度よく推定することができる。
 なぜならば、期待値算出部12が、入力スペクトルSin(k)と、音声の特徴量をモデル化した音声モデル(GMM)とを用いて、入力スペクトルSin(k)に含まれる音声成分のスペクトルの期待値(スペクトル期待値S^(k))を算出するからである。そして、音声パワー推定部13が、入力スペクトルSin(k)およびスペクトル期待値S^(k)に基づいて、入力スペクトルSin(k)の音声成分の音声パワーγを推定するからである。
 このように、音声パワー推定部13が推定する音声パワーγは、音声モデルと入力スペクトルSin(k)から算出するスペクトル期待値S^(k)を参照することにより算出される。したがって、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合であっても、高い精度の音声パワーγを算出することができる。よって、本実施の形態に係る音声処理装置10は、入力スペクトルSin(k)に含まれる音声成分の音声パワーγを精度よく算出することができる。
 また、本実施の形態に係る音声処理装置10の音声パワー推定部13は、スペクトル期待値S^(k)と入力スペクトルSin(k)との誤差が、雑音の影響が少ない所定の帯域において最小になるように制御したスペクトル期待値S^(k)のパワーを、音声パワーγとする。これにより、スペクトル期待値S^(k)を、入力スペクトルSin(k)が含む音声スペクトルに近づけることができる。したがって、本実施の形態に係る音声処理装置10は、入力信号が含む音声パワーをより精度よく推定することができる。
 <第2の実施の形態>
 以下、本発明の第2の実施の形態について、図面を参照して以下に説明する。第2の実施の形態に係る雑音抑圧装置は、非特許文献1に記載のモデルベース雑音抑圧であって、雑音抑圧ゲインに第1の実施の形態で算出した音声パワーを利用することを特徴とする。なお、説明の便宜上、前述した第1の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
 (雑音抑圧装置20の構成)
 図4は、本発明の第2の実施の形態に係る雑音抑圧装置20の機能構成の一例を示す機能ブロック図である。図4に示すとおり、雑音抑圧装置20は、第1の実施の形態で説明した音声処理装置10と、入力信号取得部21と、雑音推定部22と、仮雑音抑圧部23と、抑圧ゲイン算出部24と、雑音抑圧部25とを備えている。雑音抑圧装置20は、デジタル信号を入力とし、音声パワーを制御したデジタル信号を出力とする。
 (入力信号取得部21)
 入力信号取得部21は、雑音抑圧装置20に入力されたデジタル信号を取得(受信)する。なお、このデジタル信号を入力信号とも呼ぶ。入力信号取得部21は、取得したデジタル信号を、単位時間毎にフレーム単位に切り出し、スペクトルに変換する。
 具体的には、入力信号取得部21は、デジタル信号のうち、t番目(tは自然数。以下、tをフレーム時間と記す)に切り出されたフレームx(t)(∈R,Tはフレームに含まれるサンプル数)を、スペクトルX(t,k)(k=0,...,K-1)に変換する。以下、この変換したスペクトルX(t,k)を入力信号スペクトルと呼ぶ。
 そして、入力信号取得部21は、変換した入力信号スペクトルX(t,k)を、雑音推定部22、仮雑音抑圧部23および雑音抑圧部25にそれぞれ供給する。
 ここで、フレームに含まれるサンプル数Tについて説明する。例えば、デジタル信号がリニアPCM(Pulse Code Modulation)で変換されたサンプリング周波数8000Hzの16ビットである場合、当該デジタル信号は1秒当り8000点分の値を含む。このとき、1フレームの長さを25ミリ秒とすると、1フレームは200点分の値を含む。したがって、T=200となる。
 なお、入力信号取得部21が取得するデジタル信号は、例えば、(1)マイクロフォン等からA/D変換機を通して供給されるデジタル信号、(2)ハードディスクより読み出されるデジタル信号、(3)通信パケットから得られるデジタル信号、などが挙げられる。しかし、上記デジタル信号は、本実施の形態ではこれらに限定されるものではない。また、このデジタル信号は、雑音環境下で収録された音声信号だけでなく、雑音抑圧処理が施された音声信号であってもよい。
 (雑音推定部22)
 雑音推定部22は、入力信号スペクトルから推定雑音を推定する手段である。雑音推定部22は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。そして、雑音推定部22は、受信した入力信号スペクトルX(t,k)に含まれる雑音成分のスペクトルN^(t,k)(但し、k=0,...,K-1)を推定(算出)する。この推定した雑音成分(推定雑音)のスペクトルN^(t,k)を、以下、推定雑音スペクトルと記す。そして、雑音推定部22は、推定した推定雑音スペクトルN^(t,k)を、仮雑音抑圧部23および抑圧ゲイン算出部24に夫々供給する。
 なお、本実施の形態において、雑音推定部22は、推定雑音を公知技術の重み付き雑音推定法(Weighted Noise Estimation; WiNE)等を用いて算出するとするが、雑音推定部22における推定雑音の算出についてはこれに限定されるものではない。雑音推定部22は、所望の方法で推定雑音を算出してもよい。
 これにより、雑音推定部22は、入力信号に含まれる雑音を推定することができる。本実施の形態では、この推定された雑音を仮の雑音とも呼ぶ。
 (仮雑音抑圧部23)
 仮雑音抑圧部23は、入力信号スペクトルと推定雑音スペクトルとを用いて、前記入力信号から仮の雑音を抑圧した雑音抑圧信号を生成する手段である。具体的には、仮雑音抑圧部23は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、仮雑音抑圧部23は、雑音推定部22から推定雑音スペクトルN^(t,k)を受信する。そして、仮雑音抑圧部23は、入力信号スペクトルX(t,k)から、推定雑音スペクトルN^(t,k)を除去し、仮雑音抑圧スペクトルS^(t,k)(但し、k=0,...,K-1)を算出する。この仮雑音抑圧スペクトルS^(t,k)を含む信号を、雑音抑圧信号と呼ぶ。この雑音抑圧信号は、仮の雑音を抑圧した信号であるため、仮推定音声とも呼ぶ。
 そして、仮雑音抑圧部23は、算出した仮雑音抑圧スペクトルS^(t,k)を、音声処理装置10に供給する。
 なお、本実施の形態において、仮雑音抑圧部23は、仮雑音抑圧スペクトルS^(t,k)を、公知技術(例えば、スペクトル減算法(Spectral Subtraction:SS)、ウィナーフィルタ法(Wiener Filter:WF)等)を用いて算出するとするが、本実施の形態はこれに限定されるものではない。仮雑音抑圧部23は、所望の方法で仮推定音声のスペクトルを算出してもよい。なお、入力信号に含まれる雑音量が少ない場合や、入力信号がすでに雑音抑圧がなされている場合、雑音抑圧装置20は、仮雑音抑圧部23の処理を省略してもよい。この場合、仮雑音抑圧スペクトルS^(t,k)は入力信号スペクトルX(t,k)となる。
 このように、仮雑音抑圧部23は、音声処理装置10に仮の雑音を抑圧した仮雑音抑圧スペクトルS^(t,k)を供給することにより、音声処理装置10は、仮の雑音を抑圧した仮雑音抑圧スペクトルS^(t,k)を入力スペクトルSin(k)として用いることができる。これにより、音声処理装置10は、より精度よく音声パワーを推定することができる。
 (音声処理装置10)
 音声処理装置10は、仮雑音抑圧部23が供給する仮雑音抑圧スペクトルS^(t,k)から、音声パワーγ(t)を算出する。そして、音声処理装置10は、音声パワーγ(t)を抑圧ゲイン算出部24に供給する。また、音声処理装置10は、音声パワーγ(t)の算出の過程で、算出されるスペクトル期待値S^(t,k)も、抑圧ゲイン算出部24に供給する。このスペクトル期待値S^(t,k)は、第1の実施の形態で説明したとおり、期待値算出部12が算出するものである。
 なお、音声処理装置10は、第1の実施の形態で説明しているため、ここでの具体的な説明は省略する。ただし、第1の実施の形態における入力スペクトルSin(k)、スペクトル期待値S^(k)、および、音声パワーγを本実施の形態では、それぞれ、仮雑音抑圧スペクトルS^(t,k)、スペクトル期待値S^(t,k)、および、音声パワーγ(t)に置き換えている。
 (抑圧ゲイン算出部24)
 抑圧ゲイン算出部24は、スペクトル期待値S^(t,k)と、音声パワーγ(t)と、推定雑音スペクトルN^(t,k)とを用いて、抑圧ゲインを算出する手段である。
 具体的には、抑圧ゲイン算出部24は、雑音推定部22から推定雑音スペクトルN^(t,k)を受信する。また、抑圧ゲイン算出部24は、音声処理装置10から音声パワーγ(t)と、スペクトル期待値S^(t,k)とを受信する。そして、抑圧ゲイン算出部24は、受信した、推定雑音スペクトルN^(t,k)と、音声パワーγ(t)と、スペクトル期待値S^(t,k)とを用いて、抑圧ゲインW(t,k)(但し、k=0,...,K-1)を、以下の式(12)を用いて算出する。
Figure JPOXMLDOC01-appb-M000012
 式(12)に示す通り、上記式(12)の右辺の分子は、スペクトル期待値S^(t,k)をスペクトル期待値S^(t,k)のkにおける和で割ったスペクトル期待値と、音声パワーγ(t)と、の積である。また、式(12)の右辺の分母は、上記積と、推定雑音スペクトルN^(t,k)との和である。つまり、抑圧ゲイン算出部24は、(a)スペクトル期待値と音声パワーγ(t)との積の、(b)上記積と推定雑音スペクトルN^(t,k)との和、に対する比の値を、抑圧ゲインW(t,k)として算出する。
 このように、抑圧ゲイン算出部24は、抑圧ゲインW(t,k)を算出する際に、音声処理装置10で算出したスペクトル期待値S^(t,k)と、音声パワーγ(t)とを用いる。この音声パワーγ(t)は、音声モデルと、仮雑音抑圧スペクトルS^(t,k)から算出するスペクトル期待値S^(t,k)を参照することにより算出される。したがって、抑圧ゲイン算出部24は、より推定精度が高い音声パワーγ(t)を用いて、抑圧ゲインW(t,k)を算出することができる。
 そして、抑圧ゲイン算出部24は、算出した抑圧ゲインW(t,k)を、雑音抑圧部25に供給する。
 (雑音抑圧部25)
 雑音抑圧部25は、抑圧ゲインW(t,k)と入力信号スペクトルX(t,k)とを用いて入力信号の雑音を抑圧する手段である。具体的には、雑音抑圧部25は、入力信号取得部21から入力信号スペクトルX(t,k)を受信する。また、雑音抑圧部25は、抑圧ゲイン算出部24から抑圧ゲインW(t,k)を受信する。そして、雑音抑圧部25は、入力信号スペクトルX(t,k)と、抑圧ゲインW(t,k)とを用いて、雑音抑圧スペクトルY(t,k)(但し、k=0,...,K-1)を算出する。雑音抑圧部25は、雑音抑圧スペクトルY(t,k)を、以下の式(13)を用いて算出する。
Y(t,k)=W(t,k)X(t,k)  ・・・(13)
 この雑音抑圧スペクトルY(t,k)は、入力信号スペクトルX(t,k)から、該入力信号スペクトルX(t,k)に含まれる雑音を抑圧したものとなる。
 なお、雑音抑圧部25は、算出した雑音抑圧スペクトルY(t,k)を特徴量ベクトルに変換したものを、推定音声の特徴量ベクトルとして音声認識装置に出力する。また、雑音抑圧部25は、スピーカ等の音声再生装置に出力する場合は、変換した特徴量ベクトルから得られる当該推定音声のスペクトルを逆フーリエ変換し、時間領域の信号に変換して、当該信号(デジタル信号)を出力する。以降、雑音抑圧部25が出力する特徴量ベクトルまたはデジタル信号を出力信号と呼ぶ。
 なお、本実施の形態に係る雑音抑圧装置20のハードウェア構成は、図2に示す第1の実施の形態における音声処理装置10のハードウェア構成と同様であるため、ここでは説明を省略する。
 (雑音抑圧装置20の処理)
 次に、図5を参照して雑音抑圧装置20の処理の流れについて説明する。図5は、本実施の形態に係る雑音抑圧装置20の雑音抑圧スペクトルY(t,k)導出の流れ(雑音抑圧処理)の一例を示すフローチャートである。
 図5に示すとおり、まず、雑音抑圧装置20の入力信号取得部21が、入力信号スペクトルX(t,k)を算出する(ステップS51)。
 次に、雑音推定部22が入力信号に含まれる雑音を推定する。つまり、雑音推定部22は、入力信号スペクトルX(t,k)から推定雑音スペクトルN^(t,k)を推定する(ステップS52)。
 そして、仮雑音抑圧部23が入力信号スペクトルX(t,k)の仮の雑音を抑圧する。つまり、仮雑音抑圧部23は、入力信号スペクトルX(t,k)から推定雑音スペクトルN^(t,k)を除去し、仮雑音抑圧スペクトルS^(t,k)を算出する(ステップS53)。なお、上述したとおり、本ステップは省略してもよい。この場合、仮雑音抑圧スペクトルS^(t,k)を入力信号スペクトルX(t,k)とする。
 次に、音声処理装置10が仮雑音抑圧スペクトルS^(t,k)を入力として、スペクトル期待値S^(t,k)を算出する(ステップS54)。そして、音声処理装置10が、音声パワーγ(t)を算出する(ステップS55)。なお、このステップS54およびステップS55は、夫々、第1の実施の形態において説明したステップS31およびステップS32と同様の処理である。
 次に、抑圧ゲイン算出部24が推定雑音スペクトルN^(t,k)、スペクトル期待値S^(t,k)、および、音声パワーγ(t)から、抑圧ゲインW(t,k)を算出する(ステップS56)。
 そして、雑音抑圧部25が入力信号の雑音を抑圧する。つまり、雑音抑圧部25は、入力信号スペクトルX(t,k)に抑圧ゲインW(t,k)を乗じることにより雑音抑圧スペクトルY(t,k)を算出する(ステップS57)。
 最後に、雑音抑圧装置20の入力信号取得部21は、処理すべきデジタル信号が残っているか否かを確認する(ステップS58)。そして、処理すべきデジタル信号が残っている場合(ステップS58にてYES)、処理をステップS51に戻し、そうでない場合(ステップS58にてNO)は、処理を終了する。
 (効果)
 本実施の形態に係る雑音抑圧装置20の音声処理装置10は、上述した第1の実施の形態に係る音声処理装置10と同様に、より高い精度で、入力信号が含む音声パワーを推定することができる。
 また、本実施の形態に係る雑音抑圧装置20は、このような精度が高い音声パワーを用いて、入力信号に含まれる雑音を抑圧するため、より高い精度で雑音の抑圧を行うことができる。
 <第3の実施の形態>
 次に、本発明の第3の実施の形態について説明する。本実施の形態では、本発明の課題を解決する最小の構成について説明を行う。
 前述した第1および第2の実施の形態では、音声処理装置10が記憶部11を内蔵する構成について説明したが、記憶部11は、音声処理装置10とは別個の装置で実現されるものであってもよい。その構成について、図6を参照して説明する。なお、説明の便宜上、前述した各実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
 また、本実施の形態に係る音声処理装置30のハードウェア構成は、図2に示す第1の実施の形態における音声処理装置10のハードウェア構成と同様であるため、ここでは説明を省略する。
 図6は、本実施の形態に係る音声処理装置30の機能構成の一例を示す機能ブロック図である。図6に示す通り、音声処理装置30は、期待値算出部12と、音声パワー推定部13とを備えている。
 期待値算出部12は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する。この音声モデルは、第1および第2の実施の形態において説明した記憶部11に格納されている。
 期待値算出部12は、算出したスペクトル期待値を音声パワー推定部13に供給する。
 音声パワー推定部13は、入力信号スペクトルおよび期待値算出部12から供給されたスペクトル期待値に基づいて、入力信号スペクトルの音声成分の音声パワーを推定する。
 このように、本実施の形態に係る音声処理装置30によれば、音声パワー推定部13は、入力信号の音声成分の音声パワーを、入力信号スペクトルと音声モデルとを用いて算出したスペクトル期待値を用いて推定する。
 したがって、本実施の形態に係る音声処理装置30は、入力信号に含まれる音声パワーを、より精度よく推定することができる。
 なお、上述した各実施の形態は、本発明の好適な実施の形態であり、上記各実施の形態にのみ本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
 例えば、上述した実施の形態における各動作は、ハードウェアまたはソフトウェア、あるいはその両方の複合構成によって実行することも可能である。
 なお、ソフトウェアによる処理を実行する場合には、例えば、上記各処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。また、上記プログラムは、例えば、ハードディスクなどの記録媒体に記録しておくことが可能である。
 上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。
 (付記2)前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする付記1に記載の音声処理装置。
 (付記3)前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記1または2に記載の音声処理装置。
 (付記4)前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記3に記載の音声処理装置。
 (付記5)前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記4に記載の音声処理装置。
 (付記6)前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記4または5に記載の音声処理装置。
 (付記7)前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記1から6の何れか1つに記載の音声処理装置。
 (付記8)入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。
 (付記9)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値と前記入力信号のスペクトルとの誤差が最小になるように制御した前記音声成分のスペクトルの期待値のパワーを、前記音声パワーとする、ことを特徴とする付記8に記載の雑音抑圧装置。
 (付記10)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記8または9に記載の雑音抑圧装置。
 (付記11)前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値、と比較する前記所定の値を、前記入力信号のスペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記10に記載の雑音抑圧装置。
 (付記12)前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記11に記載の雑音抑圧装置。
 (付記13)前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記11または12に記載の雑音抑圧装置。
 (付記14)前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記8から13の何れか1つに記載の音声処理装置。
 (付記15)入力信号から推定雑音を算出する雑音推定手段と、付記1から7の何れか1つに記載の音声処理装置と、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値と、前記音声成分の音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備えることを特徴とする雑音抑圧装置。
 (付記16)前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする付記8から15の何れか1つに記載の雑音抑圧装置。
 (付記17)
 前記抑圧ゲイン算出手段は、前記音声成分のスペクトルの期待値と前記音声パワーとの積の、前記積と前記推定雑音との和、に対する比を、前記抑圧ゲインとして算出する、ことを特徴とする、付記8から16の何れか1つに記載の雑音抑圧装置。
 (付記18)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。
 (付記19)入力信号から推定雑音を算出し、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出し、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定し、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出し、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する、ことを特徴とする雑音抑圧方法。
 (付記20)入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラム。
 (付記21)入力信号から推定雑音を算出する処理と、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出する処理と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定する処理と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する処理と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する処理と、をコンピュータに実行させることを特徴とするプログラム。
 (付記22)付記20または21に記載のプログラムを記憶する、ことを特徴とするコンピュータ読み取り可能な記録媒体。
 この出願は、2014年12月10日に出願された日本出願特願2014-249982を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10  音声処理装置
 11  記憶部
 12  期待値算出部
 13  音声パワー推定部
 20  雑音抑圧装置
 21  入力信号取得部
 22  雑音推定部
 23  仮雑音抑圧部
 24  抑圧ゲイン算出部
 25  雑音抑圧部
 30  音声処理装置
 1  CPU
 2  通信I/F
 3  メモリ
 4  記憶装置
 5  入力装置
 6  出力装置
 9  システムバス

Claims (10)

  1.  入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、
     前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。
  2.  前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする請求項1に記載の音声処理装置。
  3.  前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする請求項1または2に記載の音声処理装置。
  4.  前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする請求項3に記載の音声処理装置。
  5.  前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする請求項4に記載の音声処理装置。
  6.  前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする請求項4または5に記載の音声処理装置。
  7.  入力信号から推定雑音を算出する雑音推定手段と、
     前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、
     前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、
     前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、
     前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、
     前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。
  8.  前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、
     前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする請求項7に記載の雑音抑圧装置。
  9.  入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、
     前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。
  10.  入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、
     前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラムを記憶する記録媒体。
PCT/JP2015/006120 2014-12-10 2015-12-08 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体 WO2016092837A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/528,848 US10347273B2 (en) 2014-12-10 2015-12-08 Speech processing apparatus, speech processing method, and recording medium
JP2016563514A JPWO2016092837A1 (ja) 2014-12-10 2015-12-08 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-249982 2014-12-10
JP2014249982 2014-12-10

Publications (1)

Publication Number Publication Date
WO2016092837A1 true WO2016092837A1 (ja) 2016-06-16

Family

ID=56107049

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/006120 WO2016092837A1 (ja) 2014-12-10 2015-12-08 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体

Country Status (3)

Country Link
US (1) US10347273B2 (ja)
JP (1) JPWO2016092837A1 (ja)
WO (1) WO2016092837A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216721A (ja) * 2007-03-06 2008-09-18 Nec Corp 雑音抑圧の方法、装置、及びプログラム
WO2013118192A1 (ja) * 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2014021307A (ja) * 2012-07-19 2014-02-03 Mitsubishi Electric Corp 音声信号復元装置および音声信号復元方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056303A2 (en) * 2000-11-22 2002-07-18 Defense Group Inc. Noise filtering utilizing non-gaussian signal statistics
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
AU2003244935A1 (en) * 2002-07-16 2004-02-02 Koninklijke Philips Electronics N.V. Echo canceller with model mismatch compensation
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
KR20110036175A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 멀티밴드를 이용한 잡음 제거 장치 및 방법
US20110099010A1 (en) * 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
US8706497B2 (en) * 2009-12-28 2014-04-22 Mitsubishi Electric Corporation Speech signal restoration device and speech signal restoration method
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
US20130246060A1 (en) * 2010-11-25 2013-09-19 Nec Corporation Signal processing device, signal processing method and signal processing program
JP6064600B2 (ja) * 2010-11-25 2017-01-25 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
WO2013132926A1 (ja) * 2012-03-06 2013-09-12 日本電信電話株式会社 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
US20150058002A1 (en) * 2012-05-03 2015-02-26 Telefonaktiebolaget L M Ericsson (Publ) Detecting Wind Noise In An Audio Signal
US9966067B2 (en) * 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
EP2747081A1 (en) * 2012-12-18 2014-06-25 Oticon A/s An audio processing device comprising artifact reduction
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
US9767826B2 (en) * 2013-09-27 2017-09-19 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器
US20150348530A1 (en) * 2014-06-02 2015-12-03 Plantronics, Inc. Noise Masking in Headsets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216721A (ja) * 2007-03-06 2008-09-18 Nec Corp 雑音抑圧の方法、装置、及びプログラム
WO2013118192A1 (ja) * 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2014021307A (ja) * 2012-07-19 2014-02-03 Mitsubishi Electric Corp 音声信号復元装置および音声信号復元方法

Also Published As

Publication number Publication date
US10347273B2 (en) 2019-07-09
US20170337935A1 (en) 2017-11-23
JPWO2016092837A1 (ja) 2017-09-28

Similar Documents

Publication Publication Date Title
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
JP5150542B2 (ja) パターン認識装置、パターン認識方法、及び、プログラム
JP5262713B2 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
WO2015093025A1 (ja) 音声処理装置、音声処理方法、及び、記録媒体
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム
JP6521886B2 (ja) 信号解析装置、方法、及びプログラム
JP5683446B2 (ja) スペクトル歪みパラメータ推定値補正装置とその方法とプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15868120

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016563514

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15868120

Country of ref document: EP

Kind code of ref document: A1