WO2012063963A1 - 音声認識装置、音声認識方法、および音声認識プログラム - Google Patents
音声認識装置、音声認識方法、および音声認識プログラム Download PDFInfo
- Publication number
- WO2012063963A1 WO2012063963A1 PCT/JP2011/076460 JP2011076460W WO2012063963A1 WO 2012063963 A1 WO2012063963 A1 WO 2012063963A1 JP 2011076460 W JP2011076460 W JP 2011076460W WO 2012063963 A1 WO2012063963 A1 WO 2012063963A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- noise
- coefficient
- suppression
- speech recognition
- adaptation
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 219
- 230000001629 suppression Effects 0.000 claims abstract description 535
- 230000006978 adaptation Effects 0.000 claims abstract description 213
- 230000003044 adaptive effect Effects 0.000 claims description 190
- 230000006870 function Effects 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 2
- 230000003068 static effect Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 28
- 238000001228 spectrum Methods 0.000 description 28
- 239000000284 extract Substances 0.000 description 24
- 238000009826 distribution Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 10
- 239000006185 dispersion Substances 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 102000004000 Aurora Kinase A Human genes 0.000 description 3
- 108090000461 Aurora Kinase A Proteins 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000009408 flooring Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Definitions
- the present invention relates to a noise recognition robust voice recognition apparatus, a voice recognition method, and a voice recognition program.
- noise proofing means for speech recognition One is a method of approximating the distribution created by the input signal to the acoustic model by suppressing the noise component of the input signal or removing the noise component contained in the input signal.
- this method is referred to as a noise suppression method.
- the other is a method of bringing the acoustic model closer to the distribution created by the input signal by adapting the acoustic model to the same noise environment as the input signal.
- this method is referred to as an acoustic model adaptation method.
- the noise suppression device described in Patent Document 1 includes a spectrum conversion unit, an S / N estimation unit, a suppression coefficient data table, a suppression amount estimation unit, and a noise suppression unit.
- the noise suppression device operates as follows.
- the spectrum converting means converts the input speech signal including noise from the time domain to the frequency domain.
- the S / N estimation means estimates an S / N ratio (signal-noise ratio) of the input voice signal based on the output converted by the spectrum conversion means.
- the suppression coefficient data table stores an S / N ratio, a frequency component, and a predetermined suppression coefficient ⁇ in association with each other.
- the suppression amount estimation means extracts the suppression coefficient ⁇ corresponding to the S / N ratio estimated by the S / N estimation means from the suppression coefficient data table.
- the noise suppression unit suppresses the noise component included in the output converted using the spectrum conversion unit based on the extracted suppression coefficient ⁇ .
- the speech recognition apparatus described in Patent Literature 2 suppresses high noise of a high suppression amount with respect to an input speech signal, and detects a speech section and a noise section from the input signal in which the high noise is suppressed.
- the speech recognition apparatus suppresses a low noise with a low suppression amount with respect to the input speech signal, and creates a noise model from the signal of the portion specified in the noise section of the signal in which the low noise is suppressed. .
- the speech recognition apparatus synthesizes this noise model with a clean speech model.
- the speech recognition apparatus recognizes speech using the above-described synthesized model with respect to the signal of the portion specified in the speech section of the signal in which low noise is suppressed.
- the speech recognition apparatus described in Patent Literature 3 suppresses an echo signal included in an input signal based on a speaker supply signal, and further suppresses background noise from the input signal.
- the speech recognition apparatus identifies the speech section and the noise section based on the signal in which noise is suppressed. Then, the speech recognition apparatus learns a noise model based on the signal identified as the noise section, and synthesizes the noise model and the clean speech model to generate a noise superimposed speech model.
- the speech recognition device recognizes speech based on the signal determined to be the speech segment and the noise superimposed speech model.
- the speech recognition apparatus described in Patent Document 4 stores a plurality of types of environmental noise waveform signal data for learning.
- the speech recognition apparatus generates a Gaussian mixture model of a plurality of mixtures in one state from the waveform signal data of these environmental noises so that the output likelihood is maximized.
- the speech recognition apparatus generates an acoustic model from a hidden Markov model (HMM) without a predetermined noise and the Gaussian mixture model described above.
- This acoustic model satisfies the following conditions.
- the acoustic model includes a mixed Gaussian distribution of each state represented by a sum of linear combinations of the Gaussian distributions weighted by a predetermined weighting factor in all combinations of the states.
- the acoustic model is generated based on a hidden Markov model in which the mixture weight of the Gaussian mixture model is adapted using the environmental sound data at the time of speech recognition. Note that Patent Document 5 and Non-Patent Document 1 used in the description of the embodiments for carrying out the invention are described.
- the output speech recognition performance based on the noise suppression method or the acoustic model adaptation method may be lowered depending on the type of noise included in the input signal. That is, there is a type of noise that lowers the speech recognition rate for any of the methods.
- the technique described in Patent Document 1 cannot cope with the type of noise that the noise suppression method is not good at, that is, the type of noise that lowers the speech recognition rate of the output based on the noise suppression method. Therefore, the technology described in Patent Document 1 cannot increase the types of noise that can be used for speech recognition with a high speech recognition rate.
- the techniques described in Patent Document 2 and Patent Document 3 are used for noise suppression by simply combining a noise suppression method or an acoustic model adaptation method.
- Patent Document 2 and Patent Document 3 when the speech recognition rate of the output based on one method is low, the other method does not always appropriately contribute to the improvement of the speech recognition rate. That is, the techniques described in Patent Literature 2 and Patent Literature 3 cannot increase the types of noise that can be used for speech recognition with a high speech recognition rate.
- the technique described in Patent Document 4 cannot cope with the type of noise that the acoustic model adaptation method is not good at, that is, the type of noise that results in a low speech recognition rate of output based on the acoustic model adaptation method. Therefore, the technique described in Patent Document 4 cannot increase the types of noise that can be used for speech recognition with a high speech recognition rate.
- An example of the object of the present invention is to provide a voice recognition device, a voice recognition method, and a voice recognition program that can increase the types of noise that can be used for voice recognition with a high voice recognition rate.
- the first speech recognition apparatus is generated based on a suppression coefficient indicating a noise suppression amount and a predetermined noise to be synthesized with a clean acoustic model generated based on speech not including noise.
- a coefficient storing unit that stores an adaptive coefficient indicating an adaptation amount of the noise model in association with each other; a noise estimating unit that estimates noise from an input signal; and the noise estimation unit based on the suppression coefficient.
- the noise model generated based on the estimated noise is synthesized to generate a noise-adapted post-adaptation acoustic model, and the noise is suppressed by the noise suppression unit.
- the first speech recognition method according to an aspect of the present invention is generated based on a suppression coefficient indicating a noise suppression amount and a predetermined noise to be synthesized with a clean acoustic model generated based on speech not including noise.
- an adaptive coefficient indicating the adaptive amount of the noise model is stored in association with each other, noise is estimated from the input signal, and an amount specified by the suppression amount specified based on the suppression coefficient among the estimated noises Noise is suppressed from the input signal, and the noise model generated based on the estimated noise is synthesized with the clean acoustic model according to the adaptation amount specified based on the adaptation coefficient, thereby being noise-adapted.
- a post-adaptation acoustic model is generated, and speech is recognized based on the noise-suppressed input signal and the generated post-adaptation acoustic model.
- the first speech recognition program is based on a suppression coefficient indicating a noise suppression amount and predetermined noise to be synthesized with a clean acoustic model generated based on speech that does not include noise.
- a process of generating a post-adaptation acoustic model with noise adaptation by synthesizing a model, an input signal with the noise suppressed, and speech generated based on the generated post-adaptation acoustic model To perform the process of recognizing.
- An example of the effect of the present invention is that the types of noise that can be used for speech recognition with a high speech recognition rate can be increased.
- FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus according to the first embodiment.
- FIG. 2 is a flowchart showing an outline of the operation of the speech recognition apparatus according to the first embodiment.
- FIG. 3 is a block diagram illustrating a configuration example of a speech recognition apparatus including an input unit in the first embodiment.
- FIG. 4 is a block diagram showing the configuration of the speech recognition apparatus in the first modification of the first embodiment.
- FIG. 5 is a diagram illustrating an example of information stored in the clean acoustic model storage unit.
- FIG. 6 is a diagram illustrating an example of information stored in the estimated noise storage unit.
- FIG. 7 is information indicating an example of information stored in the post-adaptation acoustic model storage unit.
- FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus according to the first embodiment.
- FIG. 2 is a flowchart showing an outline of the operation of the speech recognition apparatus according to the first embodiment.
- FIG. 3 is a block diagram illustrating a
- FIG. 8 is a block diagram showing the configuration of the speech recognition apparatus according to the second embodiment.
- FIG. 9 is a diagram illustrating an example of information stored in the learning signal storage unit.
- FIG. 10 is a diagram illustrating an example of information stored in the noise suppression signal storage unit.
- FIG. 11 is a flowchart illustrating an outline of an operation in which the coefficient determination unit of the speech recognition apparatus according to the second embodiment updates the suppression coefficient and the adaptive coefficient.
- FIG. 12 is a block diagram illustrating an example of the configuration of the speech recognition apparatus according to the third embodiment.
- FIG. 13 is a flowchart showing an outline of the operation of the speech recognition apparatus according to the third embodiment.
- FIG. 14 is a block diagram showing the configuration of the speech recognition apparatus according to the fourth embodiment.
- FIG. 9 is a diagram illustrating an example of information stored in the learning signal storage unit.
- FIG. 10 is a diagram illustrating an example of information stored in the noise suppression signal storage unit.
- FIG. 11 is a flowchart illustrating an outline
- FIG. 15 is a flowchart showing an outline of the operation of the speech recognition apparatus according to the fourth embodiment.
- FIG. 16 is a block diagram showing a configuration of a speech recognition apparatus according to the fifth embodiment.
- FIG. 17 is a flowchart showing an outline of the operation of the speech recognition apparatus according to the fifth embodiment.
- FIG. 18 is a block diagram showing the configuration of the speech recognition apparatus according to the sixth embodiment.
- FIG. 19 is a diagram showing speech recognition rates in the related art noise suppression method and model adaptation method for eight types of noise of AURORA2.
- FIG. 20 is a diagram illustrating the relationship between the suppression coefficient ⁇ and the recognition rate.
- FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus 100 according to the first embodiment of the present invention.
- the speech recognition apparatus 100 includes a coefficient storage unit 105, a noise estimation unit 101, a noise suppression unit 102, an acoustic model adaptation unit 103, and a search unit 104.
- the speech recognition apparatus 100 according to the first embodiment stores the suppression coefficient and the adaptive coefficient specified based on the suppression coefficient in association with each other.
- the speech recognition apparatus 100 estimates noise from the input signal.
- the speech recognition apparatus 100 suppresses the amount of noise specified by the suppression amount specified based on the above-described suppression coefficient among the above-described estimated noise from the above-described input signal.
- the speech recognition apparatus 100 based on the synthesis of the noise model generated based on the estimated noise, according to the adaptation amount specified based on the adaptive coefficient, with respect to the clean acoustic model, A noise-adapted post-adaptation acoustic model is generated.
- the speech recognition apparatus 100 recognizes speech based on the input signal in which the noise is suppressed and the generated post-adaptation acoustic model.
- the speech recognition apparatus 100 since the speech recognition apparatus 100 according to the first embodiment suppresses noise based on an appropriate combination of the noise suppression method and the acoustic model adaptation method, it can cope with speech recognition with a highly accurate speech recognition rate. The type of noise can be increased.
- each component included in the speech recognition apparatus 100 will be described.
- the suppression coefficient is information indicating the amount of noise suppression. For example, when the suppression coefficient is 1, all signals estimated to be noise by a noise suppression unit 102 described later are suppressed. On the other hand, when the suppression coefficient is 0, a signal estimated as noise by the noise suppression unit 102 described later is not suppressed.
- This suppression coefficient may be a scalar or a matrix. Further, the suppression coefficient may be information indicating a ratio that contributes to noise suppression. In this case, when the suppression coefficient is a scalar, the value indicates 0 to 1. When the suppression coefficient is a matrix, each component of the matrix indicates 0 to 1.
- the adaptation coefficient is information indicating the adaptation amount of the noise model to be synthesized with the clean acoustic model. For example, when the adaptation coefficient is 1, the acoustic model adaptation unit 103 described later synthesizes the noise model and the clean acoustic model without applying any particular weight to the noise model, and generates an after-adaptation acoustic model.
- an acoustic model adaptation unit 103 described later applies a weight of 0 to the noise model, synthesizes the noise model and the clean acoustic model, and generates an after-adaptation acoustic model. That is, in this case, the acoustic model adaptation unit 103 generates the clean acoustic model by regarding it as the post-adaptation acoustic model.
- This adaptive coefficient may be a scalar or a matrix. Further, the adaptation coefficient may be information indicating a ratio that contributes to adaptation of model synthesis. In this case, when the adaptive coefficient is a scalar, the value indicates 0 to 1.
- each component of the matrix indicates 0 to 1.
- the suppression coefficient and the adaptation coefficient may be values determined empirically based on experiments performed in advance. For example, if the noise that is subject to noise immunity in actual operation of the speech recognition apparatus 100 is noise that can be easily estimated by the noise suppression unit 102, a value with a large suppression coefficient may be used. In this case, the adaptation coefficient may be a small value. Moreover, it is desirable that the sum of the suppression coefficient and the adaptation coefficient indicates a predetermined value. That is, the adaptive coefficient may be a value calculated based on the suppression coefficient. For example, when the suppression coefficient and the adaptation coefficient are scalars, the predetermined value is preferably 1 or a value close to 1.
- the predetermined value is a matrix similar to the unit matrix I or I.
- the “matrix similar to I” may be a matrix in which the sum of squares of differences between the matrix and I is equal to or less than a predetermined threshold.
- this is merely an example, and the “matrix similar to I” is not limited to this.
- the input signal may be information cut out for each unit time frame.
- an input unit may cut out time-series data of an input signal for each unit time frame, and pass the cut-out information to the noise estimation unit 101.
- the noise estimation unit 101 extracts the feature value y of the input signal from the input signal. For example, the noise estimation unit 101 multiplies the power spectrum converted for each frame of the input signal by the matrix of the mel filter bank, and further calculates the log mel spectrum corresponding to the input signal using the logarithm of the result. Also good.
- the noise estimation part 101 may extract the feature-value of an input signal using another method. For example, the noise estimation unit 101 may extract the logarithm of the power spectrum converted from the input signal as the feature amount.
- the noise estimation unit 101 extracts a feature quantity n ′ of estimated noise from the estimated noise component.
- the noise estimation unit 101 may extract the feature amount n ′ of the estimated noise using, for example, the same method as the extraction of the feature amount of the input signal.
- the noise suppression part 102 extracts the feature-value of the noise suppression signal which is the suppressed signal, and outputs the feature-value of the noise suppression signal.
- the acoustic model adaptation unit 103 controls the adaptation amount according to the adaptation coefficient stored in the coefficient storage unit 105 and adapts the acoustic model to the clean acoustic model. And the acoustic model adaptation part 103 produces
- the noise estimation unit 101 receives an input signal (step S101).
- the input signal is 16-bit Linear-PCM (Linear Pulse Code Modulation) with a sampling frequency of 8000 Hz.
- 8000 points of waveform data per second are stored in the input signal.
- an input unit (not shown) sequentially cuts out waveform data according to a time series at a frame width of 200 points (25 milliseconds) and a frame shift of 80 points (10 milliseconds). Then, the input unit performs a short-time discrete Fourier transform on the cut out data.
- FIG. 3 is a block diagram illustrating a configuration example of the speech recognition apparatus 100 including the input unit 106.
- the noise estimation unit 101 determines a speech section and a silent section using speech detection from the received input signal (step S102). Each section regarded as a voice section is specified as one utterance. For example, there are the following two methods for voice detection.
- the first method is based on the power spectrum of the input speech, in which a section in which a power spectrum greater than a certain threshold is obtained is regarded as a speech section, while a section in which a power spectrum less than a certain threshold is obtained is regarded as a silent section.
- the second method is a speech interval detection method based on a Gaussian mixture model (GMM).
- GMM Gaussian mixture model
- the noise estimation unit 101 determines a speech section and a silent section based on the likelihood ratio between the speech GMM and the non-speech GMM.
- the noise estimation unit 101 estimates a noise component from the received input signal (step S103).
- the noise estimation unit 101 estimates a noise component from the received input signal using, for example, an existing noise estimation method.
- This existing noise estimation method is, for example, the following method.
- the first method is a method of estimating noise using an average value of input signals in a non-speech section (silent section) before the target speech is uttered.
- the second method is a method of estimating a non-voice interval based on an estimated SNR (signal-noise ratio) and constantly estimating noise (for example, a method described in Patent Document 5).
- the estimated noise estimated by the noise estimation unit 101 is used by the noise suppression unit 102.
- the acoustic model adaptation unit 103 determines whether or not to adapt the acoustic model to the clean acoustic model (step S104). For example, the acoustic model adaptation unit 103 may adapt the acoustic model for each utterance determined by the noise estimation unit 101. Alternatively, the acoustic model adaptation unit 103 may adapt the acoustic model when it is determined that the environment has changed.
- the acoustic model adaptation unit 103 may determine whether to adapt the acoustic model using the following method.
- ⁇ A set including the static mean and static variance of the estimated noise estimated by the noise estimation unit 101 n The static average of ⁇ n , Static variance is ⁇ n Are represented respectively.
- the parameters of the acoustic model when the acoustic model adaptation unit 103 adapted the acoustic model last time are z
- the static average of n , Static variance is ⁇ ’ n Are represented respectively.
- the speech recognition apparatus 100 defines a predetermined distance based on each noise statistic, that is, a static average and a static variance. The acoustic model adaptation unit 103 calculates this distance.
- the acoustic model adaptation unit 103 determines that the environment has changed when the calculated distance is greater than or equal to a predetermined threshold, that is, when it is determined that the noise statistic has changed by a certain value or more.
- the acoustic model adaptation unit 103 determines that the acoustic model is to be applied when it is determined that the environment has changed.
- the acoustic model adaptation unit 103 is based on the estimated noise estimated by the noise estimation unit 101 and includes a set mean including a static average and a static variance of the estimated noise. n Static average ⁇ n , And static variance ⁇ n May be specified.
- the acoustic model adaptation unit 103 determines to adapt the acoustic model (“Yes” in step S104), the acoustic model adaptation unit 103 processes the following. That is, the acoustic model adaptation unit 103 controls the adaptation amount based on the adaptation coefficient stored in the coefficient storage unit 105, and adapts the acoustic model to the clean acoustic model (step S105).
- the acoustic model adapted by the acoustic model adaptation unit 103 is also referred to as a post-adaptation acoustic model. That is, the acoustic model adaptation unit 103 generates an after-adaptation acoustic model.
- the parameters of the post-adaptation acoustic model to which the acoustic model adaptation unit 103 has applied noise are z
- the adaptation coefficient of is ⁇ .
- the static average and static variance of the estimated noise estimated by the noise estimation unit 101 are calculated based on the estimated noise estimated from when the acoustic model adaptation unit 103 adapted the previous model to when the current acoustic model was adapted. It may be a value.
- the adaptation coefficient ⁇ may be a scalar or a matrix.
- Equation 1 M is a function indicating model adaptation. This function M is determined based on the acoustic model adaptation method.
- an acoustic model adaptation method an HMM synthesis method, a Jacobi method, a Vector Talyer Series method (VTS method), and the like are known.
- the HMM method was generated in an HMM made from clean speech in advance (hereinafter, this HMM is also referred to as “clean HMM”) and an HMM made from estimated noise, ie, the target noise environment.
- This is a method of synthesizing a voice HMM.
- the HMM methods for example, there is a Parallel Model Combination method (also referred to as a PMC method).
- the PMC method is a method of inversely converting a feature quantity into a spectral domain quantity and synthesizing the above two HMMs in the spectral domain.
- the Jacobi method and the VTS method are methods of approximating changes in the noise environment of each distribution constituting the clean HMM based on estimated noise by a linear expression.
- ⁇ zij Indicates the static mean of the normal distribution of the HMM.
- ⁇ zij Indicates the first order dynamic average of the normal distribution of the HMM.
- ⁇ zij Indicates the second-order dynamic average of the normal distribution of the HMM.
- ⁇ zij Indicates the static distribution of the normal distribution of the HMM.
- ⁇ zij Indicates the first order dynamic variance of the normal distribution of the HMM.
- ⁇ zij Indicates the second-order dynamic variance of the normal distribution of the HMM.
- i represents an HMM state number, and j represents a Gaussian number.
- Clean acoustic model parameters x ⁇ z Similar to xij , ⁇ xij , ⁇ xij , ⁇ xij , ⁇ xij , And ⁇ xij It is assumed that it consists of the following six parameters.
- Set ⁇ including static mean and static variance of estimated noise n The static average of ⁇ n , Static variance is ⁇ n Are represented respectively.
- each feature used in speech recognition is assumed to be a value derived simply by calculating the logarithm of the power spectrum. This feature amount may be a value obtained by performing discrete cosine transform on a value derived by obtaining a logarithm of the power spectrum.
- the speech recognition apparatus 100 proceeds to step S108.
- the noise suppression unit 102 processes the following.
- the noise suppression unit 102 uses the input signal, the estimated noise estimated by the noise estimation unit 101, and the suppression coefficient stored in the coefficient storage unit 105 as the input signal. Used to generate a noise suppression signal. Then, the noise suppression unit 102 extracts the feature amount of the noise suppression signal from the generated noise suppression signal, and outputs the extracted feature amount of the noise suppression signal (step S106). Also, the noise suppression unit 102 extracts the feature value y of the input signal from the input signal. For example, the noise suppression unit 102 multiplies the power spectrum converted for each frame of the input signal by the matrix of the mel filter bank, and further uses the logarithm of the result to calculate the log mel spectrum corresponding to the input signal. Also good.
- the noise suppression part 102 may extract the feature-value of an input signal using another method.
- the noise suppression unit 102 may extract the logarithm of the power spectrum converted from the input signal as the feature amount.
- the noise suppression unit 102 extracts a feature amount n ′ of estimated noise from the estimated noise component.
- the noise suppression unit 102 may extract the feature amount n ′ of the estimated noise using a method similar to the extraction of the feature amount of the input signal. For example, when the feature quantity of the input signal is y, the feature quantity of the estimated noise is n ′, and the suppression coefficient is ⁇ , the feature quantity z of the noise suppression signal generated by the noise suppression unit 102 is expressed by the following [Equation 9].
- F is a function indicating noise suppression.
- This function F is determined based on a noise suppression method.
- a noise suppression method there are a spectral subtraction method (hereinafter referred to as SS method), a Wiener filter method (hereinafter referred to as WF method), and the like (for example, see Non-Patent Document 1).
- the power spectrum of an input signal whose noise is suppressed using the SS method is expressed by the following [Equation 10].
- [Equation 10] is defined for each frequency band or for each subband. Note that the left side of [Equation 10] indicated by [Equation 11] represents the power spectrum of the speech with suppressed noise.
- Y 2 Is the power spectrum of the input signal
- N ' 2 Indicates the power spectrum of the estimated noise.
- max [ ⁇ , ⁇ ] indicates a function that takes a larger value.
- ⁇ is a flooring coefficient.
- the flooring coefficient ⁇ is preferably set to be appropriate according to the type of noise and the S / N ratio.
- the input signal whose noise is suppressed using the WF method is expressed by the following [Equation 12].
- the left side of [Equation 12] represented by [Equation 13] below indicates an input signal that has been noise-suppressed using the WF method.
- G WF -1 Indicates the winner gain.
- a specific form of the winner gain is expressed by the following [Equation 14].
- D ' 2 Is temporary estimated speech
- N ’ 2 Indicates the power spectrum of the estimated noise.
- the first method is a method of estimating temporary estimated speech using the SS method.
- the second method is an MBW (Model-Based Wiener Filter) method in which estimation is performed using a GMM learned with a clean signal.
- the noise suppression unit 102 may obtain the temporary estimated speech D ′ using the following [Equation 15].
- t is a frame number that can identify each frame into which the input signal is divided.
- Y t Is the power spectrum of the input signal at frame number t.
- N t Is the power spectrum of the estimated noise at frame number t.
- ⁇ is a predetermined coefficient.
- the noise suppression unit 102 extracts the feature amount d ′ of the temporary estimated speech from the temporary estimated speech obtained based on [Equation 15].
- the noise suppression unit 102 may extract the feature amount d ′ of the temporary estimated speech using a method similar to the extraction of the feature amount of the input signal.
- an example of the function F when the WF method is applied as a noise suppression method is shown.
- the feature quantity z of the noise suppression signal generated by the noise suppression unit 102 is expressed by the following [Equation 16].
- the function g is the same function as g in [Expression 8].
- d ′ is a feature amount of the temporary estimated speech.
- the primary dynamic feature amount ⁇ z and the secondary dynamic feature amount ⁇ z are derived from z in [Equation 16].
- ⁇ z and ⁇ z are obtained using the following [Equation 17].
- t is a frame number that can identify each frame into which the input signal is divided.
- the value of ⁇ is usually 3 in the calculation of ⁇ z and 2 in the calculation of ⁇ z.
- the search unit 104 compares the distance between the feature quantity of the noise suppression signal output from the noise suppression unit 102 and the probability density function for each phoneme included in the post-adaptation acoustic model that the acoustic model adaptation unit 103 has adapted.
- a word string corresponding to the signal is searched (step S107).
- the noise estimation unit 101 determines whether a signal is still input (step S108). For example, the noise estimation unit 101 may determine whether or not a signal is still input based on whether or not the silent period detected in step S102 continues for a predetermined period. When the noise estimation unit 101 determines that no signal is input (“No” in step S108), the speech recognition apparatus 100 ends the operation.
- the speech recognition apparatus 100 determines that the signal is still input (“Yes” in step S108).
- the speech recognition apparatus 100 stores the suppression coefficient and the adaptive coefficient specified based on the suppression coefficient in association with each other.
- the speech recognition apparatus 100 estimates noise from the input signal.
- the speech recognition apparatus 100 suppresses the amount of noise specified by the suppression amount specified based on the above-described suppression coefficient among the above-described estimated noise from the above-described input signal.
- the speech recognition apparatus 100 synthesizes a noise model generated based on the estimated noise in accordance with the amount of adaptation specified based on the above-described adaptation coefficient with respect to the clean acoustic model.
- a post-adaptation acoustic model is generated. Then, the speech recognition apparatus 100 recognizes speech based on the input signal in which the noise is suppressed and the generated post-adaptation acoustic model. Therefore, since the speech recognition apparatus 100 according to the first embodiment suppresses noise based on an appropriate combination of the noise suppression method and the acoustic model adaptation method, noise that can be used for speech recognition with a highly accurate speech recognition rate. The types can be increased. In addition, the speech recognition apparatus 100 according to the first embodiment can appropriately set the contribution rate to noise resistance between the noise suppression method and the model adaptation method using the suppression coefficient ⁇ and the adaptation coefficient ⁇ . For example, in general, noise estimation becomes difficult when short-time fluctuations in noise included in an input signal are large.
- the speech recognition apparatus 100 uses the suppression coefficient and the adaptive coefficient so as to reduce the contribution ratio of the noise suppression method to noise resistance and increase the contribution ratio of the model adaptation method to noise resistance. give. That is, the speech recognition apparatus 100 decreases the value of the suppression coefficient ⁇ and increases the value of the adaptive coefficient ⁇ . Conversely, when the input signal includes noise that can be easily estimated, the speech recognition apparatus 100 increases the contribution rate of the noise suppression method to noise resistance and decreases the contribution rate of the model adaptation method to noise resistance. Based on these operations, the speech recognition apparatus 100 according to the first embodiment increases the types of noise that can be handled.
- the speech recognition apparatus 100 may include an input unit 106, a clean acoustic model storage unit 107, an estimated noise storage unit 108, and a post-adaptation acoustic model storage unit 109.
- the input unit 106 performs short-time discrete Fourier transform on the cut out data. Then, the input unit 106 converts the converted data into a power spectrum. The input unit 106 passes the converted power spectrum to the noise estimation unit 101 and the noise suppression unit 102.
- the noise estimation unit 101 estimates a noise component from data received from the input unit 106.
- the noise suppression unit 102 suppresses the noise specified by the suppression amount specified based on the suppression coefficient stored in the coefficient storage unit 105 from the input signal received from the input unit 106.
- FIG. 5 is a diagram illustrating an example of information stored in the clean acoustic model storage unit 107.
- the clean acoustic model storage unit 107 includes a clean acoustic model container 107.
- x A set of state number i and Gaussian number j, static average ⁇ xij , Primary dynamic average ⁇ xij , Secondary dynamic average ⁇ xij , Static variance ⁇ xij , First order dynamic dispersion ⁇ xij , And second order dynamic dispersion ⁇ xij Are stored in association with each other.
- the acoustic model adaptation unit 103 determines to adapt the acoustic model, the acoustic model adaptation unit 103 stores the clean acoustic model storage unit 107.
- x Is used. Specifically, the acoustic model adaptation unit 103 performs the clean acoustic model selection.
- the adaptation amount is controlled based on the adaptation coefficient stored in the coefficient storage unit 105, and the acoustic model is adapted to generate an after-adaptation acoustic model.
- FIG. 6 is a diagram illustrating an example of information stored in the estimated noise storage unit 108.
- estimated noise storage section 108 includes time information, estimated noise features, and noise statistics ⁇ . n Are stored in association with each other.
- the time information is information indicating a certain time.
- the feature amount of the estimated noise is the feature amount of the estimated noise extracted by the noise suppression unit 102.
- Noise statistic ⁇ n Is the static mean ⁇ n , Static variance ⁇ nij , First order dynamic dispersion ⁇ nij , And second order dynamic dispersion ⁇ nij It is information including.
- the noise estimation unit 101 may extract a feature amount of the estimated noise based on the estimated noise that has been estimated.
- the noise estimation unit 101 may extract the feature amount of the estimated noise in the same manner as the feature amount extraction from the estimated noise in the noise suppression unit 102. Further, the noise estimation unit 101 may calculate a statistical amount of the noise based on the extracted feature amount, and store the calculated statistical amount of noise in the estimated noise storage unit 108.
- the acoustic model adaptation unit 103 is a statistical quantity of estimated noise stored in the estimated noise storage unit 108. n Based on the above, the parameters of the acoustic model after adaptation are calculated.
- the method of calculating the parameters of the post-adaptation acoustic model is the same as the method of calculating the parameters of the post-adaptation acoustic model in the first embodiment.
- the post-adaptation acoustic model storage unit 109 stores information indicating the post-adaptation acoustic model generated by the acoustic model adaptation unit 103.
- FIG. 7 is information indicating an example of information stored in the post-adaptation acoustic model storage unit 109. Referring to FIG. 7, the post-adaptation acoustic model storage unit 109 performs post-adaptation acoustic model storage.
- the search unit 104 compares the distance between the feature amount of the noise suppression signal output from the noise suppression unit 102 and the probability density function for each phoneme included in the post-adaptation acoustic model storage unit 109. Then, a word string corresponding to the input signal is searched.
- the speech recognition apparatus 100 in the first modification of the first embodiment has the same effect as the speech recognition apparatus 100 in the first embodiment. [Second embodiment] FIG.
- the speech recognition apparatus 200 includes a coefficient storage unit 205, a noise estimation unit 201, a noise suppression unit 202, an acoustic model adaptation unit 103, a search unit 104, a clean acoustic model storage unit 107, The estimated noise storage unit 108, the post-adaptation acoustic model storage unit 109, the coefficient determination unit 210, the learning signal storage unit 211, and the noise suppression signal storage unit 212 are included.
- the coefficient determination unit 210 determines the suppression coefficient ⁇ and the adaptive coefficient ⁇ based on the learning data.
- the learning signal storage unit 211 stores learning data used to determine the suppression coefficient and the adaptive coefficient.
- FIG. 9 is a diagram illustrating an example of information stored in the learning signal storage unit 211. Referring to FIG. 9, the learning signal storage unit 211 stores time information and time domain data of the learning signal at the time indicated by the time information in association with each other. It is desirable that the learning data includes at least information indicating noise similar to that assumed in actual operation of the speech recognition apparatus 200. The learning data preferably includes at least data for several utterances.
- FIG. 10 is a diagram illustrating an example of information stored in the noise suppression signal storage unit 212. Referring to FIG. 10, the noise suppression signal storage unit 212 stores time information and the feature amount of the noise suppression signal at the time indicated by the time information in association with each other.
- the coefficient storage unit 205 receives a suppression coefficient and an adaptive coefficient from a coefficient determination unit 210 (to be described later), and updates each piece of information stored with the received information.
- the noise suppression unit 202 stores the extracted feature amount of the noise suppression signal in the noise suppression signal storage unit 212.
- the noise estimation unit 201 reads the learning data stored in the learning signal storage unit 211 (step S201).
- the noise estimation unit 201 determines a speech section and a silent section from the received input signal, similarly to step S102 in the first embodiment (step S202).
- the noise estimation unit 201 estimates noise from the learning signal data stored in the learning signal storage unit 211 based on the same method as the noise estimation unit 101 in the first embodiment (step S203).
- the noise suppression unit 202 suppresses the noise of the suppression amount specified based on the suppression coefficient stored in the coefficient storage unit 205 from the learning data stored in the learning signal storage unit 211. Then, the noise suppression unit 202 extracts the feature amount of the noise suppression signal from the noise suppression signal that is the suppressed signal (step S204). The noise suppression unit 202 stores the extracted feature amount of the noise suppression signal in the noise suppression signal storage unit 212 (step S205). The noise suppression unit 202 determines whether or not the feature amount of the noise suppression signal has been stored (step S206).
- the noise suppression unit 202 stores the noise suppression signal based on whether or not all the data of the learning signal stored in the learning signal storage unit 211 is stored in the noise suppression signal storage unit 212 as the feature amount of the noise suppression signal. It may be determined whether or not the feature amount has been stored. If the noise suppression unit 202 determines that the feature amount of the noise suppression signal has been stored (“Yes” in step S206), the speech recognition apparatus 200 proceeds to the next step S207. On the other hand, when the noise suppression unit 202 determines that the feature amount of the noise suppression signal has not been stored (“No” in step S206), the speech recognition apparatus 200 returns to step S201.
- the acoustic model adaptation unit 103 controls the adaptation amount based on the adaptation coefficient stored in the coefficient storage unit 205 and adapts the acoustic model to the clean acoustic model (step S207).
- the acoustic model adaptation unit 103 in step S207 is the same as step S105 of the acoustic model adaptation unit 103 in the first embodiment.
- the coefficient determination unit 210 determines whether or not to update the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 (step S208). Specifically, the coefficient determination unit 210 specifies a difference between the suppression coefficient and the adaptive coefficient value updated last time and the suppression coefficient and the adaptive coefficient value updated last time.
- the coefficient determination unit 210 determines that the suppression coefficient and the adaptive coefficient have converged when both of the specified differences are less than the predetermined threshold, and the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 are determined. Are determined not to be updated. On the other hand, the coefficient determination unit 210 determines to update the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 when at least one of the specified differences is equal to or greater than a predetermined threshold. Note that the configuration for storing the values of the suppression coefficient and the adaptive coefficient updated last time and the values of the suppression coefficient and the adaptive coefficient updated last time is not particularly limited. For example, the coefficient determination unit 210 may store the previously updated suppression coefficient and adaptive coefficient values and the previously updated suppression coefficient and adaptive coefficient values, respectively.
- the coefficient storage unit 205 may store the previously updated suppression coefficient and adaptive coefficient values and the previously updated suppression coefficient and adaptive coefficient values, respectively.
- the coefficient determination unit 210 reads the previously updated suppression coefficient and adaptive coefficient values from the coefficient storage unit 205 and the previously updated suppression coefficient and adaptive coefficient values, respectively.
- the speech recognition apparatus 200 ends the operation.
- the coefficient determination unit 210 determines to update the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 (“Yes” in step S208)
- the speech recognition apparatus 200 proceeds to the next step S209.
- the coefficient determination unit 210 generates a speech based on the distribution created by the feature amount of the noise suppression signal stored in the noise suppression signal storage unit 212 and the post-adaptation acoustic model stored in the post-adaptation acoustic model storage unit 109.
- the suppression coefficient and the adaptation coefficient that improve the recognition rate are each updated (step S209).
- the coefficient determination unit 210 generates a Q function that is a function specified based on the above-described noise suppression signal and the adaptive acoustic model.
- the coefficient determination unit 210 calculates the suppression coefficient and the adaptive coefficient to be updated using the suppression coefficient and the adaptive coefficient that maximize the Q function.
- the specific form of the Q function is shown in [Formula 18] below.
- z t ( ⁇ ) is equivalent to z in [Equation 9].
- z t ( ⁇ ) is a variable in which a suppression coefficient ⁇ and a variable t indicating time are specified in z in [Equation 9].
- ⁇ z t ( ⁇ ) is z t It is a primary dynamic feature amount derived based on ( ⁇ ).
- ⁇ z t ( ⁇ ) is z t It is a secondary dynamic feature amount derived based on ( ⁇ ).
- ⁇ z ( ⁇ ) is the ⁇ in [Equation 1]
- z Is equivalent to ⁇ z ( ⁇ ) is also the ⁇ in [Equation 1] z
- the adaptation coefficient ⁇ is a specified variable.
- i is the state number of the HMM.
- J is a Gaussian number.
- [Equation 18] the term indicated by [Equation 19] is a normal distribution.
- ⁇ (i, j, t) is the posterior probability of i and j. That is, the following [Equation 20] holds for ⁇ .
- ⁇ ′ is a suppression coefficient before update.
- ⁇ ′ is an adaptation coefficient before update.
- a specific method for deriving the suppression coefficient ⁇ and the adaptive coefficient ⁇ for maximizing the Q function shown in [Equation 21] is shown below.
- a numerical analysis such as Newton's method is applied to derive a suppression coefficient ⁇ and an adaptive coefficient ⁇ that maximize the Q function.
- the suppression coefficient ⁇ and the adaptive coefficient ⁇ are obtained based on an expression in a closed form (Closed-form) is shown.
- the Q function in this case, three average parameters ( ⁇ zij , ⁇ zij , ⁇ zij ), A Q function in which one parameter follows the adaptive coefficient ⁇ may be applied.
- [Equation 24] is also expressed as [Equation 27] below.
- vec (•) is an operator for vectorizing a matrix.
- [Equation 28] is an operator indicating the Kronecker product.
- [Equation 29] is established.
- the speech recognition apparatus 200 includes a means capable of determining a suppression coefficient and an adaptation coefficient that can realize high recognition accuracy, so that a higher speech recognition rate can be realized.
- FIG. 12 is a block diagram showing an example of the configuration of the speech recognition apparatus 300 according to the third embodiment of the present invention.
- the speech recognition apparatus 300 includes a coefficient storage unit 205, a noise estimation unit 101, a noise suppression unit 302, an acoustic model adaptation unit 103, a search unit 304, an input unit 106, a clean acoustic model.
- a storage unit 107, an estimated noise storage unit 108, a post-adaptation acoustic model storage unit 109, a coefficient determination unit 210, and a noise suppression signal storage unit 212 are included.
- the speech recognition apparatus 300 according to the third embodiment includes a distribution of noise suppression signals obtained by suppressing estimated noise estimated from an input signal according to a suppression coefficient, and a post-adaptation acoustic model that is adapted based on the adaptation coefficient. Based on this, the suppression coefficient and the adaptation coefficient are updated. Therefore, the speech recognition apparatus 300 can update the suppression coefficient and the adaptive coefficient as appropriate based on the input signal. That is, the speech recognition apparatus 300 can perform noise suppression and noise adaptation using an optimal suppression coefficient and adaptive coefficient for each input signal, for example, for each utterance.
- the search unit 304 includes a feature amount of the noise suppression signal stored in the noise suppression signal storage unit 212 and a probability density function for each phoneme included in the post-adaptation acoustic model stored in the post-adaptation acoustic model storage unit 109. And the word string corresponding to the input signal is searched. Other functions included in the search unit 304 may be the same as the functions included in the search unit 104 in the first embodiment.
- FIG. 13 is a flowchart showing an outline of the operation of the speech recognition apparatus 300 according to the third embodiment of the present invention.
- the input unit 106 receives an input signal and sequentially cuts out the input signal according to a time series.
- the input unit 106 performs short-time discrete Fourier transform on the cut out data. Then, the input unit 106 converts the converted data into a power spectrum (step S301). The input unit 106 passes the converted power spectrum to the noise estimation unit 101.
- the noise estimation unit 101 receives an input signal from the input unit 106. Next, the noise estimation unit 101 determines a speech section and a silent section based on the speech detection from the received input signal (step S302).
- the processing of the noise estimation unit 101 in step S302 is the same as step S102 of the noise estimation unit 101 in the first embodiment.
- the noise estimation unit 101 estimates a noise component from the received input signal (step S303).
- the processing of the noise estimation unit 101 in step S303 is the same as step S103 of the noise estimation unit 101 in the first embodiment.
- the noise estimation unit 101 extracts a feature amount of the estimated noise from the estimated noise, and stores the feature amount of the estimated noise in the estimated noise storage unit 108.
- the noise suppression unit 302 suppresses noise from the input signal based on the input signal, the estimated noise estimated by the noise estimation unit 101, and the suppression coefficient stored in the coefficient storage unit 105, and generates a noise suppression signal. Then, the noise suppression unit 302 extracts the feature amount of the noise suppression signal from the generated noise suppression signal (step S304).
- the processing of the noise suppression unit 302 in step S304 is the same as step S106 of the noise suppression unit 102 in the first embodiment.
- the noise suppression unit 302 may read the feature amount of the estimated noise extracted by the noise estimation unit 101 from the estimated noise storage unit 108.
- the noise suppression unit 302 stores the extracted feature amount of the noise suppression signal in the noise suppression signal storage unit 212 (step S305).
- the processing of the noise suppression unit 302 in step S305 is the same as step S205 of the noise suppression unit 202 in the second embodiment.
- the noise suppression unit 302 determines whether the feature amount of the noise suppression signal has been stored (step S306).
- the processing of the noise suppression unit 302 in step S306 is the same as step S206 of the noise suppression unit 202 in the second embodiment.
- the speech recognition apparatus 300 proceeds to the next step S307.
- the speech recognition apparatus 300 returns to step S301.
- the acoustic model adaptation unit 103 controls the adaptation amount based on the adaptation coefficient stored in the coefficient storage unit 205 and adapts the acoustic model to the clean acoustic model stored in the clean acoustic model storage unit 107 in advance ( Step S307).
- the processing of the acoustic model adaptation unit 103 in step S307 is the same as step S105 of the acoustic model adaptation unit 103 in the first embodiment.
- the coefficient determination unit 210 determines whether or not to update the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 (step S308). Specifically, the coefficient determination unit 210 specifies a difference between the suppression coefficient and the adaptive coefficient value updated last time and the suppression coefficient and the adaptive coefficient value updated last time. Then, the coefficient determination unit 210 determines that the suppression coefficient and the adaptive coefficient have converged when both of the specified differences are less than the predetermined threshold, and the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 are determined. Are determined not to be updated.
- the coefficient determination unit 210 determines to update the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 205 when at least one of the specified differences is equal to or greater than a predetermined threshold.
- the coefficient determination unit 210 processes the following. That is, the coefficient determination unit 210 is based on the distribution created by the feature quantity of the noise suppression signal stored in the noise suppression signal storage unit 212 and the post-adaptation acoustic model stored in the post-adaptation acoustic model storage unit 109.
- step S309 the suppression coefficient and the adaptive coefficient are respectively updated to the suppression coefficient and the adaptive coefficient that improve the speech recognition rate.
- the processing of the coefficient determination unit 210 in step S309 is the same as step S209 of the coefficient determination unit 210 in the second embodiment. After step S309, the speech recognition apparatus 300 returns to step S301.
- the search unit 304 processes the following.
- the search unit 304 includes the feature quantity of the noise suppression signal stored in the noise suppression signal storage unit 212 and the probability for each phoneme included in the post-adaptation acoustic model stored in the post-adaptation acoustic model storage unit 109.
- the distance from the density function is compared, and a word string corresponding to the input signal is searched (step S310).
- the processing of the search unit 304 in step S310 is the same as step S107 in the search unit 104 in the first embodiment.
- the noise estimation unit 101 determines whether or not a signal is still input (step S311). For example, the noise estimation unit 101 may determine whether or not a signal is still input based on whether or not the silent period detected in step S302 continues for a predetermined period.
- the speech recognition apparatus 300 includes a distribution of noise suppression signals obtained by suppressing estimated noise estimated from an input signal according to a suppression coefficient, and a post-adaptation acoustic model that is adapted based on the adaptation coefficient. Based on this, the suppression coefficient and the adaptation coefficient are updated.
- FIG. 14 is a block diagram showing a configuration of a speech recognition apparatus 400 according to the fourth embodiment of the present invention.
- the speech recognition apparatus 400 includes a coefficient storage unit 405, a noise estimation unit 101, a noise suppression unit 402, an acoustic model adaptation unit 403, a search unit 104, a coefficient determination unit 210, an estimated noise.
- a classification unit 413 the speech recognition apparatus 400 includes a coefficient storage unit 405, a noise estimation unit 101, a noise suppression unit 402, an acoustic model adaptation unit 403, a search unit 104, a coefficient determination unit 210, an estimated noise.
- a classification unit 413 is a classification unit 413.
- the suppression coefficient and the adaptive coefficient may be the same as the suppression coefficient and the adaptive coefficient stored in the coefficient storage unit 105 in the first embodiment.
- the predetermined statistic may be any value such as a static average or a static variance calculated from a feature amount of estimated noise for several frames. Then, the estimated noise classifying unit 413 specifies a noise class to which the estimated noise belongs based on the calculated statistic.
- the estimated noise classification unit 413 may specify classes belonging to each predetermined range of statistics. Then, the estimated noise classifying unit 413 specifies the suppression coefficient ⁇ and the adaptive coefficient ⁇ based on the class to which the estimated noise belongs. The estimated noise classification unit 413 stores the identified suppression coefficient ⁇ and adaptive coefficient ⁇ in the coefficient storage unit 405 in association with a noise identifier that can identify the class of the noise. For example, the speech recognition apparatus 400 calculates a representative value for each class of noise in advance. In this specification, it is assumed that the static variance of the estimated noise feature is used as the predetermined statistic. These representative values are calculated from noise belonging to each class. The speech recognition apparatus 400 calculates a suppression coefficient ⁇ and an adaptation coefficient ⁇ based on each representative value.
- the speech recognition apparatus 400 may calculate the suppression coefficient ⁇ and the adaptive coefficient ⁇ of each class by using the process of step S209 in the coefficient determination unit 210 in the second embodiment.
- the estimated noise classification unit 413 then suppresses the suppression coefficient ⁇ corresponding to the identified class i. i And adaptation coefficient ⁇ i And the noise identifier that can identify the class i are stored in the coefficient storage unit 405 in association with each other.
- the above is an example showing a specific example of the operation of the estimated noise classification unit 413, and the calculated statistic and the calculation method thereof are not limited.
- the estimated noise classification unit 413 may calculate the suppression coefficient ⁇ and the adaptive coefficient ⁇ that maximize the speech recognition rate, using noise belonging to each class.
- the estimated noise classifying unit 413 passes the noise belonging to each class to the coefficient determining unit 210 in the second embodiment, and the coefficient determining unit 210 calculates the optimum suppression coefficient ⁇ and adaptive coefficient ⁇ for each class. Also good.
- the coefficient determination unit 210 may store the calculated suppression coefficient ⁇ and adaptive coefficient ⁇ in the coefficient storage unit 405 in association with a noise identifier that can identify a noise class.
- Other functions included in the noise suppression unit 402 may be the same as the functions included in the noise suppression unit 102 in the first embodiment.
- FIG. 15 is a flowchart showing an outline of the operation of the speech recognition apparatus 400 according to the fourth embodiment of the present invention. In FIG. 15, the processing from step S401 to step S404 is the same as that from step S101 to S104 in the first embodiment.
- the speech recognition apparatus 400 proceeds to step S405.
- the estimated noise classification unit 413 estimates based on the input signal at the time from when the acoustic model adaptation unit 103 adapts the previous acoustic model to the adaptation of the current acoustic model among the estimated noise estimated by the noise estimation unit 101. Identify estimated noise. Then, the estimated noise classifying unit 413 specifies a class to which the estimated noise belongs based on a predetermined statistic calculated from the specified estimated noise (step S405).
- the estimated noise classifying unit 413 specifies the suppression coefficient ⁇ and the adaptive coefficient ⁇ based on the class to which the estimated noise belongs (step S406).
- the estimated noise classification unit 413 stores the identified suppression coefficient ⁇ and adaptive coefficient ⁇ in the coefficient storage unit 405 in association with a noise identifier that can identify the class to which the estimated noise belongs (step S407).
- the acoustic model adaptation unit 403 identifies an adaptive coefficient stored in the coefficient storage unit 405 in association with a noise identifier that can identify the noise class estimated by the estimated noise classification unit 413. Then, the acoustic model adaptation unit 403 controls the adaptation amount based on the identified adaptation coefficient and adapts to the clean acoustic model (step S408).
- step S408 the speech recognition apparatus 400 proceeds to step S411.
- the noise suppression unit 402 performs the following processing. That is, the noise suppression unit 402 specifies the suppression coefficient stored in the coefficient storage unit 405 in association with the noise identifier that can identify the noise class estimated by the estimated noise classification unit 413.
- the noise suppression unit 402 suppresses noise from the input signal based on the input signal, the estimated noise estimated by the noise estimation unit 101, and the above-described specified suppression coefficient, and generates a noise suppression signal.
- FIG. 16 is a block diagram showing a configuration of a speech recognition apparatus 500 according to the fifth embodiment of the present invention. Referring to FIG.
- the speech recognition apparatus 500 includes a coefficient storage unit 105, a noise estimation unit 101, a noise suppression unit 102, an acoustic model adaptation unit 103, a search unit 104, an error variance estimation unit 514, an error A distributed adaptation unit 515.
- the error variance of the above-described suppression amount is ideally expressed based on the following [Equation 31]. In [Equation 31], x is a true speech feature amount.
- the error variance estimation unit 514 cannot obtain the error variance using the mathematical formula shown in [Equation 31].
- the error variance of the suppression amount is proportional to the variance of the difference between the feature amount x ⁇ of the noise suppression signal and the observed feature amount y of the input signal.
- the following equation (32) is applied. There is a method for obtaining the error variance of the suppression amount based on the above.
- ⁇ is a proportionality constant.
- This lambda may be estimated using an EM algorithm (Expectation-maximization algorithm).
- the error variance estimation unit 514 obtains the error variance of the suppression amount based on the mathematical formula represented by [Equation 32]. Note that the error variance estimation unit 514 may derive the error variance of the suppression amount using [Equation 31] in advance using learning data that can identify the true speech feature value.
- FIG. 17 is a flowchart showing an outline of the operation of the speech recognition apparatus 500 according to the fifth embodiment of the present invention.
- the processing from step S501 to step S505 is the same as that from step S101 to S105 in the first embodiment.
- step S505 the speech recognition apparatus 500 proceeds to step S506.
- the process of step S507 is the same as that of step S106 in the first embodiment.
- step S508 the speech recognition apparatus 500 proceeds to step S508.
- the error variance estimation unit 514 estimates the error variance of the noise suppression amount in the noise suppression signal in which the noise suppression unit 102 suppresses noise from the input signal based on the suppression coefficient ⁇ (step S508).
- step S508 the speech recognition apparatus 500 proceeds to step S509.
- the process of step S509 is the same as that of step S107 in the first embodiment.
- the error variance adaptation unit 515 further adapts the model to the post-adaptation acoustic model adapted by the acoustic model adaptation unit 103 based on the error variance of the noise suppression amount estimated by the error variance estimation unit 514 (step S506). ).
- step S506 the speech recognition apparatus 500 proceeds to step S510.
- step S510 is the same as that of step S108 in the first embodiment.
- the speech recognition apparatus 500 estimates the error variance of the noise suppression amount in the noise suppression signal. Then, the speech recognition apparatus 500 further adapts the model to the post-adaptation acoustic model adapted by the acoustic model adaptation unit 103 based on the estimated error variance of the noise suppression amount. Since the speech recognition apparatus 500 adapts the model in consideration of the error variance of the noise suppression amount, the model variance can be made closer to the variance of the feature amount specified from the noise suppression signal. Therefore, the speech recognition apparatus 500 can realize higher speech recognition accuracy. [Sixth embodiment] FIG.
- the speech recognition apparatus 600 includes a CPU (Central Processing Unit) 601, a memory 602, and a storage unit 603.
- the CPU 601 reads, from the memory 602, software for the voice recognition device 600 to execute the processing of each voice recognition device in the first embodiment to the fifth embodiment.
- the CPU 601 functions as each unit included in each voice recognition device in the first to fifth embodiments based on the execution of the read software.
- the memory 602 stores software for the speech recognition apparatus 600 to execute the processing of each speech recognition apparatus in the first embodiment to the fifth embodiment.
- the storage unit 603 stores each piece of information in the same manner as each storage unit in the first embodiment to the fifth embodiment.
- the present invention also includes a recording medium 604 that primarily stores or stores software for the speech recognition apparatus 600 to execute the processing of each speech recognition apparatus in the first to fifth embodiments. Therefore, the memory 602 may read the software recorded on the computer-readable recording medium 604 and the CPU 601 may execute the read software.
- the voice recognition apparatus 600 according to the sixth embodiment has the same advantages as the voice recognition apparatuses according to the first to fifth embodiments.
- the noise suppression method which is a noise-resistant technique
- the speech recognition performance of model adaptation change according to the type of noise included in the input signal. Therefore, in the speech recognition apparatus based on the simple implementation of each related technology, the types of noise that can be immunized are limited.
- FIG. 19 is a diagram showing the recognition rates of the noise suppression method and the model adaptation method in the related technology with respect to eight types of noise of AURORA2, which is a common evaluation base of the speech recognition task.
- the eight types of noise are subway noise, bubble noise, car interior noise (car), exhibition noise (exhibition), restaurant noise (restaurant), road noise (street), airport noise (airport), And train-station.
- the type of noise is shown in the row heading, and the type of SNR of noise is shown in the column heading.
- Two numbers are entered in each component of the matrix shown in the table of FIG. The number above shows the speech recognition rate using the model adaptation method. The numbers below indicate the speech recognition rate using the noise suppression method. Based on FIG.
- the eight types of noise described above are noise that has a higher recognition rate in the model adaptation method than in the noise suppression method, and noise that has a higher recognition rate in the noise suppression method than in the model adaptation method. , Can be classified into two.
- the noise whose recognition rate is higher in the model adaptation method than in the noise suppression method is a square portion with a circle on the upper right in the square frame.
- the noise whose recognition rate is higher in the noise suppression method than in the model adaptation method is a portion surrounded by a thick line.
- the recognition rate using the model adaptation method is high.
- “subway”, “car”, “exhibition”, and “street” tend to have a high recognition rate using the noise suppression method.
- the feature of the noise that the recognition rate is higher in the model adaptation method than in the noise suppression method is that it contains a lot of bubble noise.
- the noise characteristic that the recognition rate is higher in the noise suppression method than in the model adaptation method is that it does not contain much bubble noise.
- True noise is N 2 ,
- the estimation error is ⁇
- the estimation noise N ′ 2 (N 2 + ⁇ )
- the noise suppression signal based on the SS method is expressed using the following [Equation 36].
- an ideal noise suppression signal is calculated by the following [Equation 37].
- [Equation 36] if the value of the estimation error ⁇ is large, the value of the noise suppression signal deviates from an ideal value.
- a value obtained by taking a logarithm of the value of the noise suppression signal is generally used in the process of deriving the feature amount used in speech recognition. Therefore, the true noise N 2 Is larger, Y 2 -N 2 Takes a value close to zero.
- the estimation error ⁇ has a greater influence on the feature amount calculated from the noise error signal.
- the noise including a lot of bubble noise it is difficult to estimate the noise and the estimation is likely to fail. Therefore, the recognition rate based on the noise suppression method deteriorates in noise containing a lot of bubble noise.
- the model adaptation method the average and variance of noise estimated over a relatively long time are used during model adaptation. Therefore, speech recognition using the model adaptation method can achieve high recognition accuracy for bubble noise that is difficult to estimate sequentially.
- the accuracy of successive noise estimation is high, so that the recognition rate of the noise suppression method is higher than the recognition rate of the model adaptation method.
- the recognition rate is equivalent to the recognition rate when the noise suppression method is implemented alone.
- the AURORA2 subway noise (SNR20, SNR10, SNR0) is used as the noise included in the input voice.
- NS-WiNE method WiNE method (Weighted Noise Estimation) is used as noise estimation
- MMSESTSA method minimum mean-square-error short-time spectral amplification
- VTS method is used as an average parameter.
- clean model values are used. Referring to FIG.
- each component in each embodiment or example of the present invention can be realized by a computer and a program as well as hardware implementation of the function.
- the program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer when the computer is started up.
- the read program causes the computer to function as a component in each of the above-described embodiments or examples based on control of the operation of the computer.
- the suppression coefficient indicating the noise suppression amount is associated with the adaptive coefficient indicating the adaptive amount of the noise model generated based on the predetermined noise to be synthesized with the clean acoustic model generated based on the noise-free speech.
- Coefficient storage means for storing Noise estimation means for estimating noise from the input signal, Noise suppression means for suppressing, from the input signal, noise specified by a suppression amount specified based on the suppression coefficient among noises estimated by the noise estimation means;
- a noise model generated based on the noise estimated by the noise estimation unit is synthesized with the clean acoustic model according to an adaptation amount specified based on the adaptation coefficient, and a noise-adapted post-adaptation acoustic model
- An acoustic model adaptation means for generating A speech recognition apparatus comprising: an input signal whose noise is suppressed by the noise suppression means; and a search means for recognizing speech based on the post-adaptation acoustic model generated by the acoustic model adaptation means.
- Appendix 2 The voice recognition device described in Appendix 1, A speech recognition apparatus in which the sum of the suppression coefficient and the adaptive coefficient is a predetermined value or matrix.
- Appendix 3 The voice recognition device according to appendix 1 or 2, Learning data storage means for storing learning data including at least one noise; A coefficient determination means for updating the suppression coefficient and the adaptive coefficient stored in the coefficient storage means; Including The coefficient determination means stores the coefficient based on the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the noise included in the learning data as observation data and the suppression coefficient and the adaptive coefficient as parameters.
- a speech recognition apparatus for updating a suppression coefficient and an adaptation coefficient stored in the means for updating a suppression coefficient and an adaptation coefficient stored in the means.
- Appendix 4 The voice recognition device according to appendix 1 or 2, A coefficient determination means for updating the suppression coefficient and the adaptive coefficient stored in the coefficient storage means; The coefficient determination unit is configured to reduce the noise estimated by the noise estimation unit when a difference between the suppression coefficient and the adaptive coefficient updated last time and the suppression coefficient and the adaptive coefficient updated last time is equal to or greater than a predetermined threshold value. Is the observation data, and the suppression coefficient stored in the coefficient storage means is based on the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the suppression coefficient and the adaptive coefficient when updated last time as parameters. And a speech recognition device for updating an adaptation coefficient.
- the speech recognition device includes an estimated noise classification means for identifying a class to which the noise estimated by the noise estimation means belongs,
- the coefficient storage means stores a noise identifier that can identify the class to which the noise belongs, a suppression coefficient, and an adaptive coefficient in association with each other,
- the noise suppression means is an amount of suppression specified based on a suppression coefficient associated with a noise identifier corresponding to the class of the noise specified by the estimated noise classification means among the noises estimated by the noise estimation means.
- the noise specified by is suppressed from the input signal
- the acoustic model adaptation means is adapted to the clean acoustic model according to an adaptation amount identified based on an adaptation coefficient associated with a noise identifier corresponding to the noise class identified by the estimated noise classification means.
- a speech recognition apparatus for generating a noise-adapted post-adaptation acoustic model based on synthesis of a noise model generated based on the noise estimated by the noise estimation means.
- the voice recognition device When receiving noise, it includes coefficient determining means for determining the suppression coefficient and the adaptive coefficient, The coefficient determination means calculates the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the noise whose class is specified by the estimated noise classification means as observation data and the suppression coefficient and the adaptive coefficient as parameters.
- a speech recognition device that stores the calculated suppression coefficient, the adaptive coefficient, and a noise identifier that can identify the class to which the noise belongs in the coefficient storage unit in association with each other.
- a speech recognition apparatus comprising: error variance adaptation means for updating the post-adaptation acoustic model adapted by the acoustic model adaptation means based on the error variance estimated by the error variance estimation means.
- the voice recognition device (Appendix 8) The voice recognition device according to appendix 3 or 4,
- the coefficient determining means stores the value of the suppression coefficient or adaptive coefficient before the update when updating the value of the suppression coefficient or adaptive coefficient stored in the coefficient storage means,
- the coefficient determination means stores the coefficient storage means when at least one of the difference between the suppression coefficient and the adaptive coefficient updated last time and the suppression coefficient and the adaptive coefficient updated last time is equal to or greater than a predetermined threshold.
- a speech recognition device that updates a stored suppression coefficient and adaptation coefficient.
- (Appendix 9) The speech recognition device according to any one of appendices 1 to 8, A speech recognition apparatus in which the sum of the suppression coefficient and the adaptive coefficient is 1 or a unit matrix.
- the suppression coefficient indicating the noise suppression amount is associated with the adaptive coefficient indicating the adaptive amount of the noise model generated based on the predetermined noise to be synthesized with the clean acoustic model generated based on the noise-free speech.
- Estimate noise from input signal The noise that is specified by the suppression amount specified based on the suppression coefficient in the estimated noise is suppressed from the input signal,
- the noise model generated based on the estimated noise is synthesized with the clean acoustic model according to the adaptation amount specified based on the adaptation coefficient to generate a noise-adapted post-adaptation acoustic model,
- Appendix 11 The voice recognition method described in Appendix 10, A speech recognition method in which the sum of the suppression coefficient and the adaptive coefficient is a predetermined value or matrix.
- Appendix 12 The voice recognition method described in Appendix 10 or 11, Storing learning data including at least one noise, Based on the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the noise included in the learning data as observation data and the suppression coefficient and the adaptive coefficient as parameters, the stored suppression coefficient and adaptation are used.
- Appendix 13 The voice recognition method described in Appendix 10 or 11, When the difference between the suppression coefficient and the adaptive coefficient when updated last time and the suppression coefficient and the adaptive coefficient when updated last time is equal to or greater than a predetermined threshold value, the estimated noise is used as observation data, and A speech recognition method for updating the stored suppression coefficient and adaptive coefficient based on a suppression coefficient and an adaptive coefficient that maximize an expected value of a likelihood function using the suppression coefficient and the adaptive coefficient as parameters.
- Appendix 15 The voice recognition method described in Appendix 14, The noise classified into the class is used as observation data, and the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the suppression coefficient and the adaptive coefficient as parameters are calculated.
- Appendix 16 The speech recognition method according to any one of appendices 10 to 15, Estimating the error variance of the noise suppression amount in the noise suppression signal in which noise is suppressed from the input signal based on the stored suppression coefficient, A speech recognition method for adapting a model to the adapted post-adaptation acoustic model based on the estimated error variance.
- Appendix 17 The voice recognition method described in Appendix 12 or 13, When updating the stored suppression coefficient or adaptive coefficient value, store the suppression coefficient or adaptive coefficient value before the update, When at least one of the difference between the suppression coefficient and the adaptive coefficient when updated last time and the suppression coefficient and the adaptive coefficient when updated last time is equal to or greater than a predetermined threshold, the stored suppression coefficient and adaptation A speech recognition method that updates the coefficients.
- Appendix 18 The speech recognition method according to any one of appendices 10 to 17, A speech recognition method in which the sum of the suppression coefficient and the adaptive coefficient is 1 or a unit matrix.
- the suppression coefficient indicating the noise suppression amount is associated with the adaptive coefficient indicating the adaptive amount of the noise model generated based on the predetermined noise to be synthesized with the clean acoustic model generated based on the noise-free speech.
- Process to remember Processing to estimate noise from the input signal, A process of suppressing, from the input signal, the amount of noise specified by a suppression amount specified based on the suppression coefficient among the estimated noises; A process of generating a noise-adapted post-adaptation acoustic model by combining the clean acoustic model with a noise model generated based on the estimated noise according to an adaptation amount specified based on the adaptation coefficient
- a speech recognition program for executing a process for recognizing speech based on the input signal in which the noise is suppressed and the generated post-adaptation acoustic model. The voice recognition program described in Appendix 19, A speech recognition program in which the sum of the suppression coefficient and the adaptive coefficient is a predetermined value or matrix.
- Appendix 21 The voice recognition program described in Appendix 19 or 20, To the computer A process of storing learning data including at least one noise; Based on the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the noise included in the learning data as observation data and the suppression coefficient and the adaptive coefficient as parameters, the stored suppression coefficient and adaptation are used. A speech recognition program for executing a process for updating coefficients.
- Appendix 22 The voice recognition program described in Appendix 19 or 20, To the computer When the difference between the suppression coefficient and the adaptive coefficient when updated last time and the suppression coefficient and the adaptive coefficient when updated last time is equal to or greater than a predetermined threshold value, the estimated noise is used as observation data, and Speech for executing processing for updating the stored suppression coefficient and adaptive coefficient based on the suppression coefficient and adaptive coefficient that maximize the expected value of the likelihood function using the suppression coefficient and adaptive coefficient as parameters Recognition program.
- a speech recognition program for executing a noise-adapted post-adaptation acoustic model based on model synthesis (Appendix 24) The voice recognition program described in Appendix 23, To the computer The noise classified into the class is used as observation data, and the suppression coefficient and the adaptive coefficient that maximize the expected value of the likelihood function using the suppression coefficient and the adaptive coefficient as parameters are calculated.
- Appendix 25 The speech recognition program according to any one of appendices 19 to 24, To the computer A process of estimating an error variance of a noise suppression amount in a noise suppression signal in which noise is suppressed from an input signal based on the stored suppression coefficient; A speech recognition program for executing a process of adapting a model to the adapted post-adaptation acoustic model based on the estimated error variance.
- Appendix 26 The voice recognition program described in Appendix 21 or 22, To the computer When updating the stored suppression coefficient or adaptive coefficient value, storing the pre-update suppression coefficient or adaptive coefficient value; When at least one of the difference between the suppression coefficient and the adaptation coefficient updated last time and the suppression coefficient and the adaptation coefficient updated last time is equal to or greater than a predetermined threshold, the stored suppression coefficient and adaptation A speech recognition program for executing a coefficient updating process.
- Appendix 27 The speech recognition program according to any one of appendices 19 to 26, A speech recognition program in which the sum of the suppression coefficient and the adaptive coefficient is 1 or a unit matrix.
- the present invention can be used as a speech recognition apparatus that handles input signals including various types of noise.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
特許文献1に記載された雑音抑圧装置は、スペクトル変換手段と、S/N推定手段と、抑圧係数データテーブルと、抑圧量推定手段と、雑音抑圧手段とを備える。そして、雑音抑圧装置は、以下のように動作する。スペクトル変換手段が、雑音を含む入力音声信号を時間領域から周波数領域に変換する。そして、S/N推定手段は、スペクトル変換手段を用いて変換された出力に基づいて入力音声信号のS/N比(signal−noise ratio)を推定する。抑圧係数データテーブルは、S/N比や周波数成分と所定の抑圧係数αとを対応付けて記憶する。抑圧量推定手段は、S/N推定手段が推定したS/N比に対応する抑圧係数αを抑圧係数データテーブルから取り出す。そして、雑音抑圧手段は、取り出された抑圧係数αに基づいて、スペクトル変換手段を用いて変換された出力に含まれるノイズ成分を抑圧する。
特許文献2に記載された音声認識装置は、入力音声信号に対して高抑圧量の高雑音を抑圧し、この高雑音が抑圧された入力信号から音声区間および雑音区間を検出する。そして、音声認識装置は、入力音声信号に対して低抑圧量の低雑音を抑圧し、この低雑音が抑圧された信号のうち前述の雑音区間で特定される部分の信号から雑音モデルを作成する。音声認識装置は、この雑音モデルをクリーン音声モデルと合成する。音声認識装置は、低雑音が抑圧された信号のうち前述の音声区間で特定される部分の信号に対して前述の合成したモデルを用いて音声を認識する。
特許文献3に記載された音声認識装置は、入力信号に含まれるエコー信号をスピーカーの供給信号に基づいて抑圧し、さらにその入力信号から周囲の背景雑音を抑圧する。そして、音声認識装置は、雑音が抑圧された信号に基づいて音声区間および雑音区間を特定する。そして、音声認識装置は、雑音区間と特定された信号に基づいて雑音モデルを学習し、その雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルを生成する。音声認識装置は、前述の音声区間と判定された信号と雑音重畳音声モデルとに基づいて音声を認識する。
特許文献4に記載された音声認識装置は、学習用の複数の種類の環境雑音の波形信号データを格納する。そして、音声認識装置は、これらの環境雑音の波形信号データから、出力尤度が最大となるように、一状態で複数混合のガウス混合モデルを生成する。そして、音声認識装置は、所定の雑音のない隠れマルコフモデル(Hidden Markov Model;HMM)と、前述のガウス混合モデルとから、音響モデルを生成する。この音響モデルは、以下の条件を満たす。第一に、この音響モデルは、各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む。第二に、この音響モデルは、音声認識時の環境音声データを用いて前述のガウス混合モデルの混合重みを適応化された隠れマルコフモデルに基づいて生成される。
なお、発明を実施するための形態の説明のおいて用いる特許文献5及び非特許文献1を記載しておく。
特許文献1に記載の技術は、雑音抑圧法が苦手とする雑音の種類、すなわち雑音抑圧法に基づく出力の音声認識率が低くなる雑音の種類に対処できない。よって、特許文献1に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
特許文献2および特許文献3に記載の技術は、雑音抑圧法または音響モデル適応法が単純に組み合わせられて雑音抑圧に使用されている。よって、特許文献2および特許文献3に記載の技術は、一方の方法に基づいた出力の音声認識率が低い場合に、他方の方法が適切に音声認識率の向上に寄与するとは限らない。すなわち、特許文献2および特許文献3に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
特許文献4に記載の技術は、音響モデル適応法が苦手とする雑音の種類、すなわち音響モデル適応法に基づく出力の音声認識率が低くなってしまう雑音の種類に対処できない。よって、特許文献4に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
従って、上述の各関連技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
本発明の目的の一例は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる音声認識装置、音声認識方法、および音声認識プログラムを提供することである。
本発明の一態様における第一の音声認識方法は、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、入力信号から、雑音を推定し、前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する。
本発明の一態様における第一の音声認識プログラムは、コンピュータに、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、入力信号から、雑音を推定する処理と、前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させる。
[第一の実施の形態]
図1は、本発明の第一の実施の形態における音声認識装置100の構成を示すブロック図である。図1を参照すると、音声認識装置100は、係数格納部105と、雑音推定部101と、雑音抑圧部102と、音響モデル適応部103と、サーチ部104とを含む。
第一の実施の形態における音声認識装置100は、抑圧係数とその抑圧係数に基づいて特定される適応係数とを対応付けて記憶する。音声認識装置100は、入力信号から、雑音を推定する。そして、音声認識装置100は、前述の入力信号から、前述の推定された雑音のうち前述の抑圧係数に基づいて特定される抑圧量で特定される分の雑音を抑圧する。また、音声認識装置100は、クリーン音響モデルに対し、前述の適応係数に基づいて特定される適応量に応じて、前述の推定された雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する。そして、音声認識装置100は、前述の雑音を抑圧された入力信号と、前述の生成された適応後音響モデルとに基づいて音声を認識する。
よって、第一の実施の形態における音声認識装置100は、雑音抑圧法および音響モデル適応法を適切に組み合わせることに基づいて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
以下、音声認識装置100が含む各構成要素について説明する。
===係数格納部105===
係数格納部105は、抑圧係数と適応係数とを対応付けて記憶する。
抑圧係数とは、雑音の抑圧量を示す情報である。例えば、抑圧係数が1であった場合、後述の雑音抑圧部102で雑音と推定される信号は、すべて抑圧される。一方、抑圧係数が0であった場合、後述の雑音抑圧部102で雑音と推定される信号は、抑圧されない。
この抑圧係数は、スカラーまたは行列でもよい。また、抑圧係数は、雑音の抑圧に寄与する割合を示す情報でもよい。この場合、抑圧係数がスカラーであった場合、その値が0ないし1を示す。また、抑圧係数が行列であった場合、その行列の各成分が0ないし1を示す。
適応係数とは、クリーン音響モデルに合成させる雑音モデルの適応量を示す情報である。例えば、適応係数が1であった場合、後述の音響モデル適応部103は、雑音モデルに特に重みをつけずにその雑音モデルとクリーン音響モデルとを合成し、適応後音響モデルを生成する。一方、適応係数が0であった場合、後述の音響モデル適応部103は、雑音モデルに重み0をかけてその雑音モデルとクリーン音響モデルとを合成し、適応後音響モデルを生成する。すなわち、この場合、音響モデル適応部103は、クリーン音響モデルを適応後音響モデルとみなして生成する。
この適応係数は、スカラーまたは行列でもよい。また、適応係数は、モデルの合成の適応に寄与する割合を示す情報でもよい。この場合、適応係数がスカラーであった場合、その値が0ないし1を示す。また、適応係数が行列であった場合、その行列の各成分が0ないし1を示す。
抑圧係数および適応係数は、あらかじめ行われる実験などを基に経験的に定められる値でもよい。例えば、この音声認識装置100の実運用で耐雑音対象となる雑音が、雑音抑圧部102において推定されやすい雑音ならば、抑圧係数が大きい値でもよい。そして、この場合、適応係数は、小さい値でもよい。また、抑圧係数と適応係数との和は、所定の値を示すことが望ましい。すなわち、適応係数は、抑圧係数に基づいて算出される値でもよい。例えば、抑圧係数および適応係数がスカラーである場合、前述の所定の値とは、1または1に近い値であることが好ましい。一方、抑圧係数および適応係数が行列である場合、前述の所定の値とは単位行列IまたはIに類似する行列であることが好ましい。ここで、「Iに類似する行列」とは、その行列とIとの各成分の差の二乗の和が所定の閾値以下である行列でもよい。ただし、これは例示であり、「Iに類似する行列」は、これに限定されない。
===雑音推定部101===
雑音推定部101は、入力信号の時系列データから雑音成分を推定する。入力信号は、単位時間のフレームごとに切り出されている情報でもよい。または、図示しない入力部が、入力信号の時系列データを単位時間のフレームごとに切り出し、切り出したそれぞれの情報を雑音推定部101に渡してもよい。
雑音推定部101は、入力信号から入力信号の特徴量yを抽出する。雑音推定部101は、例えば、入力信号のフレームごとに変換されるパワースペクトルにメルフィルタバンクの行列を掛け、さらに、その結果の対数を用いて、入力信号に対応する対数メルスペクトルを算出してもよい。あるいは、雑音推定部101は、その他の方法を用いて入力信号の特徴量を抽出してもよい。例えば、雑音推定部101は、入力信号から変換されるパワースペクトルの対数を特徴量として抽出してもよい。
また、雑音推定部101は、推定した雑音成分から推定雑音の特徴量n’を抽出する。雑音推定部101は、例えば、入力信号の特徴量の抽出と同様の方法を用いて推定雑音の特徴量n’を抽出してもよい。
===雑音抑圧部102===
雑音抑圧部102は、係数格納部105に記憶されている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を、入力信号から抑圧する。そして、雑音抑圧部102は、抑圧した信号である雑音抑圧信号の特徴量を抽出し、その雑音抑圧信号の特徴量を出力する。
===音響モデル適応部103===
音響モデル適応部103は、係数格納部105に格納されている適応係数に従って、適応量を制御してクリーン音響モデルに音響モデルを適応する。そして、音響モデル適応部103は、音響モデルを適応した適応後音響モデルを生成する。
===サーチ部104===
サーチ部104は、雑音抑圧部102が出力した雑音抑圧信号の特徴量と、音響モデル適応部103が適応した適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。
図2は、本発明の第一の実施の形態における音声認識装置100の動作の概要を示すフローチャートである。
雑音推定部101は、入力信号を受け取る(ステップS101)。例えば、入力信号が、サンプリング周波数8000Hzの16bit Linear−PCM(Linear Pulse Code Modulation)である場合を仮定する。この場合、入力信号には、1秒当たり8000点分の波形データが格納されている。例えば、図示しない入力部は、波形データをフレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に従って逐次切り出す。そして、入力部は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部は、変換したデータをパワースペクトルに変換する。入力部は、変換したパワースペクトルを雑音推定部101に渡してもよい。入力部の動作は、例示であり、上記の動作に限られない。図3は、この入力部106を含む音声認識装置100の構成例を示すブロック図である。
次に、雑音推定部101は、受け取った入力信号から音声検出を用いて、音声区間と無音区間とをそれぞれ判定する(ステップS102)。音声区間とみなされた各区間は、一発声としてそれぞれ特定される。音声検出の具体的方法は、例えば次の二つの方法がある。
第一の方法は、入力音声のパワースペクトルに基づき、ある閾値以上のパワースペクトルが得られる区間を音声区間とみなし、一方、ある閾値未満のパワースペクトルが得られる区間を無音区間とみなす方法である。
第二の方法は、ガウス混合分布モデル(Gaussian mixture model;GMM)に基づく音声区間検出手法である。まず、音声認識装置100は、音声と非音声とのGMMを定義する。そして、雑音推定部101は、入力信号のフレームごとに特徴量を抽出する。そして、雑音推定部101は、抽出した特徴量から各GMMの尤度を計算する。そして、雑音推定部101は、音声のGMMと非音声のGMMとの尤度比に基づいて、音声区間と無音区間とを判定する。
次に、雑音推定部101は、受け取った入力信号から雑音成分を推定する(ステップS103)。雑音推定部101は、例えば既存の雑音推定方法を用いて、受け取った入力信号から雑音成分を推定する。この既存の雑音推定方法とは、例えば、以下に挙げられる方法である。
第一の方法は、対象となる音声が発声される前の非音声区間(無音区間)の入力信号の平均値を用いて雑音を推定する方法である。第二の方法は、推定SNR(signal−noise ratio)に基づいて非音声区間を推定し、常時雑音を推定する方法(例えば、特許文献5に記載された方法)である。
雑音推定部101が推定した推定雑音は、雑音抑圧部102で用いられる。
音響モデル適応部103は、クリーン音響モデルに対して音響モデルを適応するか否か判定する(ステップS104)。例えば、音響モデル適応部103は、雑音推定部101がそれぞれ判定した一発声ごとに、音響モデルを適応してもよい。
または、音響モデル適応部103は、環境が変化したと判定した場合に音響モデルを適応してもよい。具体的には、音響モデル適応部103は、次の方法を用いて音響モデルを適応するか否か判定してもよい。
雑音推定部101が推定した推定雑音の静的平均および静的分散を含む集合∧nの静的平均がμn、静的分散がΣnとそれぞれ表されると仮定する。また、前回音響モデル適応部103が音響モデルを適応した際の音響モデルのパラメータ∧zの静的平均がμ’n、静的分散がΣ’nとそれぞれ表されると仮定する。この場合に、音声認識装置100は、あらかじめそれぞれの雑音統計量、すなわち静的平均および静的分散に基づいて所定の距離を定義する。音響モデル適応部103は、この距離を計算する。音響モデル適応部103は、計算した距離が所定の閾値以上である場合、すなわち雑音統計量がある一定値以上変化したと判定した場合に、環境が変化したと判定する。そして、音響モデル適応部103は、環境が変化したと判定した場合に、音響モデルを適応すると判定する。この場合、音響モデル適応部103は、雑音推定部101が推定した推定雑音に基づいてその推定雑音の静的平均および静的分散を含む集合∧nの静的平均μn、および、静的分散Σnを特定してもよい。
音響モデル適応部103が音響モデルを適応すると判定した場合(ステップS104の″Yes″)、音響モデル適応部103は、以下を処理する。
すなわち、音響モデル適応部103は、係数格納部105に記憶されている適応係数に基づいて適応量を制御し、クリーン音響モデルに音響モデルを適応する(ステップS105)。以下、音響モデル適応部103が適応した音響モデルは、適応後音響モデルとも呼ばれる。すなわち、音響モデル適応部103は、適応後音響モデルを生成する。例えば、クリーン音響モデルのパラメータが∧xと、音響モデル適応部103が雑音適応した適応後音響モデルのパラメータが∧zと表されると仮定する。また、雑音推定部101が推定した推定雑音の静的平均および静的分散を含む集合∧nの適応係数がβであると仮定する。雑音推定部101が推定した推定雑音の静的平均および静的分散は、音響モデル適応部103が前回モデル適応したときから今回音響モデルを適応するときまでに推定された推定雑音に基づいて計算される値でもよい。適応係数βは、スカラーでも行列でもよい。このとき、クリーン音響モデルのパラメータ∧xと適応係数βと雑音推定部101が推定した推定雑音の静的平均および静的分散を含む集合∧nに基づいて、前述の適応後音響モデルのパラメータ∧zは、以下の[数1]で表される。
HMM法は、あらかじめクリーンな音声から作られたHMM(以下、このHMMは″クリーンHMM″とも記される)と、推定された雑音から作られたHMM、すなわち対象となる雑音環境で発生された音声のHMM、とを合成する方法である。HMM法の一つとしては、例えば、Parallel Model Combination法(PMC法とも記される)がある。PMC法は、特徴量をスペクトル領域の量に逆変換し、スペクトル領域において、前述の二つのHMMを合成する方法である。
ヤコビ法とVTS法とは、推定された雑音に基づいてクリーンHMMを構成する各分布の雑音環境での変化を線形の式で近似する方法である。
本明細書では、音響モデル適応の方法として、VTS法が適用された場合における関数Mの例が示される。音響モデル適応部103が生成した適応後音響モデルのパラメータ∧zは、μzij、Δμzij、ΔΔμzij、Σzij、ΔΣzij、および、ΔΔΣzijの六つのパラメータからなると仮定する。ここで、μzijは、HMMの正規分布の静的平均を示す。Δμzijは、HMMの正規分布の一次の動的平均を示す。ΔΔμzijは、HMMの正規分布の二次の動的平均を示す。Σzijは、HMMの正規分布の静的分散を示す。ΔΣzijは、HMMの正規分布の一次の動的分散を示す。ΔΔΣzijは、HMMの正規分布の二次の動的分散を示す。iはHMMの状態番号、jはガウシアンの番号をそれぞれ示す。クリーン音響モデルのパラメータ∧xも、∧zと同様に、μxij、Δμxij、ΔΔμxij、Σxij、ΔΣxij、および、ΔΔΣxijの六つのパラメータからなると仮定する。推定雑音の静的平均および静的分散を含む集合∧nの静的平均がμn、静的分散がΣnとそれぞれ表されると仮定する。また、集合∧nの一次の動的分散がΔΣn、二次の動的分散がΔΔΣn、とそれぞれ表されると仮定する。これらのパラメータに基づいて、適応後音響モデル∧zは、以下の[数2]ないし[数7]の六つの式で表される。
ステップS105の後、音声認識装置100は、ステップS108へ進む。
一方、ステップS104において、音響モデル適応部103が音響モデルを適応しないと判定した場合(ステップS104の″No″)、雑音抑圧部102は、以下を処理する。すなわち、雑音抑圧部102は、入力信号と、雑音推定部101が推定した推定雑音と、係数格納部105が記憶する抑圧係数とに基づいて、雑音の抑圧量を制御した雑音抑圧を入力信号に対して用いて、雑音抑圧信号を生成する。そして、雑音抑圧部102は、生成した雑音抑圧信号から雑音抑圧信号の特徴量を抽出し、抽出した雑音抑圧信号の特徴量を出力する(ステップS106)。
また、雑音抑圧部102は、入力信号から入力信号の特徴量yを抽出する。雑音抑圧部102は、例えば、入力信号のフレームごとに変換されるパワースペクトルにメルフィルタバンクの行列を掛け、さらに、その結果の対数を用いて、入力信号に対応する対数メルスペクトルを算出してもよい。あるいは、雑音抑圧部102は、その他の方法を用いて入力信号の特徴量を抽出してもよい。例えば、雑音抑圧部102は、入力信号から変換されるパワースペクトルの対数を特徴量として抽出してもよい。
また、雑音抑圧部102は、推定した雑音成分から推定雑音の特徴量n’を抽出する。雑音抑圧部102は、例えば、入力信号の特徴量の抽出と同様の方法を用いて推定雑音の特徴量n’を抽出してもよい。
例えば、入力信号の特徴量がy、推定雑音の特徴量がn’、抑圧係数がαで示されるとき、雑音抑圧部102が生成する雑音抑圧信号の特徴量zは、以下の[数9]で表される。
また、WF法を用いて雑音抑圧された入力信号は、以下の[数12]で表される。
第一の方法は、SS法を用いて仮推定音声を推定する方法である。第二の方法は、クリーン信号で学習したGMMを用いて推定するMBW(Model−Based Wiener Filter)法である。
例えば、雑音抑圧部102は、以下の[数15]を用いて仮推定音声D’を求めてもよい。
雑音抑圧部102は、[数15]に基づいて求めた仮推定音声から仮推定音声の特徴量d’を抽出する。雑音抑圧部102は、例えば、入力信号の特徴量の抽出と同様の方法を用いて仮推定音声の特徴量d’を抽出してもよい。
本明細書では、雑音抑圧の方法として、WF法が適用された場合における関数Fの例が示される。雑音抑圧部102が生成する雑音抑圧信号の特徴量zは、以下の[数16]で表される。
サーチ部104は、雑音抑圧部102が出力した雑音抑圧信号の特徴量と、音響モデル適応部103が適応した適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する(ステップS107)。
雑音推定部101は、まだ信号が入力されているか否か判定する(ステップS108)。例えば雑音推定部101は、ステップS102において検出した無音区間が所定の期間続いているか否かに基づいて、まだ信号が入力されているか否か判定してもよい。
雑音推定部101は、信号が入力されていないと判定した場合(ステップS108の″No″)、音声認識装置100は、動作を終了する。一方、雑音推定部101は、まだ信号が入力されていると判定した場合(ステップS108の″Yes″)、音声認識装置100は、ステップS101に戻る。
第一の実施の形態における音声認識装置100は、抑圧係数とその抑圧係数に基づいて特定される適応係数とを対応付けて記憶する。音声認識装置100は、入力信号から、雑音を推定する。そして、音声認識装置100は、前述の入力信号から、前述の推定された雑音のうち前述の抑圧係数に基づいて特定される抑圧量で特定される分の雑音を抑圧する。また、音声認識装置100は、クリーン音響モデルに対し、前述の適応係数に基づいて特定される適応量に応じて、前述の推定された雑音に基づいて生成される雑音モデルを合成し、雑音適応された適応後音響モデルを生成する。そして、音声認識装置100は、前述の雑音を抑圧された入力信号と、前述の生成された適応後音響モデルとに基づいて音声を認識する。
よって第一の実施の形態における音声認識装置100は、雑音抑圧法および音響モデル適応法の適切な組み合わせに基づいて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
また、第一の実施の形態における音声認識装置100は、抑圧係数αと適応係数βとを用いて、雑音抑圧法とモデル適応法との耐雑音への寄与率をそれぞれ適切に設定できる。例えば、一般に、入力信号に含まれる雑音の短時間変動が大きい場合、雑音推定が難しくなる。この場合、第一の実施の形態における音声認識装置100は、雑音抑圧法の耐雑音への寄与率を下げ、モデル適応法の耐雑音への寄与率を上げるように、抑圧係数、適応係数を与える。すなわち、音声認識装置100は、抑圧係数αの値を小さくし、適応係数βの値を大きくする。その逆に、入力信号に雑音推定が容易な雑音が含まれる場合、音声認識装置100は、雑音抑圧法の耐雑音への寄与率を上げ、モデル適応法の耐雑音への寄与率を下げる。
これらの動作に基づき、第一の実施の形態における音声認識装置100は、対応可能な雑音の種類が増える。その上、雑音抑圧手法とモデル適応法との組み合わせが可能になることから、第一の実施の形態における音声認識装置100は、雑音抑圧手法とモデル適応法との耐雑音機能の同時利用が可能となる。
[第一の実施の形態の第一の変形例]
第一の実施の形態において、音声認識装置100は、入力部106とクリーン音響モデル格納部107と推定雑音格納部108と適応後音響モデル格納部109とを含んでもよい。図4は、本発明の第一の実施の形態の第一の変形例における音声認識装置100の構成を示すブロック図である。
===入力部106===
入力部106は、入力信号を受け取ると、その入力信号を時系列に従って逐次切り出す。そして、入力部106は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部106は、変換したデータをパワースペクトルに変換する。入力部106は、変換したパワースペクトルを雑音推定部101と雑音抑圧部102とに渡す。
雑音推定部101は、入力部106から受け取るデータから雑音成分を推定する。また、雑音抑圧部102は、係数格納部105に記憶されている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を、入力部106から受け取る入力信号から抑圧する。
===クリーン音響モデル格納部107===
クリーン音響モデル格納部107は、雑音を含まない信号であるクリーン信号に基づいて学習されたクリーン音響モデルを示す情報を記憶する。図5は、クリーン音響モデル格納部107が記憶する情報の一例を示す図である。図5を参照すると、クリーン音響モデル格納部107は、クリーン音響モデル∧xとして、状態番号iとガウシアン番号jとの組、静的平均μxij、一次動的平均Δμxij、二次動的平均ΔΔμxij、静的分散Σxij、一次動的分散ΔΣxij、および二次動的分散ΔΔΣxijをそれぞれ対応付けて記憶する。
音響モデル適応部103は、音響モデルを適応すると判定した場合に、クリーン音響モデル格納部107に記憶されているクリーン音響モデル∧xを利用する。具体的には、音響モデル適応部103は、このクリーン音響モデル∧xに、係数格納部105に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応させることで、適応後音響モデルを生成する。
===推定雑音格納部108===
推定雑音格納部108は、雑音推定部101が推定した推定雑音を示す情報を記憶する。図6は、推定雑音格納部108が記憶する情報の一例を示す図である。図6を参照すると、推定雑音格納部108は、時刻情報と、推定雑音の特徴量と、雑音の統計量∧nとを対応付けて記憶する。時刻情報は、ある時刻を示す情報である。推定雑音の特徴量は、雑音抑圧部102が抽出した推定雑音の特徴量である。雑音の統計量∧nは、静的平均μn、静的分散Σnij、一次動的分散ΔΣnij、および二次動的分散ΔΔΣnijを含む情報である。
雑音推定部101は、推定した推定雑音に基づいてその推定雑音の特徴量を抽出してもよい。雑音推定部101は、雑音抑圧部102における推定雑音からの特徴量抽出と同様に、その推定雑音の特徴量を抽出してもよい。さらに、雑音推定部101は、抽出した特徴量に基づいてその雑音の統計量を算出し、算出した雑音の統計量を推定雑音格納部108に記憶してもよい。
音響モデル適応部103は、推定雑音格納部108に記憶されている推定雑音の統計量∧nに基づいて、適応後音響モデルのパラメータを算出する。適応後音響モデルのパラメータの算出方法は、第一の実施の形態における適応後音響モデルのパラメータの算出方法と同様である。
===適応後音響モデル格納部109===
適応後音響モデル格納部109は、音響モデル適応部103が生成した適応後音響モデルを示す情報を記憶する。図7は、適応後音響モデル格納部109が記憶する情報の一例を示す情報である。図7を参照すると、適応後音響モデル格納部109は、適応後音響モデル∧zとして、状態番号iとガウシアン番号jとの組、静的平均μzij、一次動的平均Δμzij、二次動的平均ΔΔμzij、静的分散Σzij、一次動的分散ΔΣzij、および二次動的分散ΔΔΣzijをそれぞれ対応付けて記憶する。
サーチ部104は、雑音抑圧部102が出力した雑音抑圧信号の特徴量と、適応後音響モデル格納部109に記憶された適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。
第一の実施の形態の第一の変形例における音声認識装置100は、第一の実施の形態における音声認識装置100と同様の効果を有する。
[第二の実施の形態]
図8は、本発明の第二の実施の形態における音声認識装置200の構成を示すブロック図である。図8を参照すると、音声認識装置200は、係数格納部205と、雑音推定部201と、雑音抑圧部202と、音響モデル適応部103と、サーチ部104と、クリーン音響モデル格納部107と、推定雑音格納部108と、適応後音響モデル格納部109と、係数決定部210と、学習信号格納部211と、雑音抑圧信号格納部212と、を含む。
第二の実施の形態における音声認識装置200は、係数決定部210が学習データに基づいて抑圧係数αと適応係数βとを決定する。
===学習信号格納部211===
学習信号格納部211は、抑圧係数および適応係数を決定するために用いられる学習データを記憶する。図9は、学習信号格納部211が記憶する情報の一例を示す図である。図9を参照すると、学習信号格納部211は、時刻情報と、その時刻情報が示す時刻における学習信号の時間領域データとを対応付けて記憶する。学習データには、音声認識装置200の実運用において想定される雑音と同様の雑音を示す情報が少なくとも含まれていることが望ましい。そして、学習データには、数発声分のデータが少なくとも含まれていることが望ましい。
===雑音抑圧信号格納部212===
雑音抑圧信号格納部212は、雑音抑圧部202が入力信号から雑音を抑圧した雑音抑圧信号に基づいて抽出する雑音抑圧信号の特徴量を記憶する。図10は、雑音抑圧信号格納部212が記憶する情報の一例を示す図である。図10を参照すると、雑音抑圧信号格納部212は、時刻情報と、その時刻情報が示す時刻における雑音抑圧信号の特徴量とを対応付けて記憶する。
===係数格納部205===
係数格納部205は、抑圧係数と適応係数とを対応付けて記憶する。また、係数格納部205は、後述の係数決定部210から抑圧係数と適応係数とを受け取り、受け取った情報で記憶されている各情報を更新する。
===雑音推定部201===
雑音推定部201は、学習信号格納部211が記憶する学習信号のデータから、第一の実施の形態における雑音推定部101と同様の方法を用いて雑音を推定する。
===雑音抑圧部202===
雑音抑圧部202は、係数格納部205に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、学習信号格納部211に記憶されている学習データから抑圧する。そして、雑音抑圧部202は、抑圧した信号である雑音抑圧信号に基づいて、その雑音抑圧信号の特徴量を抽出する。雑音抑圧部202は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部212に記憶する。
===係数決定部210==
係数決定部210は、雑音抑圧信号格納部212に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部109に記憶されている学習適応モデルとを比較する。そして、係数決定部210は、その比較結果に基づいて抑圧係数と適応係数とを更新する。具体的には、係数決定部210は、前回更新された抑圧係数および適応係数と、前々回に更新された抑圧係数および適応係数との差分が所定の閾値以下でない場合に、抑圧係数と適応係数とを更新する。
図11は、本発明の第二の実施の形態における音声認識装置200の係数決定部210が抑圧係数および適応係数を更新する動作の概要を示すフローチャートである。
雑音推定部201は、学習信号格納部211に記憶されている学習データを読み出す(ステップS201)。
雑音推定部201は、受け取った入力信号から第一の実施の形態におけるステップS102と同様に、音声区間と無音区間とをそれぞれ判定する(ステップS202)。
そして、雑音推定部201は、学習信号格納部211が記憶する学習信号のデータから、第一の実施の形態における雑音推定部101と同様の方法に基づいて雑音を推定する(ステップS203)。
雑音抑圧部202は、係数格納部205に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、学習信号格納部211に記憶されている学習データから抑圧する。そして、雑音抑圧部202は、抑圧した信号である雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する(ステップS204)。
雑音抑圧部202は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部212に記憶する(ステップS205)。
雑音抑圧部202は、雑音抑圧信号の特徴量の記憶が終わったか否か判定する(ステップS206)。例えば、雑音抑圧部202は、学習信号格納部211が記憶する学習信号の全データが、雑音抑圧信号の特徴量として雑音抑圧信号格納部212に記憶されているか否かに基づいて雑音抑圧信号の特徴量の記憶が終わったか否か判定してもよい。
雑音抑圧部202が、雑音抑圧信号の特徴量の記憶が終わったと判定した場合(ステップS206の″Yes″)、音声認識装置200は、次のステップS207に進む。一方、雑音抑圧部202が、雑音抑圧信号の特徴量の記憶が終わっていないと判定した場合(ステップS206の″No″)、音声認識装置200は、ステップS201に戻る。
音響モデル適応部103は、クリーン音響モデルに、係数格納部205に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応する(ステップS207)。ステップS207における音響モデル適応部103は、第一の実施の形態における音響モデル適応部103のステップS105と同様である。
係数決定部210は、係数格納部205に記憶されている抑圧係数と適応係数とを更新するか否か判定する(ステップS208)。具体的には、係数決定部210は、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値との差分を特定する。そして、係数決定部210は、特定した差分のいずれもが所定の閾値未満である場合に、抑圧係数および適応係数が収束したと判定し、係数格納部205に記憶されている抑圧係数と適応係数とを更新しないと判定する。一方、係数決定部210は、特定した差分の少なくともいずれかが所定の閾値以上である場合に、係数格納部205に記憶されている抑圧係数と適応係数とを更新すると判定する。
なお、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とを記憶する構成は、特に制限は無い。
例えば、係数決定部210が、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ記憶してもよい。
あるいは、係数格納部205が、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ記憶してもよい。この場合、係数決定部210は、係数格納部205から前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ読み出す。
係数決定部210が係数格納部205に記憶されている抑圧係数と適応係数とを更新しないと判定した場合(ステップS208の″No″)、音声認識装置200は、動作を終了する。一方、係数決定部210が係数格納部205に記憶されている抑圧係数と適応係数とを更新すると判定した場合(ステップS208の″Yes″)、音声認識装置200は、次のステップS209に進む。
係数決定部210は、雑音抑圧信号格納部212に記憶されている雑音抑圧信号の特徴量が作る分布と、適応後音響モデル格納部109に記憶されている適応後音響モデルとに基づいて、音声認識率を向上させる抑圧係数および適応係数をそれぞれ更新する(ステップS209)。
具体的には、係数決定部210は、前述の雑音抑圧信号と、適応後音響モデルとに基づいて特定される関数であるQ関数を生成する。係数決定部210は、このQ関数を最大化させる抑圧係数および適応係数を用いて、更新する抑圧係数および適応係数を算出する。
Q関数の具体的な形式は、以下の[数18]に示される。
[数18]において、[数19]で示される項は、正規分布である。
平均がμと、分散がΣと、確率変数がxと、それぞれ表され、正規分布がN(x;μ,Σ)と表される場合、[数18]は、[数21]のようにも表される。
計算量を軽減させるため、本明細書では、例えば、閉じた形式(Closed−form)である式に基づいて抑圧係数αおよび適応係数βが求められる例を示す。この場合のQ関数として、適応後音響モデルが含む三つの平均パラメータ(μzij、Δμzij、ΔΔμzij)のうち、一つのパラメータが適応係数βに従うQ関数が適用されてもよい。
例えば、静的平均(μzij)が適応係数βに従い、その他のパラメータが更新前の適応係数β’に従う場合、Q関数は、以下の[数22]に用いて与えられる。
抑圧係数αおよび適応係数βが一般の正方行列である場合、[数24]は、以下の[数27]のようにも表される。
第二の実施の形態における音声認識装置200は、学習データに基づいてQ関数を最大化させる抑圧係数αおよび適応係数βを算出する。この算出に基づき、音声認識装置200は、高認識精度を実現できる抑圧係数および適応係数を決定できる手段を含むため、より高い音声認識率を実現できる。
[第三の実施の形態]
図12は、本発明の第三の実施の形態における音声認識装置300の構成の一例を示すブロック図である。図12を参照すると、音声認識装置300は、係数格納部205と、雑音推定部101と、雑音抑圧部302と、音響モデル適応部103と、サーチ部304と、入力部106と、クリーン音響モデル格納部107と、推定雑音格納部108と、適応後音響モデル格納部109と、係数決定部210と、雑音抑圧信号格納部212と、を含む。
第三の実施の形態における音声認識装置300は、入力信号から推定される推定雑音を抑圧係数に応じて抑圧した雑音抑圧信号の分布と、適応係数に基づいて適応された適応後音響モデルとに基づいて、抑圧係数と適応係数とを更新する。そのため、音声認識装置300は、入力信号を基に、適宜抑圧係数および適応係数を更新できる。すなわち、音声認識装置300は、入力信号ごと、例えば、一発声ごとに、最適な抑圧係数および適応係数を用いて、雑音抑圧および雑音適応ができる。
===雑音抑圧部302===
雑音抑圧部302は、入力部106から入力信号を受け取る。そして、雑音抑圧部302は、係数格納部105に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、受け取った入力信号から抑圧する。雑音抑圧部302は、抑圧した信号である雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する。そして、雑音抑圧部302は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部212に記憶する。雑音抑圧部302が含むその他の機能は、第一の実施の形態における雑音抑圧部102が含む機能と同様でもよい。
===サーチ部304===
サーチ部304は、雑音抑圧信号格納部212に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部109に記憶されている適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。サーチ部304が含むその他の機能は、第一の実施の形態におけるサーチ部104が含む機能と同様でもよい。
図13は、本発明の第三の実施の形態における音声認識装置300の動作の概要を示すフローチャートである。
入力部106は、入力信号を受け取り、その入力信号を時系列に従って逐次切り出す。そして、入力部106は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部106は、変換したデータをパワースペクトルに変換する(ステップS301)。入力部106は、変換したパワースペクトルを雑音推定部101に渡す。
雑音推定部101は、入力部106から入力信号を受け取る。次に、雑音推定部101は、受け取った入力信号からの音声検出に基づいて、音声区間と無音区間とをそれぞれ判定する(ステップS302)。ステップS302における雑音推定部101の処理は、第一の実施の形態における雑音推定部101のステップS102と同様である。
雑音推定部101は、受け取った入力信号から雑音成分を推定する(ステップS303)。ステップS303における雑音推定部101の処理は、第一の実施の形態における雑音推定部101のステップS103と同様である。雑音推定部101は、推定雑音からその推定雑音の特徴量を抽出し、その推定雑音の特徴量を推定雑音格納部108に記憶する。
雑音抑圧部302は、入力信号と、雑音推定部101が推定した推定雑音と、係数格納部105が記憶する抑圧係数とに基づいて、入力信号から雑音を抑圧し、雑音抑圧信号を生成する。そして、雑音抑圧部302は、生成した雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する(ステップS304)。ステップS304における雑音抑圧部302の処理は、第一の実施の形態における雑音抑圧部102のステップS106と同様である。雑音抑圧部302は、雑音推定部101が抽出した推定雑音の特徴量を推定雑音格納部108から読み出してもよい。
雑音抑圧部302は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部212に記憶する(ステップS305)。ステップS305における雑音抑圧部302の処理は、第二の実施の形態における雑音抑圧部202のステップS205と同様である。
雑音抑圧部302は、雑音抑圧信号の特徴量の記憶が終わったか否か判定する(ステップS306)。ステップS306における雑音抑圧部302の処理は、第二の実施の形態における雑音抑圧部202のステップS206と同様である。
雑音抑圧部302が、雑音抑圧信号の特徴量の記憶が終わったと判定した場合(ステップS306の″Yes″)、音声認識装置300は、次のステップS307に進む。一方、雑音抑圧部302が、雑音抑圧信号の特徴量の記憶が終わっていないと判定した場合(ステップS306の″No″)、音声認識装置300は、ステップS301に戻る。
音響モデル適応部103は、あらかじめクリーン音響モデル格納部107に記憶されているクリーン音響モデルに、係数格納部205に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応する(ステップS307)。ステップS307における音響モデル適応部103の処理は、第一の実施の形態における音響モデル適応部103のステップS105と同様である。
係数決定部210は、係数格納部205に記憶されている抑圧係数と適応係数とを更新するか否か判定する(ステップS308)。具体的には、係数決定部210は、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値との差分を特定する。そして、係数決定部210は、特定した差分のいずれもが所定の閾値未満である場合に、抑圧係数および適応係数が収束したと判定し、係数格納部205に記憶されている抑圧係数と適応係数とを更新しないと判定する。一方、係数決定部210は、特定した差分の少なくともいずれかが所定の閾値以上である場合に、係数格納部205に記憶されている抑圧係数と適応係数とを更新すると判定する。
係数決定部210は、係数格納部205に記憶されている抑圧係数と適応係数とを更新すると判定した場合(ステップS308の″Yes″)、以下を処理する。すなわち、係数決定部210は、雑音抑圧信号格納部212に記憶されている雑音抑圧信号の特徴量が作る分布と、適応後音響モデル格納部109に記憶されている適応後音響モデルとに基づいて、音声認識率を向上させる抑圧係数および適応係数に、抑圧係数および適応係数をそれぞれ更新する(ステップS309)。ステップS309における係数決定部210の処理は、第二の実施の形態における係数決定部210のステップS209と同様である。ステップS309の後、音声認識装置300は、ステップS301に戻る。
一方、係数決定部210が係数格納部205に記憶されている抑圧係数と適応係数とを更新しないと判定した場合(ステップS308の″No″)、サーチ部304は、以下を処理する。すなわち、サーチ部304は、雑音抑圧信号格納部212に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部109に記憶されている適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する(ステップS310)。ステップS310におけるサーチ部304の処理は、第一の実施の形態におけるサーチ部104におけるステップS107と同様である。
雑音推定部101は、まだ信号が入力されているか否か判定する(ステップS311)。例えば、雑音推定部101は、ステップS302において検出した無音区間が所定の期間続いているか否かに基づいて、まだ信号が入力されているか否か判定してもよい。
雑音推定部101が、信号が入力されていないと判定した場合(ステップS311の″No″)、音声認識装置300は、動作を終了する。一方、雑音推定部101が、まだ信号が入力されていると判定した場合(ステップS311の″Yes″)、音声認識装置300は、ステップS301に戻る。ステップS311における雑音推定部101の処理は、第一の実施の形態における雑音推定部101におけるステップS107と同様である。
第三の実施の形態における音声認識装置300は、入力信号から推定される推定雑音を抑圧係数に応じて抑圧した雑音抑圧信号の分布と、適応係数に基づいて適応された適応後音響モデルとに基づいて、抑圧係数と適応係数とを更新する。そのため、音声認識装置300は、入力信号を基に、適宜、抑圧係数および適応係数を更新できる。すなわち、音声認識装置300は、入力信号ごと、例えば、一発声ごとに最適な抑圧係数および適応係数を用いて雑音抑圧および雑音適応ができる。
[第四の実施の形態]
図14は、本発明の第四の実施の形態における音声認識装置400の構成を示すブロック図である。図14を参照すると、音声認識装置400は、係数格納部405と、雑音推定部101と、雑音抑圧部402と、音響モデル適応部403と、サーチ部104と、係数決定部210と、推定雑音分類部413とを含む。
===係数格納部405===
係数格納部405は、抑圧係数と適応係数と、雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する。抑圧係数および適応係数は、第一の実施の形態における係数格納部105が記憶する抑圧係数および適応係数と同様でもよい。
===推定雑音分類部413===
推定雑音分類部413は、雑音推定部101が推定した推定雑音に基づいて所定の統計量を計算する。所定の統計量とは、ある数フレーム分の推定雑音の特徴量から計算される静的平均、あるいは静的分散などのあらゆる値でもよい。そして、推定雑音分類部413は、計算した統計量に基づいて推定雑音が属する雑音のクラスを特定する。例えば、推定雑音分類部413は、統計量の所定の範囲毎に属するクラスをそれぞれ特定してもよい。そして、推定雑音分類部413は、推定雑音が属するクラスに基づいて、抑圧係数αおよび適応係数βをそれぞれ特定する。推定雑音分類部413は、特定した抑圧係数αおよび適応係数βを、その雑音のクラスを識別できる雑音識別子と対応付けて係数格納部405に記憶する。
例えば、音声認識装置400は、あらかじめ雑音の各クラスの代表値を算出する。本明細書では、所定の統計量として推定雑音の特徴量の静的分散が用いられると仮定する。これらの代表値は、各クラスに属する雑音からそれぞれ算出される。音声認識装置400は、各代表値に基づいてそれぞれ抑圧係数αおよび適応係数βを算出する。具体的には、音声認識装置400は、第二の実施の形態における係数決定部210におけるステップS209の処理を用いて、各クラスの抑圧係数αおよび適応係数βを算出してもよい。
推定雑音分類部413は、雑音推定部101が推定した推定雑音に基づいてその推定雑音の静的分散Σ’を算出する。そして、各クラスに対応する静的分散Σi(i=0,・・・,N;Nはクラス数)に対して、推定雑音分類部413は、[数30]で示される値を算出する。
上記は、推定雑音分類部413の動作の具体例を示す一例であり、算出される統計量やその算出方法が限定されるものではない。
推定雑音分類部413は、各クラスに属する雑音を用いて、音声認識率が最大になる抑圧係数αと適応係数βとをそれぞれ算出してもよい。または、推定雑音分類部413は、第二の実施の形態における係数決定部210に各クラスに属する雑音を渡し、係数決定部210がクラスごとに最適な抑圧係数αおよび適応係数βを算出してもよい。そして、係数決定部210は、算出した抑圧係数αおよび適応係数βと、雑音のクラスを識別できる雑音識別子とを対応付けて係数格納部405に記憶してもよい。
===雑音抑圧部402===
雑音抑圧部402は、推定雑音分類部413が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部405に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、入力信号から抑圧する。雑音抑圧部402が含むその他の機能は、第一の実施の形態における雑音抑圧部102が含む機能と同様でもよい。
===音響モデル適応部403===
音響モデル適応部403は、推定雑音分類部413が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部405に格納されている適応係数に従って、適応量を制御してクリーン音響モデルに音響モデルを適応する。音響モデル適応部403が含むその他の機能は、第一の実施の形態における音響モデル適応部103が含む機能と同様でもよい。
図15は、本発明の第四の実施の形態における音声認識装置400の動作の概要を示すフローチャートである。
図15において、ステップS401ないしステップS404の処理は、第一の実施の形態におけるステップS101ないしS104と同様である。
音響モデル適応部403が音響モデルを適応すると判定した場合(ステップS404の″Yes″)、音声認識装置400は、ステップS405へ進む。
推定雑音分類部413は、雑音推定部101が推定した推定雑音のうち、音響モデル適応部103が前回音響モデル適応したときから今回音響モデルを適応するまでの間の時刻の入力信号に基づいて推定された推定雑音を特定する。そして、推定雑音分類部413は、特定した推定雑音から計算される所定の統計量に基づいて、推定雑音が属するクラスを特定する(ステップS405)。
そして、推定雑音分類部413は、推定雑音が属するクラスに基づいて、抑圧係数αおよび適応係数βをそれぞれ特定する(ステップS406)。
推定雑音分類部413は、特定した抑圧係数αおよび適応係数βをその推定雑音が属するクラスを識別できる雑音識別子と対応付けて係数格納部405に記憶する(ステップS407)。
音響モデル適応部403は、推定雑音分類部413が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部405に記憶されている適応係数を特定する。そして、音響モデル適応部403は、前述の特定した適応係数に基づいて適応量を制御し、クリーン音響モデルに適応する(ステップS408)。ステップS408の後、音声認識装置400は、ステップS411へ進む。
一方、ステップS404において、音響モデル適応部403が音響モデルを適応しないと判定した場合(ステップS404の″No″)、雑音抑圧部402は、以下を処理する。
すなわち、雑音抑圧部402は、推定雑音分類部413が推定した雑音のクラスを識別できる雑音識別子に対応付けて係数格納部405が記憶する抑圧係数を特定する。そして、雑音抑圧部402は、入力信号と、雑音推定部101が推定した推定雑音と、前述の特定した抑圧係数とに基づいて、入力信号から雑音を抑圧し、雑音抑圧信号を生成する。
そして、雑音抑圧部402は、生成した雑音抑圧信号から雑音抑圧信号の特徴量を抽出し、抽出した雑音抑圧信号の特徴量を出力する(ステップS409)。
図15において、ステップS410およびステップS411の処理は、第一の実施の形態におけるステップS107およびS108と同様である。
第四の実施の形態における音声認識装置400は、雑音の種類に対してそれぞれ最適な抑圧係数αおよび適応係数βを設定できる。よって、音声認識装置400は、より多様な雑音に対して頑強である。
[第五の実施の形態]
図16は、本発明の第五の実施の形態における音声認識装置500の構成を示すブロック図である。図16を参照すると、音声認識装置500は、係数格納部105と、雑音推定部101と、雑音抑圧部102と、音響モデル適応部103と、サーチ部104と、誤差分散推定部514と、誤差分散適応部515とを含む。
===誤差分散推定部514===
誤差分散推定部514は、雑音抑圧部102が抑圧係数αに基づいて入力信号から雑音を抑圧した雑音抑圧信号における雑音の抑圧量の誤差分散を推定する。
前述の抑圧量の誤差分散は、理想的には、以下の[数31]に基づいて表される。
しかし、通常、真の音声は未知であるため、誤差分散推定部514は、[数31]に示される数式に用いて誤差分散を求めることができない。前述の抑圧量の誤差分散が雑音抑圧信号の特徴量x^と観測される入力信号の特徴量yとの差分の分散に比例するとの仮定の下、以下の[数32]で示される数式に基づいて抑圧量の誤差分散を求める方法がある。
誤差分散推定部514は、[数32]で示される数式に基づいて抑圧量の誤差分散を求める。
なお、誤差分散推定部514は、真の音声特徴量を特定できる学習データを用いて、あらかじめ[数31]を用いて前述の抑圧量の誤差分散を導出してもよい。
===誤差分散適応部515===
誤差分散適応部515は、誤差分散推定部514で推定された雑音の抑圧量の誤差分散に基づいて、音響モデル適応部103が適応した適応後音響モデルに対し、さらにモデルを適応する。
誤差分散適応部515は、具体的には、以下の[数33]、[数34]および[数35]に基づいて適応後音響モデルに対し、さらにモデルを適応する。
図17は、本発明の第五の実施の形態における音声認識装置500の動作の概要を示すフローチャートである。
図17において、ステップS501ないしステップS505の処理は、第一の実施の形態におけるステップS101ないしS105と同様である。ステップS505の後、音声認識装置500は、ステップS506へ進む。
図17において、ステップS507の処理は、第一の実施の形態におけるステップS106と同様である。ステップS507の後、音声認識装置500は、ステップS508へ進む。
誤差分散推定部514は、雑音抑圧部102が抑圧係数αに基づいて入力信号から雑音を抑圧した雑音抑圧信号における雑音の抑圧量の誤差分散を推定する(ステップS508)。ステップS508の後、音声認識装置500は、ステップS509へ進む。
図17において、ステップS509の処理は、第一の実施の形態におけるステップS107と同様である。
誤差分散適応部515は、誤差分散推定部514で推定された雑音の抑圧量の誤差分散に基づいて、音響モデル適応部103が適応した適応後音響モデルに対し、さらにモデルを適応する(ステップS506)。ステップS506の後、音声認識装置500は、ステップS510へ進む。
図17において、ステップS510の処理は、第一の実施の形態におけるステップS108と同様である。
第五の実施の形態における音声認識装置500は、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する。そして、音声認識装置500は、推定した雑音の抑圧量の誤差分散に基づいて、音響モデル適応部103が適応した適応後音響モデルに対し、さらにモデルを適応する。音声認識装置500は、雑音の抑圧量の誤差分散を考慮してモデルを適応するので、モデルの分散を、より雑音抑圧信号から特定される特徴量の分散に近づけることができる。したがって、音声認識装置500は、より高い音声認識精度を実現できる。
[第六の実施の形態]
図18は、本発明の第六の実施の形態における音声認識装置600の構成を示すブロック図である。図18を参照すると、音声認識装置600は、CPU(Central Processing Unit)601とメモリ602と記憶部603とを含む。
CPU601は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置600が実行するためのソフトウェアをメモリ602から読み出す。そして、CPU601は、読み出したソフトウェアの実行に基づき、第一の実施の形態ないし第五の実施の形態における各音声認識装置が含む各部として機能する。
メモリ602は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置600が実行するためのソフトウェアを記憶する。
記憶部603は、第一の実施の形態ないし第五の実施の形態における各格納部と同様に各情報を格納する。
本発明は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置600が実行するためのソフトウェアを一次記憶または記憶する記録媒体604も含む。したがって、コンピュータ読み取り可能な記録媒体604に記録されたソフトウェアをメモリ602が読み取り、読み取ったソフトウェアをCPU601が実行してもよい。
第六の実施の形態における音声認識装置600は、第一の実施の形態ないし第五の実施の形態における音声認識装置と同様の利点がある。
特許文献1ないし特許文献4に記載された関連技術は、入力信号に含まれる雑音の種類に応じて、耐雑音技術である雑音抑圧法やモデル適応の音声認識性能が変わる。そのため、各関連技術の単純実装に基づく音声認識装置において、それぞれ耐雑音の可能な雑音の種類が限られてしまう。
図19は、音声認識タスクの共通の評価基盤であるAURORA2の八種類の雑音に対する、関連技術における雑音抑圧法およびモデル適応法での認識率を示す図である。八種類の雑音とは、地下鉄雑音(subway)、バブル雑音(babble)、車内雑音(car)、展示会雑音(exhibition)、レストラン雑音(restaurant)、路上雑音(street)、空港雑音(airport)、および、駅雑音(train−station)である。
図19を参照すると、行見出しに雑音の種類が、列見出しに雑音のSNRの種類が示されている。図19の表が示す行列の各成分には、それぞれ二つの数字が記入されている。上の数字は、モデル適応法を用いた音声認識率を示す。下の数字は、雑音抑圧法を用いた音声認識率を示す。
図19に基づくと、前述の八種類の雑音は、モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音と、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音との、二つに分類されうる。図19において、モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音は、マスの枠内の右上に丸印が付されているマスの部分である。また、図19において、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音は、太線で囲まれた部分である。ここでは、″babble″、″restaurant″、″airport″、″train−station″については、モデル適応法を用いた認識率が高いという傾向が見られる。一方、″subway″、″car″、″exhibition″、″street″については、雑音抑圧法を用いた認識率が高いという傾向が見られる。モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音の特徴は、バブル雑音を多く含むことである。一方、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音の特徴は、バブル雑音をあまり含まないことである。以上の現象が生じる理由を、雑音抑圧法とモデル適応法の短所に基づき詳しく説明する。
雑音抑圧法では、逐次的に推定された雑音が、入力信号の雑音抑圧に使用される。しかし、推定雑音の精度に従って、著しく認識精度が劣化する。このことを、SS法を例に挙げて説明する。真の雑音がN2、推定誤差がεであり、推定雑音N’2が(N2+ε)である場合、SS法に基づく雑音抑圧信号は、以下の[数36]を用いて表される。
一方、モデル適応法では、モデルの適応の際に、比較的長い時間をかけて推定された雑音の平均と分散とが用いられる。したがって、モデル適応法を用いた音声認識は、逐次的な推定が難しいバブル雑音に対して、高い認識精度を実現できる。しかし、バブル雑音を含まない雑音に関しては、雑音の逐次推定精度が高くなるため、モデル適応法の認識率よりも、雑音抑圧法の認識率の方が高くなる。
以上のように、各関連技術の単独実装を用いた音声認識では、それぞれ耐雑音可能な雑音の種類が限られてしまう。それぞれの関連技術が苦手な雑音をもう一方の手法が対応できるように、雑音抑圧法と音響モデル適応法とを適切に組み合わせた実装の方法が必要である。
本発明の各実施の形態における音声認識装置は、雑音抑圧法および音響モデル適応法を適切に組み合わせることを用いて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
図20は、抑圧係数αと認識率との関係を示す図である。図20において、α=0の場合、認識率は、モデル適応法の単独実装時の認識率と等価である。一方、α=1の場合、認識率は、雑音抑圧法の単独実装時の認識率と等価である。
入力音声に含ませる雑音として、AURORA2のsubway雑音(SNR20、SNR10、SNR0)が使用されている。また、雑音抑圧法として、NS−WiNE法(雑音推定としてWiNE法(Weighted Noise Estimation)、また、雑音抑圧としてMMSESTSA法(minimum mean−square−error short−time spectral amplitude estimator))が使用されている。また、モデル適応法として、平均パラメータにVTS法が使用されている。分散パラメータ推定については、クリーンモデルの値が使用されている。
図20を参照すると、SNR20、SNR10、SNR0のいずれの場合においても、αが0.5のときに音声認識率が最大であることが示されている。特にSNR0の雑音においては、αが0.5のときに音声認識率が最大であることが、顕著に示されている。本発明の各実施の形態における音声認識装置の顕著な効果が得られていることが、図20で示された。
本発明の効果の一例は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができることである。
以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえる様々な変更をすることができる。
また、本発明の各実施の形態または実施例における各構成要素は、その機能のハードウェア的な実現はもちろん、コンピュータとプログラムとで実現できる。プログラムは、磁気ディスクや半導体メモリなどのコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作の制御に基づき、そのコンピュータを前述した各実施の形態または実施例における構成要素として機能させる。
上記の実施の形態または実施例の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する係数格納手段と、
入力信号から、雑音を推定する雑音推定手段と、
前記雑音推定手段が推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する雑音抑圧手段と、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する音響モデル適応手段と、
前記雑音抑圧手段で雑音を抑圧された入力信号と、前記音響モデル適応手段で生成された適応後音響モデルとに基づいて音声を認識するサーチ手段とを含む音声認識装置。
(付記2)
付記1に記載の音声認識装置であって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識装置。
(付記3)
付記1または2に記載の音声認識装置であって、
少なくとも一つの雑音を含む学習データを記憶する学習データ格納手段と、
前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段と、
を含み、
前記係数決定手段は、前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
(付記4)
付記1または2に記載の音声認識装置であって、
前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段を含み、
前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記雑音推定手段が推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
(付記5)
付記1ないし4のいずれか1項に記載の音声認識装置であって、
前記雑音推定手段が推定した雑音が属するクラスを特定する推定雑音分類手段を含み、
前記係数格納手段は雑音が属するクラスを識別できる雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
前記雑音抑圧手段は、前記雑音推定手段が推定した雑音のうち、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記音響モデル適応手段は、前記クリーン音響モデルに対し、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識装置。
(付記6)
付記5に記載の音声認識装置であって、
雑音を受け取ると、前記抑圧係数と前記適応係数とを決定する係数決定手段を含み、
前記係数決定手段は、前記推定雑音分類手段がクラスを特定した雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて前記係数格納手段に記憶する、音声認識装置。
(付記7)
付記1ないし6のいずれか1項に記載の音声認識装置であって、
前記雑音抑圧手段が、前記係数格納手段に記憶されている抑圧係数に基づいて入力信号から雑音を抑圧した、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する誤差分散推定手段と、
前記誤差分散推定手段が推定した前記誤差分散に基づいて、前記音響モデル適応手段が適応した前記適応後音響モデルを更新する誤差分散適応手段と、を含む音声認識装置。
(付記8)
付記3または4に記載の音声認識装置であって、
前記係数決定手段は、前記係数格納手段に記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記係数格納手段に記憶されている抑圧係数および適応係数を更新する、音声認識装置。
(付記9)
付記1ないし8のいずれか1項に記載の音声認識装置であって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識装置。
(付記10)
雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、
入力信号から、雑音を推定し、
前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、
前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する、音声認識方法。
(付記11)
付記10に記載の音声認識方法であって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識方法。
(付記12)
付記10または11に記載の音声認識方法であって、
少なくとも一つの雑音を含む学習データを記憶し、
前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
(付記13)
付記10または11に記載の音声認識方法であって、
前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
(付記14)
付記10ないし13のいずれか1項に記載の音声認識方法であって、
前記推定した雑音が属するクラスを特定し、
雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識方法。
(付記15)
付記14に記載の音声認識方法であって、
前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する、音声認識方法。
(付記16)
付記10ないし15のいずれか1項に記載の音声認識方法であって、
前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定し、
前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する、音声認識方法。
(付記17)
付記12または13に記載の音声認識方法であって、
前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する、音声認識方法。
(付記18)
付記10ないし17のいずれか1項に記載の音声認識方法であって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識方法。
(付記19)
コンピュータに、
雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、
入力信号から、雑音を推定する処理と、
前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、
前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させるための音声認識プログラム。
(付記20)
付記19に記載の音声認識プログラムであって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識プログラム。
(付記21)
付記19または20に記載の音声認識プログラムであって、
前記コンピュータに、
少なくとも一つの雑音を含む学習データを記憶する処理と、
前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理と、を実行させるための音声認識プログラム。
(付記22)
付記19または20に記載の音声認識プログラムであって、
前記コンピュータに、
前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理を実行させるための音声認識プログラム。
(付記23)
付記19ないし22のいずれか1項に記載の音声認識プログラムであって、
前記コンピュータに、
前記推定した雑音が属するクラスを特定する処理と、
雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶する処理と、
前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する処理と、を実行させるための音声認識プログラム。
(付記24)
付記23に記載の音声認識プログラムであって、
前記コンピュータに、
前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する処理を実行させるための音声認識プログラム。
(付記25)
付記19ないし24のいずれか1項に記載の音声認識プログラムであって、
前記コンピュータに、
前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定する処理と、
前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する処理と、を実行させるための音声認識プログラム。
(付記26)
付記21または22に記載の音声認識プログラムであって、
前記コンピュータに、
前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶する処理と、
前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する処理と、を実行させるための音声認識プログラム。
(付記27)
付記19ないし26のいずれか1項に記載の音声認識プログラムであって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識プログラム。
この出願は、2010年11月11日に出願された日本出願特願2010−252456を基礎とする優先権を主張し、その開示の全てをここに取り込む。
101、201 雑音推定部
102、202、302、402 雑音抑圧部
103、403 音響モデル適応部
104、304 サーチ部
105、205、405 係数格納部
106 入力部
107 クリーン音響モデル格納部
108 推定雑音格納部
109 適応後音響モデル格納部
210 係数決定部
211 学習信号格納部
212 雑音抑圧信号格納部
413 推定雑音分類部
514 誤差分散推定部
515 誤差分散適応部
601 CPU
602 メモリ
603 記憶部
604 記録媒体
Claims (27)
- 雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する係数格納手段と、
入力信号から、雑音を推定する雑音推定手段と、
前記雑音推定手段が推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する雑音抑圧手段と、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する音響モデル適応手段と、
前記雑音抑圧手段で雑音を抑圧された入力信号と、前記音響モデル適応手段で生成された適応後音響モデルとに基づいて音声を認識するサーチ手段とを含む音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識装置。 - 請求項1または2に記載の音声認識装置であって、
少なくとも一つの雑音を含む学習データを記憶する学習データ格納手段と、
前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段と、
を含み、
前記係数決定手段は、前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。 - 請求項1または2に記載の音声認識装置であって、
前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段を含み、
前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記雑音推定手段が推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。 - 請求項1ないし4のいずれか1項に記載の音声認識装置であって、
前記雑音推定手段が推定した雑音が属するクラスを特定する推定雑音分類手段を含み、
前記係数格納手段は雑音が属するクラスを識別できる雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
前記雑音抑圧手段は、前記雑音推定手段が推定した雑音のうち、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記音響モデル適応手段は、前記クリーン音響モデルに対し、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識装置。 - 請求項5に記載の音声認識装置であって、
雑音を受け取ると、前記抑圧係数と前記適応係数とを決定する係数決定手段を含み、
前記係数決定手段は、前記推定雑音分類手段がクラスを特定した雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて前記係数格納手段に記憶する、音声認識装置。 - 請求項1ないし6のいずれか1項に記載の音声認識装置であって、
前記雑音抑圧手段が、前記係数格納手段に記憶されている抑圧係数に基づいて入力信号から雑音を抑圧した、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する誤差分散推定手段と、
前記誤差分散推定手段が推定した前記誤差分散に基づいて、前記音響モデル適応手段が適応した前記適応後音響モデルを更新する誤差分散適応手段と、を含む音声認識装置。 - 請求項3または4に記載の音声認識装置であって、
前記係数決定手段は、前記係数格納手段に記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記係数格納手段に記憶されている抑圧係数および適応係数を更新する、音声認識装置。 - 請求項1ないし8のいずれか1項に記載の音声認識装置であって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識装置。 - 雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、
入力信号から、雑音を推定し、
前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、
前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する音声認識方法。 - 請求項10に記載の音声認識方法であって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識方法。 - 請求項10または11に記載の音声認識方法であって、
少なくとも一つの雑音を含む学習データを記憶し、
前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。 - 請求項10または11に記載の音声認識方法であって、
前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。 - 請求項10ないし13のいずれか1項に記載の音声認識方法であって、
前記推定した雑音が属するクラスを特定し、
雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識方法。 - 請求項14に記載の音声認識方法であって、
前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する、音声認識方法。 - 請求項10ないし15のいずれか1項に記載の音声認識方法であって、
前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定し、
前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する、音声認識方法。 - 請求項12または13に記載の音声認識方法であって、
前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する、音声認識方法。 - 請求項10ないし17のいずれか1項に記載の音声認識方法であって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識方法。 - コンピュータに、
雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、
入力信号から、雑音を推定する処理と、
前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、
前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させるための音声認識プログラム。 - 請求項19に記載の音声認識プログラムであって、
前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識プログラム。 - 請求項19または20に記載の音声認識プログラムであって、
前記コンピュータに、
少なくとも一つの雑音を含む学習データを記憶する処理と、
前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理と、を実行させるための音声認識プログラム。 - 請求項19または20に記載の音声認識プログラムであって、
前記コンピュータに、
前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理を実行させるための音声認識プログラム。 - 請求項19ないし22のいずれか1項に記載の音声認識プログラムであって、
前記コンピュータに、
前記推定した雑音が属するクラスを特定する処理と、
雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶する処理と、
前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する処理と、を実行させるための音声認識プログラム。 - 請求項23に記載の音声認識プログラムであって、
前記コンピュータに、
前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する処理を実行させるための音声認識プログラム。 - 請求項19ないし24のいずれか1項に記載の音声認識プログラムであって、
前記コンピュータに、
前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定する処理と、
前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する処理と、を実行させるための音声認識プログラム。 - 請求項21または22に記載の音声認識プログラムであって、
前記コンピュータに、
前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶する処理と、
前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する処理と、を実行させるための音声認識プログラム。 - 請求項19ないし26のいずれか1項に記載の音声認識プログラムであって、
前記抑圧係数と前記適応係数との和が1または単位行列である、音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012542995A JP5949553B2 (ja) | 2010-11-11 | 2011-11-10 | 音声認識装置、音声認識方法、および音声認識プログラム |
US13/883,716 US9245524B2 (en) | 2010-11-11 | 2011-11-10 | Speech recognition device, speech recognition method, and computer readable medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252456 | 2010-11-11 | ||
JP2010-252456 | 2010-11-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2012063963A1 true WO2012063963A1 (ja) | 2012-05-18 |
Family
ID=46051095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2011/076460 WO2012063963A1 (ja) | 2010-11-11 | 2011-11-10 | 音声認識装置、音声認識方法、および音声認識プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9245524B2 (ja) |
JP (1) | JP5949553B2 (ja) |
WO (1) | WO2012063963A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017037830A1 (ja) * | 2015-08-31 | 2017-03-09 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
CN108292501A (zh) * | 2015-12-01 | 2018-07-17 | 三菱电机株式会社 | 声音识别装置、声音增强装置、声音识别方法、声音增强方法以及导航系统 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015130273A1 (en) * | 2014-02-26 | 2015-09-03 | Empire Technology Development Llc | Presence-based device mode modification |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
GB2546981B (en) * | 2016-02-02 | 2019-06-19 | Toshiba Res Europe Limited | Noise compensation in speaker-adaptive systems |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
CN108022591B (zh) * | 2017-12-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 车内环境中语音识别的处理方法、装置和电子设备 |
JP2020052145A (ja) * | 2018-09-25 | 2020-04-02 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR102260216B1 (ko) * | 2019-07-29 | 2021-06-03 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
KR102327441B1 (ko) * | 2019-09-20 | 2021-11-17 | 엘지전자 주식회사 | 인공지능 장치 |
CN111243573B (zh) * | 2019-12-31 | 2022-11-01 | 深圳市瑞讯云技术有限公司 | 一种语音训练方法及装置 |
JP7395446B2 (ja) * | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004309959A (ja) * | 2003-04-10 | 2004-11-04 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2005031258A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 認識モデル学習装置及び方法 |
JP2006163231A (ja) * | 2004-12-10 | 2006-06-22 | Internatl Business Mach Corp <Ibm> | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
JP2009216760A (ja) * | 2008-03-07 | 2009-09-24 | Nec Corp | 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000330597A (ja) | 1999-05-20 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 雑音抑圧装置 |
JP4282227B2 (ja) | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
JP2003177781A (ja) | 2001-12-12 | 2003-06-27 | Advanced Telecommunication Research Institute International | 音響モデル生成装置及び音声認識装置 |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
JP2005321539A (ja) | 2004-05-07 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置およびプログラム、その記録媒体 |
JP2005326673A (ja) * | 2004-05-14 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、その装置およびプログラム、その記録媒体 |
JP4313728B2 (ja) | 2004-06-17 | 2009-08-12 | 日本電信電話株式会社 | 音声認識方法、その装置およびプログラム、その記録媒体 |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
DE602006006664D1 (de) * | 2006-07-10 | 2009-06-18 | Harman Becker Automotive Sys | Reduzierung von Hintergrundrauschen in Freisprechsystemen |
US20080175408A1 (en) * | 2007-01-20 | 2008-07-24 | Shridhar Mukund | Proximity filter |
US8892432B2 (en) * | 2007-10-19 | 2014-11-18 | Nec Corporation | Signal processing system, apparatus and method used on the system, and program thereof |
US8296135B2 (en) * | 2008-04-22 | 2012-10-23 | Electronics And Telecommunications Research Institute | Noise cancellation system and method |
EP2151821B1 (en) * | 2008-08-07 | 2011-12-14 | Nuance Communications, Inc. | Noise-reduction processing of speech signals |
US8392181B2 (en) * | 2008-09-10 | 2013-03-05 | Texas Instruments Incorporated | Subtraction of a shaped component of a noise reduction spectrum from a combined signal |
US8660281B2 (en) * | 2009-02-03 | 2014-02-25 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
KR101253102B1 (ko) * | 2009-09-30 | 2013-04-10 | 한국전자통신연구원 | 음성인식을 위한 모델기반 왜곡 보상형 잡음 제거 장치 및 방법 |
US20110099007A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Noise estimation using an adaptive smoothing factor based on a teager energy ratio in a multi-channel noise suppression system |
TWI396190B (zh) * | 2009-11-03 | 2013-05-11 | Ind Tech Res Inst | 降噪系統及降噪方法 |
-
2011
- 2011-11-10 JP JP2012542995A patent/JP5949553B2/ja active Active
- 2011-11-10 US US13/883,716 patent/US9245524B2/en active Active
- 2011-11-10 WO PCT/JP2011/076460 patent/WO2012063963A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004309959A (ja) * | 2003-04-10 | 2004-11-04 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2005031258A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 認識モデル学習装置及び方法 |
JP2006163231A (ja) * | 2004-12-10 | 2006-06-22 | Internatl Business Mach Corp <Ibm> | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
JP2009216760A (ja) * | 2008-03-07 | 2009-09-24 | Nec Corp | 音響分析条件正規化システム、音響分析条件正規化方法および音響分析条件正規化プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017037830A1 (ja) * | 2015-08-31 | 2017-03-09 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
CN108292501A (zh) * | 2015-12-01 | 2018-07-17 | 三菱电机株式会社 | 声音识别装置、声音增强装置、声音识别方法、声音增强方法以及导航系统 |
Also Published As
Publication number | Publication date |
---|---|
US20130231929A1 (en) | 2013-09-05 |
US9245524B2 (en) | 2016-01-26 |
JP5949553B2 (ja) | 2016-07-06 |
JPWO2012063963A1 (ja) | 2014-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5949553B2 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
US9767806B2 (en) | Anti-spoofing | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
EP2058797A1 (en) | Discrimination between foreground speech and background noise | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
EP1457968B1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
Xiao et al. | Maximum likelihood adaptation of histogram equalization with constraint for robust speech recognition | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2004341493A (ja) | 音声前処理方法 | |
Xu et al. | Noise condition-dependent training based on noise classification and SNR estimation | |
Kallasjoki et al. | Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments | |
JP4325044B2 (ja) | 音声認識システム | |
Almajai et al. | Visually-derived Wiener filters for speech enhancement | |
JP5147012B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
Milner et al. | Applying noise compensation methods to robustly predict acoustic speech features from MFCC vectors in noise | |
JP2007508577A (ja) | 音声認識システムの環境的不整合への適応方法 | |
JPH11327586A (ja) | 話者照合装置、方法及び記憶媒体 | |
Milner et al. | Noisy audio speech enhancement using Wiener filters derived from visual speech. | |
JP2002091480A (ja) | 音響モデル生成装置及び音声認識装置 | |
Zhao et al. | Recursive estimation of time-varying environments for robust speech recognition | |
Lyubimov et al. | Exploiting non-negative matrix factorization with linear constraints in noise-robust speaker identification | |
Fujimoto et al. | A Robust Estimation Method of Noise Mixture Model for Noise Suppression. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 11839954 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2012542995 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13883716 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 11839954 Country of ref document: EP Kind code of ref document: A1 |