WO2005020212A1 - 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器 - Google Patents

信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器 Download PDF

Info

Publication number
WO2005020212A1
WO2005020212A1 PCT/JP2004/010841 JP2004010841W WO2005020212A1 WO 2005020212 A1 WO2005020212 A1 WO 2005020212A1 JP 2004010841 W JP2004010841 W JP 2004010841W WO 2005020212 A1 WO2005020212 A1 WO 2005020212A1
Authority
WO
WIPO (PCT)
Prior art keywords
band
level
input signal
signal
normalization
Prior art date
Application number
PCT/JP2004/010841
Other languages
English (en)
French (fr)
Inventor
Toshio Akabane
Original Assignee
Sharp Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Kabushiki Kaisha filed Critical Sharp Kabushiki Kaisha
Priority to CN2004800241642A priority Critical patent/CN1839427B/zh
Publication of WO2005020212A1 publication Critical patent/WO2005020212A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Definitions

  • Signal analysis device signal processing device, speech recognition device, signal analysis program, signal processing program, speech recognition program, recording medium, and electronic device
  • the present invention relates to a signal analysis device that analyzes input speech and acoustic signals, a signal processing device, and a speech recognition device using the signal analysis device.
  • the present invention also relates to a signal analysis program, a signal processing program, and a speech recognition program for causing a computer to execute such processing.
  • the present invention also relates to a recording medium on which such a program is recorded.
  • the present invention also relates to an electronic device equipped with such a signal analyzer.
  • a signal is extracted while shifting a section of about several tens of milliseconds from the input of a signal at intervals of about several to several tens of milliseconds, and is used as an analysis frame. Then, the acoustic parameters are calculated from the waveform of the input signal in each analysis frame, and are set as a time series of the acoustic parameters.
  • time-series acoustic parameters are collated with time-series patterns (standard patterns) of pre-registered acoustic parameters, and a standard pattern most similar to the input is recognized as a recognition result. I do.
  • acoustic parameters are calculated in advance from a large amount of data, the statistics of the acoustic parameters calculated for each speech unit are obtained, and a probabilistic acoustic model is created.
  • a stochastic acoustic model for each voice unit is connected to create a word model or a sentence model.
  • the likelihood of the word model or the sentence model is calculated and compared, and the word model or the sentence model having the highest probability likelihood is used as the recognition result.
  • units such as phonemes, syllables, or words are used as sound units.
  • Non-Patent Document 1 describes such a signal.
  • MFCC Mel Frequency Cepstrum Coefficient
  • FIG. 1 is a flowchart showing a procedure for obtaining the MFCC.
  • the MFCC analysis method is described below with reference to FIG.
  • a speech waveform is input to the signal analyzer for each analysis frame (step S101), and a no-ming window function is multiplied so that abrupt changes do not occur at both ends of the cutout section of the frame (step S102). ).
  • the energy on the linear frequency axis in each frame is obtained using FFT (Fast Fourier Transform) (step S103).
  • FFT Fast Fourier Transform
  • the energy on the linear frequency axis is grouped for each equally divided band on the mel frequency axis, and converted into band energy (step S104).
  • the converted band energy is logarithmically converted for each band (step S105).
  • the MFCC is obtained by performing cosine transform of the power in each band (step S106).
  • the obtained MFCC is output from the signal analyzer (step S107).
  • the cepstrum coefficient obtained by dividing equally on the mel frequency axis is called a mel frequency cepstrum coefficient (MFCC).
  • the mel frequency is a frequency unit in accordance with human auditory characteristics, and the resolution at low frequencies is finer than the resolution at high frequencies. For this reason, MFCCs are known to have better speech recognition performance than cepstrum of the same order compared to the case of using the linear frequency axis.
  • step S101-step S105 may be referred to as a frequency analysis step (step S201), and steps S106 to S107 may be referred to as a parameter conversion step (step S202).
  • Non-Patent Document 2 discloses a spectral subtraction (SS) method as a method of reducing the influence of additive noise.
  • SS spectral subtraction
  • an input audio signal is frequency-analyzed to obtain an input amplitude spectrum or power (square) spectrum
  • the estimated noise spectrum estimated in a noise section is multiplied by a predetermined coefficient
  • this spectrum subtraction coefficient is calculated.
  • This is a method for suppressing noise components by subtracting the estimated noise spectrum after multiplication from the input spectrum.
  • Patent Document 1 discloses a method of improving the SS method, reducing the band division, and suppressing noise components.
  • Non-Patent Document 1 discloses a CMS method (Cepstm Mean Subtraction: cepstrum mean division) as a method for reducing the influence of multiplicative distortion.
  • This method is also called C MN method (Cepstrum Mean Normalization method). This is based on the assumption that the multiplicative distortion is obtained as a long-term average of the cepstrum of the uttered speech. Specifically, by subtracting the average value of the cepstrum coefficient of the input voice from the cepstrum coefficient, it is possible to reduce the influence of distortion based on the characteristics of the acoustic system such as a line or a microphone. This is equivalent to subtracting the log spectrum distortion, which is the cosine transform of the cepstrum.
  • Non-patent Document 3 and Patent Document 2 propose an E-CMN method, which is an improved method of the CMS method.
  • E—The CMN method calculates the cepstrum average of voice segments and the cepstrum of non-voice segments. Then, a normalization process is separately performed for the voice section and the non-voice section separately. This method can reduce the false recognition rate.
  • any of the above-mentioned SS method, its simplified method, and E-CMN method voice detection is required to distinguish voice sections from non-voice sections.
  • Standard methods of voice detection technology are disclosed in voice communication standards used for mobile phones. Speech detection is generally performed by temporally dividing an input signal into a speech section and a noise section based on a change in energy of the input signal in a short time, a change in spectrum shape, and the like.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2001-228893
  • Patent Document 2 JP-A-10-254494
  • Non-Patent Document 1 Edited by Kiyohiro Kano et al., "Speech Recognition System", 1st edition, Ohm Co., Ltd., May 15, 2001, p. 13-15
  • Non-Patent Document 3 Makoto Shokai and 2 others, ⁇ Model adaptation method based on cepstrum average normalization method and HMM synthesis method E-CMN / PMC and application to in-car speech recognition '', IEICE Transactions Journal, The Institute of Electronics, Information and Communication Engineers, 1997, J80-D-II, Vol. 10, p. 2
  • the signal analysis methods and the speech recognition methods used in these analysis methods include:
  • the SS method subtracts the spectrum of a noise section in a speech section, it is excellent when estimating input speech in an environment with little noise.
  • the power S at which the noise power decreases and the noise spectral shape itself do not change.
  • the noise section Since it is erroneously collated with the voice section, high recognition accuracy cannot be obtained as a whole. In order to prevent this decrease in recognition accuracy, some kind of adaptive spectrum correction is required.
  • One of the methods is to normalize the noise spectrum like the E-CMN method.
  • the E-CMN method has the following problems.
  • the cepstrum average is obtained independently for the speech section and the noise section, so that the line characteristics can be more accurately normalized.
  • the spectrum shape of the noise section can be flattened, the collation accuracy of the noise section can be improved, which cannot be solved by the SS method.
  • the determination between the voice section and the noise section depends on the detection accuracy of the voice section. For this reason, in a high-noise environment, the segmentation accuracy of a voice section is reduced, and normalization is performed based on an erroneous cepstrum average value, which has a problem that recognition accuracy is adversely affected.
  • the problems of voice detection are described below.
  • noise spectrum estimation is performed for a section determined to be a noise section when detecting a voice section.
  • a sufficient noise section length for estimating a noise spectrum cannot be obtained. For this reason, there is a problem that the noise cannot be applied or that incorrect noise is applied.
  • an object of the present invention is to provide a signal analysis device and a signal processing device with high speech recognition accuracy even in a high noise environment.
  • Another object of the present invention is to provide a signal that can provide stable speech recognition accuracy even when speech without any noise section is input or when the noise level changes gradually during speech.
  • An object of the present invention is to provide an analyzer and a signal processor.
  • Still another object of the present invention is to provide a speech recognition device that is not easily affected by noise and distortion of acoustic characteristics.
  • Still another object of the present invention is to provide a speech recognition device improved so that speech recognition accuracy at a low SN ratio is improved.
  • Still another object of the present invention is to provide an electronic device equipped with such a voice recognition device.
  • Still another object of the present invention is to provide a signal analysis program, a signal processing program, and a speech recognition program which are improved so as to be able to perform speech recognition that is not easily affected by noise and distortion of acoustic characteristics. Is to do.
  • Still another object of the present invention is to provide a signal analysis program, a signal processing program, and a speech recognition program that are improved so that the speech recognition accuracy at a low SN ratio is improved.
  • Still another object of the present invention is to provide a recording medium on which such a program is recorded.
  • a signal analysis device of the present invention includes a frequency band dividing unit that divides an input signal into signals in a plurality of frequency bands, and a frequency band dividing unit that divides the input signal into each of the bands.
  • the extracted band energy is normalized for each band.
  • signal analysis can be performed without explicitly detecting a voice section, so that a voice section detection error can be avoided.
  • the normalization is to reduce the amount of movement of the energy distribution of the input signal caused by environmental factors such as the type and magnitude of noise, line characteristics, and microphone input sensitivity. Means that. Specifically, the normalization is performed by subtracting the average of the energy distribution of the signal to attenuate the DC component, subtracting the value of the environmental noise, and the like. Also, in this specification, normalization includes controlling the spread of the energy distribution at the input level.
  • the normalizing means is configured by a low-frequency cutoff filter that attenuates a DC component from band energy extracted for each band. According to this configuration, since the low-frequency components including the DC component of the input signal are attenuated, normalization can be performed with the simplest configuration.
  • the signal analysis device of the present invention further includes a level calculation unit configured to calculate a conditional average value for each band as a first level from the sequence of the extracted band energies,
  • the converting means subtracts a value obtained by multiplying a first level of the same band by a predetermined coefficient from the band energy extracted for each band.
  • the band energy of the input signal is normalized using the calculated first level. That is, more accurate normalization can be performed for each band.
  • the average value of the band energy is not limited to the signal level and the noise level, but may be the level of the noise A and the level of the noise B, or the level of the specific signal X and the level of the specific signal Y. Depending on the usage environment and usage of the signal analyzer, it can be classified into two, three or more levels. In the present specification, a level serving as a reference among these levels is referred to as a first level, and other levels are referred to as a second level, a third level, and the like. In this specification, the noise level is mainly used as the first level. , And the audio level is used as the second level.
  • the noise level indicates an average of a set in which relatively low energy is assumed to represent noise among the input band energies, and the sound level indicates the same sound. Shows the average of the set with relatively high energy distribution that is presumed to represent.
  • the average of the energy divided under conditions such as the level of the energy, such as the noise level or the sound level, is referred to as “conditional average”.
  • a set having a relatively low energy and a set having a relatively high energy are discretely divided in an energy distribution. Then, it is desirable to handle the intermediate input range continuously. In other words, it is desirable to determine the likelihood of speech and the likelihood of noise based on the magnitude of the band energy for each frame using continuous values without detecting speech sections.
  • the level calculation means calculates, in addition to the calculation of the first level, for each band different from the first level from the extracted band energy series. At least one of the conditional average values of the second band is calculated as a second level, and the normalizing means calculates the first level and the second level of the same band from the band energy extracted for each band. A value multiplied by a predetermined coefficient is subtracted.
  • the band energy is normalized using the calculated first level and second level, and the amount of subtraction from the band energy is calculated using the calculated voice level. Is determined, more accurate normalization is possible. It should be noted that the conditional average value for each band, which is different from the first level, is not limited to one and may be plural.
  • the signal analyzer further includes a normalization coefficient obtaining unit that obtains one or a plurality of normalization coefficients according to the value of the band energy. A value obtained by multiplying the first level or the first level and a plurality of levels in the same band by the normalization coefficient is subtracted from the band energy extracted for each.
  • one or a plurality of normalization coefficients corresponding to the value of the band energy corresponding to the conditional average value for each of the one or a plurality of bands are obtained.
  • the amount of subtraction can be adjusted to reflect one or more conditional averages, resulting in more accurate normalization. It becomes possible.
  • the signal processing device of the present invention is a signal processing device that sequentially performs signal normalization, and updates a first level based on an input signal, and stores the first level.
  • Normalizing means for subtracting a value obtained by multiplying the level by a predetermined coefficient from the input signal, and update coefficient obtaining means for obtaining an update coefficient based on a difference between the first level and the input signal.
  • the level calculation means sets the first level as a conditional average value of the input signal by using the update coefficient to bring the first level closer to the input signal.
  • a one-dimensional input signal such as an input signal in a specific frequency band can be normalized and subjected to signal processing. That is, the energy distribution of the input signal fluctuates depending on the environment by detecting the spread of the energy distribution of the input energy from the level of the input energy, finding the update coefficient, and bringing the first level closer to the input signal. Can be suppressed.
  • the signal processing device includes a normalization coefficient acquisition unit that acquires a normalization coefficient based on a difference between the first level and the input signal.
  • the normalization means subtracts a value obtained by multiplying the first level by a normalization coefficient from an input signal, and controls a subtraction amount according to the input level.
  • the level calculation means updates and stores a plurality of levels based on an input signal.
  • the normalizing means subtracts a value obtained by multiplying each of the plurality of levels by a predetermined coefficient from the input signal.
  • the update coefficient obtaining means obtains update coefficients of a plurality of levels based on a difference between the first level and the input signal.
  • the level calculation means updates the obtained plurality of levels using the update coefficients of the plurality of levels, and performs normalization suitable for the distribution of the input.
  • the level calculation means updates and stores a plurality of levels based on the input signal.
  • the normalizing means subtracts a value obtained by multiplying each of the plurality of levels by a predetermined coefficient from the input signal.
  • the update coefficient obtaining means obtains update coefficients of a plurality of levels based on a difference between the first level and the input signal.
  • the normalization coefficient obtaining means obtains a plurality of normalization coefficients corresponding to a plurality of levels.
  • the normalizing means corresponds to each of the plurality of levels. The values obtained by multiplying the respective normalization coefficients by the respective levels are subtracted from the input signal power, and appropriate normalization is performed according to the input level.
  • the level calculator and the normalizer in each band may be configured to use the signal analyzer. That is, the signal processing device of the present invention can be used as signal processing means in each band.
  • the signal analyzer performs processing by setting a predetermined coefficient to a different value between a band belonging to a low frequency and a band belonging to a high frequency. According to this configuration, when the energy distribution of the signal differs depending on the frequency, such as in the noise region and the voice region, normalization can be performed accurately.
  • the above signal analyzer processes band energy for each band obtained from the input signal at each time as logarithmic energy. Performing logarithmic normalization can eliminate the effects of distortion due to line characteristics.
  • the speech recognition device of the present invention comprises the above signal analyzer, a parameter conversion means for obtaining an acoustic parameter from band energy normalized for each band obtained from the signal analyzer, and the obtained sound.
  • a voice recognition unit that recognizes voice included in the input signal using the parameters.
  • the speech recognition apparatus normalizes each band energy in a process of extracting MFCC (Mel Frequency Cepstrum Coef ficients) parameters.
  • MFCC Mel Frequency Cepstrum Coef ficients
  • a normalized cepstrum coefficient can be obtained by performing a linear conversion from the normalized band energy to the cepstrum parameter.
  • a signal analysis program for causing a computer to execute, comprising: a frequency band dividing step of dividing an input signal into a plurality of frequency band signals; A band energy extracting step of extracting band energy for each band, and a normalizing step of normalizing the extracted band energy for each band to obtain a normalized band energy for each band.
  • a computer is configured to sequentially perform signal normalization.
  • a signal analysis program for updating and storing a first level based on the input signal; and a normalization step for subtracting an input signal power from a value obtained by multiplying the first level by a predetermined coefficient.
  • an update coefficient obtaining step of obtaining an update coefficient based on a difference between the first level and the input signal.
  • the level calculating means sets the first level as a conditional average value of the input signal by using the update coefficient to bring the first level closer to the input signal.
  • a voice recognition program for causing a computer to perform voice recognition includes: a frequency band dividing step of dividing an input signal into signals of a plurality of frequency bands; A band energy extraction step of extracting band energy for each band with respect to the input signal, a normalization step of normalizing the extracted band energy for each band, and obtaining a normalized band energy for each band; The method includes a parameter conversion step of obtaining an acoustic parameter from band energy normalized for each band, and a voice recognition step of recognizing a voice contained in an input signal using the obtained acoustic parameter.
  • the invention according to yet another aspect of the present invention relates to a recording medium recording a signal analysis program to be executed by a computer.
  • the signal analysis program includes: a frequency band dividing step of dividing an input signal into signals of a plurality of frequency bands; and a band energy extracting step of extracting band energy for each band with respect to the input signal divided into each band. And normalizing the extracted band energy for each band to obtain a normalized band energy for each band.
  • the invention according to yet another aspect of the present invention relates to a computer-readable recording medium recording a signal analysis program for causing a computer to sequentially perform signal normalization.
  • the signal analysis program updates and stores a first level based on an input signal, and a normalization step of subtracting an input signal power by a value obtained by multiplying the first level by a predetermined coefficient.
  • the level calculating means sets the first level as a conditional average value of the input signal by bringing the first level closer to the input signal using the update coefficient.
  • the invention works on a computer-readable recording medium that stores a speech recognition program for causing a computer to execute speech recognition.
  • the speech recognition program includes a frequency band dividing step of dividing an input signal into a plurality of frequency band signals, and a band energy extracting step of extracting band energy for each band with respect to the input signal divided into each band.
  • a voice recognition step of recognizing a voice included in the input signal using the obtained acoustic parameters.
  • the invention according to yet another aspect of the present invention relates to an electronic device provided with a speech recognition device.
  • the speech recognition device includes: a signal analysis device; parameter conversion means for obtaining an acoustic parameter from band energy normalized for each band obtained from the signal analysis device; and an input signal using the sound parameter determined above.
  • a voice recognition unit for recognizing voices included in the sound.
  • the signal analysis device includes a frequency band dividing unit that divides an input signal into signals in a plurality of frequency bands, and a band energy extraction unit that extracts band energy for each band from the input signal divided into each band.
  • normalizing means for normalizing the extracted band energy for each band and obtaining a normalized band energy for each band.
  • a function is selected and executed based on the result of recognition of the voice signal included in the input signal by the voice recognition device.
  • the electronic device of the present invention is less susceptible to distortion due to noise or line characteristics. As a result, it is preferable to use it as a voice recognition type remote controller used at home or as an electronic device such as a mobile phone.
  • the signal analyzer of the present invention has the following effects.
  • the band energy from the input signal at each time obtained for each frequency band is used, and the condition is separately determined for each band. Calculate the level of band energy and normalize each band energy. In other words, even in a voice utterance section, a band in which noise energy is dominant is processed as a noise section, and only a band in which voice energy is dominant is processed as a voice section. The As a result, the line characteristics of the input signal can be more accurately normalized.
  • the noise level and the audio level are separately obtained for each band, and the noise level for each band or the audio level for each band is normalized. Similar effects can be obtained.
  • the signal analyzer of the present invention speech and noise are determined based on the extracted band energy sequence. That is, even in the vocal section, some bands are determined as noise. For this reason, if the utterance is composed of phonemes having different spectral shapes, the estimation of the noise level in almost the entire frequency band is completed within the voice utterance section. That is, the signal analysis device of the present invention can estimate the noise level even when there is no noise section.
  • the signal analyzer of the present invention is particularly preferably used for a portable device that is driven by a battery.
  • the input signal is analyzed only when speaking to reduce battery consumption. That is, even in a usage mode in which a noise section does not exist, since a noise spectrum can be estimated equivalently, not only distortion of line characteristics but also distortion such as noise can be normalized.
  • FIG. 1 is a flowchart showing a procedure for obtaining an MFCC.
  • FIG. 2 is a block diagram showing a configuration of a conventional signal analyzer for performing MFCC analysis.
  • FIG. 3 is a block diagram showing a configuration of a signal analyzer that performs analysis by a conventional E-CMN method using the MFCC method.
  • FIG. 4 is a diagram showing a configuration of a signal analyzer of the present invention.
  • FIG. 5 is a flowchart showing a flow of a signal analysis process according to the present invention.
  • FIG. 6 is a diagram showing a correspondence relationship between input band energy by signal analysis processing according to the present invention, an update coefficient, a normalization coefficient, and a normalized band energy.
  • FIG. 7 is a diagram showing a configuration of a signal analysis unit of the present invention using a low-frequency cutoff filter as a normalization unit.
  • FIG. 8 is a diagram showing an example of an acoustic signal including a speech waveform.
  • FIG. 9 is a simplified diagram of a spectrogram of an acoustic signal including the speech waveform shown in FIG.
  • FIG. 10 is a diagram showing a range in which a normalization process is performed when the spectrum shown in FIG. 9 is normalized by using a conventional E-CMN method.
  • FIG. 11 is a diagram showing a range in which a normalization process is performed when the scale shown in FIG. 9 is normalized using the signal analyzer of the present invention.
  • FIG. 12 is a diagram showing how noise spectrum adaptation by the E-CMN method proceeds when an acoustic signal including the speech waveform shown in FIG. 8 is input.
  • FIG. 13 is a diagram showing a situation where adaptation of a noise spectrum by the signal analyzer of the present invention proceeds when an acoustic signal including the speech waveform shown in FIG. 8 is input.
  • FIG. 14 is a block diagram showing an example of a speech recognition system using the speech recognition device of the present invention.
  • FIG. 15 is a diagram showing a configuration of a speech recognition device of the present invention and an electronic device including the speech recognition device of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a conventional signal analyzer for performing MFCC analysis.
  • reference numeral 101 indicates frequency analysis means
  • reference numeral 102 indicates parameter conversion means.
  • the frequency analysis means 101 performs the processing of the frequency analysis step (step S201) of FIG. 1, and the parameter conversion means 102 performs the processing of the parameter conversion step (step S202) of FIG.
  • FIG. 3 is a block diagram showing a configuration of a signal analyzer that performs analysis by the conventional E-CMN method using the MFCC method.
  • a voice section detection means 203 for detecting a voice section from an input signal an average updating means 201, and a subtraction processing means 202 are added. It has a configuration.
  • the input voice is processed by the frequency analysis means 101 and the parameter calculation means 102, so that the MFCC power S can be obtained.
  • the input voice is processed by the voice section detection means 203, and the voice section is detected.
  • the average updating means updates the average cepstrum obtained from the nometer calculating means 102 using the voice section information obtained by the voice section detecting means 203. Specifically, the average cepstrum of the voice is updated in the voice section, and the average cepstrum of the noise is updated in the non-voice section.
  • the subtraction processing means 202 subtracts the average cepstrum of the voice from the current cepstrum output from the parameter calculation means 102 if the voice section is the voice section using the voice section information obtained by the voice section detection means 203, If the section is a non-voice section, the average cepstrum of noise is subtracted from the current cepstrum output from the meter calculation means 102.
  • voice sections are generally detected by using short-time signal power for each frame or an outline of a spectrum for each frame.
  • standard methods used for voice calls such as mobile phones are used.
  • FIG. 4 is a diagram showing a configuration of the signal analyzer of the present invention.
  • the MFC of FIG. Between the frequency analysis means 101 and the parameter calculation means 102 of the signal analyzer used for the C analysis, the update coefficient acquisition means 301, the level calculation means 302, the normalization means 303, and the normalization coefficient acquisition means 304 are provided for each band. Is provided.
  • the frequency band analyzing means 101 of the present invention includes a frequency band dividing means 304 for dividing an input signal into signals of a plurality of frequency bands, and a band for each band with respect to the input signal divided into each band. And band energy extracting means 306 for extracting energy.
  • the update coefficient obtaining means 301 compares the noise level or the sound level calculated before the time at which the signal is input with the band energy of each band obtained by the frequency analyzing means 101. , An update coefficient used for updating the level is obtained by the level calculation means 302
  • the level calculation means 302 updates the noise level or the sound level based on the difference between the input energy and the noise level or the sound level using the update coefficient obtained by the update coefficient acquisition means 301. ,Remember. A specific method will be described later.
  • the normalization coefficient obtaining means 304 includes a noise level and a voice level calculated before a time at which a signal is input, and a current level obtained by the frequency analysis means 101. And the band energy of each band is compared, and a normalization coefficient used in the normalization means 303 is calculated.
  • the normalization means 303 uses the normalization coefficient obtained by the normalization coefficient acquisition means 304 and the audio level or noise level obtained by the level calculation means 302 to obtain the current value obtained by the frequency analysis means 101. Is normalized and output.
  • the update coefficient acquisition unit 301 and the normalization coefficient acquisition unit 304 have different configurations. However, since both perform similar processing, the update coefficient acquisition unit 301 and the normalization coefficient acquisition unit Means 304 and may have the same configuration.
  • FIG. 5 is a flowchart showing a flow of a signal analysis process according to the present invention.
  • FIG. 6 is a diagram showing the correspondence between the input band energy by the signal analysis processing according to the present invention, the update coefficient, the normalization coefficient, and the normalized band energy.
  • the signal analysis processing of the present invention will be described in detail with reference to FIGS.
  • update coefficients and normalization coefficients are applied.
  • the signal analyzer of the present invention operates in principle as long as the input signal can be divided into two or more bands.
  • the system operates even if the frequency axis is a park frequency axis or a linear frequency axis.
  • the number of band divisions and frequency scale in frequency analysis should conform to the MFCC, and the appropriate number of divisions is about 10 to 30.
  • a voice sampled at 11 kHz is effective if it is divided into 24 bands on the mel frequency axis and converted to a 12-dimensional cepstrum.
  • Step S203 The processing performed in step S205 is performed independently for each band.
  • the coefficient acquisition step (step S203) is based on the difference between the band energy obtained in the frequency analysis step (step S201) and the noise level of each band obtained before the input time of the input signal, and calculates the update coefficient and the normalization coefficient. Ask for.
  • the noise level of the band is updated based on the update coefficient obtained for each band (step S204).
  • the band energy of that band is used.
  • the lugies are normalized (step S205).
  • the normalized band energy is converted into cepstrum coefficients (step S202).
  • the normalized band energy is converted into cepstrum coefficients generally used for speech recognition.
  • a configuration may be employed in which normalized energy that is not necessarily converted into cepstrum coefficients is output as it is.
  • FIG. 6 (c) is a diagram showing the relationship between the input band energy and the update coefficient.
  • the noise level at Ijt is N (t)
  • the input band energy is E (t)
  • the update coefficient is a (t)
  • the noise level N (t) can be updated as follows, for example. Done in The units of noise level and input band energy are based on decibels (dB).
  • N (t) (1-ct (t)) * N (t-l) + a (t) * E (t) ... Equation (1)
  • A indicates the maximum update coefficient, and is a value of 0 or more and 1 or less.
  • A is, for example, a value of about 0.02.
  • R indicates the boundary area between noise and voice energy, for example, about 2 dB. Degree.
  • This update coefficient can be used to update the noise level because the average value can be obtained when the low energy is distributed in the time series of the input band energy.
  • (a (t) / A) can be considered as an index indicating the likelihood of noise.
  • the noise level is updated using the above expression, the following speed relatively follows the downward change of the noise, and the following speed gradually decreases for the upward change. If there is an increase in noise greater than R (dB) during one frame, it will not follow at all.
  • the tracking of the change speed of the noise can be controlled by the A and R parameters. If A is set to 0.02, it follows the change of noise slower than about 0.5 Hz upward.
  • the rate of change of voice has many components ranging from several Hz to several tens of Hz because several to several tens of phonemes are exchanged per second.
  • background noise is often slower than that.
  • the noise energy increases suddenly due to sudden noise, it cannot be followed thereafter. For this reason, by setting the lower limit of a (t) to a very small value other than 0, for example, about 0.001, it is possible to set so as to follow after several seconds.
  • the tracking speed can be confirmed by inputting artificial data in which the energy change speed for each band is adjusted.
  • the update of the audio level S (t) is as follows, for example. To do.
  • ⁇ (t) C (when N (t ⁇ l) + R ⁇ E (t))
  • ⁇ (t) C * (E (t) -N (t-1) / R)
  • C indicates the maximum update coefficient, and is a value of 1 or less.
  • C is, for example, a value of about 0.02 similarly to A above.
  • R indicates a boundary range between the energy of noise and voice, and may be the same value as the boundary region at the noise level or a different value. With this update coefficient, it is possible to obtain an average value when particularly high energy is distributed in the time series of the input band energy, so that the voice level can be updated.
  • a fixed value may be used without updating. In this case, it is effective to calculate and use an average audio level from a large amount of audio data.
  • Equations 1 and 2 the detection of both sections can take an intermediate value, rather than a binary one (Fig. 6 (c)).
  • the determination between the noise section and the voice section is performed for each frequency band. For this reason, the noise section and the speech section determined in each band are different from the noise section and the speech section determined in other bands. Further, the noise section and the speech section determined in each band are different from the actual speech section of the speaker.
  • the update coefficient does not need to be common to all frequency bands. By holding a different update coefficient for each band in advance, an optimal update coefficient can be applied for each band.
  • the minimum value of the input energy until the input time is determined by the noise level.
  • the maximum value of the input energy until the input time can be used as the sound level. This is based on the fact that noise has low energy and voice has high energy.
  • the method of obtaining the noise level and the sound level is not limited to this example. If the method can obtain the low value and the high value within the energy distribution range, the noise level and the sound level can be obtained. The audio level can be determined.
  • FIG. 6 (b) is a diagram illustrating the relationship between the input band energy and the normalization coefficient.
  • the noise level at Tokii is N (t)
  • the input band energy is E (t)
  • the normalization coefficient is ⁇ (t)
  • the normalized band energy E '(t) is given by, for example, Desired.
  • the unit of noise level and energy is decibel (dB).
  • ⁇ (t) B * (l_ (E (t) _N (t_l)) / R)
  • ⁇ (t) B (when E (t) ⁇ N (t_l))
  • B indicates the maximum subtraction amount, and is a value of 1 or less.
  • B is, for example, about 0.5.
  • R indicates the boundary range between noise and voice energy, and is set to, for example, about 2 dB. R may be the same value as the boundary area in the update coefficient or may be a different value.
  • the band energy is normalized using the sound level S (t) in addition to the noise level.
  • the following describes a method for performing this.
  • the normalization of the band energy using the sound level can be calculated by the following equation, for example.
  • ⁇ (t) D * (E (t) -N (t-1)) / R [0137] (when N (t-l) ⁇ E (t) ⁇ N (t-l) + R)
  • D indicates the maximum subtraction amount, and is a value of 1 or less.
  • D is a value of, for example, about 0.5, similarly to B above.
  • R indicates a boundary range between energy of noise and voice, and may be the same value as the boundary region at the noise level or a different value.
  • the normalization coefficient of the voice level was obtained using the difference between the input energy E (t) and the noise level N (t). By using this method, it is possible to reduce the decrease in recognition accuracy due to the characteristics of the speaker and the line.
  • the normalization coefficient of the sound level can also be obtained by using the difference between the input energy E (t) and the sound level S (t).
  • normalization in order to normalize the band energy, the method of subtracting the input band energy by multiplying the voice level or the noise level by a coefficient obtained by a predetermined calculation has been described.
  • normalization is not limited to this method, and the effect of normalization may be obtained by a method such as division of input energy by voice level.
  • the normalization method may be changed as appropriate according to the dynamic range of the input or the magnitude of the environmental change.
  • FIG. 6 (a) is a diagram showing the relationship between the normalized band energy normalized using Equations 3 and 4, and the input band energy.
  • ⁇ ' ⁇ — ⁇ * ⁇ — ⁇ * S.
  • FIG. 7 is a diagram showing a configuration of the signal analyzing means of the present invention using the low-pass cutoff filter 307 as the normalizing means.
  • the low-frequency cutoff filter is preferably a filter that cuts off frequencies lower than about 1 Hz to 10 Hz, which is the rate of change of the spectrum due to voice, that is, frequencies below 1 Hz.
  • t is a frame
  • the input to the low-pass cutoff filter is x (t)
  • the output is x (t)
  • a low-frequency cutoff filter having characteristics different for each band makes it more suitable for the usage environment. Performance can be improved.
  • FIG. 8 is a diagram showing an example of an acoustic signal including a speech waveform.
  • the horizontal axis represents time
  • the vertical axis represents amplitude.
  • the section of the time tl force t2 represents the utterance section, and indicates that the entire displayed time includes noise.
  • FIG. 9 is a simplified diagram of a spectrogram of an acoustic signal including the speech waveform shown in FIG.
  • the horizontal axis represents time
  • the vertical axis represents frequency
  • the interval from time tl to t2 represents the utterance interval.
  • the power of the actual speech spectrum is a continuous value.
  • the region where the energy is relatively higher than the other parts is closed with a closed curve and is shaded.
  • FIG. 10 is a diagram showing a range in which the normalization process is performed when the spectrum shown in FIG. 9 is normalized using the conventional E-CMN method.
  • the horizontal axis indicates time, and each section on the horizontal axis indicates an analysis frame.
  • the vertical axis indicates frequency, and each segment on the vertical axis indicates a frequency band.
  • the region where the energy is relatively higher than other parts is closed by a closed curve.
  • the shaded part is the applicable range as a voice section, and the other parts are the applicable range as a noise section.
  • the speech cepstrum coefficient is updated in the section from time tl to t2, which is determined as the speech section, and the noise cepstrum coefficient is updated in other sections.
  • the cepstrum in each section is normalized using the updated cepstrum coefficient. Therefore, if noise is included in the voice section, the cepstrum coefficient will be erroneously updated.
  • FIG. 11 is a diagram showing a range in which a normalization process is performed when the spectrum shown in FIG. 9 is normalized using the signal analyzer of the present invention.
  • the horizontal axis indicates time, and each section of the horizontal axis indicates an analysis frame.
  • the vertical axis indicates frequency, and each segment on the vertical axis indicates a frequency band.
  • the shaded part is the applicable range as a voice section, and the other part is the applicable range as a noise section.
  • a speech section and a noise section are determined for each band.
  • the sound In a band and a frame having higher energy than the surrounding noise related to the voice section (tl-t2) the sound level of that band is updated, and the band is updated using the updated sound level.
  • Energy is normalized.
  • the noise level is determined to be a low-energy noise section even in the speech utterance section (tl-t2), so the noise level in that band is updated, and this updated noise level is used.
  • the band energy is normalized.
  • a clear non-voice section may not exist as in the related art. If the speech includes a plurality of types of phonemes, the noise level can be updated for all the bands included in the speech section.
  • FIG. 12 is a diagram showing how noise spectrum adaptation by the E-CMN method proceeds when an acoustic signal including the speech waveform shown in FIG. 8 is input.
  • FIG. 13 is a diagram showing a situation where the adaptation of the noise spectrum by the signal analysis device of the present invention proceeds when an acoustic signal including the audio waveform shown in FIG. 8 is input.
  • shaded portions indicate bands and frames in which noise has been correctly estimated.
  • the signal analysis device of the present invention causes an error in estimation of the noise spectrum in a band where speech is dominant.
  • the noise power estimation ends at a time t3 earlier than the time t2 at which the utterance ends. Therefore, between time t3 and t2, the noise spectrum can be correctly normalized.
  • the use of the signal analyzer of the present invention enables a correct normalization faster than the case where the E-CMN method is used. Also, in a band in which noise estimation is completed, if the power of the band increases after the completion time, the speech power is estimated, so that accurate speech recognition can be performed in the middle of utterance.
  • the signal analysis device of the present invention can estimate noise spectrum even during speech production. As a result, even if the noise spectrum changes gradually during sound generation, if the change progresses slowly, it is possible to adapt to the change in noise and perform normalization. Therefore, if the signal analysis device of the present invention is applied to a speech recognition device, a speech recognition device capable of performing more stable speech recognition can be obtained.
  • FIG. 14 is a block diagram showing an example of a speech recognition system using the speech recognition device of the present invention.
  • the speech recognition system generally includes an acoustic model learning device 401 and a speech recognition device 402.
  • the voice database 403 is for learning an acoustic model. It is mainly stored on a personal computer or a fixed disk of a workstation.
  • Reference numeral 404 is a signal analysis unit using the signal analysis device of the present invention. Actually, it is used in the configuration shown in Fig. 6, or in the configuration shown in Fig. 6, with the addition of a part that calculates the amount of change in acoustic parameters over time.
  • Reference numeral 405 is an acoustic model learning unit.
  • the language database 406 which records the utterance contents of the audio database and the output of the signal analysis unit 404 are statistically analyzed for each sound unit such as each phoneme or each syllable. Ask for.
  • a hidden Markov model is generally used as a model.
  • Reference numeral 407 denotes an acoustic model obtained by the acoustic model learning means 405.
  • Reference numeral 408 is a language dictionary created separately.
  • the language dictionary 408 includes a word dictionary in which words are represented by phoneme strings, and grammar data that specifies connection restrictions between words.
  • the language dictionary 408 may be created manually, or the connection probability between words may be statistically obtained from sentences contained in the language database 406.
  • Reference numeral 409 is a signal analysis unit that performs the same signal analysis as the signal analysis device 404.
  • Reference numeral 410 denotes a likelihood calculating means, which calculates the likelihood of each voice unit with respect to the input signal at each time from each statistic of the acoustic model 407 and the acoustic parameters obtained by the signal analyzing means 409.
  • Reference numeral 411 is a matching unit that calculates the likelihood of a likely linguistic hypothesis from the obtained time series of the likelihood of each voice unit, and outputs candidates in descending order of likelihood.
  • a speech recognition method there may be an implementation that does not clearly separate the likelihood calculation and matching means.
  • FIG. 15 is a diagram illustrating a configuration of a speech recognition device of the present invention and an electronic device including the speech recognition device of the present invention.
  • Reference numeral 501 indicates a bus of a data address in a digital device such as a personal computer. Each processing means is connected to this bus and performs each processing.
  • Reference numeral 502 indicates a plurality of input means such as a button, a keyboard, and a microphone. Voice on The force is not limited to being input from a microphone, but may be input via a communication line after being converted into an electrical signal by another device.
  • Reference numeral 503 denotes a CPU that controls the device according to the instruction from the input means 502 and recognizes the input voice.
  • Reference numeral 504 is a working memory for processing by the CPU and a program memory including a speech recognition program.
  • Reference numeral 505 denotes an output device such as a display, a buzzer, a speaker, and a lamp.
  • the result of speech recognition may be displayed as a candidate, the recognition result may be subjected to some processing, or the processed result may be displayed. If the electronic device is a mobile phone, a wireless communication unit (not shown) is added to these processing blocks. For personal computers and portable information devices, communication means and external storage devices are added.
  • Examples of selecting and executing a function based on the result recognized by the voice recognition device include, for example, an operation of switching a TV channel, an operation of playing or stopping a video device, and a temperature setting of an air conditioner. And the like.
  • an information terminal communication control, program execution control, character input, and the like can be mentioned.
  • the control programs of these devices including the signal analysis program or the speech recognition program are realized by an information processing program recorded on a program recording medium.
  • the program recording medium in the above-described embodiment is a program medium including a ROM (read “only” memory) provided separately from a RAM (random “access” memory).
  • a program medium mounted on an external auxiliary recording device and read out is preferable.
  • the program reading means for reading the information processing program from the program medium has a configuration of directly accessing and reading the program medium. It has a configuration in which the program is downloaded to a provided program storage area (not shown), and the program storage area is accessed and read. It is assumed that a download program for downloading from the program medium to the program recording area of the RAM is stored in the main unit in advance.
  • the program medium is configured to be separable from the main body side, and to a tape system such as a magnetic tape or a cassette tape, or a magnetic medium such as a floppy disk or a hard disk.
  • CD Compact Disk
  • MO Magnetic-Optical
  • MD Mini Disk
  • DVD Digital Versatile Disk
  • IC Integrated Circuit cards and card systems such as optical disks
  • a semiconductor memory system such as a mask ROM, an EPROM (ultraviolet erasable ROM), an EEPROM (electrically erasable ROM), and a flash ROM.
  • the speech recognition device or the electronic device in the above-described embodiment includes a modem and can be connected to a communication network including the Internet.
  • the program medium may be a medium that carries the program fluidly by downloading from a communication network or the like.
  • the download program to be downloaded from the communication network is stored in the main unit in advance. Alternatively, it shall be installed from another recording medium.
  • An electronic device using the present invention is less susceptible to noise and distortion due to line characteristics. As a result, it is used as a voice-recognition remote controller used at home and as an electronic device such as a mobile phone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 信号分析装置は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化手段とを有する。このように構成することにより、高騒音環境下においても安定した音声認識精度があげられる。また、雑音区間が全くない音声が入力された場合や、発声中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる。

Description

明 細 書
信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信 号処理プログラム、音声認識プログラム、記録媒体および電子機器
技術分野
[0001] 本発明は、入力された音声 ·音響信号を分析する信号分析装置、信号処理装置お よび信号分析装置を用いた音声認識装置に関する。本発明は、またそのような処理 をコンピュータに実行させる信号分析プログラム、信号処理プログラムおよび音声認 識プログラムに関する。本発明は、またそのようなプログラムを記録した記録媒体に関 する。本発明はまたそのような信号分析装置を搭載した電子機器に関する。
背景技術
[0002] 音声認識に用いられる信号分析手段では、信号の入力から数十ミリ秒程度の区間 を、数ミリ秒から数十ミリ秒程度の間隔でずらしながら、信号を抽出し、分析フレームと し、各分析フレームにおける入力信号の波形から、音響パラメータを計算し、音響パ ラメータの時系列とする。
[0003] 特定話者音声認識では、得られた時系列の音響パラメータを、予め登録した音響 パラメータの時系列パターン (標準パターン)と照合して、入力に最も類似した標準パ ターンを認識結果とする。
[0004] 不特定話者音声認識の場合には、予め大量のデータから音響パラメータを計算し 、音声単位ごとに計算した音響パラメータの統計量を求め、確率的音響モデルを作 成する。同時に、この音声単位ごとの確率的音響モデルを連結して、単語モデルま たは文章モデルを作成する。入力信号から分析された音響パラメータについて、前 記単語モデルまたは文章モデルに対する確率尤度を計算し、比較して、最も高い確 率尤度の単語モデルまたは文章モデルを認識結果とする。ここでレ、う音声単位として は、例えば音素、音節、または単語などの単位が用いられる。
[0005] このように、音声認識を行うためには、音響パラメータを求める信号分析技術は、認 識性能を決める重要な技術である。このため、雑音や回線の回線特性などの歪によ る影響を受けにくい信号分析技術が必要とされる。非特許文献 1には、このような信 号分析技術として用いられる、帯域エネルギーをケプストラム係数に変換する MFCC (Mel Frequency Cepstrum Coefficient)力 S不されてレヽる。
[0006] 図 1は、 MFCCを求めるための手順を示すフローチャートである。以下、図 1を用い て、 MFCCの分析方法を説明する。 MFCCでは、まず、分析フレームごとに音声波 形を信号分析器に入力し (ステップ S101)、フレームの切り出し区間の両端に急激な 変化が起こらないように、ノ、ミング窓関数を掛ける(ステップ S102)。次に、 FFT (Fas t Fourier Transform :高速フーリエ変換)を用いて、各フレームにおける線形周 波数軸上のエネルギーを求める(ステップ S103)。この線形周波数軸上のエネルギ 一は、メル周波数軸上で等分割した帯域ごとにまとめられ、帯域エネルギーに変換さ れる(ステップ S104)。変換された帯域エネルギーは、帯域ごとに対数変換される(ス テツプ S105)。次に、各帯域におけるパワーをコサイン変換することで、 MFCCが求 められる(ステップ S106)。求められた MFCCは、信号分析器から出力される(ステツ プ S107)。このように、メル周波数軸上で等分割して求められたケプストラム係数を、 メル周波数ケプストラム係数 (MFCC)という。メル周波数は、人間の聴覚特性に準じ た周波数単位であり、低い周波数での分解能が、高い周波数での分解能に比べて 細かくなる。このため、 MFCCは、同じ次数のケプストラムであれば、線形周波数軸を 用いた場合に比べて、音声認識性能に優れることが知られている。
[0007] なお、本明細書中では、ステップ S101—ステップ S105を周波数分析ステップ(ス テツプ S201)と、ステップ S106からステップ S107をパラメータ変換ステップ(ステツ プ S202)とレ、う場合がある。
[0008] しかし、実際の音声認識は、家庭、オフィス、自動車、屋外などの背景雑音、または 装置自身から発生する冷却ファンなどの騒音や、電磁的に波形に混入する加法的な 騒音などの加法性雑音の存在下で行われる。さらに、マイクロホンあるいは音声伝達 回路などの伝達特性や、話者がマイクロホンに向かう際の距離や角度が異なることに よる音響特性の変化などの乗法的な歪が存在する。 MFCCは、これらの騒音や歪の 影響を受けやすい。このため、 MFCCを用いた音声認識では、騒音の大きな環境下 で使用する場合や回線特性の歪が大きい使用方法をする場合には、認識性能が大 幅に低下するという問題がある。これらの騒音や歪の影響を低減させるために、以下 に述べるような信号分析方法が用いられてレ、る。
[0009] [SS法、及びその簡易化手法]
[0010] 非特許文献 2には、加法性雑音の影響を少なくする方法として、スペクトル減算(S S : spectral subtraction)法が開示されている。この方法は、入力音声信号を周波 数分析して入力の振幅スペクトルまたはパワー(2乗)スペクトルを求め、雑音区間で 推定された推定雑音スペクトルに所定の係数ひを乗じ、このスペクトル減算係数ひを 乗じた後の推定雑音スぺクトノレを入力スペクトルから減じることで、雑音成分を抑圧す る方法である。この方法では、音声品質を向上させるためには、多数の帯域に分割し て処理をする必要がある。
[0011] また、特許文献 1には、この SS法を改善し、帯域分割を少なくして雑音成分を抑圧 する方法が開示されている。
[0012] [CMS法]
[0013] 非特許文献 1には、乗法性の歪の影響を低減する方法として、 CMS法(Cepstm m Mean Subtraction :ケプストラム平均除法)が開示されている。この方法は、 C MN法(Cepstrum Mean Normalization :ケプストラム平均正規化法)とも呼ば れる。これは、乗法性歪が、発声された音声のケプストラムの長時間平均として得られ る、という仮定に基づく。具体的には、ケプストラム係数から、入力音声のケプストラム 係数の平均値を差し引いて、回線やマイクロホンなどの音響系の特性に基づく歪の 影響を低減できる。このことは、ケプストラムのコサイン変換である対数スペクトルの歪 を差し引くことと等価である。
[0014] しかし、実際の入力音声においては、音声の音源位置と雑音の音源位置とが異な る。音声区間と雑音区間とでは、正規化すべき回線特性が異なるため、音声区間の 平均ケプストラムを雑音区間に適用することは、雑音区間のケプストラムを不安定にし 、認識性能に悪影響を及ぼすという問題がある。このため、雑音区間に適用できる C MS法の改良法が検討されてレ、る。
[0015] [E—CMN法]
[0016] 非特許文献 3および特許文献 2には、 CMS法の改良法である E— CMN法が提案 されている。 E— CMN法は、音声区間のケプストラム平均と、非音声区間のケプストラ ム平均とを別個に求め、音声区間と、非音声区間とで、別個に正規化処理を行う。こ の方法により、誤認識率を低減させることができる。
[0017] [音声検出]
[0018] 上記した SS法、その簡易化手法、 E—CMN法は、いずれの方法においても、音声 区間と非音声区間とを区別するために、音声検出を必要とする。音声検出技術の標 準的な方法は、携帯電話に用いる音声通信の規格などに開示されている。音声検出 は、一般に、入力信号の短時間におけるエネルギーの変化、スペクトル形状の変化 などに基づいて、入力信号を、音声区間と雑音区間とに時間的に分割することによつ て行なわれる。
特許文献 1:特開 2001 - 228893号公報
特許文献 2:特開平 10 - 254494号公報
非特許文献 1 :鹿野清宏ら編著、「音声認識システム」、第 1版、株式会社オーム社、 平成 13年 5月 15日、 p. 13-15
特 3午文献 2 : S. Boll, 「 uppression of acousticnoise m speech using spectral subtractionj , IEEE Trans. ASSP, 1979, vol.ASSP— 27, no. 2, pp. 113-120
非特許文献 3 :庄境 誠、外 2名、「ケプストラム平均正規化法と HMM合成法に基づ くモデル適応化法 E - CMN/PMCと自動車内音声認識への適用」、電子情報通信 学会論文誌、社団法人電子情報通信学会、 1997、第 J80-D - II卷、第 10号、 p. 2
636-2644
発明の開示
[0019] しかし、上記信号分析方法およびこれらの分析方法に使用する音声認識方法には
、以下のような問題がある。
[0020] [SS法、及びその簡易化手法に関する問題点]
[0021] SS法は、音声区間で雑音区間のスペクトルを減算するので、雑音の少ない環境で の入力音声を推定する場合には、優れる。しかし、雑音区間においては、雑音のパヮ 一は小さくなる力 S、雑音のスペクトル形状自体は変わらない。現在主流である統計に 基づく音声認識を行う場合には、予め統計的に学習した雑音とは異なるスペクトル形 状の雑音が入力すると、雑音区間の照合精度が低下する。このため、雑音区間を音 声区間と誤って照合するため、全体として高い認識精度が得られない。この認識精 度の低下を防ぐためには、何らかの適応的なスペクトル補正が必要となる。その方法 の一つが、 E-CMN法のように雑音スペクトルを正規化する方法である。し力し、 E- CMN法には、以下のような問題がある。
[0022] [E— CMN法に関する問題点]
[0023] 上記したように、 E— CMN法では、音声区間と雑音区間とで、独立にケプストラム平 均を求めるので、より正確に回線特性を正規化できる。特にこの方法によると、雑音 区間のスペクトル形状を平坦ィ匕できるので、 SS法では解決できなレ、、雑音区間の照 合精度を改善することができる。
[0024] しかし、音声区間と雑音区間との判断は、音声区間の検出精度に依存する。このた めに、高騒音環境では、音声区間の切り出し精度が低下し、誤ったケプストラム平均 値を元に正規化を行うため、認識精度に悪影響を及ぼすという問題がある。以下に、 音声検出の問題点を述べる。
[0025] [雑音区間の長さ]
[0026] SS法や E— CMN法では、雑音スペクトルの推定は、音声区間を検出する際に、雑 音区間と判断された区間に対して行われる。しかし、実際に信号分析装置を使用す る環境において、装置が動作を開始したすぐ後に、音声が発声された場合には、雑 音スペクトルを推定するための十分な雑音区間長が得られない。このため、雑音の適 応ができなレ、、あるいは誤った雑音を適応するという問題がある。
[0027] [音声区間検出の困難性]
[0028] 静かな環境では、音声区間と雑音区間とは容易に分離できる。このため、音声パヮ 一の時間変化を利用すれば、発声区間を検出するのは比較的容易である。しかし、 高騒音環境で、 SN比が低い場合には、音声区間の始点ゃ終点の精度が低下する ため、発声の区間内であっても、音声は、音声のパワーが大きい一部の区間を除け ば、ほとんどの部分が雑音に坦もれる。このため、音声区間と非音声区間との差が曖 昧になり、音声区間を検出することが困難となる。
[0029] このような SN比が低い音声の発声区間を周波数分析し、対数変換したスペクトル を観察すると、音声のパワーが優位な周波数帯域では、音声のスペクトルが表される 。一方、それ以外の雑音のパワーが優位な周波数帯域では、雑音のスペクトルが表 される。すなわち、音声の発声区間であっても、帯域により、雑音を表している場合が ある。このため、従来の方法のように、全周波数帯域を一括して音声区間と雑音区間 とに分離する方法では、回線歪を受けた音声のスペクトル平均を正確に求めることは 難しい。逆に、音声区間が検出できない場合には、本来の音声区間も雑音区間とし て処理される。このため、雑音のスぺクトノレ平均さえも正確に求めることができない。
[0030] それゆえに、本発明の目的は、高騒音環境下においても、音声認識精度の高い信 号分析装置および信号処理装置を提供することにある。
[0031] また、本発明の他の目的は、雑音区間が全くない音声が入力された場合や、発声 中に徐々に雑音レベルが変化する場合にも、安定した音声認識精度があげられる信 号分析装置および信号処理装置を提供することにある。
[0032] 本発明のさらに他の目的は、雑音および音響特性の歪の影響を受けにくい音声認 識装置を提供することにある。
[0033] 本発明のさらに他の目的は、低 SN比での音声認識精度が向上するように改良され た音声認識装置を提供することにある。
[0034] 本発明のさらに他の目的は、そのような音声認識装置を搭載した電子機器を提供 することにある。
[0035] 本発明のさらに他の目的は、雑音および音響特性の歪の影響を受けにくい音声認 識を行なうことができるように改良された信号分析プログラム、信号処理プログラムお よび音声認識プログラムを提供することにある。
[0036] 本発明のさらに他の目的は、低 SN比での音声認識精度が向上するように改良され た信号分析プログラム、信号処理プログラムおよび音声認識プログラムを提供するこ とにある。
[0037] 本発明のさらに他の目的は、そのようなプログラムを記録した記録媒体を提供する ことにある。
[0038] 上記課題を解決するために、本発明の信号分析装置は、入力信号を複数の周波 数帯域の信号に分割する周波数帯域分割手段と、前記各帯域に分割された入力信 号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー抽出手段と、前 記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネノレ ギーを求める正規化手段と、を有する。
[0039] この構成によれば、抽出された帯域エネルギーが帯域ごとに正規化される。この結 果、音声区間の検出を明確に行わなくても、信号分析ができるので、音声区間の検 出誤りを避けることができる。また、雑音区間が短い場合に生ずる、雑音の適応がで きないという問題、あるいは誤った雑音を適応するという問題を回避できる。
[0040] ここで、正規化とは、雑音の種類や大きさ、回線の特性、マイクへの入力感度など の環境の要因により生ずる、入力される信号のエネルギー分布が移動する量を少な くすることを意味する。具体的には、正規化は、信号のエネルギー分布の平均を減算 して、直流成分を減衰させる方法、環境雑音の値を減算する方法などにより行う。ま た、本明細書中では、正規化には、入力レベルのエネルギー分布の広がり方を制御 することも含まれる。
[0041] 本発明の信号分析装置において、前記正規化手段は、前記帯域ごとに抽出された 帯域エネルギーから、直流成分を減衰させる低域遮断フィルタで構成されるのが好 ましレ、。この構成によれば、入力信号の直流成分を含めて低周波成分を減衰するの で、最も簡単な構成で正規化することができる。
[0042] また好ましくは、本発明の信号分析装置は、前記抽出された帯域エネルギーの系 列から、帯域ごとの条件付平均値を第 1のレベルとして計算するレベル計算手段を 有し、前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域 の第 1のレベルを所定の係数で乗じた値を減算する。
[0043] この構成によれば、計算された第 1のレベルを用いて、入力信号の当該帯域エネル ギ一が正規化される。すなわち、帯域ごとに、より正確な正規化を行うことができる。
[0044] なお、帯域エネルギーの平均値は、信号レベルと雑音レベルの 2つに限られず、雑 音 Aのレベルと雑音 Bのレベル、あるいは特定の信号 Xのレベルと特定の信号 Yのレ ベルなど、信号分析装置の使用環境や使用用途により、 2つ、あるいは 3つ以上のレ ベルに分類することができる。本明細書中では、これら複数のレベルのうち、基準とな るレベルを第 1のレベルと呼び、それ以外のレベルを、第 2のレベル、第 3のレベルな どという。なお、本明細書中では、主として、第 1のレベルとして雑音のレベルを用い 、第 2のレベルとして音声のレベルを用いている。
[0045] 雑音レベルは、入力された帯域エネルギーのうち、雑音を表現していると想定され る、相対的に低いエネルギーが分布している集合の平均を示し、音声レベルは、同じ ぐ音声を表現していると推定される、相対的に高いエネルギーが分布している集合 の平均を示す。本明細書中で、これらの雑音レベルまたは音声レベルのように、エネ ルギ一の高低のような条件の下で分割したエネルギーの平均を「条件付平均」という こと力 Sfeる。
[0046] 本発明の信号分析装置において、雑音と音声のような条件を採用した場合、エネ ルギ一分布の中で、相対的にエネルギーの低い集合と高い集合とを、離散的に区分 するのではなぐ中間的な入力範囲を連続的に扱うことが望ましい。すなわち、音声 区間を検出せずに、フレームごとに、帯域エネルギーの大きさから、音声らしさ、雑音 らしさを連続値で判断することが望ましレ、。
[0047] また、好ましくは、上記信号分析装置において、前記レベル計算手段は、前記第 1 のレベルの計算に加え、前記抽出された帯域エネルギーの系列から、第 1のレベル とは異なる、帯域ごとの条件付き平均値の少なくとも 1つを、第 2のレベルとして計算 し、前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域 の第 1のレベルおよび第 2のレベルをそれぞれ所定の係数で乗じた値を減算する。
[0048] この構成によれば、計算された第 1のレベルと第 2のレベルとを用いて、帯域エネル ギ一が正規化され、計算された音声レベルを用いて、帯域エネルギーからの減算量 が決定されるので、より正確な正規化が可能となる。なお、第 1のレベルとは異なる、 帯域ごとの条件付き平均値は、 1つには限られず、複数あってもよレ、。
[0049] 好ましくは、上記信号分析装置は、前記帯域エネルギーの値に応じて 1つまたは複 数の正規化係数を求める正規化係数取得手段をさらに有し、前記正規化手段は、前 記帯域ごとに抽出された帯域エネルギーから、同じ帯域の前記第 1のレベルまたは 前記第 1のレベルおよび複数のレベルに前記正規化係数を乗じた値を減算する。
[0050] この構成によると、 1つまたは複数の帯域ごとの条件付平均値に対応する、帯域ェ ネルギ一の値に応じた 1つまたは複数の正規化係数が求められる。この結果、 1つま たは複数の条件付平均値を反映して減算量を調整できるので、より正確な正規化が 可能となる。
[0051] 本発明の信号処理装置は、信号の正規化を逐次的に行う信号処理装置であって、 入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算手段と、前記第 1 のレベルに所定の係数を乗じた値を入力信号から減算する正規化手段と、前記第 1 のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数取得手段と を備える。前記レベル計算手段は、前記更新係数を用いて、第 1のレベルを入力信 号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。
[0052] この構成によれば、例えば特定の周波数帯域における入力信号などの、一次元の 入力信号についても、正規化して、信号処理を行うことができる。すなわち、入力エネ ルギ一のエネルギー分布の広がりを入力エネルギーの高低などから検出し、更新係 数を求めて、第 1のレベルを入力信号に近づけることにより、入力信号のエネルギー 分布が環境により変動することを抑制できる。
[0053] 好ましくは、上記信号処理装置は、前記第 1のレベルと前記入力信号との差に基づ いて、正規化係数を取得する正規化係数取得手段を備える。前記正規化手段は、 前記第 1のレベルに正規化係数を乗じた値を入力信号から減算し、入力レベルに応 じて減算量を制御する。
[0054] また、好ましくは、上記信号処理装置において、前記レベル計算手段は、入力信号 に基づいて複数のレベルを更新して記憶する。前記正規化手段は、前記複数のレ ベルにそれぞれ所定の係数を乗じた値を入力信号から減算する。前記更新係数取 得手段は、前記第 1のレベルと前記入力信号との差に基づいて、複数のレベルの更 新係数を求める。前記レベル計算手段は、前記複数のレベルの更新係数を用いて、 前記求められた複数のレベルを更新して、入力の分布に適した正規化を行う。
[0055] さらに、好ましくは、上記信号処理装置において、前記レベル計算手段は、入力信 号に基づいて複数のレベルを更新して記憶する。前記正規化手段は、前記複数の レベルにそれぞれ所定の係数を乗じた値を入力信号から減算する。前記更新係数 取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、複数のレベルの 更新係数を求める。前記正規化係数取得手段は、複数のレベルに対応した複数の 正規化係数を求める。前記正規化手段は、前記複数のレベルのそれぞれに対応し た正規化係数を、それぞれのレベルに乗じた値を入力信号力 減算し、入力のレべ ルに応じて適した正規化を行う。
[0056] 上記信号分析装置において、各帯域でのレベル計算手段および正規化手段は、 上記信号分析装置を用いる構成としてもよい。すなわち、各帯域での信号処理手段 として、本発明の信号処理装置を用レ、ることができる。
[0057] 上記信号分析装置は、低周波に属する帯域と、高周波に属する帯域とでは、所定 の係数を異なる値に設定して処理するのが好ましい。この構成によれば、雑音領域と 音声領域とのように、周波数により信号のエネルギー分布が異なる場合に、正確に正 規化できる。
[0058] 好ましくは、上記の信号分析装置は、各時刻の入力信号から得られた帯域ごとの帯 域エネルギーを、対数エネルギーとして処理する。対数で正規化を行うと、回線特性 による歪の影響を除去することができる。
[0059] 本発明の音声認識装置は、上記信号分析装置と、信号分析装置から得られた帯 域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手 段と、前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する 音声認識部とを有する。本発明の信号分析装置を用いると、雑音や回線特性による 歪に強い音響パラメータが得られるので、音声認識装置に用いると、音声認識精度 を向上させることができる。
[0060] 好ましくは、上記音声認識装置は、 MFCC (Mel Frequency Cepstrum Coef ficients)パラメータの抽出過程において、各帯域エネルギーの正規化を行う。この 構成によると、正規化された帯域エネルギーからケプストラムパラメータへ線形変換を 行うことにより、正規化されたケプストラム係数を求めることができる。
[0061] この発明の他の局面に従う、コンピュータに実行させるための信号分析プログラム は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前 記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯 域エネルギー抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化 し、帯域ごとの正規化帯域エネルギーを求める正規化ステップとを備える。
[0062] この発明のさらに他の局面に従う、コンピュータに信号の正規化を逐次的に行わせ る信号分析プログラムは、入力信号に基づいて第 1のレベルを更新し、記憶するレべ ル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号力 減算 する正規化ステップと、前記第 1のレベルと前記入力信号との差に基づいて、更新係 数を求める更新係数取得ステップとを備える。前記レベル計算手段ステップは、前記 更新係数を用いて、第 1のレベルを入力信号に近づけることにより、第 1のレベルを 入力信号の条件付平均値とする。
[0063] この発明のさらに他の局面に従う、音声認識をコンピュータに実行させるための音 声認識プログラムは、入力信号を複数の周波数帯域の信号に分割する周波数帯域 分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネ ルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネルギー を帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ステップと 、帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変 換ステップと、前記求められた音響パラメータを用いて、入力信号に含まれる音声を 認識する音声認識ステップとを備える。
[0064] この発明のさらに他の局面に従う発明は、コンピュータに実行させるための信号分 析プログラムを記録した記録媒体にかかる。前記信号分析プログラムは、入力信号を 複数の周波数帯域の信号に分割する周波数帯域分割ステップと、前記各帯域に分 割された入力信号に対して、帯域ごとの帯域エネルギーを抽出する帯域エネルギー 抽出ステップと、前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの 正規化帯域エネルギーを求める正規化ステップと備える。
[0065] この発明のさらに他の局面に従う発明は、コンピュータに信号の正規化を逐次的に 行わせる信号分析プログラムを記録したコンピュータ読み取り可能な記録媒体にか かる。前記信号分析プログラムは、入力信号に基づいて第 1のレベルを更新し、記憶 するレベル計算ステップと、前記第 1のレベルに所定の係数を乗じた値を入力信号 力 減算する正規化ステップと、前記第 1のレベルと前記入力信号との差に基づいて 、更新係数を求める更新係数取得ステップとを備える。前記レベル計算手段ステップ は、前記更新係数を用いて、第 1のレべノレを入力信号に近づけることにより、第 1のレ ベルを入力信号の条件付平均値とする。 [0066] この発明のさらに他の局面に従う発明は、音声認識をコンピュータに実行させるた めの音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に力かる。 前記音声認識プログラムは、入力信号を複数の周波数帯域の信号に分割する周波 数帯域分割ステップと、前記各帯域に分割された入力信号に対して、帯域ごとの帯 域エネルギーを抽出する帯域エネルギー抽出ステップと、前記抽出された帯域エネ ルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化ス テツプと、帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメ ータ変換ステップと、前記求められた音響パラメータを用いて、入力信号に含まれる 音声を認識する音声認識ステップとを備える。
[0067] この発明のさらに他の局面に従う発明は、音声認識装置を備えた電子機器にかか る。前記音声認識装置は、信号分析装置と、信号分析装置から得られた帯域ごとに 正規化された帯域エネルギーから音響パラメータを求めるパラメータ変換手段と、前 記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音声認 識部とを備える。前記信号分析装置は、入力信号を複数の周波数帯域の信号に分 割する周波数帯域分割手段と、前記各帯域に分割された入力信号に対して、帯域ご との帯域エネルギーを抽出する帯域エネルギー抽出手段と、前記抽出された帯域ェ ネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域エネルギーを求める正規化 手段とを備える。入力信号に含まれる音声信号を前記音声認識装置により認識した 結果に基づいて、機能を選択し、実行する。
[0068] 本発明の電子機器は、雑音や回線特性による歪の影響を受けにくい。この結果、 家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として利用する のが好ましい。
[0069] 本発明の信号分析装置は、以下の効果を有する。
[0070] (1)本発明では、全周波数帯域における音声区間を検出せずに、周波数帯域ごと に得られた各時刻の入力信号からの帯域エネルギーを用いて、帯域ごとに別個に、 条件付帯域エネルギーのレベルを計算し、各帯域エネルギーを正規化する。すなわ ち、音声の発声区間であっても、雑音エネルギーが優位な帯域については、雑音区 間として処理され、音声のエネルギーが優位な帯域のみが音声区間として処理され る。この結果、入力信号の回線特性をより正確に正規化できる。
[0071] 本発明の信号分析装置においても、音声と雑音とが混在する場合には、帯域ごと の音声と雑音との判断を誤る場合はある。しかし、帯域ごとに別個に、音声と雑音とを 区別するので、帯域全体で、音声と雑音とを区別する場合に比べて、その影響を低 減できる。すなわち、本発明の構成によれば、音声区間と雑音区間との区間検出誤り を低減できる。
[0072] (2)本発明の信号分析装置では、帯域ごとに帯域エネルギーの正規化を行う際に 、対数スペクトル領域で、正規化処理を行う。対数スペクトル領域で正規化処理を行 うと、対数スペクトルの線形変換 (コサイン変換)であるケプストラム係数で補正を行う CMN法と同様の効果が得られる。この結果、マイクロホンなどの影響による回線特 性の歪を正規化することができる。すなわち、音声認識時の雑音スペクトルが、学習 時の雑音スペクトルと異なっていても、認識精度が大幅に劣化することを防止できる。 なお、 SS法のように、振幅レベルで減算を行うこともできる力 回線特性の歪を正規 化することができない。
[0073] また、本発明の信号分析装置では、帯域ごとに雑音レベルと音声レベルとを別個に 求めて、帯域ごとの雑音レベルまたは帯域ごとの音声レベルを正規化するので、 E— CMN法と同様の効果が得られる。
[0074] (3)本発明の信号分析装置では、抽出された帯域エネルギーの系列から、音声と 雑音との判断を行う。すなわち、発声区間であっても、一部の帯域は、雑音として判 断される。このため、スペクトル形状の異なる音素からなる発声であれば、音声発声 区間内に、ほぼ全周波数帯域の雑音レベルの推定が完了する。すなわち、本発明 の信号分析装置では、雑音区間が存在しなくても、雑音レベルの推定が可能となる。
[0075] 本発明の信号分析装置は、特に、電池駆動を前提とした携帯型機器に用いること が望ましい。電池駆動をする携帯型機器では、電池の消費量を抑えるために、発声 のときだけ、入力信号が分析される。すなわち、雑音区間が存在しない使用態様であ つても、等価的に雑音スペクトルが推定できるので、回線特性の歪のみならず、雑音 などの歪も正規化することができる。
図面の簡単な説明 [0076] [図 1]MFCCを求めるための手順を示すフローチャートである。
[図 2]従来の MFCC分析を行う信号分析装置の構成を示すブロック図である。
[図 3]MFCC法を用いた従来の E— CMN法による分析を行う信号分析装置の構成を 示すブロック図である。
[図 4]本発明の信号分析装置の構成を示す図である。
[図 5]本発明にかかる信号分析処理の流れを示すフローチャートである。
[図 6]本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規 化係数、正規化帯域エネルギーとの対応関係を示す図である。
[図 7]正規化手段として低域遮断フィルタを用いた本発明の信号分析手段の構成を 示す図である。
[図 8]音声波形を含む音響信号の例を示す図である。
[図 9]図 8に示した音声波形を含む音響信号のスペクトログラムを簡略化した図である
[図 10]図 9に示したスぺクトルを従来の E— CMN法を用レ、て正規化する場合の正規 化処理を行う範囲を示す図である。
[図 11]図 9に示したスぺ外ルを、本発明の信号分析装置を用いて正規化する場合 の正規化処理を行う範囲を示す図である。
[図 12]図 8に示す音声波形を含む音響信号が入力された場合に、 E-CMN法による 雑音スペクトルの適応が進行する様子を示す図である。
[図 13]図 8に示す音声波形を含む音響信号が入力された場合に、本発明の信号分 析装置による雑音スペクトルの適応が進行する様子を示す図である。
[図 14]本発明の音声認識装置を用いた音声認識システムの例を示すブロック図であ る。
[図 15]本発明の音声認識装置や、本発明の音声認識装置を含んだ電子機器の構成 を示す図である。
発明を実施するための最良の形態
[0077] 以下に、本発明を実施するための最良の形態を、図面を参照しながら説明する。本 発明を実施するための最良の形態を、 MFCC法と、 E— CMN法と、比較しながら説 明する。なお、本発明は、これらによって限定されるものではない。
[0078] [MFCC法の構成]
[0079] 図 2は、従来の MFCC分析を行う信号分析装置の構成を示すブロック図である。図 中、参照符合 101は周波数分析手段を、参照符合 102はパラメータ変換手段を示す 。周波数分析手段 101は、図 1の周波数分析ステップ (ステップ S201)の処理を行い 、パラメータ変換手段 102は、図 1のパラメータ変換ステップ (ステップ S202)の処理 を行う。
[0080] [E—CMN法の構成]
[0081] 図 3は、 MFCC法を用いた従来の E— CMN法による分析を行う信号分析装置の構 成を示すブロック図である。この図では、図 3の MFCC分析を行う信号分析装置の構 成に、さらに入力信号から音声区間を検出する音声区間検出手段 203と、平均更新 手段 201と、減算処理手段 202とが追加された構成となっている。入力された音声を 、周波数分析手段 101とパラメータ計算手段 102とで処理することにより、 MFCC力 S 求められる。同時に、入力された音声は音声区間検出手段 203で処理され、音声区 間が検出される。平均更新手段は、ノ メータ計算手段 102から得られた平均ケプス トラムを、音声区間検出手段 203で得られた音声区間情報を用いて、更新する。具 体的には、音声区間であれば、音声の平均ケプストラムを更新し、非音声区間であ れば、雑音の平均ケプストラムを更新する。減算処理手段 202は、音声区間検出手 段 203で得られた音声区間情報を用いて、音声区間であればパラメータ計算手段 1 02から出力された現在のケプストラムから、音声の平均ケプストラムを減算し、非音声 区間であれば、ノ メータ計算手段 102から出力された現在のケプストラムから、雑 音の平均ケプストラムを減算する。
[0082] 音声区間検出方法としては、フレームごとの短時間信号パワーや、フレームごとの スペクトルの概形を用いて、音声区間を検出することが一般に行われている。これら の方法には、携帯電話などの音声通話に用いられる標準的な方法が用いられている
[0083] [本発明の構成]
[0084] 図 4は、本発明の信号分析装置の構成を示す図である。本発明では、図 4の MFC C分析に用いる信号分析装置の周波数分析手段 101とパラメータ計算手段 102との 間に、帯域ごとに、更新係数取得手段 301とレベル計算手段 302と正規化手段 303 と正規化係数取得手段 304とが設けられている。また、本発明の周波数帯域分析手 段 101は、入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段 3 05と、この各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽 出する帯域エネルギー抽出手段 306とから構成される。
[0085] 更新係数取得手段 301は、信号が入力される時刻より前に計算された雑音レベル や音声レベルと、前記周波数分析手段 101で求めた現在の帯域ごとの帯域ェネル ギ一とを比較し、レベル計算手段 302でレベルの更新に用いられる更新係数を得る
[0086] レベル計算手段 302は、前記更新係数取得手段 301で得られた更新係数を用い て、入力エネルギーと、雑音レベルや音声レベルとの差をもとに、雑音レベルや音声 レベルを更新し、記憶する。具体的な方法は、後述する。
[0087] 正規化係数取得手段 304は、上記更新係数取得手段 301と同様に、信号が入力 される時刻より前に計算された雑音レベルや音声レベルと、前記周波数分析手段 10 1で求めた現在の帯域ごとの帯域エネルギーとを比較し、正規化手段 303で用いる 正規化係数を計算する。
[0088] 正規化手段 303は、前記正規化係数取得手段 304で求めた正規化係数と、前記 レベル計算手段 302で求めた音声レベルや雑音レベルを用いて、前記周波数分析 手段 101で求めた現在の帯域エネルギーを正規化し、出力する。
[0089] この実施形態では、更新係数取得手段 301と正規化係数取得手段 304とを別の構 成にしているが、両者は類似した処理を行うため、更新係数取得手段 301と正規化 係数取得手段 304とを同一の構成としてもよい。
[0090] CMS法や E— CMN法の文献における実装では、単語や文章を発声した時の毎回 の音声を蓄えて、その音声レベルのレベルを求めて正規化して認識を行う、あるいは 1回前の発声のレベルを用いて正規化をするように記載されている。しかし、発声が 終了してから認識処理を行うのは、応答が遅いために現実的ではない。また、携帯 型の装置などでは、 1回前の使用環境が、現在の使用環境と同じである保証はない 。そこで、本実施の形態では、発声ごとのレベルや、 1回前の発声のレベルではなく、 実時間に雑音レベルなどを更新し、この更新された雑音レベルを用いて、実時間で 帯域エネルギーを正規化する態様を説明する。なお、本発明の信号分析装置は、発 声ごとのレベルや、 1回前の発声のレベルを用いて帯域エネルギーを正規化すること としてもよレ、。
[0091] [動作]
[0092] 図 5は、本発明に力、かる信号分析処理の流れを示すフローチャートである。図 6は、 本発明にかかる信号分析処理による入力帯域エネルギーと、更新係数、正規化係数 、正規化帯域エネルギーとの対応関係を示す図である。以下に、本発明の信号分析 の処理を、図 5と図 6を用いて詳細に説明する。なお、雑音は低いエネルギーであり、 音声は高いエネルギーであることを利用して、更新係数や正規化係数を適用する。
[0093] 周波数分析ステップ(ステップ S201)とパラメータ分析ステップ(ステップ S202)とで 行う処理は、図 1の処理と同様である。
[0094] 本発明の信号分析装置は、入力信号を 2以上の帯域に分割できれば、原理的には 動作する。また、周波数軸としては、メル周波数軸以外にも、パーク周波数軸や線形 周波数軸であっても動作する。なお、音声認識を目的として、信号分析を行う場合に は、周波数分析における帯域分割数や周波数スケールは、 MFCCに準拠した値で よぐ分割数は 10から 30程度が妥当である。例えば、 11kHzでサンプリングした音声 であれば、メル周波数軸上で 24帯域に分割し、 12次元のケプストラムへ変換する構 成であれば、有効であることが、実験により確認されている。従来の MFCCの処理に おける周波数分析ステップと、ノ メータ変換ステップの処理を、本発明の信号分析 装置に流用することで、処理量が増加することを抑制できる。
[0095] ステップ S203 ステップ S205で行う処理は、帯域ごとに独立して行われる。係数 取得ステップ (ステップ S203)は、周波数分析ステップ (ステップ S201)で求められた 帯域エネルギーと、入力信号の入力時刻以前に求められた帯域ごとの雑音レベルと の差から、更新係数および正規化係数を求める。次に、帯域ごとに求められた更新 係数を元に、前記帯域の雑音レベルを更新する(ステップ S204)。次に、ステップ S2 04で更新された、帯域の雑音レベルと、正規化係数を用いて、その帯域の帯域エネ ルギーを正規化する(ステップ S205)。正規化された帯域エネルギーを、ケプストラム 係数に変換する (ステップ S202)。
[0096] なお、本実施形態では、正規化された帯域エネルギーを、音声認識に一般的に用 いられるケプストラム係数に変換した。しかし、必ずしもケプストラム係数に変換する必 要はなぐ正規化されたエネルギーをそのまま出力する構成としてもよい。
[0097]
[0098] 次に、図 6を用いて、更新係数を用いて、帯域エネルギーにおける雑音レベルを更 新する方法について説明する。図 6(c)は、入力帯域エネルギーと更新係数との関係 を示す図である。
[0099] なお、雑音レベルを推定する方法としては、入力エネルギーのヒストグラムを計算し て、下方の数0 を雑音レベルとして採用する方法もある。しかし、ヒストグラムを計算 するためにはある程度長い入力が必要となる。このため、次に説明する、実時間で逐 次的に雑音レベルを更新する処理を行うのが好ましい。
[0100] 時亥 Ijtでの雑音レベルを N (t)、入力帯域エネルギーを E (t)、更新係数を a (t)とす ると、雑音レベル N(t)の更新は例えば次のように行われる。なお、雑音レベル、入力 帯域エネルギーの単位は、デシベル(dB)を基準と考える。
[0101] N(t)= (1-ct (t)) *N(t-l) + a (t) *E(t)…式(1)
[0102] a (t)= 0 (N(t-1)+R < E(t)のとき)
[0103] a (t) = A* (l-(E(t)-N(t-l))/R)
(N(t-l) <E(t)≤ N(t-l) +R のとき)
[0104] ひ (t)= A (E(t)≤ N(t-l) のとき)
[0105] ここで、 Aは、最大の更新係数を示し、 0以上、 1以下の値である。 Aは、例えば 0.0 2程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、例えば 2dB程 度とする。この更新係数は、入力された帯域エネルギーの時系列の中で、特に低い エネルギーが分布してレ、る場合の平均値を求めることができるので、雑音レベルを更 新すること力できる。
[0106] 上記式にぉレ、て、 ( a (t) /A)は、雑音らしさを示す指標と考えることができる。
[0107] 雑音レベルの初期値 N(O)を、 N(0) =E(1)とすれば、素早い立ち上がり特性が得 られ、良い認識結果が得られることが実験的に確かめられている。
[0108] 上記の式を用いて雑音レベルを更新すれば、雑音の下方への変化に対しては、比 較的速く追従し、上方への変化に対しては、徐々に追従速度が遅くなり、 1フレーム の間に R(dB)よりも大きな雑音の増加がある場合は、全く追従しなレ、。このような雑音 の変化速度への追従は、 Aと Rのパラメータによって制御することができる。 Aを 0.0 2とした場合は、 0.5Hz程度よりも遅い雑音の変化に対しては、上方へも追従するよ うになる。一般に音声の変化速度は、 1秒間に数個から十数個の音素が入れ替わる ことから、数 Hzから数十 Hzの成分が多い。一方、背景雑音はそれよりも遅い場合が 多レ、。ただし、突発性の雑音により、急激に雑音エネルギーが上昇することがあると、 その後追従できなくなる。このため、 a (t)の下限を 0ではなぐ微小な値、例えば 0· 001程度とすることで、数秒の後に追従するように設定することができる。
[0109] これらのパラメータの動作確認には、帯域ごとのエネルギー変化速度を調整した人 ェ的なデータを入力することにより、追従速度を確認することができる。
[0110] 時亥 Ijtでの音声レベルを S (t)、入力帯域エネルギーを E (t)、更新係数を γ (t)とす ると、音声レベル S (t)の更新は例えば次のように行う。
[0111] S(t) = (1- Ύ ;-l) + y (t) *E(t)--- 式 2
[0112] Ύ (t)= C (N(t-l) +R < E(t)のとき)
[0113] Ύ (t)= C* (E(t)-N(t-1)/R)
[0114] (N(t-l) <E(t)≤ N(t-l) +R のとき) [0115] Ύ (t) = 0 (E (t)≤ N (t-l ) のとき)
[0116] ここで、 Cは、最大の更新係数を示し、 1以下の値である。 Cは、上記 Aと同様に、例 えば 0. 02程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、上記 雑音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。この更新係 数は、入力された帯域エネルギーの時系列の中で、特に高いエネルギーが分布して レ、る場合の平均値を求めることができるので、音声レベルを更新することができる。
[0117] 初期値 S (0)には、前回の発声における最後の S (t)を用いることが好ましい。最後 の S (t)が得られない場合には、 S (0) =0を用いることで、よい結果が得られることが 、実験的に確認されている。ここで、 (γ (t) ZC)は、音声らしさを示す指標と考えるこ とができる。
[0118] 音声レベルに関しては、更新を行わず、固定的な値を用いることもできる。この場合 には、多量の音声データから平均的な音声レベルを計算して用いることが効果的で める。
[0119] 雑音レベルと音声レベルとを更新するためには、入力信号の時系列から雑音区間 か音声区間かを判断することが必要である。式 1および式 2では、両区間の検出は 2 値的に求めるのではなぐ中間的な値をとることができる(図 6 (c) )。雑音区間と音声 区間との判断は、周波数帯域ごとに行われる。このため、各帯域で判断された雑音 区間と音声区間は、他の帯域で判断された雑音区間と音声区間とは異なる。さらに、 各帯域で判断された雑音区間と音声区間とは、実際の話者の発声区間とも異なる。
[0120] 更新係数は、全ての周波数帯域で共通である必要はない。帯域ごとに異なる更新 係数を予め保持しておくことにより、帯域ごとに最適な更新係数を適応することができ る。
例えば、低周波数帯域での雑音が比較的ゆっくりと変動する場合には、低周波数 帯域の更新係数の最大値 Aを小さくすることで、音声入力に対して誤って追従して更 新される危険性が少なくなる。
[0121] [雑音レベル、音声レベルの簡略取得例]
[0122] 雑音レベルを求める方法として、入力時刻まで入力エネルギーの最小値を雑音レ ベルとすることもできる。これは、上記式(1)において、エネルギーの境界範囲を OdB とし、最大の更新係数を 1とした場合と考えることができる。また、音声レベルについて も、入力時刻まで入力エネルギーの最大値を音声レベルとすることもできる。これは、 雑音は低いエネルギーで、音声は高いエネルギーであることを利用したものである。
[0123] 雑音レベル、音声レベルを求める方法としては、この例に限られるものではなぐェ ネルギー分布の範囲内で、低い値と高い値とを求めることができる方法であれば、雑 音レベル、音声レベルを求めることができる。
[0124] [正規化基準]
[0125] 次に、図 6を用いて、正規化係数を用いて、帯域エネルギーを正規化する方法に ついて説明する。図 6(b)は、入力帯域エネルギーと正規化係数との関係を示す図 である。
[0126] 時亥 での雑音レベルを N (t)、入力帯域エネルギーを E (t)、正規化係数を β (t)と すると、正規化帯域エネルギー E' (t)は例えば次の式により求められる。なお、雑音 レベル、エネルギーの単位は、デシベル(dB)とする。
[0127] E,(t)= E(t)-i3 (t) ^Ν(ΐ)··· 式 3
[0128] β (t) = 0 (N(t-l) +R < E(t)のとき)
[0129] β (t) = B* (l_(E(t)_N(t_l))/R)
[0130] (N(t-l) <E(t)≤ N(t-l) +R のとき)
[0131] β (t) = B (E(t) ≤ N(t_l)のとき)
[0132] ここで、 Bは、最大の減算量を示し、 1以下の値である。 Bは、例えば 0.5程度の値 とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、例えば 2dB程度とする。 R は、上記更新係数での境界領域と同じ値としてもよいし、異なる値としてもよい。
[0133] 次に、雑音レベルに加え、音声レベル S(t)を用いて、帯域エネルギーを正規化す る方法を説明する。音声レベルを用いた帯域エネルギーの正規化は、例えば、下式 により計算できる。
[0134] E,(t)= E(t)-j3 (t) *N(t)-5 (t) *S(t)--- 式 4 [0135] δ (t) = D (N(t-l) +R < E(t)のとき)
[0136] δ (t) = D* (E(t)-N(t-1))/R [0137] (N(t-l) <E(t)≤ N(t-l) +R のとき)
[0138] δ (t) = 0 (E(t) ≤ N(t_l)のとき)
[0139] ここで、 Dは、最大の減算量を示し、 1以下の値である。 Dは、上記 Bと同様に、例え ば 0.5程度の値とする。 Rは、雑音と音声のエネルギーの境界範囲を示し、上記雑 音レベルでの境界領域と同じ値としてもよいし、異なる値としてもよい。
[0140] この例では、入力エネルギー E(t)と雑音レベル N(t)との差を用いて、音声レベル の正規化係数を求めた。この方法を用いると、話者や回線の特性による認識精度の 低下を低減できる。なお、入力エネルギー E(t)と音声レベル S(t)との差を用いて、 音声レベルの正規化係数を求めることもできる。
[0141] この例では、帯域エネルギーを正規化するために、音声レベルや雑音レベルに所 定の計算で求めた係数を掛けて入力帯域エネルギー力 減算する方法を示した。し かし、正規化を行うためには、この方法に限られず、例えば、入力エネルギーを音声 レベルで割るなどの除法による方法でも、正規化の効果が得られる場合がある。入力 のダイナミックレンジや環境変化の大きさに応じて、適宜正規化方法を変える構成と してもよい。
[0142] 図 6 (a)は、式 3と式 4とを用いて正規化された正規化帯域エネルギーと、入力され た帯域エネルギーとの関係を示す図である。雑音レベルと音声レベルとを両方用い る場合を、 Ε ' =Ε—β * Ν— δ * S のグラフに示す。 D = 0とした場合、すなわち雑 音のエネルギーだけを用いる場合を、 Ε ' =Ε—β * Ν のグラフに示す。各帯域の雑 音レベルと音声レベルの大きさに応じて、適宜適用する正規化係数を変えて、帯域 エネルギーを正規化することができる。この他にも、使用する環境が、非常に雑音の 安定した場所である場合などには、雑音の適用は必要なくなるので、 Β = 0とすること で、音声レベルのみを使用することができる。
[0143] [低域遮断フィルタを用いる場合]
[0144] 雑音と音声との境界領域の幅 R (dB)を非常に大きな値とした場合には、ほぼ全区 間で雑音レベルを一定の更新係数 Aで更新し、ほぼ全区間の入力帯域エネルギー に対して一定の正規化係数 Bで減算することになる。これを簡単に実現するには、図 7に示すように、各帯域に低域遮断フィルタを設ける構成とすればよい。図 7は、正規 化手段として低域遮断フィルタ 307を用いた本発明の信号分析手段の構成を示す 図である。すなわち、入力信号を周波数分析した後、各帯域のエネルギーについて 低域遮断を行い、その後、音声パラメータへと変換することにより、ある程度の正規化 の効果が得られる。この場合の低域遮断フィルタは、音声によるスペクトルの変化速 度である 1Hzから 10Hz程度よりも低い周波数、すなわち 1Hz以下の周波数を遮断 するものが好ましい。
[0145] この構成の実現の例として、 tをフレーム、低域遮断フィルタへの入力を x (t)、出力
[0146] y (t) =x (t) -z (t)
[0147] z (t) =x (t) *0. 02 + z (t) *0. 98 のような処理を行うと、フレーム周期力 S l Omsであれば'、 0. 5Hzで、 _l dB、 0. 24Hz で、約 _3dB、 0Hzで、 -5. 7dBの減衰特性となる。なお、この構成の実現の例は上 記式に従うものに限られない。
[0148] また、周波数帯域の低域と高域とで、雑音の変化速度が異なるような環境では、帯 域ごとに異なる特性の低域遮断フィルタで構成することにより、より使用環境に適した 性能改善を図ることができる。
[0149] [スペクトルからみた本実施の形態の動作]
[0150] 次に、本発明の実施の形態を、図に基づいてスペクトルの視点で説明する。
[0151] 図 8は、音声波形を含む音響信号の例を示す図である。図中、横軸は時間を、縦 軸は振幅を示す。この図では、時間 tl力 t2の区間が発声区間を表し、表示されて レ、る時間の全体に騒音が含まれていることを示している。
[0152] 図 9は、図 8に示した音声波形を含む音響信号のスペクトログラムを簡略化した図で ある。図中、横軸は時間を、縦軸は周波数を示す。時間 tlから t2の区間が発声区間 を表す。実際の音声スペクトルは連続値である力 この図の例では、簡単のため、他 の部分より相対的にエネルギーが高い領域を閉曲線で閉じ、網掛けで示している。
[0153] 図 10は、図 9に示したスぺクトノレを従来の E— CMN法を用いて正規化する場合の 正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区切り は分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは周波数帯域を示す 。他の部分より相対的にエネルギーが高い領域を閉曲線で閉じている。また、網掛け されている部分は音声区間としての適用範囲であり、それ以外の部分は雑音区間と しての適用範囲である。
[0154] E— CMN法を用いる場合、ケプストラム係数を正規化するに際して、周波数帯域を 選択して正規化することはできない。このため、音声区間と判断された時間 tlから t2 の区間では、音声のケプストラム係数が更新され、それ以外の区間では、雑音のケプ ストラム係数が更新される。更新されたケプストラム係数を用いて、それぞれの区間の ケプストラムが正規化される。このため、音声区間に雑音が含まれている場合には、 誤ってケプストラム係数が更新されることになる。
[0155] 図 11は、図 9に示したスペクトルを、本発明の信号分析装置を用いて正規化する場 合の正規化処理を行う範囲を示す図である。図中、横軸は時間を示し、横軸の各区 切りは分析フレームを示す。縦軸は周波数を示し、縦軸の各区切りは周波数帯域を 示す。また、網掛けされている部分は、音声区間としての適用範囲であり、それ以外 の部分は雑音区間としての適用範囲である。
[0156] 本発明の場合、帯域ごとに音声区間と雑音区間とを判断する。この結果、音声の発 声区間(tl一 t2)に関係なぐ周囲の雑音より高いエネルギーを持つ帯域とフレーム( 図の網掛け部分)では、その帯域の音声レベルが更新され、この更新された音声レ ベルを用いて帯域エネルギーが正規化される。それ以外の部分では、音声の発声区 間(tl一 t2)であっても、エネルギーが低ぐ雑音区間と判断されるので、その帯域の 雑音レベルが更新され、この更新された雑音レベルを用いて帯域エネルギーが正規 化される。
[0157] すなわち、本発明によれば、音声区間判断の際に、従来のように明らかな非音声区 間が存在しなくてもよい。複数の種類の音素が含まれる音声であれば、音声区間に 含まれる全ての帯域にぉレ、て、雑音レベルを更新できる。
[0158] なお、図 11では、簡単のため、図中に網掛け部分を設けて、音声区間と雑音区間 とは、明確な境界が存在するように図示した。しかし、式 1一式 4からわかるように、音 声区間と雑音区間とは、明確な境界が存在しない。実際は、帯域エネルギーの雑音 レベル N (t)から N (t) +Rの範囲で、徐々に切り替わるように処理を行う。 R = 0の場 合にのみ、図 11のような明確な境界が形成される。
[0159] [雑音区間のない入力の例]
[0160] 図 12は、図 8に示す音声波形を含む音響信号が入力された場合に、 E— CMN法 による雑音スペクトルの適応が進行する様子を示す図である。図 13は、図 8に示す音 声波形を含む音響信号が入力された場合に、本発明の信号分析装置による雑音ス ベクトルの適応が進行する様子を示す図である。図中、網掛け部分は、雑音が正しく 推定された帯域とフレームとを示す。
[0161] ここでは、特に雑音区間がない入力の例として、発声開始時刻と同じ時刻 tlから装 置への入力が開始した場合を示す。電池駆動の携帯型装置では、音声入力が、ボタ ンなどの指示で開始する。このような場合に、雑音区間がない入力が行われると考え られる。
[0162] 無響室などの特殊な場合を除き、入力雑音のレベルが事前にわからない実環境用 のシステムにおいて、雑音区間が存在しない入力音声に対しての音声切り出しは不 可能である。この場合に、最初の入力フレームを、音声と解釈するか、雑音と解釈す るかは、システムの設計による。 [0163] 最初の入力フレームを雑音と解釈するシステムの場合に、 E— CMN法を適用すると 、図 12の時刻 tlから t2までの発声区間は、全て雑音区間として認識される。このた め、誤った雑音スペクトルが推定される。これにより、第 1発声は、雑音として平坦化さ れるため、認識することができなくなる。そして、音声の入力が終わる t2以後に、本来 の雑音レベルの推定がされる。
[0164] 一方、最初の入力フレームを音声と解釈するシステムの場合であっても、 E-CMN 法を適用すると、図 12の時刻 tl力も t2までの発声区間、雑音スペクトルが推定でき ない。このため、 t2付近の語尾の認識精度に問題を生ずる。
[0165] 最初の入力フレームを雑音と解釈するシステムの場合に、本発明の信号分析装置 を用いると、音声の優位な帯域では、雑音スペクトルの推定誤りを生ずる。しかし、ス ぺクトル形状が変化し、帯域の音声パワーが雑音パワー以下になった時点で、その 帯域の雑音パワーが推定される。図 13の例では、発声が終了する時刻 t2よりも早い 時刻 t3で、雑音パワーの推定が終了する。したがって、時刻 t3から t2の間では、正し く雑音スぺ外ルを正規化できる。すなわち、本発明の信号分析装置を用いると、 E- CMN法を用いる場合よりも、早く正しい正規化が可能となる。また、雑音の推定が完 了した帯域では、完了時刻以降に、その帯域のパワーが上昇すると、音声パワーが 推定されるので、発声の途中から、精度の良い音声認識が可能となる。
[0166] このように、本発明の信号分析装置を用いると、ボタンなどによって音声入力開始を 指示する装置であっても、最初の発声から高精度の音声認識を行うことができる。
[0167] 以上説明したように、本発明の信号分析装置では、音声発声中にも雑音スぺクトノレ の推定ができる。この結果、発音中に、徐々に雑音スペクトルが変化するような場合 でも、その変化がゆっくりと進むものであれば、雑音の変化に適応して、正規化を行う こと力 Sできる。したがって、本発明の信号分析装置を音声認識装置に適用すれば、よ り安定した音声認識ができる音声認識装置が得られる。
[0168] [音声認識装置とその認識方法]
[0169] 図 14は、本発明の音声認識装置を用いた音声認識システムの例を示すブロック図 である。音声認識システムは、一般に音響モデル学習装置 401と音声認識装置 402 とを有して構成される。 [0170] 音声データベース 403は、音響モデルを学習するためのものである。主として、パ 一ソナルコンピュータや、ワークステーションの固定ディスクなどに格納されている。 参照符合 404は、本発明の信号分析装置を用いた信号分析手段である。実際は、 図 6に示す構成のものや、図 6で示す構成に、さらに音響パラメータの時間的な変化 量を求める部分を追加した構成で、使用される。参照符合 405は、音響モデル学習 手段であり、音声データベースの発声内容を記録した言語データベース 406と、前 記信号分析手段 404の出力から、統計的に各音素あるいは各音節といった音声単 位毎に統計を求める。モデルは一般に隠れマルコフモデルを用いる場合が一般的 である。
[0171] 参照符合 407は、音響モデル学習手段 405で求めた音響モデルを示す。参照符 合 408は別途作成した言語辞書である。言語辞書 408は、単語を音素列で表した単 語辞書や、単語間の接続制限を規定した文法データを含む。言語辞書 408の作成 は、手作業で行ってもよぐ言語データベース 406に含まれる文章から単語間の接続 確率を統計で求めてもょレ、。
[0172] 参照符合 409は、信号分析装置 404と同様の信号分析を行う信号分析手段である 。参照符合 410は、尤度演算手段を示し、前記音響モデル 407の各統計量と、信号 分析手段 409で求めた音響パラメータから、各時刻の入力信号に対する各音声単位 の尤度を求める。参照符合 411は照合手段であり、求められた各音声単位の尤度の 時系列から尤もらしい言語的な仮説の尤度を計算し、尤度の高い順に候補を出力す る。音声認識方法としては、尤度演算や照合手段を明確に分離しない実装もあり得 る。
[0173] [プログラム、電子機器]
[0174] 音声認識は、一般に、汎用あるいは信号処理用の CPUを用いて、デジタル処理で 、実行される。図 15は、本発明の音声認識装置や、本発明の音声認識装置を含ん だ電子機器の構成を示す図である。
[0175] 参照符合 501は、パーソナルコンピュータを始めデジタル機器におけるデータゃァ ドレスのバスを示す。各処理手段は、このバスに接続されており、各々の処理を行う。 参照符合 502は、ボタンやキーボード、マイクなどの複数の入力手段を示す。音声入 力は、マイクから入力される場合に限られず、別の機器で電気信号に変換されたもの を、通信回線を介して入力する場合もある。参照符合 503は、入力手段 502からの指 示に従い、機器を制御し、また入力された音声を音声認識する CPUを示す。参照符 合 504は、 CPUが処理するための作業用のメモリ、および、音声認識プログラムを含 むプログラムメモリである。参照符合 505は、ディスプレイやブザー、スピーカ、ランプ などの出力装置である。音声を認識した結果は、候補として表示される場合もあるし、 認識結果を受けて何らかの処理が行われる場合もあり、さらには処理された結果を表 示する場合もある。この電子機器が携帯電話の場合は、これらの処理ブロックに、図 示しない無線通信手段が追加される。パーソナルコンピュータや携帯型情報機器な どでは、通信手段や外部記憶装置などが追加される。
[0176] 音声認識装置により認識した結果に基づレ、て、機能を選択し、実行する例としては 、例えばテレビのチャンネルを切り替える操作、ビデオ装置の再生や停止などの操作 、エアコンの温度設定などが挙げられる。また、情報端末の場合であれば、通信の制 御、プログラムの実行制御、文字の入力などが挙げられる。
[0177] 信号分析プログラムあるいは音声認識プログラムを含むこれらの装置の制御プログ ラムは、プログラム記録媒体に記録された情報処理プログラムによって実現される。 上記実施の形態における上記プログラム記録媒体は、 RAM (ランダム'アクセス'メモ リ)とは別体に設けられた ROM (リード 'オンリー'メモリ)でなるプログラムメディアであ る。または、外部補助記録装置に装着されて読み出されるプログラムメディアが好まし レ、。尚、何れの場合においても、上記プログラムメディアから情報処理プログラムを読 み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み 出す構成を有してレ、てもよレ、し、上記 RAMに設けられたプログラム記憶エリア(図示 せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有 してレ、てもよレ、。尚、上記プログラムメディアから RAMの上記プログラム記録エリアに ダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているも のとする。
[0178] ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープや カセットテープ等のテープ系、フロッピーディスク、ハードデイクス等の磁気 CD (コンパクトディスク)一 ROM、 MO (光磁気)ディスク、 MD (ミニディスク)、 DVD ( デジタル多用途ディスク)等の光ディスクのディスク系、 IC (集積回路)カードや光力 ード等のカード系、マスク ROM、 EPROM (紫外線消去型 ROM)、 EEPROM (電 気的消去型 ROM)、フラッシュ ROM等の半導体メモリ系を含めた、固定的にプログ ラムを坦持する媒体である。
[0179] また、上記実施の形態における音声認識装置あるいは電子機器は、モデムを備え てインターネットを含む通信ネットワークと接続可能となっている。この場合、上記プロ グラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラム を坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットヮー クからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されて レ、るものとする。あるいは、別の記録媒体からインストールされるものとする。
[0180] 今回開示された実施の形態はすべての点で例示であって制限的なものではないと 考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲に よって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含ま れることが意図される。
産業上の利用可能性
[0181] 本発明を利用した電子機器は、雑音や回線特性による歪の影響を受けにくい。こ の結果、家庭で使用する音声認識型のリモコンや、携帯電話などの電子機器として 利用される。

Claims

請求の範囲
[1] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、
前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出手段と、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化手段とを有する信号分析装置。
[2] 請求項 1に記載の信号分析装置であって、
前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、直流成分を 減衰させる低域遮断フィルタで構成されてレ、る。
[3] 請求項 1に記載の信号分析装置であって、
前記抽出された帯域エネルギーの系列から、帯域ごとの条件付平均値を、第 1のレ ベルとして計算するレベル計算手段を有し、
前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の第 1のレベルを所定の係数で乗じた値を減算する。
[4] 請求項 3に記載の信号分析装置であって、
前記レベル計算手段は、前記第 1のレベルの計算に加え、前記抽出された帯域ェ ネルギ一の系列から、第 1のレベルとは異なる、帯域ごとの条件付き平均値の少なく とも 1つを、第 2のレベルとして計算し、
前記正規化手段は、前記帯域ごとに抽出された帯域エネルギーから、同じ帯域の 第 1のレベルおよび第 2のレベルをそれぞれ所定の係数で乗じた値を減算する。
[5] 請求項 3に記載の信号分析装置であって、
前記帯域エネルギーの値に応じて 1つまたは複数の正規化係数を求める正規化係 数取得手段をさらに有し、
前記正規化手段は、前記帯域ごと抽出された帯域エネルギーから、同じ帯域の前 記第 1のレベルまたは前記第 1のレベルおよび複数のレベルに前記正規化係数を乗 じた値を減算する。
[6] 請求項 4に記載の信号分析装置であって、
前記第 1のレベルが、音声を含まない背景雑音の、帯域ごとの条件付き平均値であ り、
前記第 2のレベルが、音声の、帯域ごとの条件付き平均値である。
[7] 信号の正規化を逐次的に行う信号処理装置であって、
入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算手段と、 前記第 1のレベルに所定の係数を乗じた値を入力信号力 減算する正規化手段と 前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数 取得手段とを備え、
前記レベル計算手段は、前記更新係数を用いて、第 1のレベルを入力信号に近づ けることにより、第 1のレベルを入力信号の条件付平均値とする。
[8] 請求項 7に記載の信号処理装置であって、
前記第 1のレベルと前記入力信号との差に基づいて、正規化係数を取得する正規 化係数取得手段を備え、
前記正規化手段は、前記第 1のレベルに正規化係数を乗じた値を入力信号力 減 算し、入力レベルに応じて減算量を制御する。
[9] 請求項 7に記載の信号処理装置であって、
前記レベル計算手段は、入力信号に基づレ、て複数のレベルを更新して記憶し、 前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力 信号から減算し、
前記更新係数取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、 複数のレベルの更新係数を求め、
前記レベル計算手段は、前記複数のレベルの更新係数を用いて、前記求められた 複数のレベルを更新して、入力の分布に適した正規化を行う。
[10] 請求項 8に記載の信号処理装置であって、
前記レベル計算手段は、入力信号に基づいて複数のレベルを更新して記憶し、 前記正規化手段は、前記複数のレベルにそれぞれ所定の係数を乗じた値を入力 信号から減算し、
前記更新係数取得手段は、前記第 1のレベルと前記入力信号との差に基づいて、 複数のレベルの更新係数を求め、
前記正規化係数取得手段は、複数のレベルに対応した複数の正規化係数を求め 前記正規化手段は、前記複数のレベルのそれぞれに対応した正規化係数をそれ ぞれのレベルに乗じた値を入力信号から減算し、入力のレベルに応じて適した正規 化を行う。
[11] 請求項 3に記載の信号分析装置であって、
各帯域でのレベル計算手段および正規化手段は、信号の正規化を逐次的に行う 信号処理装置を含み、
前記信号処理装置は、入力信号に基づいて第 1のレベルを更新し、記憶する手段 と、
前記第 1のレベルに所定の係数を乗じた値を入力信号力 減算する手段と、 前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数 取得手段とを備え、
前記レベル計算手段は、前記更新係数を用いて、前記第 1のレベルを入力信号に 近づけることにより前記第 1のレベルを入力信号の条件付平均値とする。
[12] 請求項 11に記載の信号分析装置であって、
低周波に属する帯域と、高周波に属する帯域とでは、前記所定の係数を異なる値 とする。
[13] 請求項 1に記載の信号分析装置であって、
各時刻の入力信号力 得られた帯域ごとの帯域エネルギーを、対数エネルギーと して処理する。
[14] 請求項 1に記載の信号分析装置と、
信号分析装置から得られた帯域ごとに正規化された帯域エネルギーから音響パラ メータを求めるパラメータ変換手段を有し、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音 声認識部とを、有する音声認識装置。
[15] 請求項 14に記載の音声認識装置であって、 MFCC (Mel Frequency Cepstrum Coefficients)パラメータの抽出過程に おいて、各帯域エネルギーの正規化を行う。
[16] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出ステップと、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化ステップと、を備えたコンピュータに実行させるための信号 分析プログラム。
[17] コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムであって、 入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算ステップと、 前記第 1のレベルに所定の係数を乗じた値を入力信号から減算する正規化ステツ プと、
前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数 取得ステップとを備え、
前記レベル計算手段ステップは、前記更新係数を用いて、第 1のレベルを入力信 号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。
[18] 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出ステップと、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化ステップと、
帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変 換ステップと、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音 声認識ステップとを備えた、音声認識をコンピュータに実行させるための音声認識プ ログラム。
[19] コンピュータに実行させるための信号分析プログラムを記録した記録媒体であって、 前記信号分析プログラムは、 入力信号を複数の周波数帯域の信号に分割する周波数帯域分割. 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出ステップと、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化ステップと備える。
[20] コンピュータに信号の正規化を逐次的に行わせる信号分析プログラムを記録したコン ピュータ読み取り可能な記録媒体であって、
前記信号分析プログラムは、
入力信号に基づいて第 1のレベルを更新し、記憶するレベル計算ステップと、 前記第 1のレベルに所定の係数を乗じた値を入力信号から減算する正規化ステツ プと、
前記第 1のレベルと前記入力信号との差に基づいて、更新係数を求める更新係数 取得ステップとを備え、
前記レベル計算手段ステップは、前記更新係数を用いて、第 1のレベルを入力信 号に近づけることにより、第 1のレベルを入力信号の条件付平均値とする。
[21] 音声認識をコンピュータに実行させるための音声認識プログラムを記録したコンビュ ータ読み取り可能な記録媒体であって、
前記音声認識プログラムは、
入力信号を複数の周波数帯域の信号に分割する周波数帯域分割ステップと、 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出ステップと、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化ステップと、
帯域ごとに正規化された帯域エネルギーから音響パラメータを求めるパラメータ変 換ステップと、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音 声認識ステップとを備える。
[22] 音声認識装置を備えた電子機器であって、 前記音声認識装置は、
信号分析装置と、
前記信号分析装置から得られた、帯域ごとに正規化された帯域エネルギーから、 音響パラメータを求めるパラメータ変換手段と、
前記求められた音響パラメータを用いて、入力信号に含まれる音声を認識する音 声認識部とを備え、
前記信号分析装置は、
入力信号を複数の周波数帯域の信号に分割する周波数帯域分割手段と、 前記各帯域に分割された入力信号に対して、帯域ごとの帯域エネルギーを抽出す る帯域エネルギー抽出手段と、
前記抽出された帯域エネルギーを帯域ごとに正規化し、帯域ごとの正規化帯域ェ ネルギーを求める正規化手段とを備え、 入力信号に含まれる音声信号を前記音声認識装置により認識した結果に基づいて 、機能を選択し、実行する。
PCT/JP2004/010841 2003-08-22 2004-07-29 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器 WO2005020212A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2004800241642A CN1839427B (zh) 2003-08-22 2004-07-29 信号分析装置、信号处理装置、语音识别装置和电子设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-299346 2003-08-22
JP2003299346A JP4301896B2 (ja) 2003-08-22 2003-08-22 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器

Publications (1)

Publication Number Publication Date
WO2005020212A1 true WO2005020212A1 (ja) 2005-03-03

Family

ID=34213754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/010841 WO2005020212A1 (ja) 2003-08-22 2004-07-29 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器

Country Status (3)

Country Link
JP (1) JP4301896B2 (ja)
CN (1) CN1839427B (ja)
WO (1) WO2005020212A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797008A (zh) * 2018-07-16 2020-02-14 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
US10897534B1 (en) 2019-09-13 2021-01-19 International Business Machines Corporation Optimization for a call that waits in queue

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5019414B2 (ja) * 2006-02-09 2012-09-05 株式会社リコー 定着装置及び画像形成装置
JP4869420B2 (ja) * 2010-03-25 2012-02-08 株式会社東芝 音情報判定装置、及び音情報判定方法
JP5724361B2 (ja) * 2010-12-17 2015-05-27 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
IN2014CN04097A (ja) 2011-12-07 2015-07-10 Qualcomm Inc
JP6127422B2 (ja) 2012-09-25 2017-05-17 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
US10629184B2 (en) 2014-12-22 2020-04-21 Intel Corporation Cepstral variance normalization for audio feature extraction
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US11763834B2 (en) * 2017-07-19 2023-09-19 Nippon Telegraph And Telephone Corporation Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
CN108461081B (zh) * 2018-03-21 2020-07-31 北京金山安全软件有限公司 语音控制的方法、装置、设备和存储介质
JP7421869B2 (ja) * 2019-04-26 2024-01-25 株式会社スクウェア・エニックス 情報処理プログラム、情報処理装置、情報処理方法及び学習済モデル生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03230200A (ja) * 1990-02-05 1991-10-14 Sekisui Chem Co Ltd 音声認識方法
JPH10133692A (ja) * 1996-10-28 1998-05-22 Hitachi Ltd 録音装置及びカメラ一体型映像音声記録装置
JP2002014694A (ja) * 2000-06-30 2002-01-18 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2003195894A (ja) * 2001-12-27 2003-07-09 Mitsubishi Electric Corp 符号化装置、復号化装置、符号化方法、及び復号化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3230200B2 (ja) * 1995-06-26 2001-11-19 農林水産省蚕糸・昆虫農業技術研究所長 改質蛋白質繊維又はその繊維製品の製造法
JP3574123B2 (ja) * 2001-03-28 2004-10-06 三菱電機株式会社 雑音抑圧装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03230200A (ja) * 1990-02-05 1991-10-14 Sekisui Chem Co Ltd 音声認識方法
JPH10133692A (ja) * 1996-10-28 1998-05-22 Hitachi Ltd 録音装置及びカメラ一体型映像音声記録装置
JP2002014694A (ja) * 2000-06-30 2002-01-18 Toyota Central Res & Dev Lab Inc 音声認識装置
JP2003195894A (ja) * 2001-12-27 2003-07-09 Mitsubishi Electric Corp 符号化装置、復号化装置、符号化方法、及び復号化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKABANE, T. ET AL.: "Filter Bank Shutsuryoku no Seiki o Mochiita Zatsuon ni Ganken na Onsei Ninshiki", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2004 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I., 17 March 2004 (2004-03-17), pages 119 - 120 *
SHOKYO, M. ET AL.: "Onsei Kyocho Shuho E-CMN/CSS no Jidosha Kankyonai deno Onsei Ninshiki ni Okeru Hyoka", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS RONBUNSHI D-11, vol. J-81-D-II, no. 1, 25 January 1998 (1998-01-25), pages 1 - 9 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797008A (zh) * 2018-07-16 2020-02-14 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
CN110797008B (zh) * 2018-07-16 2024-03-29 阿里巴巴集团控股有限公司 一种远场语音识别方法、语音识别模型训练方法和服务器
US10897534B1 (en) 2019-09-13 2021-01-19 International Business Machines Corporation Optimization for a call that waits in queue
WO2021047209A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Optimization for a call that waits in queue
GB2600847A (en) * 2019-09-13 2022-05-11 Ibm Optimization for a call that waits in queue
GB2600847B (en) * 2019-09-13 2022-12-07 Ibm Optimization for a call that waits in queue

Also Published As

Publication number Publication date
JP2005070367A (ja) 2005-03-17
CN1839427B (zh) 2010-04-28
CN1839427A (zh) 2006-09-27
JP4301896B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
Hilger et al. Quantile based histogram equalization for noise robust large vocabulary speech recognition
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
EP1355296B1 (en) Keyword detection in a speech signal
CN112951259B (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
US8473282B2 (en) Sound processing device and program
JP2000132177A (ja) 音声処理装置及び方法
IL125649A (en) Method and device for detecting signal of a sound sampled from noise
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
US6182036B1 (en) Method of extracting features in a voice recognition system
JP4301896B2 (ja) 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
CN110268471B (zh) 具有嵌入式降噪的asr的方法和设备
JP2000132181A (ja) 音声処理装置及び方法
US10446173B2 (en) Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program
US7236930B2 (en) Method to extend operating range of joint additive and convolutive compensating algorithms
JP2000122688A (ja) 音声処理装置及び方法
Motlıcek Feature extraction in speech coding and recognition
KR102051966B1 (ko) 음성 인식 향상 장치 및 방법
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
JP2003271190A (ja) 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置
Oonishi et al. A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition
CN118379986B (zh) 基于关键词的非标准语音识别方法、装置、设备及介质
Fan et al. Power-normalized PLP (PNPLP) feature for robust speech recognition
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480024164.2

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
122 Ep: pct application non-entry in european phase