WO2011070972A1 - 音声認識システム、音声認識方法および音声認識プログラム - Google Patents

音声認識システム、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
WO2011070972A1
WO2011070972A1 PCT/JP2010/071619 JP2010071619W WO2011070972A1 WO 2011070972 A1 WO2011070972 A1 WO 2011070972A1 JP 2010071619 W JP2010071619 W JP 2010071619W WO 2011070972 A1 WO2011070972 A1 WO 2011070972A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
voice
section
likelihood
length
Prior art date
Application number
PCT/JP2010/071619
Other languages
English (en)
French (fr)
Inventor
隆行 荒川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011545189A priority Critical patent/JP5621783B2/ja
Priority to US13/514,894 priority patent/US9002709B2/en
Publication of WO2011070972A1 publication Critical patent/WO2011070972A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Definitions

  • the present invention relates to a speech recognition system, a speech recognition method, and a speech recognition program for recognizing speech in an environment where background noise exists.
  • a general speech recognition system extracts a time series of feature amounts from time series data of input sound collected by a microphone and the like, a word and phoneme model to be recognized, and a non-speech model other than the recognition target. Is used to calculate the likelihood of the feature quantity with respect to the time series. Then, the speech recognition system searches a word string corresponding to the time series of the input sound based on the calculated likelihood, and outputs a recognition result.
  • Patent Document 1 describes a speech recognition device that reduces deterioration of speech recognition performance caused by a silent portion.
  • FIG. 9 is an explanatory diagram showing a voice recognition device described in Patent Document 1. In FIG.
  • the speech recognition apparatus described in Patent Document 1 includes a microphone 201 that collects input sound, a framing unit 202 that extracts time-series data of the collected sound in predetermined time units, and noise that extracts a noise section.
  • An observation section extraction unit 203 an observation section extraction unit 203, an utterance switch 204 for a user to notify the system of the start of utterance, a feature amount extraction unit 205 that extracts a feature amount for each extracted audio data, and a time series of feature amounts
  • a speech recognition unit 208 that performs speech recognition, and a silence model correction unit 207 that corrects a silence model among acoustic models used in the speech recognition unit.
  • the noise observation section extraction unit 203 estimates background noise from the section immediately before the speech switch 204 is pressed, and the silence model correction unit 207 is based on the estimated background noise. Adapt the silence model to the background noise environment. With such a configuration, the speech recognition apparatus reduces misrecognition of speech by facilitating determination of silence other than the target speech.
  • Patent Document 2 describes a speech recognition device that reduces the misrecognition rate for a speech section to which background noise other than the data used during garbage model learning is added.
  • FIG. 10 is an explanatory diagram showing a voice recognition device described in Patent Document 2. As shown in FIG.
  • the speech recognition apparatus described in Patent Document 2 includes an analysis unit 302 that analyzes a time series of feature amounts from time series data of collected sounds, and a correction value calculation unit 303 that calculates a correction amount based on the feature amounts.
  • a collation unit 304 that collates a recognition target word string from a time series of feature amounts, a garbage model 305 that models a sound pattern corresponding to background noise, and a recognition target vocabulary model 306.
  • the correction value calculation unit 303 determines the likelihood of speech from the feature amount based on the pitch frequency, formant frequency, bandwidth feature amount, and the like.
  • the correction value calculation means 303 calculates
  • Non-Patent Document 1 describes a method for recognizing speech from speech data and a model used in speech recognition.
  • the speech recognition apparatus described in Patent Document 1 adapts the silence model to the background noise environment by estimating noise from a section immediately before the speech switch is pressed in order to suppress the adverse effects of sounds other than the recognition target. I am letting.
  • the time during which the speech switch is pressed does not necessarily correspond to the time during which the speech to be recognized is performed.
  • the speech recognition apparatus described in Patent Document 2 determines the likelihood of speech from the pitch frequency, formant frequency, bandwidth feature amount, etc. in order to suppress the adverse effects of sounds other than the recognition target, and the likelihood for the garbage model.
  • the correction value for correcting is obtained.
  • the calculated correction value may adversely affect the sound quality determination.
  • the speech recognition apparatus can determine a speech section (a section where a person is speaking) and a non-speech section other than that by using the fact that power (volume) is different. . That is, since the volume of the section where the person is not speaking is low and the volume of the section where the person is speaking is high, the speech recognition apparatus determines whether the volume is equal to or higher than a certain threshold value. Non-voice can be determined. However, in a noisy environment, the volume of noise is high even if a person is not speaking. Further, since the threshold value determined for determining whether the sound is non-speech depends on the volume of the noise, it is difficult to determine the sound and non-speech.
  • the volume of the voice tends to increase in a relatively large and clear speaking section and decrease in the first or last section of the utterance.
  • S the sound volume
  • Smax the maximum value of the sound volume
  • Smin the minimum value
  • Smin the volume of noise
  • the threshold value for determining speech and non-speech is denoted as ⁇
  • the threshold ⁇ is included in the range of Nmax ⁇ ⁇ Smin + Nmin, the relationship of S> ⁇ in the speech section and non Since the relationship of N ⁇ always holds in the speech section, the speech recognition apparatus can determine speech and non-speech. From this relationship, the following two points can be cited as conditions required for the threshold ⁇ . (1) Since the minimum value Smin of the sound volume is unknown until the utterance is finished, the maximum value that the threshold ⁇ can take is unknown. For this reason, the user or the like wants to set ⁇ as small as possible.
  • the present invention provides a speech recognition system, a speech recognition method, and a speech recognition program capable of suppressing the adverse effects of sounds other than the recognition target and accurately estimating the target speech segment. For the purpose.
  • the speech recognition system calculates a speech feature amount based on a time-series input sound, compares a threshold value with the speech feature amount, determines a speech segment or a non-speech segment, Speech determination means for determining a section in which a margin of a specified length is added before and after the section as the first speech section, speech likelihood and non-speech likelihood calculated based on the speech recognition feature amount Based on the degree, according to the difference between the search means for determining the target speech recognition section as the second speech section, the length of the first speech section and the length of the second speech section, The voice determination means includes parameter update means for updating at least one of the threshold and the margin used when determining the first voice section, and the voice determination means includes a threshold updated by the parameter update means or Ma Using down, determining a first speech section.
  • the speech recognition method calculates a speech feature amount based on a time-series input sound, compares a threshold value with the speech feature amount, determines a speech segment or a non-speech segment, A section in which a margin of a specified length is added before and after the section is determined as the first speech section, and based on speech likelihood and non-speech likelihood calculated based on the speech recognition feature value Then, the section to be subjected to speech recognition is determined as the second voice section, and the first voice section is determined according to the difference between the length of the first voice section and the length of the second voice section.
  • the speech recognition program stored in the program recording medium calculates a speech feature amount based on time-series input sounds to a computer, compares the threshold value with the speech feature amount, and determines a speech interval or non-existence.
  • Speech recognition that is a feature amount used in speech recognition processing and speech recognition for determining a speech segment and determining a segment in which the segment or a specified length margin is added before and after the segment as a first speech segment
  • Search processing for determining a speech recognition target section as a second speech section based on speech likelihood and non-speech likelihood calculated based on a feature amount
  • the first speech section A parameter for updating at least one of the threshold and the margin used when determining the first speech section in the speech determination process according to the difference between the length of the second speech section and the length of the second speech section
  • the voice determination process using the threshold or margin updated in the parameter updating process, to determine a first speech section.
  • the present invention provides a speech recognition system, a speech recognition method, and a speech recognition program capable of suppressing the adverse effects of sounds other than the recognition target and accurately estimating the target speech segment.
  • FIG. 1 is a block diagram showing an example of a speech recognition system according to the first embodiment of the present invention.
  • the speech recognition system according to the present invention includes a microphone 101, a framing unit 102, a speech determination unit 103, a correction value calculation unit 104, a feature amount calculation unit 105, a non-speech model storage unit 106, a vocabulary / phoneme model.
  • a storage unit 107, a search unit 108, and a parameter update unit 109 are provided.
  • the microphone 101 is a device that collects input sound.
  • the framing unit 102 cuts time-series input sound data collected by the microphone 101 for each unit time.
  • the voice determination unit 103 calculates a feature quantity indicating the likelihood of voice (hereinafter, sometimes referred to as a voice feature quantity) based on time-series input sound data. That is, the voice determination unit 103 obtains a feature amount indicating the likelihood of voice for each input sound data cut out for each frame. Then, the sound determination unit 103 compares a threshold value (hereinafter referred to as a threshold value ⁇ ) determined as a value for classifying the input sound into sound or non-speech and the sound feature amount, and determines based on the threshold value.
  • a threshold value hereinafter referred to as a threshold value ⁇
  • the voice determination unit 103 determines a section where the calculated voice feature amount is larger than the threshold ⁇ set as a value for classifying the input sound as voice or non-voice as the first voice section.
  • a section in which the voice feature amount is larger than the threshold ⁇ is described as the first voice section.
  • the feature amount (speech feature amount) indicating the soundness is, for example, amplitude power.
  • the feature quantity indicating the sound quality is not limited to the amplitude power.
  • the speech determination unit 103 determines the first speech section by comparing the feature amount with the threshold value ⁇ .
  • the feature amount calculation unit 105 calculates a feature amount used for speech recognition (hereinafter sometimes referred to as a speech recognition feature amount) based on the speech data. Specifically, the feature amount calculation unit 105 calculates a feature amount (speech recognition feature amount) used for speech recognition from speech data cut out for each frame.
  • the feature amount (speech recognition feature amount) used for speech recognition is, for example, a cepstrum feature amount and its dynamic feature amount. However, the feature amount used for speech recognition is not limited to the cepstrum feature amount. Since the calculation method of the feature amount used for speech recognition is widely known, detailed description is omitted.
  • the non-speech model storage unit 106 stores a non-speech model representing a pattern other than speech that is a target of speech recognition. In the following description, a pattern other than speech that is subject to speech recognition may be referred to as a non-speech pattern.
  • the vocabulary / phoneme model storage unit 107 stores a vocabulary / phoneme model representing a vocabulary of speech or a phoneme pattern to be subjected to speech recognition.
  • the non-speech model storage unit 106 and the vocabulary / phoneme model storage unit 107 store a non-speech model and a vocabulary / phoneme model represented by a probability model such as a hidden Markov model, for example.
  • the model parameters may be learned in advance by the speech recognition apparatus using standard input sound data.
  • the non-voice model storage unit 106 and the vocabulary / phoneme model storage unit 107 are realized by a magnetic disk device, for example.
  • the search unit 108 calculates the likelihood of speech and the likelihood of non-speech based on the feature amount (speech recognition feature amount) used for speech recognition, and searches the word string using this likelihood and the above model. To do. For example, the search unit 108 may search for the most likely word string among the calculated speech likelihoods.
  • the search unit 108 determines a section (hereinafter referred to as a second voice section) that is a target of speech recognition based on the calculated speech likelihood and non-speech likelihood. Specifically, the search unit 108 determines a section in which the speech likelihood calculated based on the speech recognition feature value is higher than the non-speech likelihood as the second speech section. As described above, the search unit 108 obtains a word string (recognition result) corresponding to the input sound and obtains a second speech section by using the feature amount, the vocabulary / phoneme model, and the non-speech model for each frame.
  • the speech likelihood is a numerical value representing the likelihood that a speech vocabulary or phoneme pattern represented by a vocabulary / phoneme model matches an input sound.
  • the non-speech likelihood is a numerical value representing the likelihood that the non-speech pattern represented by the non-speech model matches the input sound.
  • the parameter update unit 109 updates the threshold ⁇ according to the difference between the length of the first speech segment and the length of the second speech segment. That is, the parameter update unit 109 compares the first voice segment and the second voice segment, and updates the threshold ⁇ used by the voice determination unit 103. At this time, the voice determination unit 103 determines the first voice section using the updated threshold value ⁇ . As described above, the voice determination unit 103 determines the first voice section using the value (parameter) updated by the parameter update unit 109.
  • the threshold value ⁇ updated by the parameter update unit 109 is a parameter used when the voice determination unit 103 determines the first voice segment.
  • the correction value calculation unit 104 calculates a correction value used as a value for correcting the likelihood of speech or the likelihood of non-speech according to the difference between the feature amount (speech feature amount) indicating the likelihood of speech and the threshold ⁇ . . That is, the correction value calculation unit 104 calculates a likelihood correction value from the feature amount (speech feature amount) indicating the likelihood of speech and the threshold value ⁇ .
  • the search unit 108 determines the second speech section based on the likelihood corrected based on the correction value.
  • the framing unit 102, the speech determination unit 103, the correction value calculation unit 104, the feature amount calculation unit 105, the search unit 108, and the parameter update unit 109 are computer CPUs that operate according to a program (voice recognition program). (Central Processing Unit).
  • a program voice recognition program
  • the program is stored in a storage unit (not shown) of the speech recognition apparatus, and the CPU reads the program, and in accordance with the program, the framing unit 102, the speech determination unit 103, the correction value calculation unit 104, and the feature amount calculation Unit 105, search unit 108, and parameter update unit 109 may operate.
  • FIG. 2 is a flowchart showing an example of the operation of the speech recognition system in the present embodiment.
  • the framing unit 102 cuts the collected time-series input sound data into frames for each unit time (step S101). For example, the framing unit 102 may sequentially cut out waveform data for a unit time while shifting a portion to be cut out from the input sound data by a predetermined time.
  • this unit time is referred to as a frame width, and this predetermined time is referred to as a frame shift.
  • the input sound data is 16-bit Linear-PCM (Pulse Code Modulation) with a sampling frequency of 8000 Hz
  • waveform data for 8000 points per second is included.
  • the framing unit 102 sequentially cuts out the waveform data according to a time series at a frame width of 200 points (ie, 25 milliseconds) and a frame shift of 80 points (ie, 10 milliseconds).
  • the speech determination unit 103 determines a first speech section by calculating a feature amount (that is, speech feature amount) indicating the speech likeness of the input sound data cut out for each frame and comparing it with a threshold value ⁇ .
  • a feature amount that is, speech feature amount
  • the value of the threshold ⁇ in the initial state for example, the user or the like may specify and set the value of the threshold ⁇ in advance, or may have a noise value estimated in a non-speech section before the utterance starts. A value larger than that value may be set for each.
  • the feature amount indicating the sound quality can be expressed by, for example, amplitude power.
  • the voice determination unit 103 calculates the amplitude power xt by the following Expression 1.
  • FIG. 3 is an explanatory diagram showing an example of a time series of input sound data and a feature quantity indicating the likelihood of speech and a time series of feature quantities used for speech recognition.
  • Figure 3 represents a time series 3A of the feature amount indicating the sound likeness when voice 3C is input, and a time series 3B of the feature amount used for speech recognition that "Hello Hayashi". As the time series 3A in FIG. 3 indicates, it can be said that the voice is more likely if the amplitude power is larger than the threshold value ⁇ .
  • the voice determination unit 103 determines the section as a voice section (L1 in FIG. 3). On the other hand, if the amplitude power is smaller than the threshold ⁇ , it can be said that the voice is more likely to be non-speech, and therefore the speech determination unit 103 determines that the section is a non-speech section.
  • a case has been described in which amplitude power is used as a feature amount indicating the likelihood of speech.
  • the speech determination unit 103 is based on a signal-to-noise ratio (S / N ratio), the number of zero crossings, a likelihood ratio between a speech model and a non-speech model, or a Gaussian mixture distribution model as a feature amount indicating speech likeness.
  • a likelihood ratio (GMM likelihood ratio), a pitch frequency, or a combination of these may be calculated, and a speech section may be determined using these feature amounts.
  • the correction value calculation unit 104 calculates a likelihood correction value from the feature value indicating the likelihood of speech and the threshold value ⁇ (step S103).
  • the likelihood correction value is used as a feature value likelihood correction value for a vocabulary / speech model and a non-speech model, which are calculated when the search unit 108 to be described later searches for a word string.
  • the correction value calculation unit 104 calculates a likelihood correction value for the vocabulary / phoneme model, for example, using Equation 2 below.
  • w is a factor for the correction value and takes a positive real value.
  • w is a parameter for adjusting the amount by which a log likelihood described later is changed by a single correction.
  • the speech recognition apparatus can suppress the threshold value ⁇ from being changed excessively and can change the correction value stably.
  • the system administrator may predetermine an appropriate value of w in consideration of these balances.
  • correction value calculation unit 104 calculates a likelihood correction value for the non-speech model using, for example, Equation 3 below.
  • the correction value is calculated by a linear function of the feature amount xt indicating the likelihood of sound.
  • the method by which the correction value calculation unit 104 calculates the correction value is not limited to the case of using a linear function of the feature quantity xt indicating the likelihood of speech.
  • the correction value calculation unit 104 calculates a correction value large when the feature amount xt is larger than the threshold ⁇ , and if the relationship of calculating the feature amount xt smaller than the threshold ⁇ is maintained, The correction value may be calculated using a function.
  • the correction value calculation unit 104 calculates both the likelihood correction value for the vocabulary / phoneme model and the likelihood correction value for the non-speech model.
  • the correction value calculation unit 104 does not have to calculate both the likelihood correction value for the vocabulary / phoneme model and the likelihood correction value for the non-speech model.
  • the correction value calculation unit 104 may calculate only one of the correction values and set the other correction value to zero.
  • the feature amount calculation unit 105 calculates a feature amount (speech recognition feature amount) used for speech recognition from the input sound data cut out for each frame (step S104).
  • the search unit 108 searches for a word string corresponding to the time series of the input sound data using the feature amount (speech identification feature amount) for each frame, the vocabulary / phoneme model, and the non-speech model. Is determined (step S105).
  • the search unit 108 searches for a word string using a hidden Markov model, for example, as a vocabulary / phoneme model and a non-speech model.
  • the parameters of each model may be parameters that the speech recognition apparatus has learned in advance using standard input sound data.
  • the search unit 108 calculates the likelihood of speech and the likelihood of non-speech.
  • log likelihood is used as a distance measure between a feature amount and each model. Therefore, here, a case where log likelihood is used will be described.
  • the search unit 108 may calculate the log likelihood of speech and non-speech based on the following Equation 4.
  • logL (y; ⁇ ) is a logarithmic likelihood of speech (non-speech) when a speech (non-speech) pattern sequence y is given
  • y (i) is a feature used for speech recognition.
  • Amount voice recognition feature amount
  • ⁇ and ⁇ are parameters set for each model.
  • the search unit 108 calculates the likelihood of speech and the likelihood of non-speech based on the speech recognition feature amount.
  • the search unit 108 calculates the log likelihood as the likelihood has been described.
  • the content calculated as the likelihood is not limited to the log likelihood.
  • the log likelihood of the time series of feature values for each frame and the model representing each vocabulary / phoneme included in the vocabulary / phoneme model is represented as Ls (j, t). j represents one state of each vocabulary / phoneme model.
  • the search unit 108 corrects the log likelihood Ls (j, t) using the correction value calculated by the correction value calculation unit 104 according to Equation 5 illustrated below.
  • Ls (j, t) ⁇ Ls (j, t) + w ⁇ (xt ⁇ ) (Formula 5)
  • Ln (j, t) The log likelihood of the time series of feature values for each frame and a model representing each non-speech included in the non-speech model is represented as Ln (j, t).
  • j represents one state of the non-voice model.
  • the search unit 108 corrects the log likelihood Ln (j, t) using the correction value calculated by the correction value calculation unit 104 according to Equation 6 illustrated below.
  • the search unit 108 searches the time series of the input sound data by searching for a speech vocabulary or phoneme pattern or a non-speech pattern having the maximum log likelihood from the corrected log likelihood time series.
  • a word string like the voice 3C illustrated in FIG. For example, when using the above-described Expression 4, the search unit 108 obtains the value of ⁇ that maximizes the value of logL (y; ⁇ ). Further, at this time, the search unit 108 determines that a section in which the log likelihood of the corrected vocabulary / phoneme model is larger than the log likelihood of the corrected non-speech model is the second speech section. In the example illustrated in FIG.
  • the search unit 108 determines that the portion where the time series 3B is indicated by the waveform is determined as the second speech section L2. As described above, the search unit 108 calculates the log likelihoods Ls and Ln, and corrects the calculated log likelihoods Ls and Ln using the likelihood correction value. Then, the search unit 108 determines a section in which the corrected Ls and Ln satisfy Ls (j, t)> Ln (j, t) as the second speech section. In the above description, the case where the search unit 108 calculates the log likelihood using Equation 4 and determines the second speech section has been described. However, the search unit 108 may determine the second speech section using a method such as A * search or beam search.
  • the search unit 108 may determine that the calculated speech score is higher than the non-speech score as the second speech interval.
  • the parameter update unit 109 compares the first speech segment determined by the speech determination unit 103 with the second speech segment determined by the search unit 108, and a threshold ⁇ that is a parameter used by the speech determination unit 103 Is updated (step S106). Specifically, the parameter update unit 109 updates the value of the threshold value ⁇ for determining the first voice segment according to the length of the first voice segment and the length of the second voice segment.
  • FIG. 4 is an explanatory diagram illustrating an example in which the first voice segment is longer than the second voice segment.
  • FIG. 5 is an explanatory diagram illustrating an example in which the first voice segment is shorter than the second voice segment.
  • the parameter update unit 109 updates the threshold ⁇ to be larger.
  • the parameter update unit 109 updates the threshold ⁇ to be smaller. To do.
  • the parameter update unit 109 updates the threshold ⁇ using Expression 7 illustrated below.
  • is a positive value indicating the step size, and is a parameter for adjusting the amount by which the threshold value ⁇ is changed by one update.
  • the parameter update unit 109 may update the threshold ⁇ based on the length of the non-voice section.
  • the voice determination unit 103 determines a section in which the voice feature amount is smaller than the threshold value ⁇ as the first voice section.
  • the search unit 108 determines a section in which the likelihood Ln for the corrected non-speech is higher than the likelihood Ls for the corrected speech as the second speech section.
  • the parameter updating unit 109 updates the value of the threshold value ⁇ according to the difference in the length of the speech section.
  • the parameter update unit 109 may determine the length of the voice section or the non-voice section, and update the threshold ⁇ by a predetermined value according to the magnitude. For example, the parameter updating unit 109 corrects ⁇ ⁇ ⁇ + ⁇ when the length L2 of the second speech section> the length L1 of the first speech section, and the length L2 of the second speech section ⁇ the first May be corrected as ⁇ ⁇ ⁇ .
  • the parameter update unit 109 updates the threshold ⁇ every time one utterance or one voice section is determined.
  • the timing at which the parameter updating unit 109 updates the threshold ⁇ is not limited to the above timing.
  • the parameter update unit 109 may update the threshold value ⁇ according to an instruction from the speaker. Then, the parameter updating unit 109 repeats the processing from step S101 to step S106 for the next utterance or the next voice section using the updated threshold value ⁇ .
  • the parameter updating unit 109 may perform the processing from step S102 to step S106 for the same utterance using the updated threshold value ⁇ . Further, the parameter update unit 109 may repeat the process from S102 to step S106 for the same utterance not only once but a plurality of times.
  • the speech determination unit 103 calculates the feature amount indicating speech likeness based on the time-series input sound, and calculates the threshold ⁇ and the feature amount indicating speech likelihood. In comparison, a voice segment (or a non-speech segment) is determined, and a first voice segment is determined. Further, the search unit 108 determines the second speech section based on the speech likelihood and the non-speech likelihood calculated based on the feature amount used for speech recognition.
  • the parameter update unit 109 updates the threshold value ⁇ according to the difference between the length of the first voice segment and the length of the second voice segment, and the voice determination unit 103 uses the updated threshold value ⁇ to change the first threshold value ⁇ . 1 speech segment is determined.
  • the voice recognition device can suppress the adverse effects of sounds other than the recognition target and accurately estimate the target utterance section. That is, the correction value calculation unit 104 calculates a likelihood correction value from the feature value indicating the likelihood of speech and the threshold value ⁇ , and the search unit 108 identifies the speech based on the likelihood corrected by the correction value. To do. Therefore, it becomes easy for the search unit 108 to correctly recognize the speech to be recognized and to determine the other as non-speech.
  • the parameter update unit 109 compares the first speech segment and the second speech segment, and updates the threshold used by the speech determination unit 103 based on the comparison result. Therefore, even if the threshold is not set correctly for the noise environment, or even when the noise environment fluctuates according to time, the likelihood correction value can be obtained accurately, so that more noise Realize robust voice recognition.
  • the search unit 108 can more accurately determine the voice section than the voice determination unit 103. This is because the search unit 108 determines a speech section using more information such as a word / phoneme model and a non-speech model.
  • FIG. 6 is a block diagram illustrating an example of a speech recognition system according to the second embodiment of the present invention.
  • the speech recognition system includes a microphone 101, a framing unit 102, a speech determination unit 113, a correction value calculation unit 104, a feature amount calculation unit 105, a non-speech model storage unit 106, a vocabulary / phoneme model.
  • a storage unit 107, a search unit 108, and a parameter update unit 119 are provided. That is, as illustrated in FIG. 6, the speech recognition system according to the second embodiment includes a speech determination unit 113 instead of the speech determination unit 103 in the configuration of the speech recognition system according to the first embodiment.
  • a parameter update unit 119 is provided.
  • the voice determination unit 113 calculates a feature amount (that is, a voice feature amount) indicating the likelihood of speech based on a time-series input sound. Then, the speech determination unit 113 compares the threshold ⁇ for classifying the input sound as speech or non-speech and the speech feature amount, and determines the speech segment or non-speech segment determined based on the threshold ⁇ . A section with a margin (hereinafter referred to as margin m) added before and after the section is determined as the first voice section.
  • margin m A section with a margin
  • the voice determination unit 113 determines a section in which a margin m is added before and after a section in which the feature amount indicating the voice is larger than the threshold ⁇ as the first voice section. As described above, the voice determination unit 113 determines a section obtained by adding a margin to a section of a voice whose feature value indicating the likelihood of voice is larger than the threshold value ⁇ , as the first voice section.
  • the value of the threshold value ⁇ may be a predetermined fixed value, or may be a value that is updated as needed as shown in the first embodiment. In the following description, a predetermined fixed value is used as the value of the threshold ⁇ .
  • the parameter update unit 119 updates the margin m in accordance with the difference between the length of the first speech segment and the length of the second speech segment. In other words, the parameter update unit 119 compares the first speech segment and the second speech segment, and updates the length of the margin m used by the speech determination unit 113. At this time, the voice determination unit 113 determines the first voice section using the updated margin m. Thus, the voice determination unit 113 determines the first voice section using the value (parameter) updated by the parameter update unit 119.
  • the margin m updated by the parameter updating unit 119 is a parameter used when the speech determination unit 113 determines the first speech segment.
  • microphone 101 For microphone 101, framing unit 102, correction value calculation unit 104, feature amount calculation unit 105, non-speech model storage unit 106, vocabulary / phoneme model storage unit 107, and search unit 108, are the first implementation. It is the same as the form.
  • the framing unit 102, the speech determination unit 113, the correction value calculation unit 104, the feature amount calculation unit 105, the search unit 108, and the parameter update unit 119 are computer CPUs that operate according to a program (voice recognition program). It is realized by.
  • the framing unit 102, the voice determination unit 113, the correction value calculation unit 104, the feature amount calculation unit 105, the search unit 108, and the parameter update unit 119 are each realized by dedicated hardware. May be.
  • step S101 the framing unit 102 cuts out the input sound collected by the microphone 101 for each frame (step S101).
  • the voice determination unit 113 displays a feature amount (ie, voice) indicating the voice likeness of the input sound data cut out for each frame. Feature).
  • the method for calculating the feature amount indicating the sound quality is the same as in the first embodiment.
  • the voice determination unit 113 compares the feature amount indicating the likelihood of voice and the threshold value ⁇ to obtain a temporary voice section.
  • the method for obtaining a provisional speech segment is the same as the method for obtaining the first speech segment in the first embodiment.
  • the voice determination unit 113 sets a section in which the feature amount indicating the likelihood of voice is larger than the threshold ⁇ as a temporary voice section. Then, the voice determination unit 113 determines a section with a margin m before and after the provisional voice section as the first voice section (step S102).
  • FIG. 7 is an explanatory diagram illustrating an example in which a margin is added to a temporary audio section. In the example illustrated in FIG.
  • the sound determination unit 113 compares the feature amount indicated by the time series 7 ⁇ / b> A with the threshold ⁇ , and sets a portion larger than the threshold ⁇ as the temporary sound section 71 and the sound section 72.
  • the voice determination unit 113 determines a section to which the margin 73a, the margin 73b, and the margin 73c are added as margins before and after the temporary voice section as the first voice section.
  • the correction value calculation unit 104 calculates the likelihood correction value
  • the feature amount calculation unit 105 calculates the feature amount used for speech recognition
  • the search unit 108 searches the word string and the second
  • the process for determining the voice section is the same as the process in steps S103 to S105 in the first embodiment.
  • the parameter update unit 119 compares the first speech segment determined by the speech determination unit 113 with the second speech segment determined by the search unit 108, and the margin m that is a parameter used by the speech determination unit 113. Is updated (step S106).
  • the parameter update unit 119 updates the value of the margin m to be added to the temporary speech segment according to the length of the first speech segment and the length of the second speech segment.
  • FIGS. 4 and 5 an operation in which the parameter updating unit 119 updates the value of the margin m will be described with reference to FIGS. 4 and 5. As illustrated in FIG. 4, when the length L1 of the first speech segment is longer than the length L2 of the second speech segment, the parameter update unit 119 updates the margin m so as to be shorter.
  • the parameter update unit 119 increases the margin m.
  • the parameter update unit 119 updates the margin m using Equation 8 illustrated below.
  • is a positive value indicating the step size, and is a parameter for adjusting the amount by which the length of the margin m is changed by one update.
  • the parameter update unit 119 may update the margin m based on the length of the non-voice section.
  • the voice determination unit 113 determines a first voice section in which a margin m is added to a temporary voice section that is a voice section that is smaller than the threshold ⁇ , and the search unit 108 determines the corrected non-voice.
  • a section in which the likelihood Ln is higher than the likelihood Ls for the corrected speech may be determined as the second speech section.
  • the parameter updating unit 119 may update not only the length of the margin m but also the value of the threshold ⁇ in the first embodiment. Specifically, the parameter update unit 119 updates the length of the margin m to be shorter and increases the threshold ⁇ when the length of the first speech segment is longer than the length of the second speech segment. Update to a new value.
  • the parameter updating unit 119 updates the length of the margin m longer when the length of the first voice segment is shorter than the length of the second voice segment, and sets the value to a value obtained by reducing the threshold ⁇ . Update. Note that the method of updating the threshold is the same as the method described in the first embodiment. In the above description, a case has been described in which the parameter updating unit 119 updates the margin m according to the difference in the length of the speech section. In addition, the parameter updating unit 119 may determine the length of the voice section or the non-voice section and update the margin m by a predetermined value according to the magnitude.
  • the parameter updating unit 119 corrects m ⁇ m + ⁇ when the length L2 of the second speech section> the length L1 of the first speech section, and the length L2 of the second speech section ⁇ the first May be corrected as m ⁇ m ⁇ .
  • the parameter updating unit 119 updates the margin m in response to the timing for each utterance or the determination of one voice section.
  • the timing at which the parameter updating unit 119 updates the margin m is not limited to the above timing.
  • the parameter update unit 119 may update the margin m in accordance with an instruction from the speaker. Then, the parameter updating unit 119 repeats the processing from step S101 to step S106 for the next utterance or the next voice segment using the updated margin m.
  • the parameter updating unit 119 may perform the processing from step S102 to step S106 for the same utterance using the updated margin m. Further, the parameter update unit 119 may repeat the processing from S102 to S106 for the same utterance not only once but a plurality of times. Next, the effect in this embodiment is demonstrated.
  • the speech determination unit 113 determines the section in which the margin m is added before and after the section in which the speech feature amount is larger than the threshold ⁇ as the first speech section, and the parameter The update unit 119 updates the length of the margin m added before and after the section. Then, the voice determination unit 113 determines a section in which the updated margin m is added before and after the section as the first voice section.
  • the speech recognition apparatus can suppress the adverse effects of sounds other than the recognition target and accurately estimate the target speech segment.
  • consonants are less powerful than vowels and are easily confused with noise, so that the front and back of a speech segment are easily lost.
  • the speech recognition apparatus can prevent speech from being lost by setting a speech segment in which front and rear portions are easily missing as a temporary speech segment and adding a margin m to the temporary speech segment. Note that if the length of the margin m is set too long, there is a possibility that sound other than the target of speech recognition is recognized as speech. For this reason, it is desirable that the length of the margin m is appropriately set according to the background noise.
  • the parameter update unit 119 appropriately updates the length of the margin m based on the length of the first speech segment and the length of the second speech segment.
  • Voice recognition can be realized and the object of the present invention can be achieved.
  • FIG. 8 is a block diagram showing an example of the minimum configuration of the speech recognition system according to the present invention.
  • the speech recognition system according to the present invention calculates a speech feature amount (for example, amplitude power), which is a feature amount indicating speech likeness, based on time-series input sounds (for example, input sound data cut out for each frame).
  • a voice interval (for example, a section where the voice feature amount is larger than the threshold ⁇ ) by comparing a threshold value (for example, threshold value ⁇ ) defined as a value for classifying the input sound into voice or non-voice and the voice feature amount, or Non-speech sections (for example, sections in which the audio feature value is smaller than the threshold ⁇ ) are determined, and those sections or sections with a specified length margin (for example, margin m) are added before and after those sections. It is calculated based on the voice recognition feature quantity which is a feature quantity used for voice recognition (for example, using Expression 4).
  • a section (for example, a section in which the likelihood of speech is higher than the likelihood of non-speech) is determined as the second speech section.
  • the voice determination means 81 determines the first voice section according to the difference between the length of the first voice section and the length of the second voice section
  • the search means 82 for example, the search unit 108 to perform Parameter update means 83 (for example, parameter update unit 109, parameter update unit 119) that updates at least one of the threshold value and the margin used is provided.
  • the voice determination unit 81 determines the first voice segment using the threshold value or the margin updated by the parameter update unit 83.
  • a voice feature amount (for example, amplitude power), which is a feature amount indicating the likelihood of speech, is calculated based on time-series input sounds (for example, input sound data cut out for each frame), and voice or non-speech
  • the voice threshold (for example, the threshold ⁇ ) and the voice feature amount are compared with a threshold value determined as a value for classifying the input sound in the voice section (for example, the section where the voice feature quantity is larger than the threshold ⁇ ) or the non-voice section ( For example, a section in which a voice feature is smaller than a threshold ⁇ is determined, and a section in which those sections or a margin of a specified length (for example, margin m) is added before and after those sections is the first voice section.
  • a voice determination unit for example, the voice determination unit 103 that determines and a voice recognition feature value that is a feature value used for voice recognition (for example, calculated using Equation 4)
  • Likelihood and non-speech Search means for example, the search unit 108, for determining, as a second speech section, a section (for example, a section where the likelihood of speech is higher than the likelihood of non-speech) based on the likelihood.
  • a section for example, a section where the likelihood of speech is higher than the likelihood of non-speech
  • a speech recognition system comprising parameter update means (for example, parameter update unit 109, parameter update unit 119), and the speech determination means determines the first speech section using the threshold value or margin updated by the parameter update means.
  • the parameter updating means increases the threshold when the length of the first voice segment is longer than the length of the second voice segment, and the length of the first voice segment is the length of the second voice segment.
  • the parameter update means shortens the margin length when the length of the first voice section is longer than the length of the second voice section, and the length of the first voice section is the second voice.
  • a speech recognition system that increases the length of the margin when it is shorter than the length of the section.
  • Vocabulary phoneme model storage means for example, a vocabulary / phoneme model storage unit 107) for storing a vocabulary phoneme model representing a vocabulary or phoneme pattern of speech to be speech-recognized, and non-speech to be speech-recognized
  • Non-speech model storage means for example, non-speech model storage unit 106) for storing a non-speech model representing the pattern of the above, and the search means is the likelihood of speech based on the speech recognition feature amount.
  • the likelihood of the non-speech model which is the likelihood of the lexical phoneme model and the likelihood of non-speech
  • the maximum value of the likelihood of speech is greater than the maximum value of the likelihood of non-speech
  • the likelihood of speech If the maximum speech non-speech likelihood is greater than the maximum speech likelihood, the non-speech pattern that maximizes the non-speech likelihood is searched.
  • a correction value used as a value for correcting at least one of the likelihood of the vocabulary phoneme model and the likelihood of the non-speech model is calculated according to the difference between the speech feature amount and the threshold (for example, , Calculated using equation 5 or equation 6) (for example, the search unit 108), and the search unit calculates the second speech section based on the likelihood corrected based on the correction value.
  • the correction value calculation means calculates a value obtained by subtracting the threshold value from the speech feature value as a correction value for the likelihood of the vocabulary phoneme model (for example, calculates a correction value using Equation 2), and the speech feature is calculated from the threshold value.
  • a speech recognition system that calculates a value obtained by subtracting the amount as a correction value of likelihood of a non-speech model (for example, calculates a correction value using Equation 3).
  • the voice determination means uses the amplitude power, the signal-to-noise ratio, the number of zero crossings, the likelihood ratio based on the Gaussian mixture distribution model, the pitch frequency, or a combination thereof as a voice feature amount based on the time-series input sound. Speech recognition system to calculate. While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2009-280927 for which it applied on December 10, 2009, and takes in those the indications of all here.

Abstract

認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システムを提供する。 音声判定手段81は、音声特徴量を時系列の入力音をもとに算出し、入力音を分類する値として定められた閾値と音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、それらの区間もしくは指定される長さのマージンをそれらの区間の前後に付加した区間を第1の音声区間と決定する。サーチ手段82は、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定する。パラメータ更新手段83は、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、閾値とマージンのうちの少なくとも一方を更新する。音声判定手段81は、パラメータ更新手段83が更新した閾値もしくはマージンを用いて第1の音声区間を決定する。

Description

音声認識システム、音声認識方法および音声認識プログラム
 本発明は、背景雑音の存在する環境で音声を認識する音声認識システム、音声認識方法および音声認識プログラムに関する。
 一般的な音声認識システムは、マイクロフォンなどで集音された入力音の時系列データから特徴量の時系列を抽出し、認識対象になる単語及び音素モデルと、認識対象以外の非音声のモデルとを用いて特徴量の時系列に対する尤度を計算する。そして、音声認識システムは、計算された尤度をもとに入力音の時系列に対応する単語列をサーチし、認識結果を出力する。また、音声を認識する精度を向上させる方法について、複数の提案がなされている。
 特許文献1には、無音部分に起因する音声認識性能の劣化を低減する音声認識装置が記載されている。図9は特許文献1に記載された音声認識装置を示す説明図である。特許文献1に記載された音声認識装置は、入力音を集音するマイクロフォン201と、集音された音の時系列データを所定の時間単位で切り出すフレーム化部202と、ノイズ区間を抽出するノイズ観測区間抽出部203と、ユーザが発話の開始をシステムに通知するための発話スイッチ204と、切り出された音声データごとに特徴量を抽出する特徴量抽出部205と、特徴量の時系列に対して音声認識を行う音声認識部208と、音声認識部で用いる音響モデルのうち、無音のモデルを補正する無音モデル補正部207とを備えている。
 特許文献1に記載された音声認識装置は、ノイズ観測区間抽出部203が、発話スイッチ204が押される直前の区間から背景雑音を推定し、無音モデル補正部207が、推定された背景雑音に基づいて無音モデルを背景雑音環境に適応させる。このような構成により、対象とする音声以外を無音と判定しやすくすることで、音声認識装置は、音声の誤認識を軽減させる。
 特許文献2には、ガベジモデル学習時に使用したデータ以外の背景雑音が付加された音声区間に対する誤認識率を低下させる音声認識装置が記載されている。図10は特許文献2に記載された音声認識装置を示す説明図である。特許文献2に記載された音声認識装置は、集音された音の時系列データから特徴量の時系列を分析する分析手段302と、特徴量に基づいて補正量を算出する補正値算出手段303と、特徴量の時系列から認識対象単語列を照合する照合手段304と、背景雑音に対応する音パターンをモデル化したガベジモデル305と、認識対象語彙モデル306とを備えている。
 特許文献2に記載された音声認識装置では、補正値算出手段303が、特徴量からピッチ周波数、フォルマント周波数及び帯域幅の特徴量などから音声らしさを判定する。そして、補正値算出手段303は、判定結果をもとに、ガベジモデルに対する尤度を補正するための補正値を求める。そして、照合手段304は、上述の補正値を用いて補正したガベジモデルに対する尤度、特徴量、ガベジモデル及び認識対象語彙モデルを用いて、パターンマッチングを行う。このような構成により、音声認識装置は、認識対象の音声のみを正しく認識できる。
 また、非特許文献1には、音声データから音声を認識する方法及び音声認識で用いられるモデルが記載されている。
特開2002−156992号公報 特開2007−17736号公報
安藤彰男、「リアルタイム音声認識」、電子情報通信学会、2003年9月、p.28−33,p.59−61,p.148−165
 音声認識を行う場合、背景雑音や回線ノイズ、マイクロフォンを叩く音などの突発的な雑音などが存在することがある。このような場合、特許文献1及び特許文献2に記載された音声認識装置を用いることにより、音声認識の誤りを抑制することが可能になる。
 すなわち、特許文献1に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、発話スイッチが押される直前の区間から雑音を推定することで、無音モデルを背景雑音環境に適応させている。しかしながら、特に音声認識に不慣れな話者が、発話スイッチを押す前に話し始めてしまう場合や、発話スイッチを押してからしばらく時間が経ってから話し始めてしまう場合などがある。この場合、発話スイッチが押されている時間と認識対象の発声が行われる時間とが必ずしも対応するとは限らない。そのため、このような場合には、音声認識装置は、対象となる発話区間を正確に推定できないという問題がある。
 また、特許文献2に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、ピッチ周波数や、フォルマント周波数、帯域幅の特徴量などから音声らしさを判定し、ガベジモデルに対する尤度を補正するための補正値を求めている。しかしながら、高雑音環境下では、音声らしさの判定が必ずしも正確であるとは限らないため、算出した補正値が音声らしさを判定するうえで悪影響を及ぼす場合がある。
 以下、高雑音環境下で生じる問題について説明する。例えば、低雑音環境下では、音声認識装置は、パワー(音量)が異なることを利用して、音声区間(人が発声している区間)とそれ以外の非音声区間とを判定することができる。すなわち、人が発声していない区間は音量が小さく、人が発声している区間は音量が大きいため、音声認識装置は、音量がある閾値以上であるか否かを判定することにより、音声と非音声とを判定することができる。しかし、高雑音環境下では、人が発声していなくても雑音の音量が大きい。また、音声か非音声かを判定するために定められる閾値は雑音の音量に依存するため、音声と非音声の判定は困難になる。
 具体例を用いて、音声と非音声の判定が困難になる理由について説明する。一般的に、音声の音量は、比較的大きくはっきり話している区間では大きくなり、発声の最初や最後などの区間では小さくなる傾向にある。以下、音声の音量をSとし、音声の音量の最大値をSmax、最小値をSminと記す。また、音声ほどではないが、雑音についても音量は変動する。以下、雑音の音量をNとし、雑音の音量の最大値をNmax、最小値をNminと記す。
 ここで、音声と非音声とを判定する際の閾値をθと記すと、閾値θが、Nmax<θ<Smin+Nminの範囲に含まれていれば、音声区間においてS>θの関係、及び、非音声区間においてN<θの関係が常に成り立つため、音声認識装置は、音声と非音声とを判定できる。この関係から、閾値θに求められる条件として、以下の2点が挙げられる。
 (1)発声が終わるまで音声の音量の最小値Sminは分からないため、閾値θがとることのできる最大値は分からない。このため、ユーザ等は、θをできるだけ小さく設定したい。
 (2)発声が終わるまで雑音の音量の最大値Nmaxは分からない(ただし、音声認識装置は、発声が始まる前までにおおよその雑音の音量を推定することは可能である。)。このため、ユーザ等は、θは推定された雑音の音量よりできるだけ大きく設定したい。
 推定された雑音の値が小さい場合、ユーザ等は、上の2つの条件を満たす閾値θを設定することは比較的容易である。しかし、推定された雑音の値が大きい場合、ユーザ等は、適切な閾値θを設定するのは困難である。
 また、特許文献2に記載された音声認識装置は、音声らしさの判定基準が固定されているため、変動する雑音に対応できないという問題がある。
 以上のように、認識対象以外の音の悪影響を抑えようとしたときに、音声認識装置は、対象となる発話区間を正確に推定できない場合には、音声認識を効果的に行うことができないという課題がある。
 そこで、上記の課題を解決するために、本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。
 本発明による音声認識システムは、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定手段と、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ手段と、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定手段が第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段を備え、前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
 本発明による音声認識方法は、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定し、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定し、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、前記第1の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第1の音声区間を決定する。
 本発明によるプログラム記録媒体に格納された音声認識プログラムは、コンピュータに、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定処理、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ処理、および、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定処理で第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第1の音声区間を決定させる。
 本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供する。
本発明の第1の実施形態における音声認識システムの例を示すブロック図である。 第1の実施形態における音声認識システムの動作の例を示すフローチャートである。 入力音データの時系列と音声らしさを示す特徴量の時系列の例を示す説明図である。 第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。 第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。 本発明の第2の実施形態における音声認識システムの例を示すブロック図である。 仮の音声区間にマージンを付与した例を示す説明図である。 本発明による音声認識システムの最小構成の例を示すブロック図である。 特許文献1に記載された音声認識装置を示すブロック図である。 特許文献2に記載された音声認識装置を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態における音声認識システムの例を示すブロック図である。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部109とを備えている。
 マイクロフォン101は、入力音を集音する装置である。
 フレーム化部102は、マイクロフォン101で集音された時系列の入力音データを単位時間ごとに切り出す。なお、入力音データを単位時間ごとに切り出したデータをフレームと記す。すなわち、フレーム化部102は、入力音データをフレームごとに切り出す。
 音声判定部103は、音声らしさを示す特徴量(以下、音声特徴量と記すこともある。)を時系列の入力音データをもとに算出する。すなわち、音声判定部103は、フレームごとに切り出された入力音データごとに音声らしさを示す特徴量を求める。そして、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値(以下、閾値θと記す。)と音声特徴量とを比較して、その閾値をもとに決定される音声の区間もしくは非音声の区間(以下、第1の音声区間と記す。)のいずれに属するかをを判定する。例えば、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値θよりも、算出された音声特徴量が大きい区間を第1の音声区間と判定する。なお、ここでは、閾値θよりも音声特徴量が大きい区間を第1の音声区間として説明する。音声らしさを示す特徴量(音声特徴量)は、例えば、振幅パワーである。ただし、音声らしさを示す特徴量は、振幅パワーに限定されない。このように、音声判定部103は、特徴量と閾値θとを比較することにより、第1の音声区間を判定する。
 特徴量算出部105は、音声データをもとに音声認識に用いられる特徴量(以下、音声認識特徴量と記すこともある。)を算出する。具体的には、特徴量算出部105は、フレームごとに切り出された音声データから音声認識に用いられる特徴量(音声認識特徴量)を算出する。音声認識に用いられる特徴量(音声認識特徴量)は、例えば、ケプストラム特徴量及びその動的特徴量である。ただし、音声認識に用いられる特徴量は、ケプストラム特徴量に限定されない。音声認識に用いられる特徴量の算出方法は広く知られているため、詳細な説明は省略する。
 なお、音声らしさを示す特徴量(音声特徴量)と、音声認識に用いられる特徴量(音声認識特徴量)とは、別の特徴量でも良いし、同一の特徴量でも良い。
 非音声モデル格納部106は、音声認識の対象になる音声以外のパターンを表す非音声モデルを記憶する。以下の説明では、音声認識の対象になる音声以外のパターンを、非音声パターンと記すこともある。また、語彙・音素モデル格納部107は、音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙・音素モデルを記憶する。非音声モデル格納部106、及び、語彙・音素モデル格納部107は、例えば、隠れマルコフモデルなどの確率モデルで表される非音声モデル及び語彙・音素モデルを記憶する。なお、モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させてもよい。非音声モデル格納部106及び語彙・音素モデル格納部107は、例えば、磁気ディスク装置等によって実現される。
 サーチ部108は、音声認識に用いられる特徴量(音声認識特徴量)をもとに、音声の尤度及び非音声の尤度を算出し、この尤度及び上記モデルを用いて単語列を探索する。サーチ部108は、例えば、算出した音声の尤度のうち最尤の単語列を探索してもよい。
 また、サーチ部108は、算出された音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(以下、第2の音声区間と記す。)を判定する。具体的には、サーチ部108は、音声認識特徴量をもとに算出された音声の尤度が非音声の尤度よりも高い区間を第2の音声区間と判定する。
 このように、サーチ部108は、フレーム毎の特徴量、語彙・音素モデル及び非音声モデルを用いて、入力音に対応する単語列(認識結果)を求めるとともに、第2の音声区間を求める。なお、音声の尤度とは、語彙・音素モデルで表わされる音声の語彙もしくは音素のパターンと、入力音とが一致する尤もらしさを表す数値である。同様に、非音声の尤度とは、非音声モデルで表わされる非音声パターンと、入力音とが一致する尤もらしさを表す数値である。
 パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さの差異に応じて閾値θを更新する。すなわち、パラメータ更新部109は、第1の音声区間と第2の音声区間を比較し、音声判定部103が用いる閾値θを更新する。このとき、音声判定部103は、更新された閾値θを用いて第1の音声区間を決定する。このように、音声判定部103は、パラメータ更新部109が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部109が更新する閾値θは、音声判定部103が第1の音声区間を決定する際に用いるパラメータである。
 補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとの差異に応じて、音声の尤度もしくは非音声の尤度を補正する値として用いられる補正値を算出する。すなわち、補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとから尤度の補正値を算出する。補正値が算出されると、サーチ部108は、この補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する。
 フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPU(Central Processing Unit)によって実現される。例えば、プログラムは、音声認識装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、フレーム化部102、音声判定部103、補正値算出部104、特徴量算出部105、サーチ部108及びパラメータ更新部109として動作してもよい。また、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施の形態の動作について、図1及び図2を用いて説明する。図2は、本実施形態における音声認識システムの動作の例を示すフローチャートである。
 まず、マイクロフォン101が入力音を集音すると、フレーム化部102は、集音された時系列の入力音データを単位時間ごとのフレームに切り出す(ステップS101)。例えば、フレーム化部102は、入力音データからの切り出し対象になる部分を、予め定められた時間ずつずらしながら、単位時間分の波形データを順次切り出してもよい。以下、この単位時間をフレーム幅と記し、この予め定められた時間をフレームシフトと呼ぶ。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation)の場合、1秒当たり8000点分の波形データが含まれている。この場合、フレーム化部102は、この波形データをフレーム幅200点(すなわち、25ミリ秒)、フレームシフト80点(すなわち、10ミリ秒)で時系列にしたがって逐次切り出す。
 次に、音声判定部103は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算し、閾値θと比較することにより第1の音声区間を判定する(ステップS102)。なお、初期状態における閾値θの値として、例えば、ユーザ等が、予め閾値θの値を指定して設定してもよいし、発声が始まる前の非音声区間で推定された雑音の値をもとにその値よりも大きい値を設定してもよい。音声らしさ示す特徴量は、例えば、振幅パワーなどで表わすことができる。音声判定部103は、例えば、以下の式1によって振幅パワーxtを算出する。
Figure JPOXMLDOC01-appb-I000001
 ここでstは時刻tにおける入力音データ(波形データ)の値であり、式1は、抽出した区間の波形データの平均値を振幅パワーxtとして算出していることを示す。
 図3は、入力音データの時系列と音声らしさを示す特徴量及び音声認識に用いられる特徴量の時系列の例を示す説明図である。図3は、「こんにちは 林です」という音声3Cが入力されたときの音声らしさを示す特徴量の時系列3Aと、音声認識に用いられる特徴量の時系列3Bとを表している。
 図3における時系列3Aが示すように、振幅パワーが閾値θより大きければより音声らしいと言えるため、音声判定部103は、その区間を音声区間(図3におけるL1)と判定する。一方、振幅パワーが閾値θより小さければ、より非音声らしいと言えるため、音声判定部103は、その区間を非音声区間と判定する。なお、ここでは、音声らしさを示す特徴量として振幅パワーを用いる場合について説明した。他にも、音声判定部103は、音声らしさを示す特徴量として、信号雑音比(SN比)や、ゼロ交差数、音声モデルと非音声モデルとの尤度比や、ガウス混合分布モデルに基づく尤度比(GMM尤度比)、ピッチ周波数、もしくはこれらの組合せなどを算出し、これらの特徴量を用いて音声区間を判定しても良い。
 次に、補正値算出部104は、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出する(ステップS103)。なお、この尤度の補正値は、後述するサーチ部108が単語列を探索する際に算出する語彙・音声モデルおよび非音声モデルに対する特徴量の尤度の補正値として利用される。
 補正値算出部104は、語彙・音素モデルに対する尤度の補正値を、例えば、以下の式2により算出する。
 (語彙・音素モデルに対する尤度の)補正値= w ×(xt−θ)(式2)
 ここで、wは、補正値に対するファクターであり、正の実数値をとる。具体的には、wは、後述する対数尤度を一度の補正で変化させる量を調整するパラメータである。wが大きい場合、適切な補正値に素早く収束することができる。一方、wが小さい場合、音声認識装置は、閾値θを過度に変化させることを抑え、補正値を安定して変化させることができる。例えば、システム管理者はこれらのバランスを考慮し適切なwの値を予め定めておいてもよい。
 また、補正値算出部104は、非音声モデルに対する尤度の補正値を、例えば、以下の式3により算出する。
 (非音声モデルに対する尤度の)補正値= w ×(θ−xt)(式3)
 ここでは、補正値が音声らしさを示す特徴量xtの一次関数で算出される例について説明した。ただし、補正値算出部104が補正値を算出する方法は、音声らしさを示す特徴量xtの一次関数を用いる場合に限定されない。補正値算出部104は、特徴量xtが閾値θに比べて大きい場合に補正値を大きく算出し、特徴量xtを閾値θに比べて小さく算出するという関係性が保たれていれば、他の関数を用いて補正値を算出してもよい。
 また、ここでは、補正値算出部104が、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値のいずれも算出する場合について説明した。ただし、補正値算出部104は、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値の両方を算出しなくてもよい。例えば、補正値算出部104は、どちらか一方の補正値のみを算出し、もう一方の補正値を0としてもよい。
 次に、特徴量算出部105は、フレームごとに切り出された入力音データから音声認識に用いる特徴量(音声認識特徴量)を算出する(ステップS104)。
 サーチ部108は、フレームごとの特徴量(音声識別特徴量)と、語彙・音素モデルと、非音声モデルとを用いて、入力音データの時系列に対応する単語列を探索するとともに、第2の音声区間を判定する(ステップS105)。サーチ部108は、例えば、語彙・音素モデルおよび非音声モデルとして、隠れマルコフモデルを用いて単語列を探索する。なお、各モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させたパラメータでもよい。
 次に、サーチ部108が第2の音声区間を判定する方法について、具体的に説明する。まず、サーチ部108は、音声の尤度及び非音声の尤度を算出する。一般的な音声認識では、特徴量と各モデルとの距離尺度として対数尤度が用いられる。そのため、ここでは、対数尤度を用いる場合について説明する。サーチ部108は、例えば、以下の式4に基づいて、音声及び非音声の対数尤度を計算してもよい。
Figure JPOXMLDOC01-appb-I000002
 ここで、logL(y;θ)は、音声(非音声)のパターン列yが与えられたときの音声(非音声)の対数尤度であり、y(i)は、音声認識に用いられる特徴量(音声認識特徴量)である。また、μ及びσ(まとめてθと表わす。)は、モデルごとに設定されるパラメータである。なお、ここでは、nの値はn=1でもよい。このように、サーチ部108は、音声の尤度及び非音声の尤度を音声認識特徴量をもとに算出する。なお、上記説明では、サーチ部108が尤度として対数尤度を算出する場合について説明した。ただし、尤度として算出する内容は、対数尤度に限定されない。
 ここで、フレームごとの特徴量の時系列と、上記語彙・音素モデルに含まれる各語彙・音素を表すモデルとの対数尤度をLs(j,t)と表す。jは、各語彙・音素モデルの一状態を示す。サーチ部108は、以下に例示する式5により、補正値算出部104が算出した補正値を用いて、対数尤度Ls(j,t)を補正する。
 Ls(j,t)← Ls(j,t)+ w ×(xt−θ)(式5)
 また、フレームごとの特徴量の時系列と、上記非音声モデルに含まれる各非音声を表すモデルとの対数尤度をLn(j,t)と表す。jは、非音声モデルの一状態を示す。このとき、サーチ部108は、以下に例示する式6により、補正値算出部104が算出した補正値を用いて、対数尤度Ln(j,t)を補正する。
 Ln(j,t)← Ln(j,t)+ w ×(θ−xt)(式6)
 サーチ部108は、補正された対数尤度の時系列のうち、対数尤度が最大になる音声の語彙もしくは音素のパターン、又は、非音声のパターンを探索することにより、入力音データの時系列に対応する図3に例示する音声3Cのような単語列を探索する。例えば、上述の式4を用いる場合、サーチ部108は、logL(y;θ)の値を最大化するθの値を求める。また、このとき、サーチ部108は、補正された語彙・音素モデルの対数尤度が、補正された非音声モデルの対数尤度より大きい区間を第2の音声区間と判定する。図3に示す例では、サーチ部108が、時系列3Bが波形で示されている部分を第2の音声区間L2と判定したことを示す。
 以上のように、サーチ部108は、対数尤度Ls及びLnを算出し、算出された対数尤度Ls及びLnを、尤度の補正値を用いて補正する。そして、サーチ部108は、補正されたLs及びLnが、Ls(j,t)>Ln(j,t)を満たす区間を、第2の音声区間と判断する。
 なお、上記説明では、サーチ部108が式4を用いて対数尤度を算出し、第2の音声区間を判定する場合について説明した。ただし、サーチ部108がA*探索やビームサーチといった方法を用いて第2の音声区間を判定してもよい。すなわち、語彙・音素を表すモデル及び非音声を表すモデルを用いたときにA*探索やビームサーチなどにより算出されるスコアは、音声・非音声についての尤度である。そのため、サーチ部108は、算出した音声のスコアが非音声のスコアよりも高い区間を第2の音声区間と判定してもよい。
 次に、パラメータ更新部109は、音声判定部103が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部103が用いるパラメータである閾値θの値を更新する(ステップS106)。具体的には、パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さに応じて第1の音声区間を判定するための閾値θの値を更新する。
 以下、図4及び図5を用いて、パラメータ更新部109が閾値θの値を更新する動作について説明する。図4は、第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。また、図5は、第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部109は、閾値θをより大きくなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合、パラメータ更新部109は、閾値θをより小さくなるように更新する。具体的には、パラメータ更新部109は、以下に例示する式7を用いて閾値θを更新する。
 θ ← θ+ε(L2−L1)(式7)
 ここで、εはステップサイズを示す正の値であり、一度の更新で閾値θを変化させる量を調整するパラメータである。
 上記説明では、パラメータ更新部109が音声区間の長さに基づいて閾値θを更新する場合について説明した。他にも、パラメータ更新部109は、非音声区間の長さに基づいて閾値θを更新してもよい。この場合、音声判定部103は、音声特徴量が閾値θよりも小さい区間を第1の音声区間と判定する。サーチ部108は、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定する。
 また、上記説明では、パラメータ更新部109が音声区間の長さの差異に応じて閾値θの値を更新する場合について説明した。他にも、パラメータ更新部109は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつ閾値θを更新してもよい。
 例えば、パラメータ更新部109は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、θ←θ+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、θ←θ−εと補正してもよい。
 パラメータ更新部109は、例えば、一発声ごとや、一つの音声区間を判定するごとに、閾値θを更新する。ただし、パラメータ更新部109が閾値θを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部109は、発話者の指示に応じて閾値θを更新してもよい。そして、パラメータ更新部109は、更新された閾値θを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
 なお、パラメータ更新部109は、更新された閾値θを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部109は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
 次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部103が、音声らしさを示す特徴量を時系列の入力音をもとに算出し、閾値θと音声らしさを示す特徴量とを比較して、音声の区間(もしくは非音声の区間)を判定し、第1の音声区間を決定する。また、サーチ部108が、音声認識に用いられる特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、第2の音声区間を決定する。そして、パラメータ更新部109が、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて閾値θを更新し、音声判定部103が、更新された閾値θを用いて第1の音声区間を決定する。このような構成により、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
 すなわち、補正値算出部104が、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出し、サーチ部108が、その補正値によって補正された尤度をもとに音声を識別する。そのため、サーチ部108が、認識対象となる音声を正しく認識し、それ以外を非音声と判定しやすくなる。このようにして、雑音に頑健な音声認識が実現される。
 さらに、パラメータ更新部109が、第1の音声区間と第2の音声区間とを比較し、その比較結果に基づいて音声判定部103が用いる閾値を更新する。そのため、閾値が雑音環境に対して正しく設定されていない場合や、雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることが出来るため、より雑音に頑健な音声認識を実現できる。
 一般に音声判定部103よりもサーチ部108の方がより正しく音声区間を判定できる。これは、サーチ部108が、単語・音素モデルや非音声モデルなど、より多くの情報を用いて音声区間を判定しているためである。これに対し、音声判定部103は、雑音の状況に応じて最適値の異なる閾値を用いて音声区間を判定するため、誤りの混入する可能性が高い。本実施形態における音声認識装置は、音声判定部103が判定した第1の音声区間をより正しくするために、パラメータ更新部109が、サーチ部108が判定した第2の音声区間を用いて閾値を更新する。そのため、音声判定部103は、より精度の高い探索を次の発声に対して行うことができる。以上のことから、本発明の目的を達成できる。
実施形態2.
 次に、本発明による第2の実施形態について説明する。図6は、本発明の第2の実施形態における音声認識システムの例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部119とを備えている。すなわち、第2の実施形態における音声認識システムは、図6に例示するように、第1の実施形態における音声認識システムの構成の音声判定部103の代わりに、音声判定部113を、パラメータ更新部109の代わりに、パラメータ更新部119を、それぞれ備えている。
 音声判定部113は、音声らしさを示す特徴量(すなわち、音声特徴量)を時系列の入力音をもとに算出する。そして、音声判定部113は、入力音を音声もしくは非音声に分類する閾値θと音声特徴量とを比較し、その閾値θをもとに決定される音声の区間もしくは非音声の区間に対して、その区間の前後にマージン(以下、マージンmと記す。)を付加した区間を第1の音声区間と決定する。具体的には、音声判定部113は、音声らしさを示す特徴量が、閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定する。このように、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい音声の区間にマージンを加えた区間を第1の音声区間と判定する。閾値θの値は、予め定められた固定の値であってもよく、第1の実施形態に示すように、随時更新される値であってもよい。以下の説明では、閾値θの値として、予め定められた固定の値を用いるものとする。
 パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さの差異に応じてマージンmを更新する。すなわち、パラメータ更新部119は、第1の音声区間と第2の音声区間を比較し、音声判定部113が用いるマージンmの長さを更新する。このとき、音声判定部113は、更新されたマージンmを用いて第1の音声区間を決定する。このように、音声判定部113は、パラメータ更新部119が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部119が更新するマージンmは、音声判定部113が第1の音声区間を決定する際に用いるパラメータである。
 その他の構成(マイクロフォン101、フレーム化部102、補正値算出部104、特徴量算出部105、非音声モデル格納部106、語彙・音素モデル格納部107及びサーチ部108)については、第1の実施形態と同様である。
 フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPUによって実現される。また、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施の形態の動作について、図6及び図2を用いて説明する。本発明の本実施形態における動作は、図2におけるステップS102とステップS106が変更されている点で第1の実施形態の動作と異なる。
 マイクロフォン101が集音した入力音をフレーム化部102がフレームごとに切り出すと(ステップS101)、音声判定部113は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算する。音声らしさを示す特徴量を計算する方法は、第1の実施形態と同様である。次に、音声判定部113は、音声らしさを示す特徴量と閾値θとを比較し、仮の音声区間を求める。仮の音声区間を求める方法は、第1の実施形態において、第1の音声区間を求める方法と同様である。例えば、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい区間を仮の音声区間とする。そして、音声判定部113は、仮の音声区間の前後にマージンmを付与した区間を第1の音声区間と判定する(ステップS102)。
 図7は、仮の音声区間にマージンを付与した例を示す説明図である。図7に示す例では、まず、音声判定部113が、時系列7Aが示す特徴量と閾値θとを比較し、閾値θよりも大きい部分を仮の音声区間71及び音声区間72とする。ここで、音声判定部113は、仮の音声区間の前後にマージンとして、マージン73a、マージン73b、マージン73cを付加した区間を第1の音声区間と判定する。
 以降、補正値算出部104が尤度の補正値を算出し、特徴量算出部105が音声認識に用いられる特徴量を算出する処理、及び、サーチ部108が単語列を探索するとともに第2の音声区間を判定する処理は、第1の実施形態におけるステップS103~ステップS105の処理と同様である。
 次に、パラメータ更新部119は、音声判定部113が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部113が用いるパラメータであるマージンmの値を更新する(ステップS106)。ここでは、パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さに応じて仮の音声区間に付与するマージンmの値を更新する。
 以下、図4及び図5を用いて、パラメータ更新部119がマージンmの値を更新する動作について説明する。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部119は、マージンmをより短くなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合には、パラメータ更新部119は、マージンmをより長くなるように更新する。具体的には、パラメータ更新部119は、以下に例示する式8を用いてマージンmを更新する。
 m ← m+ε(L1−L2)(式8)
 ここで、εはステップサイズを示す正の値であり、一度の更新でマージンmの長さを変化させる量を調整するパラメータである。
 上記説明では、パラメータ更新部119が音声区間の長さに基づいてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、非音声区間の長さに基づいてマージンmを更新してもよい。この場合、音声判定部113が、閾値θよりも小さい音声の区間である仮の音声区間にマージンmを付与した第1の音声区間を判定し、サーチ部108が、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定すればよい。
 また、パラメータ更新部119は、マージンmの長さだけでなく、第1の実施形態における閾値θの値もあわせて更新してもよい。具体的には、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に、マージンmの長さをより短く更新するとともに、閾値θを増加させた値に更新する。また、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に、マージンmの長さをより長く更新するとともに、閾値θを減少させた値に更新する。なお、閾値を更新する方法は、第1の実施形態に記載した方法と同様である。
 また、上記説明では、パラメータ更新部119が音声区間の長さの差異に応じてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつマージンmを更新してもよい。
 例えば、パラメータ更新部119は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、m←m+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、m←m−εと補正してもよい。
 パラメータ更新部119は、例えば、一発声ごとのタイミングや、一つの音声区間を判定したこと契機としてマージンmを更新する。ただし、パラメータ更新部119がマージンmを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部119は、発話者の指示に応じてマージンmを更新してもよい。そして、パラメータ更新部119は、更新されたマージンmを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
 なお、パラメータ更新部119は、更新されたマージンmを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部119は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
 次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部113が、音声特徴量が閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定し、パラメータ更新部119が、区間の前後に付加するマージンmの長さを更新する。そして、音声判定部113が、更新されたマージンmを区間の前後に付加した区間を第1の音声区間と決定する。以上のような構成によっても、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
 一般的に子音は母音に比べてパワーが小さく、雑音と混同されやすい為、音声区間の前後が欠けやすい。このように、音声認識装置は、前後が欠けやすい音声区間を仮の音声区間とし、この仮の音声区間にマージンmを付与することにより、音声の欠落を防ぐことができる。
 なお、マージンmの長さを長く設定しすぎると、音声認識の対象以外の音が音声と認識される可能性がある。そのため、マージンmの長さは、背景雑音に応じて適切に設定されることが望ましい。本実施形態における音声認識装置は、パラメータ更新部119が、第1の音声区間の長さと第2の音声区間の長さに基づいてマージンmの長さを適切に更新するため、雑音に頑健な音声認識が実現でき、本発明の目的を達成できる。
 次に、本発明による音声認識システムの最小構成の例を説明する。図8は、本発明による音声認識システムの最小構成の例を示すブロック図である。本発明による音声認識システムは、音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段81(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段82(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段81が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段83(例えば、パラメータ更新部109、パラメータ更新部119)を備えている。
 音声判定手段81は、パラメータ更新手段83が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
 上記の構成である音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
 なお、少なくとも以下に示すような音声認識システムも、上記に示すいずれかの実施形態に開示されている。
(1)音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段(例えば、パラメータ更新部109、パラメータ更新部119)を備え、音声判定手段が、パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する音声認識システム。
(2)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に閾値を増加させ、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に閾値を減少させる音声認識システム。
(3)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合にマージンの長さを短くし、第1の音声区間の長さが第2の音声区間の長さよりも短い場合にマージンの長さを長くする音声認識システム。
(4)音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段(例えば、語彙・音素モデル格納部107)と、音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声音声モデル記憶手段(例えば、非音声モデル格納部106)とを備え、サーチ手段が、音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、音声の尤度の最大値が非音声の尤度の最大値よりも大きい場合、音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、非音声の尤度が最大になる非音声のパターンを探索する音声認識システム。
(5)音声特徴量と閾値との差異に応じて、語彙音素モデルの尤度と非音声モデルの尤度のうちの少なくとも1つの尤度を補正する値として用いられる補正値を算出する(例えば、式5もしくは式6を用いて算出する)補正値算出手段(例えば、サーチ部108)を備え、サーチ手段が、補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する音声認識システム。
(6)補正値算出手段が、音声特徴量から閾値を減じた値を語彙音素モデルの尤度の補正値として算出し(例えば、式2を用いて補正値を算出し)、閾値から音声特徴量を減じた値を非音声モデルの尤度の補正値として算出する(例えば、式3を用いて補正値を算出する)音声認識システム。
(7)音声判定手段は、時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する音声認識システム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
 この出願は、2009年12月10日に出願された日本出願特願2009−280927を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 101 マイクロフォン
 102 フレーム化部
 103,113 音声判定部
 104 補正値算出部
 105 特徴量算出部
 106 非音声モデル格納部
 107 語彙・音素モデル格納部
 108 サーチ部
 109,119 パラメータ更新部

Claims (9)

  1.  音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定手段と、
     音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ手段と、
     前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定手段が第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段と、を備え、
     前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する
    音声認識システム。
  2.  前記パラメータ更新手段は、前記第1の音声区間の長さが前記第2の音声区間の長さよりも長い場合に前記閾値を増加させ、前記第1の音声区間の長さが前記第2の音声区間の長さよりも短い場合に前記閾値を減少させる
     請求項1に記載の音声認識システム。
  3.  前記パラメータ更新手段は、前記第1の音声区間の長さが前記第2の音声区間の長さよりも長い場合に前記マージンの長さを短くし、前記第1の音声区間の長さが前記第2の音声区間の長さよりも短い場合に前記マージンの長さを長くする
     請求項1または請求項2に記載の音声認識システム。
  4.  音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段と、
     音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声モデル記憶手段と、を備え、
     前記サーチ手段は、前記音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、前記音声の尤度の最大値が前記非音声の尤度の最大値よりも大きい場合、前記音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、前記非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、前記非音声の尤度が最大になる非音声のパターンを探索する
     請求項1から請求項3のうちのいずれか1項に記載の音声認識システム。
  5.  前記音声特徴量と前記閾値との差異に応じて、前記語彙音素モデルの尤度と前記非音声モデルの尤度のうちの少なくとも1つの尤度の補正値を算出する補正値算出手段を備え、
     前記サーチ手段は、前記補正値をもとに補正された尤度に基づいて、前記第2の音声区間を判定する
     請求項4に記載の音声認識システム。
  6.  前記補正値算出手段は、前記音声特徴量から前記閾値を減じた値を前記語彙音素モデルの尤度の前記補正値として算出し、前記閾値から前記音声特徴量を減じた値を前記非音声モデルの尤度の前記補正値として算出する
     請求項5記載の音声認識システム。
  7.  前記音声判定手段は、前記時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する
     請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
  8.  音声特徴量を時系列の入力音をもとに算出し、
     閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定し、
     音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定し、
     前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、
     前記第1の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第1の音声区間を決定する
     音声認識方法。
  9.  コンピュータに、
     音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定処理、
     音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ処理、および、
     前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定処理で第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、
     前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第1の音声区間を決定させる
     音声認識プログラムを格納するプログラム記録媒体。
PCT/JP2010/071619 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム WO2011070972A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011545189A JP5621783B2 (ja) 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム
US13/514,894 US9002709B2 (en) 2009-12-10 2010-11-26 Voice recognition system and voice recognition method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009280927 2009-12-10
JP2009-280927 2009-12-10

Publications (1)

Publication Number Publication Date
WO2011070972A1 true WO2011070972A1 (ja) 2011-06-16

Family

ID=44145517

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/071619 WO2011070972A1 (ja) 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム

Country Status (3)

Country Link
US (1) US9002709B2 (ja)
JP (1) JP5621783B2 (ja)
WO (1) WO2011070972A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
JP2013013092A (ja) * 2011-06-29 2013-01-17 Gracenote Inc 双方向ストリーミングコンテンツ処理方法、装置、及びシステム
JP2013228459A (ja) * 2012-04-24 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声聴取装置とその方法とプログラム
CN103561643A (zh) * 2012-04-24 2014-02-05 松下电器产业株式会社 语音辨别能力判定装置、语音辨别能力判定系统、助听器增益决定装置、语音辨别能力判定方法及其程序
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JPWO2016143125A1 (ja) * 2015-03-12 2017-06-01 三菱電機株式会社 音声区間検出装置および音声区間検出方法
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US9633019B2 (en) 2015-01-05 2017-04-25 International Business Machines Corporation Augmenting an information request
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
US10811007B2 (en) * 2018-06-08 2020-10-20 International Business Machines Corporation Filtering audio-based interference from voice commands using natural language processing
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11049502B1 (en) * 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
CN113409763B (zh) * 2021-07-20 2022-10-25 北京声智科技有限公司 语音纠正方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056193A (ja) * 1990-08-15 1993-01-14 Ricoh Co Ltd 音声区間検出方式及び音声認識装置
JPH0643895A (ja) * 1992-07-22 1994-02-18 Nec Corp 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2002091468A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4700392A (en) * 1983-08-26 1987-10-13 Nec Corporation Speech signal detector having adaptive threshold values
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
JP4577543B2 (ja) 2000-11-21 2010-11-10 ソニー株式会社 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP2007017736A (ja) 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056193A (ja) * 1990-08-15 1993-01-14 Ricoh Co Ltd 音声区間検出方式及び音声認識装置
JPH0643895A (ja) * 1992-07-22 1994-02-18 Nec Corp 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2002091468A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012020717A1 (ja) * 2010-08-10 2013-10-28 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
JP5725028B2 (ja) * 2010-08-10 2015-05-27 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
JP2013013092A (ja) * 2011-06-29 2013-01-17 Gracenote Inc 双方向ストリーミングコンテンツ処理方法、装置、及びシステム
US11935507B2 (en) 2011-06-29 2024-03-19 Gracenote, Inc. Machine-control of a device based on machine-detected transitions
US11417302B2 (en) 2011-06-29 2022-08-16 Gracenote, Inc. Machine-control of a device based on machine-detected transitions
US10783863B2 (en) 2011-06-29 2020-09-22 Gracenote, Inc. Machine-control of a device based on machine-detected transitions
US10134373B2 (en) 2011-06-29 2018-11-20 Gracenote, Inc. Machine-control of a device based on machine-detected transitions
US9479880B2 (en) 2012-04-24 2016-10-25 Panasonic Intellectual Property Management Co., Ltd. Speech-sound distinguishing ability determination apparatus, speech-sound distinguishing ability determination system, hearing aid gain determination apparatus, speech-sound distinguishing ability determination method, and program thereof
CN103561643B (zh) * 2012-04-24 2016-10-05 松下知识产权经营株式会社 语音辨别能力判定装置、系统和方法、以及助听器增益决定装置
JP2013228459A (ja) * 2012-04-24 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声聴取装置とその方法とプログラム
CN103561643A (zh) * 2012-04-24 2014-02-05 松下电器产业株式会社 语音辨别能力判定装置、语音辨别能力判定系统、助听器增益决定装置、语音辨别能力判定方法及其程序
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JPWO2015059946A1 (ja) * 2013-10-22 2017-03-09 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JPWO2016143125A1 (ja) * 2015-03-12 2017-06-01 三菱電機株式会社 音声区間検出装置および音声区間検出方法
US10579327B2 (en) 2017-03-21 2020-03-03 Kabushiki Kaisha Toshiba Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
JP2018156044A (ja) * 2017-03-21 2018-10-04 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体

Also Published As

Publication number Publication date
US20120239401A1 (en) 2012-09-20
JPWO2011070972A1 (ja) 2013-04-22
JP5621783B2 (ja) 2014-11-12
US9002709B2 (en) 2015-04-07

Similar Documents

Publication Publication Date Title
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
US9165555B2 (en) Low latency real-time vocal tract length normalization
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
US20140046662A1 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
US20110238417A1 (en) Speech detection apparatus
JPWO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2010070839A1 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JPH11184491A (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4749990B2 (ja) 音声認識装置
JP4576612B2 (ja) 音声認識方法および音声認識装置
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
JP2014092751A (ja) 音響モデル生成装置とその方法とプログラム
JP2006071956A (ja) 音声信号処理装置及びプログラム
JP2004163448A (ja) 音声認識装置、方法、およびそのプログラム
JP2009025388A (ja) 音声認識装置
Wang et al. An Algorithm for Voiced/Unvoiced decision and pitch estimation in speech feature extraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10835893

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011545189

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13514894

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10835893

Country of ref document: EP

Kind code of ref document: A1