WO2002101719A1 - Voice recognition apparatus and voice recognition method - Google Patents

Voice recognition apparatus and voice recognition method Download PDF

Info

Publication number
WO2002101719A1
WO2002101719A1 PCT/JP2002/005647 JP0205647W WO02101719A1 WO 2002101719 A1 WO2002101719 A1 WO 2002101719A1 JP 0205647 W JP0205647 W JP 0205647W WO 02101719 A1 WO02101719 A1 WO 02101719A1
Authority
WO
WIPO (PCT)
Prior art keywords
conversion function
conversion
input
voice
speech
Prior art date
Application number
PCT/JP2002/005647
Other languages
English (en)
French (fr)
Inventor
Helmut Lucke
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP02733382A priority Critical patent/EP1394770A4/en
Priority to KR1020037001766A priority patent/KR100924399B1/ko
Priority to US10/344,031 priority patent/US7219055B2/en
Publication of WO2002101719A1 publication Critical patent/WO2002101719A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a speech recognition device and a speech recognition method, and performs high-accuracy speech recognition without making the user aware of model adaptation even when the device is used by a plurality of users or in a plurality of environments.
  • the present invention relates to a voice recognition device and a voice recognition method that can perform the voice recognition. Background art
  • a speech recognition device In a speech recognition device, generally, the following processing (speech recognition processing) is performed, so that the input speech is speech-recognized.
  • a predetermined dimension of a feature vector representing a feature amount of the inputted speech is extracted by acoustic analysis of the inputted speech.
  • a method of voice analysis there is a Fleet transformation or the like.
  • the matching process between the feature vector sequence and the acoustic model is performed, and the word sequence (word) power corresponding to the acoustic model sequence that matches the feature vector sequence is obtained as a result of the matching process. Is done.
  • the acoustic model is configured using a probability (density) function such as one or more Gaussian probability distributions defined in a feature vector space. HMM is used.
  • a Gaussian probability distribution constituting the acoustic model is used, and a feature vector sequence is observed from a sequence of acoustic models as a plurality of candidates for speech recognition results (hereinafter, appropriately referred to as a hypothesis).
  • the degree (score) is calculated, and the final speech recognition result is determined from the multiple hypotheses based on the score.
  • the hypothesis with the highest score for the feature vector sequence is selected as the one that best matches the input speech, and the acoustic model that constitutes the hypothesis is selected.
  • a word string corresponding to the sequence of files is output as a speech recognition result.
  • the speech recognition device for a specific speaker which can be divided into three types of adaptive speech recognition devices, uses an acoustic model that has been learned using the speech of the specific speaker. For, a highly accurate (low error recognition rate) speech recognition result can be obtained.
  • a speech recognition device for a specific speaker the speech recognition accuracy of speakers other than the specific speaker generally deteriorates greatly.
  • the speech recognition device for unspecified speakers an acoustic model trained using the speech of an unspecified number of speakers is used, so that relatively accurate speech recognition results can be obtained for any speaker. be able to.
  • the speech recognition accuracy of the particular speaker cannot be as high as that of the speech recognition device for the particular speaker.
  • a model-adaptive speech recognizer has the same performance as a speech recognizer for an unspecified speaker, but when a specific user (speaker) uses the device, the user is notified.
  • the model adaptation of the acoustic model is performed by this voice, and the voice recognition accuracy for the user is improved.
  • the model-adaptive speech recognition device first performs speech recognition using the same acoustic model as in the speech recognition device for unspecified speakers, but at that time, the speech input from the user Then, a mismatch between the sound model and the acoustic model is analyzed, and based on the analysis result, a conversion matrix for transforming the acoustic model into a model that matches (applies) the input speech is obtained. After that, speech recognition is performed using an acoustic model obtained by transforming the acoustic model using a transformation matrix, that is, an acoustic model subjected to model adaptation.
  • model-adaptive speech recognition device In a model-adaptive speech recognition device, the above-described model adaptation is performed as training, for example, before the user uses the device in earnest, so that the acoustic model matches the user's voice. Because it is converted to what you do. The speech recognition accuracy for that particular user is improved.
  • the acoustic model in the model-adaptive speech recognition device is converted into a speech suitable for speech recognition as described above, if the user (speaker) is focused on, the speech recognition device is However, if one focuses on the environment in which the speech recognition device is used, it will be adapted to that environment.
  • the voice recognition device in an environment where the voice recognition device is used, for example, there is a noise at that location, and a distortion of the channel until the user's voice is input to the voice recognition device.
  • a model-adaptive speech recognizer is used in a certain environment, the acoustic model will be converted to adapt to the sound in that environment.
  • the speech recognizer will be adapted to the environment in which it will be used.
  • the distortion of the channel is based on the characteristics of a microphone for converting voice into an electric signal, or the voice input to a voice recognition device is transmitted through a band-limited transmission line such as a telephone line. In such cases, there are those based on the characteristics of the transmission path.
  • model adaptation is performed, for example, by linearly transforming an average vector defining a Gaussian probability distribution constituting the HMM using the above-described transformation matrix.
  • model adaptation refers to both the conversion of an acoustic model by a conversion matrix and the conversion of a feature vector. That is, in the model adaptation, the acoustic model may be adapted to the feature vector obtained from the user's voice, or the feature vector obtained from the user's voice may be adapted to the acoustic model. .
  • Model adaptation is the likelihood that a feature vector of a certain utterance is observed from the acoustic model.
  • the acoustic model corresponding to the utterance of interest the phoneme of the utterance of interest, etc.
  • the purpose is to improve (increase the score) for the feature vector, which is calculated from the Gaussian probability distribution that constitutes the HMM as an acoustic model that represents the HMM.
  • the model adaptation to be transformed.In this case, the feature vector is ideally mapped to the mean vector that defines the Gaussian probability distribution that constitutes the acoustic model by being transformed by the transformation matrix. It is.
  • the score for the feature vector of the target utterance calculated from the acoustic model corresponding to the target utterance is made larger than the score calculated from the other acoustic models.
  • a transformation matrix that performs a linear transformation that matches the feature vector to the mean vector that defines the Gaussian probability distribution that constitutes the acoustic model corresponding to the utterance of interest is determined. This conversion matrix can be calculated, for example, periodically or irregularly. At the time of speech recognition, matching processing is performed using the feature vector (or acoustic model) converted by the conversion matrix. Will be
  • a transformation matrix for performing model adaptation is obtained using a plurality of feature vector sequences obtained from a plurality of utterances of the particular speaker.
  • a transformation matrix that matches each of the feature vectors with the corresponding average vector For example, a method using linear regression (least square method) is known. Then, the transformation matrix obtained in this way is obtained by calculating the feature vector obtained from the utterance of a specific speaker and the statistical error (here, the sum of square errors) from the corresponding average vector. It maps to the vector to be minimized, so that its transformation matrix transforms any feature vector from a particular speaker's utterance to exactly match the corresponding average vector. Is generally not possible.
  • any of the methods is basically the same as the above-mentioned method.
  • the feature vector of the utterance of interest or the acoustic model corresponding to the utterance of interest is converted from the acoustic model so as to maximize the likelihood that the feature vector is observed.
  • model-adaptive speech recognition device As the model adaptation by a specific user's voice or the model adaptation in a specific environment progresses, the voice of the specific user or the speech recognition in a specific environment Accuracy improves, but on the other hand, speech recognition accuracy for other users and other environments deteriorates. As a result, the model-adaptive speech recognizer has the same performance as the speech recognizer for a specific speaker.
  • the speech recognition device may be used by another user or may be used under another environment. By using it, it is possible to adapt it to other users and other environments.
  • the acoustic model of the speech recognizer is adapted to the first user or the first environment. Until it adapts to other users and other environments, the speech recognition accuracy is greatly degraded.
  • the acoustic model adapted to the first user or the first environment may not be fully adaptable to other users or other environments, in which case the first user or the first It is necessary to return the acoustic model adapted to the current environment to the original acoustic model (after resetting), and then adapt it to other users and other environments.
  • each speech recognition device prepares a plurality of sets of acoustic models and adapts a different set of acoustic models for each user to the user.
  • each speech recognition device has Since speech recognition is performed using an acoustic model adapted to that user, the same speech recognition accuracy as that of a speech recognition device for a specific speaker can be obtained for all of the plurality of users.c
  • speech recognition is performed using an acoustic model adapted to the user who is speaking, so the device must be informed of which user is speaking. Therefore, the user must input information for identifying himself / herself by operating a button or the like before starting to use the device, which is troublesome. Disclosure of the invention
  • the present invention has been made in view of such a situation, and even when used by a plurality of users or in a plurality of environments, the user is not required to be conscious of model adaptation, and has high accuracy. It enables speech recognition.
  • the speech recognition device of the present invention converts one of an input speech and an acoustic model when performing model adaptation for adapting the input speech and an acoustic model used for speech recognition and adapting to the other 1
  • a conversion function storage means for storing the above conversion function, and a conversion obtained by converting one of the input voice and the acoustic model corresponding to the input voice by one or more conversion functions stored in the conversion function storage means. Based on the result, from among the one or more conversion functions stored in the conversion function storage means, a conversion function that is optimal for adapting one of the input speech and the acoustic model to the other is detected, and the optimal conversion is performed.
  • Allocating means for allocating an input voice to a function, voice storage means for storing an input voice to which a conversion function is allocated, and one or more conversion functions stored in the conversion function storage means. That is, the conversion function to which the new input voice is allocated by the allocation means is updated by using all the input voices allocated to the conversion function, and the conversion function stored in the conversion function storage means.
  • a conversion function selecting means for selecting a conversion function used for converting one of the input speech and the acoustic model from one or more conversion functions; and a conversion function selected by the conversion function selection means.
  • a matching unit that performs matching processing with the other, and outputs a speech recognition result of the input voice based on the matching processing result.
  • the speech recognition method includes the steps of: converting one of an input voice and an acoustic model corresponding to the input voice based on a conversion result obtained by converting each of the input voices by one or more conversion functions; Detecting an optimal conversion function for adapting one of the acoustic models to the other, and assigning the input speech to the optimal conversion function; A conversion function update step of updating a conversion function to which a new input voice is assigned using all input voices assigned to the conversion function; and an input voice and an acoustic model from one or more conversion functions.
  • a conversion function selection step for selecting a conversion function to be used to convert one of the conversion functions and a conversion function selected in the conversion function selection step.
  • a conversion step for converting one of the input voice and the acoustic model, a conversion step for converting one of the input voice and the acoustic model using the conversion function, and a matching process for the other are performed based on the matching processing result. And a matching step of outputting a speech recognition result of the input speech.
  • the program according to the present invention is configured such that, based on a conversion result obtained by converting one of an input voice and an acoustic model corresponding to the input voice by one or more conversion functions, the input voice is selected from one or more conversion functions. And an acoustic model for detecting one of the best conversion functions to be applied to the other, and allocating the input speech to the optimum conversion function.
  • a conversion function selection step for selecting a conversion function to be used for converting one of the models; and a conversion function selected in the conversion function selection step.
  • the recording medium is configured such that, based on a conversion result obtained by converting one of an input voice and an acoustic model corresponding to the input voice by each of one or more conversion functions, the input voice and the audio model are selected from one or more conversion functions. Detecting an optimal conversion function for adapting one of the acoustic models to the other, and assigning the input speech to the optimal conversion function; and A conversion function to update a conversion function to which a new input voice is assigned using all input voices assigned to the conversion function, and an input voice and an acoustic model from one or more conversion functions. A conversion function selection step for selecting a conversion function to be used for converting one of the conversion functions and a conversion function selected in the conversion function selection step.
  • the input voice and the audio based on a conversion result obtained by converting one of an input voice and an acoustic model corresponding to the input voice by one or more conversion functions, the input voice and the audio
  • the best conversion function for adapting one of the models to the other is found, the input speech is assigned to the best conversion function, and the conversion function with the new input speech is assigned to the conversion function.
  • is updated using all the input voices assigned to the function.
  • a conversion function used to convert one of the input voice and the acoustic model is selected from one or more conversion functions.
  • the selected conversion function converts one of the input speech and the acoustic model.
  • one of the input speech and the acoustic model converted by the conversion function is matched with the other, and the matching process is performed. Based on the matching processing result, the speech recognition result of the input speech is output.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of a speech recognition device to which the present invention is applied.
  • FIG. 2 is a flowchart illustrating the speech recognition processing.
  • FIG. 3 is a flowchart illustrating the adaptive data registration process.
  • FIG. 4 is a flowchart illustrating the conversion matrix update process.
  • FIG. 5 is a flowchart illustrating the conversion matrix generation Z deletion processing.
  • FIG. 6 is a flowchart illustrating a conversion matrix generation process.
  • FIG. 7 is a flowchart illustrating the transformation matrix deletion processing.
  • FIG. 8 is a block diagram showing a configuration example of another embodiment of the speech recognition device to which the present invention is applied.
  • FIG. 9 is a block diagram showing a configuration example of a computer according to an embodiment of the present invention.
  • FIG. 1 shows a configuration example of an embodiment of a speech recognition device to which the present invention is applied.
  • the voice uttered by the user is input to a microphone (microphone) 1, which converts the input voice into a voice signal as an electric signal.
  • This audio signal is supplied to an A / D (Analog Digital) converter 2.
  • the A / D converter 2 samples and quantizes the audio signal as an analog signal from the microphone 1 and converts it into audio data as a digital signal.
  • This audio data is supplied to the feature extraction unit 3.
  • the feature extraction unit 3 performs acoustic analysis processing on the audio data from the A / D conversion unit 2 for each appropriate frame, thereby obtaining, for example, an MFCC (Mel Frequency A feature vector as a feature amount such as Cepstrura Coefficient) is extracted.
  • the feature extraction unit 3 can extract other feature vectors such as a spectrum, a linear prediction coefficient, a cepstrum coefficient, a line spectrum pair, and the like.
  • the feature vector obtained for each frame in the feature extracting unit 3 is sequentially supplied to and stored in the feature vector buffer 4. Therefore, the feature vector buffer 4 stores the time series of the feature vectors for each frame.
  • the buffer 4 stores, for example, a time-series feature vector obtained from the start to the end of a certain utterance (voice section).
  • the conversion unit 5 performs a linear conversion of the feature vector stored in the buffer 4 using the conversion matrix supplied from the selection unit 14, and converts the converted feature vector (hereinafter referred to as a conversion feature vector as appropriate). Is supplied to the matching unit 6 as a result adapted to the acoustic model stored in the acoustic model storage unit ⁇ .
  • the matching unit 6 refers to the acoustic model storage unit 7, the dictionary storage unit 8, and the grammar storage unit 9 as necessary using the feature vector (transformation feature vector) supplied from the conversion unit 5. While, the voice input to the microphone 1 (input voice) is recognized based on, for example, a continuous distribution HMM method.
  • the acoustic model storage unit 7 stores an acoustic model representing acoustic characteristics of each predetermined unit (PLU (Phonetic-Linguistic-Units)) such as individual phonemes or syllables in the language of the speech to be recognized.
  • PLU Phonetic-Linguistic-Units
  • an acoustic model for example, an HMM (Hidden Hidden) having a Gaussian distribution used to calculate a probability that a predetermined feature vector sequence is observed is used.
  • the Gaussian distribution of the HMM is defined by a mean vector and a covariance matrix, and the HMM is constructed using a probability density function other than the Gaussian distribution. It is possible.
  • the dictionary storage unit 8 stores, for each word (vocabulary) to be recognized, a word dictionary in which information (phonological information) related to its pronunciation is described.
  • the grammar storage unit 9 stores the words registered in the word dictionary of the dictionary storage unit 8 It stores grammar rules (language models) that describe whether they are linked (connected).
  • a grammar rule for example, a rule based on a context-free grammar (CFG) or a statistical word chain probability (N-gram) can be used.
  • the matching unit 6 refers to the word dictionary in the dictionary storage unit 8 and connects the acoustic models stored in the acoustic model storage unit 7 to form a word acoustic model (word model). Further, the matching unit 6 connects several word models by referring to the grammar rules stored in the grammar storage unit 9, and uses the word models connected in this way to generate a time-series feature.
  • the matching unit 6 Recognizes the voice input to microphone 1 by the continuous distribution HMM method based on the vector. That is, the matching unit 6 calculates a score representing the likelihood that the feature vector of the time series supplied via the conversion unit 5 is observed from the series of each word model configured as described above. calculate. Then, the matching unit 6 detects a word model sequence having the highest score, and outputs a word string corresponding to the word model sequence as a speech recognition result.
  • the matching unit 6 since speech recognition is performed by the HMM method, the matching unit 6 accumulates the appearance probabilities of each feature vector for the word string corresponding to the connected word model, and uses the accumulated value as a score. The word string with the highest score is output as the speech recognition result.
  • the score calculation is performed based on an acoustic score given by the acoustic model stored in the acoustic model storage unit 7 (hereinafter, appropriately referred to as an acoustic score) and a grammar rule stored in the grammar storage unit 9.
  • Linguistic scores hereinafter referred to as linguistic scores, as appropriate).
  • the acoustic score is calculated based on the probability that a sequence of feature vectors output by the feature extracting unit 3 is observed from the acoustic model forming the word model.
  • the language score is obtained based on the probability that the word of interest and the word immediately before the word are linked (connected).
  • the acoustic score and linguistic score for each word The speech recognition result is determined based on the final score obtained by comprehensively evaluating the core and the final score (hereinafter referred to as the final score as appropriate).
  • the final score S of the word string is calculated, for example, according to the following equation.
  • C k represents a weight applied to the language score L (w k ) of the word w k .
  • a matching process is performed to find N that maximizes the final score shown in the above equation and word strings W l , w 2 ,..., W N , and the word strings W l , w 2 , ⁇ ⁇ ⁇ , W N are output as speech recognition results.
  • the voice recognition device of FIG. 1 By performing the above matching process, in the voice recognition device of FIG. 1, for example, when the user utters “I want to go to New York,” the user “New York”, “Ni”, “Go” Each word such as “I” or “I” is given an acoustic score and a linguistic score, and when the final score obtained by comprehensively evaluating them is the largest, the word string “New York”, “Nii”, “I want to go” ”,“ Is ”, are output as speech recognition results.
  • the matching unit 6 evaluates the word sequence of the four kinds 4, among them, must determine the best match to the utterance of the user (also the greatest final score) . If the number of words registered in the word dictionary increases, the number of words arranged in the word number becomes the number of words multiplied by the number of words, so the word string that must be evaluated is a huge It becomes a number.
  • the number of words included in an utterance is unknown, so that not only a word string consisting of four words but also a word string consisting of one word, two words, ... There is a need to. Therefore, the number of word strings to be evaluated becomes even more enormous, and among such enormous word strings, the one that is most likely to be the result of speech recognition is determined in terms of the amount of computation and the memory capacity used. It is a very important issue to make efficient decisions from
  • Examples of methods for improving the calculation amount and the memory capacity include, for example, an acoustic pruning method of terminating the score calculation based on the acoustic score obtained in the course of obtaining the acoustic score, and a language score. There is a linguistic pruning method that narrows down the words to be calculated based on the score.
  • These pruning techniques are also called beam search methods.
  • a predetermined threshold is used for narrowing down (pruning) words, and this threshold is called a beam width.
  • the sound score and the language score are collectively referred to as appropriate.
  • a sequence of a certain word is assumed as a hypothesis as a candidate for a speech recognition result, and a sequence of words as the hypothesis (speech recognition).
  • a new hypothesis is generated by connecting a new word to the resulting rule, and a score for a sequence of words as each generated hypothesis is calculated using the feature vector.
  • the hypothesis with a relatively low score is deleted, and the same process is repeated for the remaining hypotheses.
  • the registration unit 10 stores, for example, the characteristic vector sequence of the speech for each utterance (for each speech section) stored in the buffer 4 into an acoustic model of the sequence corresponding to the speech (here, as described above).
  • HMM The flatness that defines the Gaussian distribution of each It is associated with the average vector sequence and supplied to the adaptive database 11.
  • the feature vector sequence that the registration unit 10 supplies to the adaptive database 11 and the sequence of the average vector associated with it are the feature vector output by the feature extraction unit 3 and the acoustic model storage unit. It is used to update the transformation matrix used to adapt the acoustic model stored in 7. Therefore, a set of a characteristic vector sequence supplied to the adaptive database 11 by the registration unit 10 and a sequence of average vectors associated with the characteristic vector sequence is hereinafter referred to as adaptive data as appropriate.
  • the average vector sequence in such adaptive data is a feature vector sequence with the highest likelihood (probability) observed from the corresponding acoustic model sequence, and therefore, ideally, in the adaptive data, It can be said that the conversion matrix that converts a feature vector sequence into a sequence of average vectors associated with the feature vector is a conversion matrix that performs optimal model adaptation.
  • the speech feature vector that constitutes the adaptation data is input to the microphone 1
  • the voice of the user or the like can be obtained by being processed by the feature extraction unit 3.
  • how to recognize the acoustic model of the sequence corresponding to the sound input to the microphone 1 is a problem. For example, this can be recognized by the following two methods. .
  • the voice recognition device requests the user to utter a predetermined word.
  • the sequence of the acoustic model corresponding to the voice can be recognized based on the predetermined word that has requested the user to utter.
  • a feature vector obtained from a user's voice is converted by a voice recognition device by a conversion unit 5 using a conversion matrix stored in a conversion matrix storage unit 13 described later.
  • the matching unit 6 performs a matching process using each of the obtained transform feature vectors.
  • the one with the highest score Can be recognized as a correct speech recognition result, and a sequence of acoustic models corresponding to the speech recognition result can be recognized as a sequence of acoustic models corresponding to the user's speech.
  • the registration unit 10 recognizes the score by monitoring the internal state of the matching unit 6 and, for the feature vector sequence of the speech stored in the buffer 4, Recognize the series of acoustic models corresponding to (the highest score).
  • the registration unit 10 calculates the average vector of the HMM as the acoustic model (the probability that the characteristic vector is observed from the state of the HMM). It is necessary to recognize the average vector that defines the Gaussian distribution used for the calculation, but the registration unit 10 recognizes this average vector by referring to the sound model storage unit 7.
  • the adaptation database 11 stores the adaptation data supplied from the registration unit 10 together with assignment information indicating to which of the transformation matrices the adaptation data is assigned in the transformation matrix storage unit 13.
  • the allocation information is supplied to the model adaptation unit 12 and the adaptation database 11 .
  • the model adaptation unit 12 uses the adaptation data stored in the adaptation database 11. Update, generation, deletion, etc. of the transformation matrix used to perform model adaptation for adapting the speech feature vector to the acoustic model stored in the acoustic model storage unit 7.
  • the model adaptation unit 12 When new adaptation data is stored in the adaptation database 11, it is recognized which of the transformation matrices to be assigned to the adaptation data is stored in the transformation matrix storage unit 13, and the adaptation data is assigned to the transformation matrix.
  • the model adaptation unit 12 recognizes to which of the conversion matrices stored in the transformation matrix storage unit 13 the newly stored adaptation data should be assigned in the adaptation database 11, and determines the assignment. Generate assignment information to represent. Then, the model adaptation unit 12 supplies the assignment information to the adaptation database 11 and stores it in association with the corresponding adaptation data. Therefore, in the speech recognition apparatus of FIG. 1 (the same applies to the speech recognition apparatus of FIG. 8 described later), all the adaptive data stored in the adaptive database 11 are converted into the conversion matrix stored in the conversion matrix storage section 13. It is assigned to one of the matrices, and this assignment causes the adaptive data to be classified (subset) into several classes (the classes specified by the transformation matrix).
  • the transformation matrix storage unit 13 stores one or more transformation matrices.
  • the transformation matrix storage unit 13 stores, for example, only one transformation matrix as an initial state.
  • one conversion matrix stored as an initial state in the conversion matrix storage unit 13 is, for example, an identity matrix (a unit matrix) as in a conventional model-adaptive speech recognition device. Etc. can be adopted.
  • the selection unit 14 monitors the internal state of the matching unit 6 and, based on the monitoring result, selects one or more conversion functions stored in the conversion matrix storage unit 13 and stores the conversion function in the buffer 4. The one used to convert the feature vector is selected and supplied to the conversion unit 5.
  • the user's voice input to the microphone 1 is supplied to the feature extraction unit 3 as digital voice data via the AZD conversion unit 2, and the feature extraction unit 3 converts the voice data supplied thereto into a predetermined voice data.
  • Acoustic analysis is performed for each frame to extract feature vectors.
  • the feature vectors obtained for each frame in the feature extracting unit 3 are sequentially supplied to the buffer 4 and stored. The extraction of the feature vector by the feature extraction unit 3 and the storage of the feature vector by the buffer 4 are continued until one utterance (voice section) of the user ends.
  • the detection of the voice section is performed by, for example, a known method.
  • the selection unit 14 proceeds to step S 1, where all the conversions stored in the conversion matrix storage unit 13 are performed.
  • the matrix is selected and supplied to the converter 5, and the process proceeds to step S2.
  • the conversion matrix selected in the selection unit 14 is hereinafter referred to as a selection conversion matrix as appropriate.
  • the conversion unit 5 reads the time-series feature vector from the buffer 4, converts the feature vector read from the buffer 4 by the selection conversion matrix supplied from the selection unit 14, and performs the conversion.
  • the supply of the conversion feature vector obtained by the conversion to the matching unit 6 is started.
  • the conversion unit 5 uses the respective conversion matrices to store the feature bases stored in the buffer 4.
  • the turtle is converted, and the resulting sequence of converted feature vectors is supplied to the matching unit 6.
  • step S2 supply of the feature vector sequence converted by each of the one or more conversion matrices stored in the conversion matrix storage unit 13 to the matching unit 6 is started.
  • step S3 the matching unit 6 refers to the acoustic model storage unit 7, the dictionary storage unit 8, and the grammar storage unit 9 as necessary using the feature vector sequence supplied thereto, Performs matching processing to calculate scores based on the continuous distribution HMM method, etc., while pruning hypotheses by the beam search method.
  • the matching unit 6 performs a matching process on each of the characteristic vector sequences converted by each of the one or more conversion matrices stored in the conversion matrix storage unit 13.
  • step S4 the matching unit 6 determines, for each of the characteristic vector sequences converted by the one or more conversion matrices stored in the conversion matrix storage unit 13, a predetermined time from the start time of the voice section. Judge whether the hypothesis for time has been obtained.
  • step S4 If it is determined in step S4 that a hypothesis for a predetermined time from the start time of the voice section has not been obtained yet, the process returns to step S3, and the matching unit 6 determines whether the feature vector supplied from the conversion unit 5 is available. The matching process using the torque sequence is continued.
  • step S4 a hypothesis for a predetermined time from the start time of the voice section is When it is determined that the characteristic vector is obtained, that is, in the matching unit 6, for each of the characteristic vector sequences converted by each of the one or more conversion matrices stored in the conversion matrix storage unit 13, a predetermined time from the start time of the voice section If the hypothesis is obtained, the process proceeds to step S5, where the selection unit 14 obtains the feature vector sequences converted by the one or more conversion matrices stored in the conversion matrix storage unit 13. From the hypotheses for the given period of time, the one with the highest score is selected.
  • step S5 the selection unit 14 detects a transformation matrix used to transform the feature vector sequence from which the hypothesis with the highest score has been obtained, and proceeds to step S6.
  • the conversion matrix detected in this manner (hereinafter, appropriately referred to as a detection conversion matrix) is stored in the sound model storage unit 7 with respect to (the feature vector of) the user's voice that is currently input. Is the one that gives the highest score that can be obtained from the obtained acoustic model, and therefore the one that adapts the user's voice to the acoustic model best, that is, the optimal transformation matrix for that user's voice. it can.
  • step S6 the selection unit 14 selects the detected conversion matrix (optimal conversion matrix) detected in step S5 from the conversion matrices stored in the conversion matrix storage unit 13, and selects The selection conversion matrix is supplied to the conversion unit 5, and the process proceeds to step S7.
  • step S7 the conversion unit 5 converts the feature vector read from the buffer 4 by the selection conversion matrix supplied from the selection unit 14, and matches the conversion feature vector obtained by the conversion. Start supplying to Part 6.
  • this allows the matching vector 6 to be supplied with the feature vector sequence converted by the conversion matrix (hereinafter, appropriately referred to as an optimum conversion matrix) that most appropriately adapts the user's voice that has been input to the acoustic model. Be started.
  • the conversion matrix hereinafter, appropriately referred to as an optimum conversion matrix
  • step S8 the matching unit 6 continues the matching process using the feature vector sequence supplied thereto. That is, the matching unit 6 uses the feature vector sequence converted from the conversion matrix stored in the conversion matrix storage unit 13 by the optimum conversion matrix for the currently input speech, and Continue the logging process. Thereby, the matching unit 6 calculates a score obtained using the feature vector sequence transformed by the optimal transformation matrix.
  • the matching unit 6 deletes the score and the hypothesis obtained by using the feature vector obtained by the loop processing in steps S3 and S4 and converted by a transformation matrix other than the optimal transformation matrix.
  • step S9 When the calculation of the score up to the end time of the voice section is completed, the matching unit 6 proceeds to step S9, and detects the hypothesis with the highest score from the remaining hypotheses, and performs voice recognition. The result is output, and the process proceeds to step S10.
  • step S10 new adaptive data is registered (stored) in the adaptive database 11. Adaptive data registration processing is performed, and the speech recognition processing ends.
  • step S10 of FIG. 2 will be described with reference to the flowchart of FIG.
  • step S 21 the registration unit 10 refers to the internal state of the matching unit 6, so that the speech feature vector of one utterance stored in the buffer 4 is obtained.
  • the sequence the sequence of the acoustic model corresponding to the speech (the sequence of the acoustic model that constitutes the speech recognition result of the utterance) is recognized.
  • the registration unit 10 recognizes, by referring to the acoustic model storage unit 7, an average vector defining a Gaussian distribution of each acoustic model of the sequence of the recognized acoustic model, and
  • the adaptive data is configured by associating the average vector sequence corresponding to the acoustic model sequence with the feature vector sequence stored in the buffer 4.
  • the registration unit 10 supplies the adaptation data to the adaptation database 11 for storage, and proceeds to step S23.
  • step S23 the registration unit 10 clears the buffer 4 by deleting the feature vector sequence for one utterance stored in the buffer 4, and proceeds to step S24.
  • step S24 the model adaptation section 12 adapts the adaptive data in the immediately preceding step S22.
  • the new adaptive data stored in the database 11 is used as the target adaptive data, and the characteristic vector sequence in the target adaptive data is most closely approximated to the average vector sequence associated with the characteristic vector sequence.
  • a conversion matrix (optimal conversion matrix) to be converted into a vector sequence is detected from the conversion matrices stored in the conversion matrix storage unit 13.
  • the model adapting unit 12 transforms the feature vector sequence in the target adaptive data by using a certain transformation matrix stored in the transformation matrix storage unit 13 to obtain a transformed feature vector sequence. Further, the model adaptation unit 21 calculates, for example, the total sum of the distances between each transform feature vector of the transform feature vector sequence and the corresponding average vector of the average vector sequence in the target adaptive data. It is determined as the error between the series of the transformation feature vector and the average vector. The model adaptation unit 21 finds the error between the above-described transformation feature vector and the series of average vectors for each of the transformation feature vectors obtained by the transformation matrices stored in the transformation matrix storage unit 13. The transformation matrix used to obtain the transformation feature vector that minimizes the error is detected as the optimal transformation matrix.
  • step S25 the model adapting unit 12 assigns the target adaptive data to the optimal transformation matrix. That is, the model adaptation unit 12 uses the information representing the optimal transformation matrix as the above-mentioned assignment information, supplies the assignment information to the adaptation database 11, and stores it in association with the target adaptation data.
  • the model adaptation unit 12 performs a transformation matrix update process for updating the transformation matrix stored in the transformation matrix storage unit 13 using the adaptation data stored in the adaptation database 11. Then, the adaptive data registration process ends.
  • step S31 the model adaptation unit 12 converts the transformation matrix to which the attention adaptive data is assigned from the transformation matrices stored in the transformation matrix storage unit 13 into the attention transformation. Proceed to step S32 as a matrix.
  • step S32 the model adapting unit 12 updates the transformation matrix of interest using all the adaptation data assigned to the transformation matrix of interest.
  • the model adaptation unit 12 is, for example, a matrix that linearly transforms a feature vector sequence in each piece of adaptation data assigned to the transformation matrix of interest, and a sequence of feature vectors after the linear transformation. The one that minimizes the error from the average vector associated with the feature vector sequence is determined by the least squares method (linear regression). Then, the model adaptation unit 12 updates the noted transformation matrix with this matrix (replaces this matrix with the noted transformation matrix), and supplies the updated noted transformation matrix to the transformation matrix storage unit 13. Then, it is stored by overwriting the target transformation matrix before updating.
  • the method of updating the transformation matrix of interest in step S32 is basically the same as that of model adaptation in a conventional model adaptive speech recognition device.
  • the update of the target transformation matrix in step S32 uses only the adaptation data assigned to the target transformation matrix.For example, all the voices input for model adaptation are used. This is different from the conventional method of performing model adaptation using. That is, in the conventional model adaptation method, there is no concept that the adaptation data is assigned to the transformation matrix.
  • step S32 the adaptive data assigned to the transform matrix of interest is recognized by referring to the assignment information stored in the adaptive database 11.
  • step S32 After the target transformation matrix is updated in step S32, the process proceeds to step S33, in which an assignment update process for updating the assignment of adaptive data to each transformation matrix stored in the transformation matrix storage unit 13 is performed. Done.
  • step S32 the transformation matrix of interest is updated, so that the adaptation data assigned to each transformation matrix stored in the transformation matrix storage unit 13 includes the currently assigned transformation matrix.
  • the transformation matrix of interest becomes the optimal transformation matrix.
  • assigned to the updated attention transformation matrix In some adaptation data, other transformation matrices may become the optimal transformation matrix instead of the transformation matrix of interest. Therefore, in the assignment updating process in step S33, each adaptation data stored in the adaptation database 11 confirms whether or not the currently assigned transformation matrix is the optimal transformation matrix. If not, the adaptive data is reassigned to the optimal transformation matrix.
  • the assignment updating process includes the processes in steps S41 to S48.
  • the model adaptation unit 12 converts the variables I and J into a transformation matrix.
  • the number of transformation matrices stored in the storage unit 13 and the number of adaptation data stored in the adaptation database 11 are set, and a variable i for counting the transformation matrix and the adaptation data are set.
  • the variable j to be counted is initialized to 1.
  • step S42 the model adaptation unit 12 stores the feature vector sequence in the adaptation data #j, which is the j-th adaptation data stored in the adaptation database 11, into the transformation matrix storage unit 13.
  • the transformation is performed using the transformation matrix Mi, which is the stored i-th transformation matrix, and the process proceeds to step S43.
  • step S43 the model adaptation unit 12 computes a transformation feature vector obtained by transforming the adaptive data #j with a transformation matrix M; and a series of average vectors in the adaptive data #j.
  • the error ⁇ (ij) is obtained in the same manner as in the case described in step S24 in FIG.
  • step S44 the model adaptation unit 12 determines whether or not it is equal to I which is the total number of variable i force conversion matrices. If it is determined in step S44 that the variable i is not equal to I, the process proceeds to step S45, where the model adaptation unit 12 increments the variable i by 1, returns to step S42, and returns to step S42. The same processing is repeated.
  • step S44 If it is determined in step S44 that the variable i is equal to I, the process proceeds to step S46, where the model adaptation unit 12 determines whether the variable j1S is equal to J, which is the total number of adaptation data. Is determined. In step S46, variable j equals J If it is determined that it is not correct, the process proceeds to step S47, where the model adapting unit 12 increments the variable j by one, initializes the variable i to 1, returns to step S42, and returns to step S42. The same processing is repeated.
  • step S46 when it is determined that the variable j is equal to J, that is, for all the adaptive data stored in the adaptive database 11, the adaptive data is stored in the transformation matrix storage unit 13.
  • the model adaptation unit 12 transforms each adaptation data # j into a transformation matrix Mi that minimizes the error ⁇ (i, j). Reassign. That is, the model adaptation unit 12 associates the information representing the transformation matrix Mi that minimizes the error ⁇ (i, j) with the adaptation data #j stored in the adaptation database 11 as assignment information. And memorize (overwrite).
  • adaptive data #j is assigned to the transformation matrix Mi
  • the transformed feature vector sequence obtained by transforming the feature vector sequence in the adapted data #j with the transformation matrix Mi and the adaptive data #
  • the error ⁇ (i, j) from the average vector sequence at j is hereinafter referred to as the error for the adaptive data as appropriate.
  • step S33 the process proceeds to step S34, where the model adaptation unit 12 performs the assignment update processing. It is determined whether or not there is a transformation matrix in which the adaptive data to be assigned has changed.
  • step S34 when it is determined that there is a transformation matrix in which the adaptive data to be changed has been changed, the process proceeds to step S35, where the model adaptation unit 12 checks the transformation matrix in which the allocation of the adaptive data has changed. The process returns to step S32 as a transformation matrix, and the same processing is repeated thereafter.
  • step S35 when there is a conversion matrix in which the allocation of the adaptive data has changed, in step S35, the conversion matrix is set as a target conversion matrix. And, Returning to step S32, the target transformation matrix is updated using the adaptive data assigned thereto, and further, in step S33, the assignment update process is repeated.
  • step S35 the plurality of transformation matrices are regarded as the transformation matrix of interest, and in step S32, the transformation matrices of interest are respectively Are updated using the adaptive data assigned to each.
  • step S34 when it is determined that there is no transformation matrix in which the allocation of adaptive data has changed, that is, when all the adaptive data in the adaptive database 11 have been allocated to the optimal transformation matrix. Then, the process proceeds to step S36, where the model adaptation unit 12 performs a conversion matrix generation / deletion process and ends the conversion matrix update process.
  • step S51 the model adaptation unit 12 generates a new transformation matrix from the transformation matrices stored in the transformation matrix storage unit 13. Then, it is determined whether there is a transformation matrix that satisfies a predetermined generation condition set in advance.
  • the generation condition for example, it is possible to employ that the number of adaptive data equal to or larger than a predetermined threshold (the number larger than the predetermined threshold) is assigned to the transformation matrix.
  • the generation conditions include, for example, that the average value of the errors in the adaptive data assigned to the conversion matrix is equal to or larger than a predetermined threshold (larger), For example, it is possible to adopt a case where the number of errors in the data is equal to or more than a predetermined threshold value or more. That is, as a generation condition, depending on the transformation matrix, it becomes difficult to accurately convert the feature vector in all the adaptive data assigned to the transformation matrix to the average vector associated therewith. And other conditions that indicate the situation Can be adopted.
  • step S51 when it is determined that none of the transformation matrices stored in the transformation matrix storage unit 13 satisfy the generation condition, steps S52 and S53 are skipped and step S52 is skipped. Proceed to 5 4.
  • step S51 when it is determined that some of the transformation matrices stored in the transformation matrix storage unit 13 satisfy the generation condition, the process proceeds to step S52 and the model adaptation unit 1 2 Goes to step S53 with the transformation matrix that satisfies the generation condition as the transformation matrix of interest.
  • step S53 the model adaptation unit 12 performs a transformation matrix generation process described later, and proceeds to step S54. .
  • step S54 the model adaptation unit 12 satisfies a predetermined deletion condition set in advance, which is to be satisfied when the transformation matrix is deleted from the transformation matrices stored in the transformation matrix storage unit 13. Determine whether a transformation matrix exists.
  • the deletion condition for example, it is possible to adopt that only the number of adaptive data equal to or less than a predetermined threshold (the number less than the predetermined threshold) is assigned to the transformation matrix.
  • a deletion condition in addition to the fact that only the number of adaptive data equal to or less than a predetermined threshold value is assigned to the transformation matrix, for example, the average value of the error of the adaptive data assigned to the transformation matrix is equal to or less than the predetermined value. It is possible to adopt a condition that is equal to or greater than (greater than) the threshold value.
  • the deletion condition the latest time selected in step S6 in the speech recognition processing in FIG.
  • the conversion matrix storage unit 13 is stored for each of the conversion matrices stored in the conversion matrix storage unit 13, and the date and time are It is also possible to adopt that the date and time are past a predetermined number of days from the current date and time. In this case, the transformation matrix that has not been selected for a long time in step S6 in the speech recognition processing in FIG. 2 is deleted.
  • step S54 if it is determined that none of the transformation matrices stored in the transformation matrix storage unit 13 satisfy the deletion condition, skip steps S55 and S56 and perform the transformation. Matrix generation End Z deletion processing.
  • step S51 If it is determined in step S51 that some of the transformation matrices stored in the transformation matrix storage unit 13 satisfy the deletion condition, the process proceeds to step S55 and the model adaptation unit 12 Goes to step S56 with the transformation matrix that satisfies the deletion condition as the transformation matrix of interest.
  • step S56 the model adaptation unit 12 performs a transformation matrix deletion process described later, and ends the transformation matrix generation / deletion process.
  • step S61 the model adaptation unit 61 generates first and second matrices based on the transformation matrix of interest.
  • step S52 of FIG. 5 the transformation matrix that satisfies the generation condition is set as the transformation matrix of interest.
  • step S61 the transformation matrix of interest is split, so to speak. Generates the first and second matrices.
  • step S52 of FIG. 5 when there are a plurality of transformation matrices regarded as the transformation matrix of interest, the transformation matrix generation processing of FIG. Are performed sequentially or in parallel.
  • the generation of the first and second matrices based on the transformation matrix of interest in step S61 can be performed, for example, by changing the components by a predetermined value with respect to the transformation matrix of interest. .
  • a predetermined vector is one more smaller than a predetermined minute vector ⁇ than when the predetermined vector is mapped (transformed) by the conversion matrix of interest.
  • Two matrices that map to positions shifted by ⁇ are obtained, and these two matrices can be used as the first and second matrices. Also, let the attentioned transformation matrix be the first matrix as it is.
  • a predetermined vector is mapped to a position shifted by a predetermined small vector ⁇ compared to the case where a predetermined vector is mapped by the target transformation matrix.
  • the matrix to be obtained can be obtained, and the matrix can be used as the second matrix.
  • step S61 After generating the first and second matrices in step S61, the process proceeds to step S62, where the model adaptation unit 12 sets the number of adaptation data allocated to the transformation matrix of interest to a variable K. At the same time, the variable k for counting the number of adaptive data is initialized to 1, and the process proceeds to step S63.
  • step S63 the model adaptation unit 12 transforms the feature vector sequence in the adaptation data #k, which is the k-th adaptation data assigned to the transformation matrix of interest, using the first and second matrices, respectively. In this way, two transformed feature vector sequences are obtained.
  • the transformed feature vector sequence obtained by transforming the feature vector sequence with each of the first matrix and the second matrix is referred to as a first transformed feature vector sequence and a second transformed feature vector sequence, respectively. This is called the transformation feature vector series.
  • step S64 the model adaptation unit 12 computes an error between the first transform feature vector sequence and the average vector sequence in the adaptation data #k (hereinafter referred to as a first error as appropriate).
  • a second error an error between the second transform feature vector sequence and the average vector sequence in the adaptive data # k (hereinafter, appropriately referred to as a second error), and the process proceeds to step S65.
  • step S65 the model adaptation unit 12 determines whether the first error is less than (or less than) the second error.
  • step S65 when it is determined that the first error is smaller than the second error, that is, when the first and second matrices are compared, the first matrix has the adaptive data # If the feature vector sequence at k can be more appropriately adapted to the corresponding acoustic model, the process proceeds to step S66, where the model adaptation unit 12 assigns adaptation data #k to the first matrix. Proceed to step S68.
  • step S65 if it is determined that the first error is not less than the second error, that is, if the first and second matrices are compared, the second matrix If the feature vector sequence in #k can be more appropriately adapted to the corresponding acoustic model, the process proceeds to step S67, where the model adaptation unit 12 converts the adaptation data #k into the second matrix. Assignment, go to step S68.
  • step S68 the model adaptation unit 12 determines whether or not the variable k is equal to the total number K of adaptation data allocated to the transformation matrix of interest.
  • step S68 If it is determined in step S68 that the variable k is not equal to K, the process proceeds to step S69, where the model adaptation unit 12 increments the variable k by 1 and returns to step S63. Hereinafter, the same processing is repeated.
  • step S68 when it is determined that the variable k is equal to K, immediately, each of the adaptive data assigned to the target transformation matrix is replaced with the appropriate one of the first or second matrix ( If the characteristic vector is assigned to the one that is closer to the corresponding average vector), the process proceeds to step S70, where the model adaptation unit 12 reads the transformation of interest from the transformation matrix storage unit 13. The matrix is deleted, and the first and second matrices are stored in the transformation matrix storage unit 13 as new transformation matrices.
  • the transformation matrix of interest is deleted, and two new transformation matrices are added.
  • the transformation matrix is substantially increased by one (generated). become.
  • step S71 the model adaptation unit 12 uses the two new transformation matrices as the transformation matrix of interest and proceeds to step S72.
  • step S72 the model adaptation unit 12 updates the conversion matrix of interest using all the adaptive data assigned to the conversion matrix of interest, as in step S32 of FIG.
  • the two transformation matrices newly stored in the transformation matrix storage unit 13 are the transformation matrices of interest, and therefore, each of the two transformation matrices of interest is the adaptive data assigned to each of them. Is updated using.
  • the process proceeds to step S73, where the model adaptation unit 12 performs the same assignment updating process as in step S33 of FIG. 4, and proceeds to step S74.
  • step S74 the model adaptation unit 12 determines whether there is a transformation matrix in which the adaptive data to be assigned has changed by the assignment updating process in step S73.
  • step S74 when it is determined that there is a transformation matrix in which the adaptive data to be changed is present, the process proceeds to step S75, where the model adapting unit 12 converts the transformation matrix obtained by transforming the adaptation data into Returning to step S72 as a new conversion matrix of interest, the same processing is repeated thereafter.
  • step S75 when there is a transformation matrix in which the allocation of the adaptive data has changed, in step S75, the transformation matrix is set as the transformation matrix of interest. Then, returning to step S72, the target transformation matrix is updated using the adaptive data assigned thereto, and further, in step S73, the assignment update process is repeated.
  • step S75 the plurality of transformation matrices are regarded as the transformation matrix of interest, and in step S72, the transformation matrices of interest are respectively Are updated using the adaptive data assigned to each.
  • step S74 if it is determined in step S74 that there is no transformation matrix in which the allocation of the adaptive data has changed, that is, if all the adaptive data in the adaptive database 11 have been allocated to the optimal transformation matrix, The transformation matrix generation processing ends.
  • step S81 the model adaptation unit 81 deletes the transformation matrix of interest from the transformation matrix storage unit 13.
  • step S55 of FIG. 5 the conversion satisfying the deletion condition is performed.
  • the matrix is defined as the transformation matrix of interest.
  • step S81 the transformation matrix of interest is deleted from the transformation matrix storage unit 13.
  • step S81 After the transformation matrix of interest is deleted in step S81, the process proceeds to step S82, where the model adaptation unit 12 sets the number of adaptation data allocated to the transformation matrix of interest to a variable K, A variable k for counting the number of adaptive data is initialized to 1, and the process proceeds to step S83.
  • step S82 the total number of adaptive data assigned to each of the plurality of target transformation matrices is set in a variable K. .
  • step S83 the model adaptation unit 12 converts the feature vector sequence in the adaptation data #k, which is the k-th adaptation data, in the same manner as in step S24 of FIG.
  • a conversion matrix that converts to a vector sequence that is closest to the sequence of the average vector associated with the sequence, that is, an optimal conversion matrix, is detected from the conversion matrices stored in the conversion matrix storage unit 13. And proceed to step S84. .
  • step S84 the model adaptation unit 12 assigns (re-) adapts the adaptation data #k to the transformation matrix (optimal transformation matrix) detected in step S83, and proceeds to step S85.
  • step S85 the model adaptation unit 12 determines whether or not the variable k is equal to the total number K of adaptation data allocated to the transformation matrix of interest deleted in step S81.
  • step S85 When it is determined in step S85 that the variable k is not equal to K, the process proceeds to step S86, where the model adaptation unit 12 increments the variable k by 1 and returns to -S83. Hereinafter, the same processing is repeated. If it is determined in step S85 that the variable k is equal to K, immediately, all the adaptive data assigned to the target transformation matrix deleted in step S81 is stored in the transformation matrix storage unit. If it is reassigned to one of the transformation matrices stored in 13, the process proceeds to step S 87, where the model adaptation unit 12 removes any of the adaptation data assigned to the transformation matrix of interest. Are all newly assigned transformation matrices, and the process proceeds to step S88.
  • step S88 the model adaptation unit 12 updates the conversion matrix of interest using all the adaptive data assigned to the conversion matrix of interest, as in step S32 of FIG.
  • each of the transformation matrices of interest is updated using the adaptive data assigned to each of the transformation matrices.
  • step S89 the model adaptation unit 12 performs the same assignment updating process as in step S33 of FIG. 4, and then proceeds to step S90.
  • step S90 the model adaptation unit 12 determines whether there is a transformation matrix in which the adaptive data to be assigned has changed by the assignment updating process in step S89.
  • step S90 when it is determined that there is a transformation matrix in which the adaptive data to be changed is present, the process proceeds to step S91, where the model adaptation unit 12 looks at the transformation matrix obtained by transforming the adaptation data. The process returns to step S88 as a transformation matrix, and the same processing is repeated thereafter.
  • step S91 when there is a conversion matrix in which the assignment of the adaptive data has changed, in step S91, the conversion matrix is set as the target conversion matrix. Then, returning to step S88, the target transformation matrix is updated using the adaptive data assigned thereto, and further, in step S89, the assignment update process is repeated.
  • step S91 the plurality of transformation matrices are used as the transformation matrix of interest.
  • step S91 each of the transformation matrices of interest is updated using the adaptive data assigned to each.
  • step S90 when it is determined in step S90 that there is no transformation matrix in which the allocation of the adaptive data has changed, that is, when all the adaptive data in the adaptive database 11 have been allocated to the optimal transformation matrix, The transformation matrix deletion processing ends.
  • the adaptive data including the characteristic vector of the user's voice is registered by the adaptive data registration process of FIG.
  • the adaptation data is assigned to an optimal transformation matrix among one or more transformation matrices stored in the transformation matrix storage unit 13.
  • the transform matrix to which the adaptive data is newly assigned is updated using the adaptive data assigned to the transform matrix by the transform matrix update process of FIG. 4, and furthermore, each adaptive data stored in the adaptive database 11 is updated.
  • the transformation matrix of the adaptive data is assigned so that is assigned to the optimal transformation matrix.
  • the adaptive data is classified (clustered) into a transform matrix that is optimal for adapting the feature vector sequence in the adaptive data to the corresponding acoustic model, and furthermore, each class thus classified is classified.
  • the transformation matrix corresponding to the class is updated using the adaptive data of the class, so that the speech input by the user is automatically classified, so to speak, so that the speech of the class is appropriately classified by the corresponding acoustic model.
  • the conversion matrix is updated so as to adapt to, and as a result, by performing model adaptation using such a conversion matrix, the speech recognition accuracy can be improved.
  • the classification of the voice input by the user is performed from the viewpoint of which transformation matrix is the optimal conversion matrix for the voice. Therefore, the user's own voice should be classified into which class. There is no need to specify whether it exists. This means, for example, that the voice recognition device uses If the environment used is different, it means that the class may be classified into a different class (assigned to a different transformation matrix), but even if the class is classified into a different class, For a classified speech, the transformation matrix corresponding to the class is the optimal transformation matrix, and therefore, the optimal transformation matrix allows the speech to be optimally adapted to the corresponding acoustic model. And
  • the transformation matrix corresponding to the class is the optimal transformation matrix. Therefore, according to the optimal transformation matrix, the speech can be optimally adapted to the corresponding acoustic model. Can be done.
  • a new transformation matrix is generated, and the transformation matrix is updated using adaptive data that uses the transformation matrix as an optimal transformation matrix. Therefore, for example, when the speech recognition device is used in an environment that is significantly different from the past, or when an utterance is input by a user whose characteristics are significantly different from those of the conventional user. In addition, it is possible to prevent the speech recognition accuracy from being greatly degraded.
  • the conversion matrix storage unit is used.
  • the transformation matrix stored in 13 the input speech cannot be sufficiently adapted to the corresponding acoustic model, and the speech recognition accuracy may be degraded.
  • the transformation matrix generation processing in Fig. 6 a new transformation matrix is generated, and the new transformation matrix is significantly different from speech input under a significantly different environment and from previous users. Updates are performed using the voices of users with different features, and as a result, degradation of voice recognition accuracy due to changes in the user or environment, which occurs in conventional model-adaptive voice recognition devices, is prevented. It is possible to do.
  • First and second matrices which divide the allocation of the adaptive data, so to speak, are generated as new transformation matrices. Since it is reassigned to a conversion matrix that maps (converts) to a sequence that is closer to the sequence of the toll, a conversion matrix that adapts the speech to the corresponding acoustic model is generated dynamically, so to speak, without the user's knowledge. Therefore, the user does not need to be aware of model adaptation.
  • the transformation matrix deletion processing of FIG. 7 for example, when the number of adaptive data allocated to the transformation matrix decreases, the transformation matrix is deleted, so that the transformation matrix is stored in the transformation matrix storage unit 13. It is possible to prevent an increase in the processing amount due to an excessive number of transformation matrices.
  • one or more transformation matrices stored in the transformation matrix storage unit 13 are obtained by transforming the feature series for a predetermined time by each.
  • the matching process is performed using the transformed feature vector sequence, and the subsequent matching process is continued by transforming the feature vector sequence with the transform matrix with the highest likelihood.
  • the input speech is converted into an optimal transformation matrix (in this embodiment, a feature vector sequence of the input speech is converted to an acoustic model corresponding to the speech).
  • the speech recognizer is used by multiple users or in multiple environments, the voice of each user or the voice input under each environment is immediately converted to the corresponding acoustic model. It is possible to perform high-accuracy speech recognition without making the user aware of model adaptation. That is, in the conventional model-adaptive speech recognition device, as described above, after the model adaptation is performed so as to adapt to a specific user or a specific environment, the use in another user or another environment is started. Then, since the acoustic model of the speech recognition device is adapted to the first user and the first environment, until the acoustic model adapts to other users and the other environment, the speech recognition Although the accuracy is greatly degraded, the speech recognition device shown in Fig. 1 adapts to the corresponding acoustic model by transforming the input speech by the optimal transformation matrix, so that other speech Can respond (adapt) to users and the environment.
  • model adaptation is performed so that (the characteristic vector of) the inputted speech is adapted to the corresponding acoustic model.
  • the speech recognition device as described above, Also, it is possible to perform a model adaptation in which the acoustic model is adapted to the input speech.
  • FIG. 8 shows a configuration example of such a speech recognition device.
  • the conversion unit 5 for performing the conversion using the conversion matrix selected in the selection unit 14 is not between the buffer 4 and the matching unit 6, but the matching unit 6 and the acoustic model storage unit.
  • the configuration is basically the same as that of the speech recognition device in FIG. Therefore, in the speech recognition apparatus of FIG. 8, the feature vector sequence is not converted by the conversion matrix, but the average vector that defines the Gaussian distribution of the acoustic model stored in the acoustic model storage unit 7 is used.
  • the matching unit 6 obtains an acoustic model adapted to the input speech, and performs matching processing in the matching unit 6 using the acoustic model.
  • the acoustic model is adapted to the input speech, the average vector sequence in the adaptive data is converted to the adaptive data.
  • the conversion matrix that converts the sequence into the sequence that most closely resembles the feature vector sequence in the data is obtained as the optimal conversion matrix. Therefore, simply, the transformation matrix used in the speech recognition device in FIG. 1 and the transformation matrix used in the speech recognition device in FIG. 8 are in an inverse relationship.
  • FIG. 9 shows a configuration example of an embodiment of a computer on which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 105 or ROM 103 as a recording medium built in the computer.
  • the program may be stored on removable recording media 111 such as a flexible disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto optical) ice, DVD (Digital Versatile Disc), magnetic disk, and semiconductor memory. It can be stored (recorded) temporarily or permanently.
  • removable recording medium 111 can be provided as so-called package software.
  • the program can be installed on the computer from the removable recording medium 111 described above, or transmitted from the download site to the computer wirelessly via a satellite for digital satellite broadcasting, or transmitted over the LAN. (Local Area Network), the Internet, and the like, which are transferred to the computer by wire, and the computer receives the transferred program in the communication unit 108 and the built-in hard disk 10 5 can be installed.
  • LAN Local Area Network
  • the Internet and the like, which are transferred to the computer by wire, and the computer receives the transferred program in the communication unit 108 and the built-in hard disk 10 5 can be installed.
  • the computer has a built-in CPU (Central Processing Unit) 102.
  • An input / output interface 110 is connected to the CPU 102 via the bus 101.
  • the CPU 102 receives a command via the input / output interface 110 when the user operates the input unit 107 including a keyboard, a mouse, a microphone, and the like. Then, the program stored in the ROM (Read Only Memory) 103 is executed.
  • ROM Read Only Memory
  • the CPU 102 may execute a program stored in the hard disk 105, a program transferred from a satellite or a network, received by the communication unit 108, and installed in the hard disk 105, Alternatively, a program read from the removable recording medium 111 mounted on the drive 109 and installed on the hard disk 105 is loaded into a RAM (Random Access Memory) 104 and executed. Accordingly, the CPU 102 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 102 outputs the processing result as necessary, for example, via an input / output interface 110, to an output unit 106 constituted by an LCD (Liquid Crystal Display), a speaker, or the like. Or from the communication unit 108 and further recorded on the hard disk 105.
  • a program stored in the hard disk 105 a program transferred from a satellite or a network, received by the communication unit 108, and installed in the hard disk 105
  • processing steps for describing a program for causing a computer to perform various types of processing do not necessarily need to be processed in chronological order in the order described as a flowchart, and may be performed in parallel. Alternatively, it also includes processing executed individually (for example, parallel processing or processing by an object).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • a matrix (conversion matrix) is used for conversion for model adaptation, but any other function can be used.
  • linear transformation is performed as transformation for model adaptation.
  • non-linear conversion for example.
  • an HMM is used as an acoustic model, and a matching process based on the HMM method is performed to obtain a score representing a likelihood as a result of speech recognition.
  • the present invention is not limited to the HMM method.
  • the feature vector is included in the adaptive data and stored in the adaptive database 11.
  • the adaptive data includes, for example, audio data instead of the feature vector. It is also possible to include the waveform data itself.
  • the transformation matrix update processing of FIG. 4 is performed on the input speech after outputting the speech recognition result, but the transformation matrix update processing may be performed at any other timing. It can be done regularly or irregularly.
  • the transformation matrix generation / deletion processing of FIG. 5 is performed as a part of the transformation matrix update processing of FIG. 4, but the transformation matrix generation Z deletion processing may be performed in any other manner. At the timing, it can be done regularly or irregularly.
  • the adaptive data is stored up to the upper limit of the storage capacity of the adaptive database 11, but in this case, for example, the adaptive data is supplied after that. It is possible to prevent the adaptation data from being stored, or to delete old (past) adaptation data from the adaptation database 11. Furthermore, a plurality of adaptive data having an approximate feature vector sequence associated with the same average vector sequence is searched, and the plurality of adaptive data is searched for the same average beta vector.
  • the data may be combined into one adaptation data consisting of the system IJ and an arbitrary one of a plurality of feature vector sequences to be approximated.
  • the speech recognition is performed by the continuous HMM method. However, for the speech recognition, for example, a discrete HMM method may be employed.
  • the first and second two matrices are generated from the transformation matrices that satisfy the generation conditions.
  • three or more matrices are generated. It is also possible. Industrial applicability
  • the input voice is selected from the one or more conversion functions.
  • a conversion function that is optimal for adapting one of the acoustic model and the other to the other is detected, and the input function is assigned to the optimal conversion function. It is updated with all the input speech assigned to the conversion function.
  • a conversion function used to convert one of the input speech and the acoustic model is selected from the one or more conversion functions, and the selected conversion function is used to select one of the input speech and the acoustic model. One is converted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

明細書
音声認識装置および音声認識方法 技術分野
本発明は、 音声認識装置および音声認識方法に関し、 複数のユーザによって, あるいは複数の環境下において装置が使用される場合でも、 ユーザに、 モデル 適応を意識させることなく、 高い精度の音声認識を行うことができるようにす る音声認識装置およぴ音声認識方法に関する。 背景技術
音声認識装置においては、 一般に、 次のような処理 (音声認識処理) が行わ れることにより、 入力された音声が音声認識される。
即ち、 音声認識装置では、 入力された音声が音響分析されることにより、 そ の音声の特徴量を表す所定次元の特徴ベク トルの抽出が行われる。 ここで、 音 声分析の方法としては、 フリーェ変換その他がある。
その後、 特徴ベクトル系列と、 音響モデルとのマッチング処理が行われ、 そ のマッチング処理の結果得られる、 特徴べクトル系列にマッチする音響モデル の系列に対応する単語列 (単語) 力 音声認識結果とされる。
マッチング処理を、 例えば、 連続 HMM (Hidden Markov Model)法によって行 う場合、 音響モデルとしては、 特徴ベク トル空間で定義される 1以上のガウス 確率分布等の確率 (密度) 関数を用いて構成される HMMが用いられる。 そし て、 マッチング処理では、 音響モデルを構成するガウス確率分布を用い、 音声 認識結果の複数の候補 (以下、 適宜、 仮説という) としての音響モデルの系列 から、 特徴ベク トル系列が観測される尤度 (スコア) が計算され、 そのスコア に基づいて、 複数の仮説の中から、 最終的な音声認識結果が決定される。 即ち. 複数の仮説のうち、 特徴べク トル系列に対するスコアを最も高くする仮説が、 入力音声に最もマッチするものとして選択され、 その仮説を構成する音響モデ ルの系列に対応する単語列が、 音声認識結果として出力される。
ところで、 近年においては、 様々な音声認識装置が提案されているが、 これ らの音声認識装置は、 大きく、 特定話者用の音声認識装置、 不特定話者用の音 声認識装置、 およびモデル適応型の音声認識装置の 3つに分けることができる c 特定話者用の音声認識装置では、 特定話者の音声を用いて学習された音響モ デルが用いられるため、 その特定話者の音声については、 精度の高い (誤認識 率の低い) 音声認識結果を得ることができる。 しかしながら、 特定話者用の音 声認識装置においては、 その特定話者以外の話者については、 一般に、 音声認 識精度が大きく劣化する。
不特定話者用の音声認識装置では、 不特定多数の話者の音声を用いて学習さ れた音響モデルが用いられるため、 任意の話者について、 比較的精度の高い音 声認識結果を得ることができる。 しかしながら、 不特性話者用の音声認識装置 においては、 ある特定話者に注目すると、 その特定話者については、 その特定 話者用の音声認識装置ほどの音声認識精度を得ることはできない。
モデル適応型の音声認識装置は、 最初は、 不特定話者用の音声認識装置と同 様の性能を有するが、 特定のユーザ (話者) が装置を使用していると、 そのュ 一ザの音声によって、 音響モデルのモデル適応が行われ、 そのユーザに対する 音声認識精度が向上していく。
即ち、 モデル適応型の音声認識装置は、 最初は、 不特定話者用の音声認識装 置における場合と同様の音響モデルを用いて音声認識を行うが、 その際、 ユー ザから入力された音声と、 音響モデルとの間のミスマッチを分析し、 その分析 結果に基づき、 音響モデルを、 入力音声にマッチするもの (適用するもの) に 変換する変換行列を求める。 そして、 その後は、 音響モデルを変換行列で変換 した音響モデル、 即ち、 モデル適応を行った音響モデルを用いて音声認識が行 われる。 モデル適応型の音声認識装置では、 上述のようなモデル適応が、 例え ば、 ユーザが装置を本格的に使用する前に、 トレーニングとして行われ、 これ により、 音響モデルが、 そのユーザの音声にマッチするものに変換されるので. その特定のユーザに対する音声認識精度が向上する。
なお、 モデル適応型の音声認識装置における音響モデルは、 上述したよう 入力された音声を音声認識するのに適したものに変換されるから、 ユーザ (話 者) に注目すれば、 音声認識装置は、 そのユーザに適応することになるが、 そ の音声認識装置が使用される環境に注目すれば、 その環境に適応することにな る。
即ち、 音声認識装置が使用される環境においては、 例えば、 その場所におけ るノィズゃ、 ユーザの音声が音声認識装置に入力されるまでのチャネルの歪み が存在する。 モデル適応型の音声認識装置が、 ある一定の環境下で使用される 場合、 音響モデルは、 その環境下における音に適応するように変換されること となるから、 その意味で、 モデル適応型の音声認識装置は、 それが使用される 環境に適応することになる。 ここで、 チャネルの歪みとしては、 音声を電気信 号に変換するためのマイクの特性に基づくものや、 音声認識装置に入力される 音声が、 電話回線等の帯域制限された伝送路を送信されてくる場合の、 その伝 送路の特性に基づくものなどがある。
ここで、 音響モデルとして、 HMMを用いる場合、 そのモデル適応は、 例え ば、 その HMMを構成するガウス確率分布を定義する平均べクトルを、 上述の 変換行列によって線形変換することによって行われる。 なお、 このように音響 モデルを変換するモデル適応と同等の効果は、 特徴べクトルを変換行列によつ て線形変換し、 その変換後の特徴ベクトルと音響モデルを用いて、 スコア計算 を行うことによつても得ることができる。 従って、 モデル適応とは、 変換行列 によって、 音響モデルを変換することと、 特徴ベク トルを変換することのいず れをも意味する。 即ち、 モデル適応では、 ユーザの音声から得られた特徴べク トルに、 音響モデルを適応させても良いし、 ユーザの音声から得られた特徴べ ク トルを、 音響モデルに適応させても良い。
モデル適応は、 ある注目発話の特徴べクトルが音響モデルから観測される尤 度、 即ち、 いまの場合は、 注目発話に対応する音響モデル (注目発話の音韻等 を表す音響モデル) としての HMMを構成するガウス確率分布から計算される、 特徴ベク トルに対するスコアを改善すること (スコアを高くすること) を目的 とするから、 例えば、 いま、 特徴べク トルを変換するモデル適応について考え てみると、 この場合、 特徴ベクトルが、 変換行列によって変換されることによ り、 音響モデルを構成するガウス確率分布を定義する平均べクトルに写像され るのが理想的である。
そこで、 モデル適応では、 注目発話に対応する音響モデルから計算される、 注目発話の特徴べクトルに対するスコアが、 他の音響モデルから計算されるス コアよりも大きくなるようにするため、 注目発話の特徴ベク トルを、 注目発話 に対応する音響モデルを構成するガウス確率分布を定義する平均べク トルに一 致させる線形変換を行う変換行列が求められる。 この変換行列の算出は、 例え ば、 定期的、 あるいは不定期に行うことができ、 音声認識時には、 その変換行 列によって変換した特徴ベクトル (あるいは、 音響モデル) を用いて、 マッチ ング処理が行われる。
なお、 ある特定話者について、 モデル適応を行うための変換行列は、 その特 定話者の複数発話から得られる複数の特徴べクトル系列を用いて求められる。
従って、 変換行列としては、 複数の特徴べクトルそれぞれを、 対応する平均べ ク トルに一致させる行列を求める必要がある。 複数の特徴べク トルそれぞれを, 対応する平均ベクトルに写像する変換行列を求める方法としては、 例えば、 線 形回帰 (最小自乗法) を用いるものが知られている。 伹し、 このようにして求 められた変換行列は、 特定話者の発話から得られる特徴べク トルを、 対応する 平均ベク トルとの統計的な誤差 (ここでは、 自乗誤差の総和) を最小にするベ タトルに写像するものであり、 従って、 その変換行列によって、 特定話者の'発 話から得られる任意の特徴べクトルを、 対応する平均べクトルに完全に一致す るように変換することは、 一般にはできない。
また、 モデル適応の手法としては、 上述した手法以外にも、 細かな点で異な る種々の方法があるが、 いずれの手法にしても、 基本は、 上述した手法と同様 に、 注目発話の特徴べクトル、 または注目発話に対応する音響モデルを、 その 音響モデルから、 その特徴べクトルが観測される尤度を最大にするように変換 するものであるということができる。
モデル適応型の音声認識装置において、 ある特定ユーザの音声によるモデル 適応、 あるいは、 ある特定環境下でのモデル適応が進んでいくと、 その特定ュ 一ザの音声や、 特定環境下での音声認識精度が向上していくが、 その一方で、 他のユーザや他の環境での音声認識精度は劣化していく。 その結果、 モデル適 応型の音声認識装置は、 特定話者用の音声認識装置と同様の性能を有するもの となる。
ところで、 モデル適応型の音声認識装置が、 上述のように、 特定ユーザゃ特 定環境に適応した後であっても、 その音声認識装置を、 他のユーザが使用し、 あるいは他の環境下で使用することにより、 その、 他のユーザや他の環境に適 応させることが可能である。
しかしながら、 他のユーザや他の環境での使用が開始された直後においては、 音声認識装置の音響モデルは、 最初のユーザや最初の環境に適応したものとな つているから、 その音響モデルが、 他のユーザや他の環境に適応するまでの間 は、 音声認識精度が大きく劣化する。
さらに、 場合によっては、 最初のユーザや最初の環境に適応した音響モデル を、 他のユーザや他の環境に対して、 十分に適応させることができないことが あり、 その場合、 最初のユーザや最初の環境に適応した音響モデルを、 元の状 態の音響モデルに戻してから (リセットしてから) 、 他のユーザや他の環境に 適応させてやる必要がある。
そこで、 複数セットの音響モデルを用意しておき、 ユーザごとに異なるセッ トの音響モデルを、 そのユーザに適応させる音声認識装置があり、 このような 音声認識装置によれば、 複数のユーザそれぞれについて、 そのユーザに適応さ せた音響モデルを用いて音声認識が行われるため、 その複数のユーザすべてに 対して、 特定話者用の音声認識装置と同様の音声認識精度を得ることができる c しかしながら、 このような音声認識装置においては、 発話しているユーザに 適応した音響モデルを用いて音声認識を行うので、 どのユーザが発話を行って いるのかを装置に知らせてやらなければならず、 そのため、 ユーザは、 装置の 使用を開始する前に、 ポタンを操作すること等により、 自身を特定する情報を 入力する必要があり、 面倒であった。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 複数のユーザによ つて、 あるいは複数の環境下において使用される場合でも、 ユーザに、 モデル 適応を意識させることなく、 高い精度の音声認識を行うことができるようにす るものである。
本発明の音声認識装置は、 入力音声と、 音声認識に用いる音響モデルのうち の一方を変換し、 他方に適応させるモデル適応を行うときの、 入力音声または 音響モデルのうちの一方を変換する 1以上の変換関数を記憶する変換関数記憶 手段と、 入力音声とその入力音声に対応する音響モデルのうちの一方を、 変換 関数記憶手段に記憶された 1以上の変換関数それぞれによつて変換した変換結 果に基づき、 変換関数記憶手段に記憶された 1以上の変換関数の中から、 入力 音声と音響モデルのうちの一方を他方に適応させるのに最適な変換関数を検出 し、 その最適な変換関数に、 入力音声を割り当てる割り当て手段と、 変換関数 が割り当てられた入力音声を記憶する音声記憶手段と、 変換関数記憶手段に記 憶された 1以上の変換関数のうち、 割り当て手段において新たな入力音声が割 り当てられた変換関数を、 その変換関数に割り当てられているすべての入力音 声を用いて更新する変換関数更新手段と、 変換関数記憶手段に記憶された 1以 上の変換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用 いる変換関数を選択する変換関数選択手段と、 変換関数選択手段おいて選択さ れた変換関数によって、 入力音声と音響モデルのうちの一方を変換する変換手 段と、 入力音声と音響モデルのうちの一方を変換関数によって変換したものと 他方とのマッチング処理を行い、 そのマッチング処理結果に基づいて、 入力音 声の音声認識結果を出力するマッチング手段とを備えることを特徴とする。
本発明の音声認識方法は、 入力音声とその入力音声に対応する音響モデルの うちの一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき 1以上の変換関数の中から、 入力音声と音響モデルのうちの一方を他方に適応 させるのに最適な変換関数を検出し、 その最適な変換関数に、 入力音声を割り 当てる割り当てステップと、 1以上の変換関数のうち、 割り当てステップにお いて新たな入力音声が割り当てられた変換関数を、 その変換関数に割り当てら れているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上 の変換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用い る変換関数を選択する変換関数選択ステツプと、 変換関数選択ステツプおいて 選択された変換関数によって、 入力音声と音響モデルのうちの一方を変換する 変換ステツプと、 入力音声と音響モデルのうちの一方を変換関数によって変換 したものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づ いて、 入力音声の音声認識結果を出力するマッチングステップとを備えること を特徴とする。
本発明のプログラムは、 入力音声とその入力音声に対応する音響モデルのう ちの一方を、 1以上の変換関数それぞれによつて変換した変換結果に基づき、 1以上の変換関数の中から、 入力音声と音響モデルのうちの一方を他方に適応 させるのに最適な変換関数を検出し、 その最適な変換関数に、 入力音声を割り 当てる割り当てステップと、 1以上の変換関数のうち、 割り当てステップにお いて新たな入力音声が割り当てられた変換関数を、 その変換関数に割り当てら れているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上 の変換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用い る変換関数を選択する変換関数選択ステップと、 変換関数選択ステップおいて 選択された変換関数によって、 入力音声と音響モデルのうちの一方を変換する 変換ステップと、 入力音声と音響モデルのうちの一方を変換関数によって変換 したものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づ いて、 入力音声の音声認識結果を出力するマッチングステップとを備えること を特徴とする。
本発明の記録媒体は、 入力音声とその入力音声に対応する音響モデルのうち の一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、 1 以上の変換関数の中から、 入力音声と音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数を検出し、 その最適な変換関数に、 入力音声を割り当 てる割り当てステップと、 1以上の変換関数のうち、 割り当てステップにおい て新たな入力音声が割り当てられた変換関数を、 その変換関数に割り当てられ ているすべての入力音声を用いて更新する変換関数更新ステップと、 1以上の 変換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用いる 変換関数を選択する変換関数選択ステツプと、 変換関数選択ステップおいて選 択された変換関数によって、 入力音声と音響モデルのうちの一方を変換する変 換ステップと、 入力音声と音響モデルのうちの一方を変換関数によって変換し たものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づい て、 入力音声の音声認識結果を出力するマッチングステップとを備えるプログ ラムが記録されていることを特徴とする。
本発明においては、 入力音声とその入力音声に対応する音響モデルのうちの 一方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、 その 1以上の変換関数の中から、 入力音声と音響モデルのうちの一方を他方に適応 させるのに最適な変換関数が検出され、 その最適な変換関数に、 入力音声が割 り当てられて、 新たな入力音声が割り当てられた変換関数が、 その変換関数に 割り当てられているすべての入力音声を用いて更新される σ さらに、 1以上の 変換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用いる 変換関数が選択され、 その選択された変換関数によって、 入力音声と音響モデ ルのうちの一方が変換される。 そして、 入力音声と音響モデルのうちの一方を 変換関数によって変換したものと、 他方とのマッチング処理が行われ、 そのそ のマツチング処理結果に基づいて、 入力音声の音声認識結果が出力される。 図面の簡単な説明
図 1は、 本発明を適用した音声認識装置の一実施の形態の構成例を示すブロ ック図である。
図 2は、 音声認識処理を説明するフローチャートである。
図 3は、 適応データ登録処理を説明するフローチャートである。
図 4は、 変換行列更新処理を説明するフローチャートである。
図 5は、 変換行列生成 Z削除処理を説明するフローチャートである。
図 6は、 変換行列生成処理を説明するフローチャートである。
図 7は、 変換行列削除処理を説明するフローチャートである。
図 8は、 本発明を適用した音声認識装置の他の一実施の形態の構成例を示す プロック図である。
図 9は、 本発明を適用したコンピュータの一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
図 1は、 本発明を適用した音声認識装置の一実施の形態の構成例を示してい る。
ユーザが発した音声は、 マイク (マイクロフオン) 1に入力され、 マイク 1 では、 その入力音声が、 電気信号としての音声信号に変換される。 この音声信 号は、 A/D (Analog Digital)変換部 2に供給される。 A/D変換部 2では、 マイク 1からのアナログ信号である音声信号がサンプリング、 量子化され、 デ イジタル信号である音声データに変換される。 この音声データは、 特徴抽出部 3に供給される。
特徴抽出部 3は、 A/D変換部 2からの音声データについて、 適当なフレー ムごとに音響分析処理を施し、 これにより、 例えば、 M F C C (Mel Frequency Cepstrura Coefficient)等の特徴量としての特徴べクトルを抽出する。 なお、 特 徴抽出部 3では、 その他、 例えば、 スぺク トルや、 線形予測係数、 ケプストラ ム係数、 線スぺク トル対等の特徴べクトルを抽出することが可能である。
特徴抽出部 3においてフレームごとに得られる特徴べクトノレは、 特徴べクト ルバッファ 4に順次供給されて記憶される。 従って、 特徴ベク トルバッファ 4 では、 フレームごとの特徴べクトルの時系列が記憶されていく。
なお、 バッファ 4は、 例えば、 ある発話の開始から終了まで (音声区間) に 得られる時系列の特徴べクトルを記憶する。
変換部 5は、 選択部 1 4から供給される変換行列によって、 バッファ 4に記 憶された特徴べク トルを線形変換し、 その変換後の特徴べク トル (以下、 適宜、 変換特徴べクトルという) を、 音響モデル記憶部 Ίに記憶された音響モデルに 適応させたものとして、 マッチング部 6に供給する。
マッチング部 6は、 変換部 5から供給される特徴べクトル (変換特徴べクト ル) を用いて、 音響モデル記憶部 7、 辞書記憶部 8、 および文法記憶部 9を必 要に応じて参照しながら、 マイク 1に入力された音声 (入力音声) を、 例えば、 連続分布 HMM法等に基づいて音声認識する。
即ち、 音響モデル記憶部 7は、 音声認識する音声の言語における個々の音素 や音節などの所定の単位(PLU (Phonetic-Linguistic- Units)ごとの音響的な特徴 を表す音響モデルを記憶している。 ここでは、 連続分布 HMM法に基づいて音 声認識を行うので、 音響モデルとしては、 例えば、 所定の特徴ベクトル系列が 観測される確率を計算するのに利用されるガウス分布を有する HMM (Hidden M arkov Model)が用いられる。 ここで、 HMMが有するガウス分布は、 平均べク トルと共分散行列とで定義される。 なお、 HMMは、 ガウス分布以外の確率密 度関数を用いて構成することが可能である。
辞書記憶部 8は、 認識対象の各単語 (語彙) について、 その発音に関する情 報 (音韻情報) が記述された単語辞書を記憶している。
文法記憶部 9は、 辞書記憶部 8の単語辞書に登録されている各単語が、 どの ように連鎖する (つながる) かを記述した文法規則 (言語モデル) を記憶して いる。 ここで、 文法規則としては、 例えば、 文脈自由文法 (C F G ) や、 統計 的な単語連鎖確率 (N— g r a m) などに基づく規則を用いることができる。 マッチング部 6は、 辞書記憶部 8の単語辞書を参照することにより、 音響モ デル記憶部 7に記憶されている音響モデルを接続することで、 単語の音響モデ ル (単語モデル) を構成する。 さらに、 マッチング部 6は、 幾つかの単語モデ ルを、 文法記憶部 9に記憶された文法規則を参照することにより接続し、 その ようにして接続された単語モデルを用いて、 時系列の特徴べクトルに基づき、 連続分布 HMM法によって、 マイク 1に入力された音声を認識する。 即ち、 マ ツチング部 6は、 上述したよ にして構成された各単語モデルの系列から、 変 換部 5を介して供給される時系列の特徴べクトルが観測される尤度を表すスコ ァを計算する。 そして、 マッチング部 6は、 そのスコアが最も高い単語モデル の系列を検出し、 その単語モデルの系列に対応する単語列を、 音声の認識結果 として出力する。
なお、 ここでは、 HMM法により音声認識が行われるため、 マッチング部 6 は、 接続された単語モデルに対応する単語列について、 各特徴べクトルの出現 確率を累積し、 その累積値をスコアとして、 そのスコアを最も高くする単語列 を、 音声認識結果として出力する。
スコア計算は、 一般に、 音響モデル記憶部 7に記憶された音響モデルによつ て与えられる音響的なスコア (以下、 適宜、 音響スコアという) と、 文法記憶 部 9に記憶された文法規則によって与えられる言語的なスコア (以下、 適宜、 言語スコアという) とを総合評価することで行われる。
即ち、 音響スコアは、 例えば、 HMM法による場合には、 単語モデルを構成 する音響モデルから、 特徴抽出部 3が出力する特徴べク トルの系列が観測され る確率に基づいて計算される。 また、 言語スコアは、 例えば、 バイグラムによ る場合には、 注目している単語と、 その単語の直前の単語とが連鎖 (連接) す る確率に基づいて求められる。 そして、 各単語についての音響スコアと言語ス コアとを総合評価して得られる最終的なスコア (以下、 適宜、 最終スコアとい う) に基づいて、 音声認識結果が確定される。
具体的には、 ある N個の単語からなる単語列における k番目の単語を wkとし て、 その単語 wkの音響スコアを A (wk) と、 言語スコアを L (wk) と、 それ ぞれ表すとき、 その単語列の最終スコア Sは、 例えば、 次式にしたがって計算 される。
S =∑ (A (wk) + C k X L ( wk) )
• · · ( 1 ) 但し、 ∑は、 kを 1から Nに変えてのサメーシヨンをとることを表す。 また、 C kは、 単語 wkの言語スコア L (wk) にかける重みを表す。
マッチング部 6では、 例えば、 上式に示す最終スコアを最も大きくする Nと、 単語列 W l, w2, ■ · ·, wNを求めるマッチング処理が行われ、 その単語列 W l, w2, · · ·, wNが、 音声認識結果として出力される。
以上のようなマツチング処理が行われることにより、 図 1の音声認識装置で は、 例えば、 ユーザが、 「ニューヨークに行きたいです」 と発話した場合には、 「ニューヨーク」 、 「に」 、 「行きたい」 、 「です」 といった各単語に、 音響 スコアおよび言語スコアが与えられ、 それらを総合評価して得られる最終スコ ァが最も大きいときに、 単語列 「ニューヨーク」 、 「に」 、 「行きたい」 、 「です」 、 音声認識結果として出力される。
ところで、 上述の場合において、 辞書記憶部 8の単語辞書に、 「ニューョー ク J 、 「に」 、 「行きたい」 、 および 「です」 の 4単語が登録されているとす ると、 これらの 4単語を用いて構成しうる 4単語の並びは、 44通り存在する。 従って、 単純には、 マッチング部 6では、 この 4 4通りの単語列を評価し、 その 中から、 ユーザの発話に最も適合するもの (最終スコアを最も大きくするも の) を決定しなければならない。 そして、 単語辞書に登録する単語数が増えれ ば、 その単語数分の単語の並びの数は、 単語数の単語数乗通りになるから、 評 価の対象としなければならない単語列は、 膨大な数となる。 さらに、 一般には、 発話中に含まれる単語の数は未知であるから、 4単語の 並びからなる単語列だけでなく、 1単語、 2単語、 · · ·からなる単語列も、 評価の対象とする必要がある。 従って、 評価すべき単語列の数は、 さらに膨大 なものとなるから、 そのような膨大な単語列の中から、 音声認識結果として最 も確からしいものを、 計算量および使用するメモリ容量の観点から効率的に決 定することは、 非常に重要な問題である。
計算量およびメモリ容量の効率化を図る方法としては、 例えば、 音響スコア を求める過程において、 その途中で得られる音響スコアに基づき、 そのスコア 計算を打ち切るという音響的な枝刈り手法や、 言語スコアに基づき、 スコア計 算の対象とする単語を絞り込む言語的な枝刈り手法がある。
これらの枝刈り手法は、 ビームサーチ法とも呼ばれる。 また、 ビームサーチ 法において、 単語の絞り込み (枝刈り) には、 所定の閾値が用いられるが、 こ の閾値は、 ビーム幅と呼ばれる。
ここで、 以下、 適宜、 音響スコアや言語スコアを、 まとめて、 スコアという ビームサーチ法では、 ある単語の系列を、 音声認識結果の候補としての仮説 として、 その仮説としての単語の系列 (音声認識結果の侯捕) に、 新たに単語 を接続することにより、 新たな仮説が生成され、 生成された各仮説としての単 語の系列についてのスコアが、 特徴ベク トルを用いて計算される。 さらに、 ス コアが比較的低い仮説が削除され、 残った仮説について、 以下、 同様の処理が 繰り返される。
そして、 音声認'識対象の発話から得られた特徴べクトル系列の先頭から最後 まで (音声区間) に対して、 スコアの計算が終了すると、 その時点で残ってい る仮説のうち、 例えば、 最もスコアの高い仮説としての単語の系列が、 音声認 識結果とされる。
登録部 1 0は、 バッファ 4に記憶された、 例えば、 発話ごと (音声区間ご と) の音声の特徴べクトル系列を、 その音声に対応する系列の音響モデル (こ こ.では、 上述したように、 HMM) それぞれが有するガウス分布を定義する平 均べクトルの系列に対応付け、 適応データベース 1 1に供給する。
ここで、 登録部 1 0が適応データベース 1 1に供給する特徴べク トル系列と、 それに対応付けられた平均べクトルの系列は、 特徴抽出部 3が出力する特徴べ クトルを、 音響モデル記憶部 7に記憶された音響モデルに適応させるのに用い られる変換行列の更新に用いられる。 そこで、 登録部 1 0が適応データベース 1 1に供給する特徴べクトル系列と、 それに対応付けられた平均べクトルの系 列との組を、 以下、 適宜、 適応データという。
このような適応データにおける平均べクトルの系列は、 対応する音響モデル の系列から観測される尤度 (確率) が最も高い特徴ベク トル系列であり、 従つ て、 理想的には、 適応データにおける特徴べクトル系列を、 その特徴べク トル に対応付けられている平均べクトルの系列に変換する変換行列が、 最適なモデ ル適応を行う変換行列であるということができる。
なお、 適応データを構成するには、 音声の特徴べクトルと、 その音声に対応 する系列の音響モデルを得る必要があるが、 適応データを構成する音声の特徴 ベタトルは、 マイク 1に入力されたユーザ等の音声を、 特徴抽出部 3で処理す ることにより得ることができる。 一方、 マイク 1に入力された音声に対応する 系列の音響モデルを、 どのように認識するかが問題となるが、 これは、 例えば、 次のような 2つの方法によつて認識することができる。
即ち、 第 1の方法では、 音声認識装置において、 ユーザに対し、 所定の単語 の発話を要求する。 この場合、 その要求に応じて、 ユーザが所定の単語を発話 したとすれば、 その音声に対応する音響モデルの系列は、 ユーザに発話を要求 した所定の単語に基づいて認識することができる。
また、 第 2の方法では、 音声認識装置において、 ユーザの音声から得られる 特徴べクトルを、 変換部 5において、 後述する変換行列記憶部 1 3に記憶され た変換行列それぞれで変換し、 その結果得ちれる変換特徴べクトルそれぞれを 用いて、 マッチング部 6においてマッチング処理を行う。 この場合、 変換特徴 ベタ トルそれぞれについて得られる音声認識結果のうち、 最もスコアの高いも のを、 正しい音声認識結果として、 その音声認識結果に対応する音響モデルの 系列を、 ユーザの音声に対応する音響モデルの系列として認識することができ る。
なお、 第 2の方法による場合には、 登録部 1 0は、 マッチング部 6の内部状 態を監視することによりスコアを認識し、 バッファ 4に記憶された音声の特徴 ベク トル系列について、 その音声に対応する (スコアを最も高くする) 音響モ デルの系列を認識する。
また、 第 1及ぴ第 2の方法のいずれによる場合でも、 登録部 1 0では、 音響 モデルとしての HMMについての平均べク トル (HMMを構成する状態から特 徴べクトルが観測される確率を計算するのに用いるガウス分布を定義する平均 ベタトル) を認識する必要があるが、 登録部 1 0は、 この平均べクトノレを、 音 響モデル記憶部 7を参照することで認識する。
適応データベース 1 1は、 登録部 1 0から供給される適応データを、 その適 応データが、 変換行列記憶部 1 3に記憶されたいずれの変換行列に割り当てら れているのかを表す割り当て情報とともに記憶する。 なお、 割り当て情報は、 モデル適応部 1 2力ゝら、 適応データベース 1 1に供給されるようになっている, モデル適応部 1 2は、 適応データベース 1 1に記憶された適応データを用い て、 音声の特徴べク トルを音響モデル記憶部 7に記憶された音響モデルに適応 させるモデル適応を行うのに用いられる変換行列の更新、 生成、 削除等を行う, また、 モデル適応部 1 2は、 適応データベース 1 1に、 新たな適応データが 記憶された場合、 その適応データを、 変換行列記憶部 1 3に記憶された変換行 列のいずれに割り当てるべきかを認識し、 その変換行列に割り当てる。
即ち、 モデル適応部 1 2は、 適応データベース 1 1に、 新たに記憶された適 応データを、 変換行列記憶部 1 3に記憶された変換行列のいずれに割り当てる べきかを認識し、 その割り当てを表す割り当て情報を生成する。 そして、 モデ ル適応部 1 2は、 その割り当て情報を、 適応データベース 1 1に供給し、 対応 する適応データに対応付けて記憶させる。 従って、 図 1の音声認識装置では (後述する図 8の音声認識装置においても 同様) 、 適応データベース 1 1に記憶されたすベての適応データは、 変換行列 記憶部 1 3に記憶された変換行列のいずれかに割り当てられるようになってお り、 この割り当てにより、 適応データは、 幾つかのクラス (変換行列によって 特定されるクラス) に分類される (サブセット化される) ことになる。
変換行列記憶部 1 3は、 1以上の変換行列を記憶する。 なお、 変換行列記憶 部 1 3は、 初期状態としては、 例えば、 1つの変換行列だけを記憶している。 ここで、 変換行列記憶部 1 3に、 初期状態として記憶させておく 1つの変換行 列としては、 例えば、 従来のモデル適応型の音声認識装置における場合と同様 に、 恒等行列 (単位行列) 等を採用することができる。
選択部 1 4は、 マッチング部 6の内部状態を監視しており、 その監視結果に 基づき、 変換行列記憶部 1 3に記憶された 1以上の変換関数の中から、 バッフ ァ 4に記憶された特徴べクトルを変換するのに用いるものを選択し、 変換部 5 に供給する。
次に、 図 2のフローチャートを参照して、 図 1の音声認識装置による音声認 識処理について説明する。
マイク 1に入力されたユーザの音声は、 AZD変換部 2を介することにより ディジタルの音声データとして、 特徴抽出部 3に供給され、 特徴抽出部 3は、 そこに供給される音声データについて、 所定のフレームごとに音響分析を行い 特徴ベク トルを抽出する。 特徴抽出部 3においてフレームごとに得られる特徴 べク トノレは、 バッファ 4に順次供給されて記憶される。 特徴抽出部 3による特 徴ベク トルの抽出、 およびバッファ 4による特徴ベク トルの記憶は、 ユーザの 1発話 (音声区間) が終了するまで続行される。
なお、 音声区間の検出は、 例えば、 公知の方法等によって行うものとする。 以上のようにして、 ノ ッファ 4に、 特徴べク トルの記憶が開始されると、 選 択部 1 4は、 ステップ S 1において、 変換行列記憶部 1 3に記憶されたすベて の変換行列を選択し、 変換部 5に供給して、 ステップ S 2に進む。 ここで、 選 択部 1 4において選択された変換行列を、 以下、 適宜、 選択変換行列という。 ステップ S 2では、 変換部 5が、 バッファ 4からの時系列の特徴ベクトルの 読み出し、 選択部 1 4から供給された選択変換行列による、 バッファ 4から読 み出した特徴べクトルの変換、 およびその変換によって得られる変換特徴べク トルのマッチング部 6への供給を開始する。
即ち、 いまの場合、 変換行列記憶部 1 3に記憶された変換行列すべてが、 選 択変換行列となっているので、 変換部 5は、 その変換行列それぞれによって、 バッファ 4に記憶された特徴べタ トルを変換し、 その結果得られる変換特徴べ タ トルの系列を、 マッチング部 6に供給する。
従って、 ステップ S 2では、 マッチング部 6に対して、 変換行列記憶部 1 3 に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列 の供給が開始される。
その後、 ステップ S 3に進み、 マッチング部 6は、 そこに供給される特徴べ ク トル系列を用い、 音響モデル記憶部 7、 辞書記憶部 8、 および文法記憶部 9 を必要に応じて参照し、 連続分布 HMM法等に基づくスコアを、 ビームサーチ 法により仮説の枝刈りをしながら計算するマッチング処理を行う。
即ち、 マツチング部 6は、 変換行列記憶部 1 3に記憶された 1以上の変換行 列それぞれによって変換された特徴べク トル系列それぞれについて、 マツチン グ処理を行う。
そして、 ステップ S 4に進み、 マッチング部 6は、 変換行列記憶部 1 3に記 憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それ ぞれについて、 音声区間の開始時刻から所定時間分の仮説が得られたかどうか を判定する。
ステップ S 4において、 音声区間の開始時刻から所定時間分の仮説がまだ得 られていないと判定された場合、 ステップ S 3に戻り、 マッチング部 6は、 変 換部 5から供給される特徴べク トル系列を用いたマツチング処理を続行する。 また、 ステップ S 4において、 音声区間の開始時刻から所定時間分の仮説が 得られたと判定された場合、 即ち、 マッチング部 6において、 変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル 系列それぞれについて、 音声区間の開始時刻から所定時間分の仮説が得られた 場合、 ステップ S 5に進み、 選択部 1 4は、 変換行列記憶部 1 3に記憶された 1以上の変換行列それぞれによって変換された特徴べクトル系列それぞれにつ いて得られた所定時間分の仮説の中から、 最もスコアの高いものを選択する。
さらに、 ステップ S 5では、 選択部 1 4は、 その最もスコアの高い仮説が得ら れた特徴べクトル系列を変換するのに用いた変換行列を検出し、 ステップ S 6 に進む。
ここで、 このようにして検出された変換行列 (以下、 適宜、 検出変換行列と いう) は、 いま入力されているユーザの音声 (の特徴ベクトル) に対して、 音 響モデル記憶部 7に記憶された音響モデルから得られる最も高いスコアを与え るものであるから、 ユーザの音声を、 音響モデル.に最も適応させるもの、 即ち. そのユーザの音声に対して最適な変換行列であるということができる。
ステップ S 6では、 選択部 1 4が、 変換行列記憶部 1 3に記憶された変換行 列の中から、 ステップ S 5で検出された検出変換行列 (最適な変換行列) を選 択し、 その選択変換行列を、 変換部 5に供給して、 ステップ S 7に進む。
ステップ S 7では、 変換部 5が、 選択部 1 4から供給された選択変換行列に よる、 バッファ 4から読み出した特徴ベク トルの変換、 およびその変換によつ て得られる変換特徴べクトルのマッチング部 6への供給を開始する。
即ち、 これにより、 いま入力されているユーザの音声を、 音響モデルに最も 適応させる変換行列 (以下、 適宜、 最適変換行列という) によって変換された 特徴べクトル系列の、 マッチング部 6への供給が開始される。
その後、 ステップ S 8に進み、 マッチング部 6は、 そこに供給される特徴べ ク トル系列を用い、 マッチング処理を続行する。 即ち、 マッチング部 6は、 変 換行列記憶部 1 3に記憶された変換行列のうち、 いま入力されている音声にと つて最適な変換行列によって変換された特徴べクトル系列を用いて、 マツチン グ処理を続行する。 これにより、 マッチング部 6は、 最適変換行列によって変 換された特徴べクトル系列を用いて得られるスコアを計算していく。
なお、 その際、 マッチング部 6は、 ステップ S 3および S 4のループ処理で 得られた、 最適変換行列以外の変換行列によって変換した特徴べクトルを用い て求められたスコアおよび仮説を削除する。
そして、 マッチング部 6は、 音声区間の終了時刻までのスコアの計算が終了 すると、 ステップ S 9に進み、 それまでに残っている仮説の中から、 最もスコ ァの高いものを検出し、 音声認識結果として出力して、 ステップ S 1 0に進む。 ステップ S 1 0では、 適応データベース 1 1に、 新たな適応データを登録す る (記憶させる) 適応データ登録処理が行われ、 音声認識処理を終了する。
次に、 図 3のフローチャートを参照して、 図 2のステップ S 1 0における適 応データ登録処理について説明する。
適応データ登録処理では、 まず最初に、 ステップ S 2 1において、 登録部 1 0が、 マッチング部 6の内部状態を参照することにより、 バッファ 4に記憶さ れた 1発話についての音声の特徴ベク トル系列について、 その音声に対応する 音響モデルの系列 (その発話の音声認識結果を構成する音響モデルの系列) を 認識する。 さらに、 ステップ S 2 1では、 登録部 1 0が、 認識した音響モデル の系列の、 各音響モデルが有するガウス分布を定義する平均ベクトルを、 音響 モデル記憶部 7を参照することにより認識し、 その音響モデルの系列に対応す る平均べクトルの系列と、 バッファ 4に記憶された特徴べク トル系列とを対応 付けることにより、 適応データを構成する。 そして、 ステップ S 2 2に進み、 登録部 1 0は、 その適応データを、 適応データベース 1 1に供給して記憶させ、 ステップ S 2 3に進む。
ステップ S 2 3では、 登録部 1 0は、 バッファ 4に記憶させた 1発話分の特 徴べク トル系列を削除することで、 バッファ 4をクリアし、 ステップ S 2 4に 進む。
ステップ S 2 4では、 モデル適応部 1 2が、 直前のステップ S 2 2で適応デ ータベース 1 1に記憶された新たな適応データを、 注目適応データとして、 そ の注目適応データにおける特徴べクトル系列を、 その特徴べクトル系列に対応 付けられている平均べクトルの系列に最も近似するべクトル系列に変換する変 換行列 (最適変換行列) を、 変換行列記憶部 1 3に記憶された変換行列の中か ら検出する。
即ち、 例えば、 モデル適応部 1 2は、 注目適応データにおける特徴べク トル 系列を、 変換行列記憶部 1 3に記憶されたある 1つの変換行列によって変換し、 変換特徴ベク トル系列を得る。 さらに、 モデル適応部 2 1は、 例えば、 その変 換特徴べクトル系列の各変換特徴べクトルと、 注目適応データにおける平均べ クトルの系列の対応する平均べク トルとの距離の総和を、 その変換特徴べクト ルと平均べクトルの系列との誤差として求める。 モデル適応部 2 1は、 以上の ような変換特徴べクトルと平均べク トルの系列との誤差を、 変換行列記憶部 1 3に記憶された変換行列それぞれによって得られる変換特徴べクトルそれぞれ について求め、 その誤差を最小にする変換特徴べクトルを得るのに用いた変換 行列を、 最適変換行列として検出する。
そして、 ステップ S 2 5に進み、 モデル適応部 1 2は、 注目適応データを、 最適変換行列に割り当てる。 即ち、 モデル適応部 1 2は、 最適変換行列を表す 情報を、 上述の割り当て情報とし、 その割り当て情報を、 適応データベース 1 1に供給して、 注目適応データに対応付けて記憶させる。
その後、 ステップ S 2 6に進み、 モデル適応部 1 2は、 変換行列記憶部 1 3 に記憶された変換行列を、 適応データベース 1 1に記憶された適応データを用 いて更新する変換行列更新処理を行い、 適応データ登録処理を終了する。
次に、 図 4のフローチャートを参照して、 図 3のステップ S 2 6における変 換行列更新処理について説明する。
変換行列更新処理では、 まず最初に、 ステップ S 3 1において、 モデル適応 部 1 2は、 変換行列記憶部 1 3に記憶された変換行列のうち、 注目適応データ を割り当てた変換行列を、 注目変換行列として、 ステップ S 3 2に進む。 ステップ S 3 2では、 モデル適応部 1 2は、 注目変換行列に割り当てられて いる適応データすベてを用いて、 注目変換行列を更新する。
即ち、 モデル適応部 1 2は、 例えば、 注目変換行列に割り当てられている各 適応データにおける特徴べクトル系列を線形変換する行列であって、 その線形 変換後の特徴べク トルの系列と、 その特徴べクトル系列に対応付けられている 平均ベクトルとの誤差を最小にするものを、 最小自乗法 (線形回帰) によって 求める。 そして、 モデル適応部 1 2は、 この行列によって、 注目変換行列を更 新し (この行列を、 注目変換行列に置き換え) 、 更新後の注目変換行列を、 変 換行列記憶部 1 3に供給し、 更新前の注目変換行列に、 上書きする形で記憶さ せる。
なお、 ステップ S 3 2における注目変換行列の更新方法自体は、 基本的に、 従来のモデル適応型の音声認識装置におけるモデル適応と同様のものである。
伹し、 ステップ S 3 2における注目変換行列の更新は、 その注目変換行列に割 り当てられている適応データだけが用いられる点で、 例えば、 モデル適応のた めに入力された音声すベてを用いてモデル適応を行う従来の方法と異なる。 即 ち、 従来のモデル適応の方法においては、 適応データが変換行列に割り当てら れているという概念がない。
また、 ステップ S 3 2において、 注目変換行列に割り当てられている適応デ ータは、 適応データベース 1 1に記憶されている割り当て情報を参照すること で認識される。
ステップ S 3 2において、 注目変換行列が更新された後は、 ステップ S 3 3 に進み、 変換行列記憶部 1 3に記憶された各変換行列に対する適応データの割 り当てを更新する割り当て更新処理が行われる。
即ち、 ステップ S 3 2において、 注目変換行列が更新されることから、 変換 行列記憶部 1 3に記憶された各変換行列に割り当てられた適応データの中には、 現在割り当てられている変換行列ではなく、 注目変換行列が最適変換行列とな るものが生じることがある。 また、 更新された注目変換行列に割り当てられて いる適応データの中には、 注目変換行列ではなく、 他の変換行列が最適変換行 列になるものが生じることがある。 そこで、 ステップ S 3 3の割り当て更新処 理では、 適応データベース 1 1に記憶されている各適応データが、 現在割り当 てられている変換行列が最適変換行列となっているかどうかを確認し、 なって いない場合には、 その適応データを最適変換行列に割り当てし直すことが行わ れる。
具体的には、 割り当て更新処理は、 ステップ S 4 1乃至 S 4 8の処理から構 成され、 まず最初に、 ステップ S 4 1において、 モデル適応部 1 2が、 変数 I と Jに、 変換行列記憶部 1 3に記憶されている変換行列の数と、 適応データべ ース 1 1に記憶されている適応データの数を、 それぞれセットするとともに、 変換行列をカウントする変数 i と、 適応データをカウントする変数 jを、 いず れも 1に初期化する。
その後、 ステップ S 4 2に進み、 モデル適応部 1 2は、 適応データベース 1 1に記憶されている j番目の適応データである適応データ # jにおける特徴べ クトル系列を、 変換行列記憶部 1 3に記憶されている i番目の変換行列である 変換行列 Miで変換し、 ステップ S 4 3に進む。 ステップ S 4 3では、 モデル適 応部 1 2は、 適応データ # jを変換行列 M ;で変換することにより得られる変換 特徴べク トルと、 適応データ # j における平均べク トルの系列との誤差 ε ( i j ) を、 上述の図 3のステップ S 2 4で説明した場合と同様にして求める。
そして、 ステップ S 4 4に進み、 モデル適応部 1 2は、 変数 i力 変換行列 の総数である Iに等しいかどうかを判定する。 ステップ S 4 4において、 変数 iが Iに等しくないと判定された場合、 ステップ S 4 5に進み、 モデル適応部 1 2は、 変数 iを 1だけィンクリメントして、 ステップ S 4 2に戻り、 以下、 同様の処理を繰り返す。
また、 ステップ S 4 4において、 変数 iが Iに等しいと判定された場合、 ス テツプ S 4 6に進み、 モデル適応部 1 2は、 変数 j 1S 適応データの総数であ る Jに等しいかどうかを判定する。 ステップ S 4 6において、 変数 jが Jに等 しくないと判定された場合、 ステップ S 4 7に進み、 モデル適応部 1 2は、 変 数 jを 1だけインクリメントするとともに、 変数 iを 1に初期化して、 ステツ プ S 4 2に戻り、 以下、 同様の処理を繰り返す。
そして、 ステップ S 4 6において、 変数 jが Jに等しいと判定された場合、 即ち、 適応データベース 1 1に記憶された適応データすべてについて、 その適 応データを、 変換行列記憶部 1 3に記憶された変換行列それぞれで変換した変 換特徴べクトルそれぞれと、 その適応データにおける平均べクトルの系列との 誤差 ε ( i, j ) が求められた場合 ( i = l, 2, ■ ■ ■, I : j = 1 , 2 , ■ · · , J ) 、 ステップ S 4 8に進み、 モデル適応部 1 2は、 各適応データ # jを、 誤差 ε ( i, j ) を最小にする変換行列 Miに割り当てし直す。 即ち、 モ デル適応部 1 2は、 適応データベース 1 1に記憶された適応データ # jに、 誤 差 ε ( i , j ) を最小にする変換行列 Miを表す情報を、 割り当て情報として対 応付けて記憶させる (上書きする) 。
ここで、 適応データ # jが変換行列 Miに割り当てられている場合に、 その適 応データ # jにおける特徴べクトル系列を変換行列 Miで変換して得られる変換 特徴べクトル系列と、 適応データ # jにおける平均べク トルの系列との誤差 ε ( i, j ) を、 以下、 適宜、 適応データについての誤差という。
以上のようにして、 ステップ S 4 1乃至 S 4 8の処理からなるステップ S 3 3の割り当て更新処理が終了すると、 ステップ S 3 4に進み、 モデル適応部 1 2は、 その割り当て更新処理によって、 割り当てられる適応データが変化した 変換行列が存在するかどうかを判定する。
ステップ S 3 4において、 割り当てられる適応データが変化した変換行列が 存在すると判定された場合、 ステップ S 3 5に進み、 モデル適応部 1 2は、 適 応データの割り当てが変化した変換行列を、 注目変換行列として、 ステップ S 3 2に戻り、 以下、 同様の処理を繰り返す。
即ち、 適応データの割り当てが変化した変換行列が存在する場合には、 ステ ップ S 3 5において、 その変換行列が、 注目変換行列とされる。 そして、 ステ ップ S 3 2に戻り、 その注目変換行列を、 それに割り当てられている適応デー タを用いて更新し、 さらに、 ステップ S 3 3において、 割り当て更新処理を行 うことが繰り返される。
なお、 適応データの割り当てが変化した変換行列が複数存在する場合には、 ステップ S 3 5では、 その複数の変換行列が注目変換行列とされ、 ステップ S 3 2では、 その複数の注目変換行列それぞれが、 それぞれに割り当てられてい る適応データを用いて更新される。
—方、 ステップ S 3 4において、 適応データの割り当てが変化した変換行列 が存在しないと判定された場合、 即ち、 適応データベース 1 1における適応デ ータが、 すべて、 最適変換行列に割り当てられた場合、 ステップ S 3 6に進み、 モデル適応部 1 2は、 変換行列生成/削除処理を行い、 変換行列更新処理を終 了する。
次に、 図 5のフローチャートを参照して、 図 4のステップ S 3 6における変 換行列生成/削除処理について説明する。
変換行列生成/削除処理では、 まず最初に、 ステップ S 5 1において、 モデ ル適応部 1 2は、 変換行列記憶部 1 3に記憶された変換行列の中に、 新たな変 換行列を生成する場合に満たすべき、 あらかじめ設定された所定の生成条件を 満たす変換行列が存在するかどうかを判定する。
ここで、 生成条件としては、 例えば、 変換行列に、 所定閾値以上の数 (所定 の閾値より多い数) の適応データが割り当てられていることを採用することが できる。 また、 生成条件としては、 その他、 例えば、 変換行列に割り当てられ ている適応データについての誤差の平均値が、 所定の閾値以上 (より大) であ ることや、 変換行列に割り当てられている適応データについての誤差が所定の 閾値以上のものが、 所定数以上存在すること等を採用することが可能である。 即ち、 生成条件としては、 その変換行列によっては、 その変換行列に割り当て られているすべての適応データにおける特徴べクトルを、 それに対応付けられ ている平均べクトルに精度良く変換することが困難となった状況を表す条件等 を採用することができる。
ステップ S 5 1において、 変換行列記憶部 1 3に記憶された変換行列の中に 生成条件を満たすものが存在しないと判定された場合、 ステップ S 5 2および S 5 3をスキップして、 ステップ S 5 4に進む。
また、 ステップ S 5 1において、 変換行列記憶部 1 3に記憶された変換行列 の中に、 生成条件を満たすものがあると判定された場合、 ステップ S 5 2に進 み、 モデル適応部 1 2は、 その生成条件を満たす変換行列を注目変換行列とし て、 ステップ S 5 3に進む。
ステップ S 5 3では、 モデル適応部 1 2が、 後述する変換行列生成処理を行 い、 ステップ S 5 4に進む。.
ステップ S 5 4では、 モデル適応部 1 2は、 変換行列記憶部 1 3に記憶され た変換行列の中に、 変換行列を削除する場合に満たすべき、 あらかじめ設定さ れた所定の削除条件を満たす変換行列が存在するかどうかを判定する。
ここで、 削除条件としては、 例えば、 変換行列に、 所定閾値以下の数 (所定 の閾値未満の数) の適応データしか割り当てられていないことを採用すること ができる。 また、 削除条件としては、 変換行列に、 所定閾値以下の数の適応デ ータしか割り当てられていないことに加え、 例えば、 変換行列に割り当てられ ている適応データについての誤差の平均値が、 所定の閾値以上 (より大) であ ること等を採用することが可能である。 さらに、 削除条件としては、 変換行列 記憶部 1 3に記憶された各変換行列について、 図 2の音声認識処理におけるス テツプ S 6で選択された最新の 時を記憶しておき、 その日時が、 現在の日時 から所定の日数以上過去のものであること等を採用することも可能である。 こ の場合、 図 2の音声認識処理におけるステップ S 6で長期間選択されなかった 変換行列が削除されることとなる。
以上のように、 削除条件としては、 その変換行列に割り当てられる適応デー タがほとんどない状況や、 その変換行列が、 音声認識においてほとんど使用 (選択) されない状況を表す条件等を採用することができる。 ステップ S 5 4において、 変換行列記憶部 1 3に記憶された変換行列の中に、 削除条件を満たすものが存在しないと判定された場合、 ステップ S 5 5および S 5 6をスキップして、 変換行列生成 Z削除処理を終了する。
また、 ステップ S 5 1において、 変換行列記憶部 1 3に記憶された変換行列 の中に、 削除条件を満たすものがあると判定された場合、 ステップ S 5 5に進 み、 モデル適応部 1 2は、 その削除条件を満たす変換行列を注目変換行列とし て、 ステップ S 5 6に進む。
ステップ S 5 6では、 モデル適応部 1 2が、 後述する変換行列削除処理を行 い、 変換行列生成/削除処理を終了する。
次に、 図 6のフローチャートを参照して、 図 5のステップ S 5 3における変 換行列生成処理について説明する。
変換行列生成処理では、 まず最初に、 ステップ S 6 1において、 モデル適応 部 6 1が、 注目変換行列に基づいて、 第 1と第 2の行列を生成する。
即ち、 いまの場合、 図 5のステップ S 5 2において、 生成条件を満たす変換 行列が注目変換行列とされており、 ステップ S 6 1では、 その注目変換行列が、 いわば分割(split)され、 これにより、 第 1と第 2の 2つの行列が生成される。 なお、 図 5のステップ S 5 2において、 注目変換行列とされた変換行列が複 数存在する場合には、 図 6の変換行列生成処理は、 例えば、 その複数の注目変 換行列一つ一つについて、 順次または並列に行われる。
ここで、 ステップ S 6 1における、 注目変換行列に基づく第 1と第 2の行列 の生成は、 例えば、 注目変換行列を基準として、 そのコンポーネントを所定値 だけ変化させることにより行うことが可能である。
即ち、 例えば、 注目変換行列を基準として、 そのコンポーネントに所定の値 を加算または減算することにより、 所定のベクトルを、 注目変換行列によって 写像 (変換) した場合よりも、 所定の微小ベクトル△と一△だけずれた位置に それぞれ写像する 2つの行列を求め、 この 2つの行列を、 第 1と第 2の行列と することができる。 また、 注目変換行列を、 そのまま第 1の行列とするととも に、 注目変換行列を基準として、 そのコンポーネントに所定の値を加算または 減算することにより、 所定のベクトルを、 注目変換行列によって写像した場合 よりも、 所定の微小ベク トル△だけずれた位置に写像する行列を求め、 その行 列を、 第 2の行列とすることができる。
ステップ S 6 1において第 1と第 2の行列を生成した後は、 ステップ S 6 2 に進み、 モデル適応部 1 2は、 注目変換行列に割り当てられている適応データ の数を、 変数 Kにセットするとともに、 その適応データの数をカウントする変 数 kを 1に初期化して、 ステップ S 6 3に進む。
ステップ S 6 3では、 モデル適応部 1 2は、 注目変換行列に割り当てられて いる k番目の適応データである適応データ # kにおける特徴べクトル系列を、 第 1と第 2の行列それぞれで変換することにより、 2つの変換特徴べク トル系 列を求める。
ここで、 特徴べク トル系列を、 第 1の行列と第 2の行列それぞれによって変 換することにより得られる変換特徴ベク トル系列を、 それぞれ、 第 1の変換特 徴べク トル系列と第 2の変換特徴べクトル系列という。
その後、 ステップ S 6 4に進み、 モデル適応部 1 2は、 第 1の変換特徴べク トル系列と、 適応データ # kにおける平均ベク トル系列との誤差 (以下、 適宜、 第 1の誤差という) 、 および第 2の変換特徴ベク トル系列と、 適応データ # k における平均べク トル系列との誤差 (以下、 適宜、 第 2の誤差という) を求め、 ステップ S 6 5に進む。
ステップ S 6 5では、 モデル適応部 1 2は、 第 1の誤差が、 第 2の誤差未満 (以下) であるかどうかを判定する。 ステップ S 6 5において、 第 1の誤差が 第 2の誤差未満であると判定された場合、 即ち、 第 1と第 2の行列を比較した 場合に、 第 1の行列の方が、 適応データ # kにおける特徴ベクトル系列を、 対 応する音響モデルに、 より適切に適応させることができる場合、 ステップ S 6 6に進み、 モデル適応部 1 2は、 第 1の行列に、 適応データ # kを割り当て、 ステップ S 6 8に進む。 また、 ステップ S 6 5において、 第 1の誤差が第 2の誤差未満でないと判定 された場合、 即ち、 第 1と第 2の行列を比較した場合に、 第 2の行列の方が、 適応データ # kにおける特徴ベクトル系列を、 対応する音響モデルに、 より適 切に適応させることができる場合、 ステップ S 6 7に進み、 モデル適応部 1 2 は、 第 2の行列に、 適応データ # kを割り当て、 ステップ S 6 8に進む。
ステップ S 6 8では、 モデル適応部 1 2は、 変数 kが、 注目変換行列に割り 当てられている適応データの総数 Kに等しいかどうかを判定する。
ステップ S 6 8において、 変数 kが Kに等しくないと判定された場合、 ステ ップ S 6 9に進み、 モデル適応部 1 2は、 変数 kを 1だけィンクリメントして, ステップ S 6 3に戻り、 以下、 同様の処理を繰り返す。
また、 ステップ S 6 8において、 変数 kが Kに等しいと判定された場合、 即 ち、 注目変換行列に割り当てられていた適応データそれぞれが、 第 1または第 2の行列のうちの適切な方 (特徴べクトルを、 対応する平均べクトルにより近 ' いものに変換する方) に割り当てられた場合、 ステップ S 7 0に進み、 モデル 適応部 1 2は、 変換行列記憶部 1 3から、 注目変換行列を削除し、 第 1と第 2 の行列を、 新たな変換行列として、 変換行列記憶部 1 3に記憶させる。
即ち、 これにより、 注目変換行列が削除されるとともに、 新たな 2つの変換 行列が追加され、 変換行列記憶部 1 3においては、 実質的に、 変換行列が 1つ 増えた (生成された) ことになる。
その後、 ステップ S 7 1に進み、 モデル適応部 1 2は、 新たな 2つの変換行 列を、 注目変換行列として、 ステップ S 7 2に進む。
ステップ S 7 2では、 モデル適応部 1 2は、 図 4のステップ S 3 2における 場合と同様に、 注目変換行列に割り当てられている適応データすベてを用いて. 注目変換行列を更新する。
なお、 いまの場合、 変換行列記憶部 1 3に新たに記憶された 2つの変換行列 が注目変換行列となっており、 従って、 その 2つの注目変換行列それぞれが、 それぞれに割り当てられている適応データを用いて更新される。 その後、 ステップ S 7 3に進み、 モデル適応部 1 2は、 図 4のステップ S 3 3における場合と同様の割り当て更新処理を行い、 ステップ S 7 4に進む。 ステップ S 7 4では、 モデル適応部 1 2は、 ステップ S 7 3における割り当 て更新処理によって、 割り当てられる適応データが変化した変換行列が存在す るかどうかを判定する。
ステップ S 7 4において、 割り当てられる適応データが変化した変换行列が 存在すると判定された場合、 ステップ S 7 5に進み、 モデル適応部 1 2は、 適 応データの割り当てが変換した変換行列を、 新たに注目変換行列として、 ステ ップ S 7 2に戻り、 以下、 同様の処理を繰り返す。
即ち、 適応データの割り当てが変化した変換行列が存在する場合には、 ステ ップ S 7 5において、 その変換行列が、 注目変換行列とされる。 そして、 ステ ップ S 7 2に戻り、 その注目変換行列を、 それに割り当てられている適応デー タを用いて更新し、 さらに、 ステップ S 7 3において、 割り当て更新処理を行 うことが繰り返される。
なお、 適応データの割り当てが変化した変換行列が複数存在する場合には、 ステップ S 7 5では、 その複数の変換行列が注目変換行列とされ、 ステップ S 7 2では、 その複数の注目変換行列それぞれが、 それぞれに割り当てられてい る適応データを用いて更新される。
一方、 ステップ S 7 4において、 適応データの割り当てが変化した変換行列 が存在しないと判定された場合、 即ち、 適応データベース 1 1における適応デ ータが、 すべて、 最適変換行列に割り当てられた場合、 変換行列生成処理を終 了する。
次に、 図 7のフローチャートを参照して、 図 5のステップ S 5 6における変 換行列削除処理について説明する。
変換行列削除処理では、 まず最初に、 ステップ S 8 1において、 モデル適応 部 8 1は、 注目変換行列を、 変換行列記憶部 1 3から削除する。
即ち、 いまの場合、 図 5のステップ S 5 5において、 削除条件を満たす変換 行列が注目変換行列とされており、 ステップ S 8 1では、 その注目変換行列が、 変換行列記憶部 1 3から消去される。
なお、 図 5のステップ S 5 5において、 注目変換行列とされた変換行列が複 数存在する場合には、 図 7のステップ S 8 1では、 その複数の注目変換行列す ベてが削除される。
ステップ S 8 1において注目変換行列を削除した後は、 ステップ S 8 2に進 み、 モデル適応部 1 2は、 注目変換行列に割り当てられていた適応データの数 を、 変数 Kにセットするとともに、 その適応データの数をカウントする変数 k を 1に初期化して、 ステップ S 8 3に進む。
なお、 ステップ S 8 1において、 複数の注目変換行列を削除した場合は、 ス テツプ S 8 2では、 その複数の注目変換行列それぞれに割り当てられていた適 応データの総数を、 変数 Kにセットする。
ステップ S 8 3では、 モデル適応部 1 2は、 図 3のステップ S 2 4における 場合と同様にして、 k番目の適応データである適応データ # kにおける特徴べ ク トル系列を、 その特徴べクトル系列に対応付けられている平均べク トルの系 列に最も近似するべクトル系列に変換する変換行列、 即ち、 最適変換行列を、 変換行列記憶部 1 3に記憶された変換行列の中から検出し、 ステップ S 8 4に 進む。 .
ステップ S 8 4では、 モデル適応部 1 2は、 ステップ S 8 3で検出された変 換行列 (最適変換行列) に、 適応データ # kを割り当て (し直し) 、 ステップ S 8 5に進む。
ステップ S 8 5では、 モデル適応部 1 2は、 変数 kが、 ステップ S 8 1で削 除された注目変換行列に割り当てられていた適応データの総数 Kに等しいかど うかを判定する。
ステップ S 8 5において、 変数 kが Kに等しくないと判定された場合、 ステ ップ S 8 6に進み、 モデル適応部 1 2は、 変数 kを 1だけィンクリメントして- S 8 3に戻り、 以下、 同様の処理を繰り返す。 また、 ステップ S 8 5において、 変数 kが Kに等しいと判定された場合、 即 ち、 ステップ S 8 1で削除された注目変換行列に割り当てられていた適応デー タのすべてが、 変換行列記憶部 1 3に記憶された変換行列のいずれかに割り当 てし直された場合、 ステップ S 8 7に進み、 モデル適応部 1 2は、 その注目変 換行列に割り当てられていた適応データのいずれかが新たに割り当てられた変 換行列すベてを、 新たに注目変換行列とし、 ステップ S 8 8に進む。
ステップ S 8 8では、 モデル適応部 1 2は、 図 4のステップ S 3 2における 場合と同様に、 注目変換行列に割り当てられている適応データすベてを用いて、 注目変換行列を更新する。
なお、 複数の変換行列が注目変換行列となっている場合には、 ステップ S 8 8では、 その複数の注目変換行列それぞれが、 それぞれに割り当てられている 適応データを用いて更新される。
その後、 ステップ S 8 9に進み、 モデル適応部 1 2は、 図 4のステップ S 3 3における場合と同様の割り当て更新処理を行い、 ステップ S 9 0に進む。
ステップ S 9 0では、 モデル適応部 1 2は、 ステップ S 8 9における割り当 て更新処理によって、 割り当てられる適応データが変化した変換行列が存在す るかどうかを判定する。
ステップ S 9 0において、 割り当てられる適応データが変化した変換行列が 存在すると判定された場合、 ステップ S 9 1に進み、 モデル適応部 1 2は、 適 応データの割り当てが変換した変換行列を、 注目変換行列として、 ステップ S 8 8に戻り、 以下、 同様の処理を繰り返す。
即ち、 適応データの割り当てが変化した変換行列が存在する場合には、 ステ ップ S 9 1において、 その変換行列が、 注目変換行列とされる。 そして、 ステ ップ S 8 8に戻り、 その注目変換行列を、 それに割り当てられている適応デー タを用いて更新し、 さらに、 ステップ S 8 9において、 割り当て更新処理を行 うことが繰り返される。
なお、 適応データの割り当てが変化した変換行列が複数存在する場合には、 ステップ S 9 1では、 その複数の変換行列が注目変換行列とされ、 8 8では、 その複数の注目変換行列それぞれが、 それぞれに割り当てられてい る適応データを用いて更新される。
一方、 ステップ S 9 0において、 適応データの割り当てが変化した変換行列 が存在しないと判定された場合、 即ち、 適応データベース 1 1における適応デ ータが、 すべて、 最適変換行列に割り当てられた場合、 変換行列削除処理を終 了する。
以上のように、 図 1の音声認識装置では、 ユーザが発話を行うと、 図 3の適 応データ登録処理によって、 そのユーザの音声の特徴べクトルを含む適応デー タが登録されていき、 さらに、 その適応データは、 変換行列記憶部 1 3に記憶 された 1以上の変換行列の中の最適変換行列に割り当てられる。 そして、 新た に適応データが割り当てられた変換行列は、 図 4の変換行列更新処理によって、 それに割り当てられている適応データを用いて更新され、 さらに、 適応データ ベース 1 1に記憶された各適応データが、 最適変換行列に割り当てられるよう に、 適応データの変換行列の割り当てがし される。
従って、 適応データは、 その適応データにおける特徴べクトル系列を、 対応 する音響モデルに適応させるのに最適な変換行列ごとにクラス分け (クラスタ リング) され、 さらに、 そのようにクラス分けされた各クラスの適応データを 用いて、 そのクラスに対応する変換行列が更新されていくので、 ユーザから入 力された音声が、 いわば自動的にクラス分けされ、 そのクラスの音声を、 対応 する音響モデルにより適切に適応させるように、 変換行列が更新されていくこ とになり、 その結果、 そのような変換行列を用いて、 モデル適応を行うことに より、 音声認識精度を向上させることができる。
なお、 ユーザから入力された音声のクラス分けは、 その音声にとって、 どの 変換行列が最適変換行列であるのかという観点から行われることから、 ユーザ 力 自身の音声を、 どのクラスにクラス分けすべきであるかを指定する必要は ない。 このことは、 例えば、 同一ユーザの音声であっても、 音声認識装置が使 用される環境等が異なれば、 異なるクラスにクラス分けされる (異なる変換行 列に割り当てられる) ことがあることを意味するが、 仮に、 異なるクラスにク ラス分けされたとしても、 そのクラスにクラス分けされた音声にとっては、 そ のクラスに対応する変換行列が最適変換行列であり、 従って、 その最適変換行 列によれば、 音声を、 対応する音響モデルに最適に適応させることができるこ とになる。
また、 異なるユーザの音声であっても、 同一のクラスにクラス分けされる (同一の変換行列に割り当てられる) こともあり得るが、 仮に、 同一のクラス にクラス分けされたとしても、 やはり、 そのクラスにクラス分けされた音声に とっては、 そのクラスに対応する変換行列が最適変換行列であり、 従って、 そ の最適変換行列によれば、 音声を、 対応する音響モデルに最適に適応させるこ とができることになる。
さらに、 図 6の変換行列生成処理によれば、 新たな変換行列が生成され、 そ の変換行列が、 その変換行列を最適変換行列とする適応データを用いて更新さ れる。 従って、 例えば、 音声認識装置が、 いままでとは大きく異なった環境で 使用された場合や、 あるいは、 いままでのユーザとは大きく特徴の異なったュ 一ザによる発話が入力された場合であっても、 音声認識精度の大きな劣化を防 止することができる。
即ち、 音声認識装置が、 いままでとは大きく異なった環境で使用された場合 や、 あるいは、 いままでのユーザとは大きく特徴の異なったユーザによる発話 が入力された場合には、 変換行列記憶部 1 3に記憶されている変換行列では、 入力された音声を、 対応する音響モデルに十分に適応させることができず、 音 声認識精度が劣化することがある。 図 6の変換行列生成処理によれば、 新たな 変換行列が生成され、 その新たな変換行列が、 いままでとは大きく異なった環 境下で入力された音声や、 いままでのユーザとは大きく特徴の異なったユーザ による音声を用いて更新されることとなり、 その結果、 従来のモデル適応型の 音声認識装置で生じる、 ユーザや環境の変化による音声認識精度の劣化を防止 することが可能となる。
さらに、 図 6の変換行列生成処理では、 例えば、 変換行列に割り当てられて いる適応データの数が多くなつたときや、 その適応データについての誤差の平 均値が大きくなつたとき等に、 その適応データの割り当てを、 いわば分割する ような第 1と第 2の行列が、 新たな変換行列として生成され、 さらには、 適応 データが、 その適応データにおける特徴べクトル系列を、 対応する平均べク ト ルの系列により近似する系列に写像 (変換) する変換行列に割り当てし直され るので、 音声を、 対応する音響モデルにより適応させる変換行列が、 ユーザが 知らない間に、 いわばダイナミックに生成されることになり、 ユーザにモデル 適応を意識させずに済む。
また、 図 7の変換行列削除処理では、 例えば、 変換行列に割り当てられてい る適応データの数が少なくなつたときに、 その変換行列が削除されるので、 変 換行列記憶部 1 3に記憶させる変換行列の数が多くなりすぎることによる処理 量の増加等を防止することができる。
さらに、 図 1の音声認識装置では、 図 2の音声認識処理において、 変換行列 記憶部 1 3に記憶された 1以上の変換行列.それぞれによって、 所定時間の特徴 ベタトル系列を変換することにより得られる変換特徴べクトル系列を用いてマ ツチング処理を行い、 その後のマッチング処理を、 最も高い尤度が得られた変 換行列によって特徴べクトル系列を変換することにより続行するようにしたの で、 入力された音声が、 その音声を、 対応する音響モデルに適応させるのに最 適な変換行列 (本実施の形態では、 入力された音声の特徴ベク トル系列を、 そ の音声に対応する音響モデルの系列が有する各ガウス分布を定義する平均べク トルの系列に最も近似する系列に変換する変換行列) によって変換される。 従 つて、 音声認識装置が、 複数のユーザによって、 あるいは複数の環境下におい て使用される場合でも、 各ユーザの音声、 あるいは、 各環境下で入力される音 声を、 対応する音響モデルに即座に適応させることができ、 ユーザに、 モデル 適応を意識させることなく、 高い精度の音声認識を行うことが可能となる。 即ち、 従来のモデル適応型の音声認識装置では、 前述したように、 特定ユー ザや特定環境に適応するようにモデル適応が行われた後に、 他のユーザや他の 環境での使用が開始されると、 音声認識装置の音響モデルが、 最初のユーザや 最初の環境に適応したものとなっているから、 その音響モデルが、 他のユーザ や他の環境に適応するまでの間は、 音声認識精度が大きく劣化するが、 図 1の 音声認識装置では、 入力された音声が最適変換行列によって変換されることに より、 対応する音響モデルに適応させることが行われることから、 即座に、 他 のユーザや環境に対応 (適応) することができる。
次に、 図 1の音声認識装置では、 入力された音声 (の特徴べクトル) を、 対 応する音響モデルに適応させるモデル適応を行うようにしたが、 音声認識装置 においては、 前述したように、 音響モデルを、 入力された音声に適応させるモ デル適応を行うようにすることも可能である。
そこで、 図 8は、 そのような音声認識装置の構成例を示している。 なお、 図 中、 図 1における場合と対応する部分については、 同一の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 図 8の音声認識装置は、 選択部 1 4において選択された変換行列を用いた変換を行う変換部 5が、 バッファ 4 とマツチング部 6の間ではなく、 マツチング部 6と音響モデル記憶部 7の間に 設けられている他は、 図 1の音声認識装置と基本的に同様に構成されている。 従って、 図 8の音声認識装置では、 変換行列によって、 特徴ベク トル系列が 変換されるのではなく、 音響モデル記憶部 7に記憶された音響モデル (が有す るガウス分布を定義する平均べク トルの系列) が変換され、 これにより、 入力 された音声に適応させた音響モデルを得た後、 マッチング部 6において、 その 音響モデルを用いて、 マッチング処理が行われる。
従って、 図 8の音声認識装置においても、 図 1の音声認識装置における場合 と同様の効果を得ることができる。
なお、 図 8の音声認識装置においては、 音響モデルを、 入力された音声に適 応させることから、 適応データにおける平均ベク トルの系列を、 その適応デー タにおける特徴べク トル系列に最も近似する系列に変換する変換行列が、 最適 変換行列として求められる。 従って、 単純には、 図 1の音声認識装置で用いら れる変換行列と、 図 8の音声認識装置で用いられる変換行列とは、 逆行列の関 係にあることになる。
次に、 上述した一連の処理は、 ハードウェアにより行うこともできるし、 ソ フトウェアにより行うこともできる。 一連の処理をソフトウエアによって行う 場合には、 そのソフトウェアを構成するプログラムが、 汎用のコンピュータ等 にィンス トーノレされる。
そこで、 図 9は、 上述した一連の処理を実行するプログラムがインス トール されるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードディ スク 1 0 5や R O M 1 0 3に予め記録しておくことができる。
あるいはまた、 プログラムは、 フレキシブルディスク、 CD- ROM (Compact Disc Read Only Memory) , MO (Magneto optical)アイスク, DVD (Digital Versatile Disc) , 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 1 1 1に、 ― 時的あるいは永続的に格納 (記録) しておくことができる。 このようなリムー バブル記録媒体 1 1 1は、 いわゆるパッケージソフトウェアとして提供するこ とができる。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 1 1 1からコン ピュータにインス トールする他、 ダウンロードサイ トから、 ディジタル衛星放 送用の人工衛星を介して、 コンピュータに無線で転送したり、 LAN (Local Area Network)、 インターネッ トといったネットワークを介して、 コンピュータに有 線で転送し、 コンピュータでは、 そのようにして転送されてくるプログラムを、 通信部 1 0 8で受信し、 内蔵するハードディスク 1 0 5にインス トールするこ とができる。
コンピュータは、 CPU (Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、 バス 1 0 1を介して、 入出力ィンタフェース 1 1 0が接続されて おり、 CPU 1 0 2は、 入出力インタフェース 1 1 0を介して、 ユーザによって、 キーボードや、 マウス、 マイク等で構成される入力部 1 0 7が操作等されるこ とにより指令が入力されると、 それにしたがって、 ROM (Read Only Memory) 1 0 3に格納されているプログラムを実行する。 あるいは、 また、 CPU 1 0 2は、 ハ ードディスク 1 0 5に格納されているプログラム、 衛星若しくはネットワーク から転送され、 通信部 1 0 8で受信されてハードディスク 1 0 5にインスト一 ルされたプログラム、 またはドライブ 1 0 9に装着されたリムーバブル記録媒 体 1 1 1から読み出されてハードディスク 1 0 5にィンストールされたプログ ラムを、 RAM (Random Access Memory) 1 0 4にロードして実行する。 これにより CPU 1 0 2は、 上述したフローチャートにしたがった処理、 あるいは上述したブ ロック図の構成により行われる処理を行う。 そして、 CPU 1 0 2は、 その処理結 果を、 必要に応じて、 例えば、 入出力インタフェース 1 1 0を介して、 LCD (Liq uid Crystal Display)やスピーカ等で構成される出力部 1 0 6から出力、 ある いは、 通信部 1 0 8から送信、 さらには、 ハードディスク 1 0 5に記録等させ る。
ここで、 本明細書において、 コンピュータに各種の処理を行わせるためのプ ログラムを記述する処理ステップは、 必ずしもフローチヤ一トとして記載され た順序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行され る処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものであ る。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良 いし、 複数のコンピュータによって分散処理されるものであっても良い。 さら に、 プログラムは、 遠方のコンピュータに転送されて実行されるものであって も良い。
なお、 本実施の形態では、 モデル適応のための変換に、 行列 (変換行列) を 用いるようにしたが、 その他、 任意の関数を用いることが可能である。
また、 本実施の形態では、 モデル適応のための変換として、 線形変換を行う ようにしたが、 その他、 例えば、 非線形の変換を行うようにすることも可能で ある。
さらに、 本実施の形態では、 音響モデルとして HMMを用い、 さらに HMM 法に基づくマッチング処理を行うことによって、 音声認識結果としての尤度を 表すスコアを求めるようにしたが、 音声認識を行うアルゴリズムは、 HMM法 に限定されるものではない。
また、 本実施の形態では、 適応データに、 特徴べク トルを含ませて、 適応デ ータベース 1 1に記憶させるようにしたが、 適応データには、 特徴べクトルに 代えて、 例えば、 音声の波形データそのものを含ませるようにすることも可能 である。
さらに、 本実施の形態では、 図 4の変換行列更新処理を、 入力された音声に ついて、 その音声認識結果を出力した後に行うようにしたが、 変換行列更新処 理は、 その他の任意のタイミングで、 定期的または不定期に行うようにするこ とが可能である。
また、 本実施の形態では、 図 4の変換行列更新処理の一部として、 図 5の変 换行列生成/削除処理を行うようにしたが、 変換行列生成 Z削除処理も、 その 他の任意のタイミングで、 定期的または不定期に行うようにすることが可能で ある。
さらに、 本実施の形態では、 適応データが、 適応データベース 1 1の記憶容 量の上限まで記憶された場合の対処については、 特に言及しなかったが、 この 場合には、 例えば、 その後に供給される適応データを記憶させないようにする こともできるし、 あるいは、 時間的に古い (過去の) 適応データを、 適応デー タベース 1 1から消去するようにすることも可能である。 さらには、 同一の平 均べクトルの系列と対応付けられている、 近似する特徴べク トル系列を有する 複数の適応データを検索し、 その複数の適応データを、 その同一の平均べタト ノレの系歹 IJと、 近似する複数の特徴べクトル系列の任意の 1つとからなる 1つの 適応データにまとめるようにしても良い。 また、 本実施の形態では、 連続 HMM法により音声認識を行うようにしたが、 音声認識には、 その他、 例えば、 離散 HMM法を採用することも可能である。
さらに、 本実施の形態では、 図 6の変換行列生成処理において、 生成条件を 満たす変換行列から第 1と第 2の 2つの行列を生成するようにしたが、 その他、 3以上の行列を生成することも可能である。 産業上の利用可能性
本発明によれば、 入力音声とその入力音声に対応する音響モデルのうちの一 方を、 1以上の変換関数それぞれによって変換した変換結果に基づき、 その 1 以上の変換関数の中から、 入力音声と音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数が検出され、 その最適な変換関数に、 入力音声が割り 当てられて、 新たな入力音声が割り当てられた変換関数が、 その変換関数に割 り当てられているすべての入力音声を用いて更新される。 さらに、 1以上の変 換関数の中から、 入力音声と音響モデルのうちの一方を変換するのに用いる変 換関数が選択され、 その選択された変換関数によって、 入力音声と音響モデル のうちの一方が変換される。 そして、 入力音声と音響モデルのうちの一方を変 換関数によって変換したものと、 他方とのマッチング処理が行われ、 そのその マッチング処理結果に基づいて、 入力音声の音声認識結果が出力される。 従つ て、 音声認識装置が、 複数のユーザによって、 あるいは複数の環境下において 使用される場合でも、 ユーザに、 モデル適応を意識させることなく、 高い精度 の音声認識を行うことが可能となる。

Claims

請求の範囲
1 . 音声を音声認識する音声認識装置であって、
入力音声と、 音声認識に用いる音響モデルのうちの一方を変換し、 他方に適 応させるモデル適応を行うときの、 前記入力音声または音響モデルのうちの一 方を変換する 1以上の変換関数を記憶する変換関数記憶手段と、
前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、 前 記変換関数記憶手段に記憶された 1以上の変換関数それぞれによって変換した 変換結果に基づき、 前記変換関数記憶手段に記憶された 1以上の変換関数の中 から、 前記入力音声と音響モデルのうちの一方を他方に適応させるのに最適な 変換関数を検出し、 その最適な変換関数に、 前記入力音声を割り当てる割り当 て手段と、
前記変換関数が割り当てられた前記入力音声を記憶する音声記憶手段と、 前記変換関数記憶手段に記憶された 1以上の変換関数のうち、 前記割り当て 手段において新たな入力音声が割り当てられた変換関数を、 その変換関数に割 り当てられているすべての入力音声を用いて更新する変換関数更新手段と、 前記変換関数記憶手段に記憶された 1以上の変換関数の中から、 前記入力音 声と前記音響モデルのうちの一方を変換するのに用いる前記変換関数を選択す る変換関数選択手段と、
前記変換関数選択手段おいて選択された前記変換関数によって、 前記入力音 声と前記音響モデルのうちの一方を変換する変換手段と、
前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換し たものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づい て、 前記入力音声の音声認識結果を出力するマッチング手段と
を備えることを特徴とする音声認識装置。
2 . 前記音響モデルは、 HMM (Hidden .Markov Model)であり、
前記マッチング手段は、 HMM法に基づくマッチング処理を行う
ことを特徴とする請求の範囲索 1項に記載の音声認識装置。
3 . 前記 HMMは、 その HMMから、 所定の音声の特徴べクトル系列が観測 される確率を計算するためのガウス分布を有し、
前記割り当て手段は、 前記入力音声の特徴べクトル系列とその入力音声に対 応する前記 HMMが有する前記ガウス分布を定義する平均べク トルの系列のう ちの一方を、 前記変換関数記憶手段に記憶された 1以上の変換関数それぞれに よって変換し、 その変換後の特徴べク トル系列または平均べクトルの系列のう ちの一方と、 他方との誤差を最小にする変換関数を、 前記最適な変換関数とし て検出する
ことを特徴とする請求の範囲第 2項に記載の音声認識装置。
4 . 前記変換関数更新手段は、 前記変換関数に割り当てられている 1発話以 上の前記入力音声それぞれについて、 その入力音声の特徴べクトル系列とその 入力音声に対応する前記 HMMが有する前記ガウス分布を定義する平均べクト ルの系列のうちの一方を、 前記変換関数によって変換したときに、 その変換後 の特徴べクトル系列または平均べクトルの系列のうちの一方と、 他方との統計 的な誤差を最小にするように、 前記変換関数を更新する
ことを特徴とする請求の範囲第 2項に記載の音声認識装置。
5 . 前記変換関数更新手段は、 前記変換関数に割り当てられている 1発話以 上の前記入力音声それぞれについて、 その入力音声の特徴べクトル系列とその 入力音声に対応する前記 HMMが有する前記ガウス分布を定義する平均べクト ルの系列のうちの一方を、 前記変換関数によって変換したときに、 その変換後 の特徴べクトル系列または平均べク トルの系列のうちの一方と、 他方との統計 的な誤差を最小にする前記変換関数を、 最小自乗法によって求める
ことを特徴とする請求の範囲第 4項に記載の音声認識装置。
6 . 前記変換関数更新手段は、 前記新たな入力音声が割り当てられた変換関 数を更新した後、 前記音声記憶手段に記憶された入力音声すべてについて、 そ の入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数を、 前記変換関数記憶手段に記憶された 1以上の変換 関数の中から検出し、 その最適な変換関数に、 前記入力音声を割り当てし直す ことを特徴とする請求の範囲第 1項に記載の音声認識装置。
7 . 前記変換関数更新手段は、 さらに、
前記変換関数記憶手段に記憶された 1以上の変換関数のうちの、 前記入力音 声の割り当てが変化した変換関数それぞれを更新し、
その後、 前記音声記憶手段に記憶された入力音声すべてについて、 その入力 音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるの に最適な変換関数 έ、 前記変換関数記憶手段に記憶された 1以上の変換関数の 中から検出し、 その最適な変換関数に、 前記入力音声を割り当てし直す こと'を、 前記変換関数への入力音声の割り当てが変化しなくなるまで繰り返 す
ことを特徴とする請求の範囲第 6項に記載の音声認識装置。
8 . 前記変換関数記憶手段に記憶されている変換関数に基づいて、 新たな変 換関数を生成する変換関数生成手段をさらに備える
ことを特徴とする請求の範囲第 1項に記載の音声認識装置。
9 . 前記変換関数生成手段は、 前記変換関数記憶手段に記憶されている 1以 上の変換関数のうちの、 所定の生成条件を満たす変換関数に基づき、 新たな変 換関数を生成する
ことを特徴とする請求の範囲第 8項に記載の音声認識装置。
1 0 . 前記変換関数生成手段は、 前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、 所定の閾値以上の発話数の入力音声が割り当てられ ている変換関数を、 所定の生成条件を満たす変換関数として、 その変換関数に 基づき、 新たな変換関数を生成する
ことを特徴とする請求の範囲第 9項に記載の音声認識装置。
1 1 . 前記変換関数生成手段は、
前記変換関数記憶手段に記憶されている 1つの変換関数を基準として、 第 1 と第 2の 2つの変換関数を求め、 基準とした 1つの変換関数に割り当てられていた入力音声すべてについて、 その入力音声とその入力音声に対応する音響モデルのうちの一方を他方に適応 させるのに最適な変換関数を、 前記第 1と第 2の変換関数の中から検出し、 そ の最適な変換関数に、 前記入力音声を割り当て、
前記第 1と第 2の変換関数を、 それぞれに割り当てられている入力音声を用 いて更新し、
その更新後の前記第 1と第 2の変換行列を、 前記基準とした 1つの変換関数 に代えて、 前記変換関数記憶手段に記憶させる
. ことを特徴とする請求の範囲第 8項に記載の音声認識装置。
1 2 . 前記変換関数生成手段は、 前記更新後の第 1と第 2の変換行列を前記 変換行列記憶手段に記憶させた後、 前記音声記憶手段に記憶された入力音声す ベてについて、 その入力音声とその入力音声に対応する音響モデルのうちの一 方を他方に適応させるのに最適な変換関数を、 前記変換関数記憶手段に記憶さ れた 1以上の変換関数の中から検出し、 その最適な変換関数に、 前記入力音声 を割り当てし直す
ことを特徴とする請求の範囲第 1 1項に記載の音声認識装置。
1 3 . 前記変換関数生成手段は、 前記変換関数への入力音声の割り当てをし 直した後、
前記変換関数記憶手段に記憶された 1以上の変換関数のうちの、 前記入力音 声の割り当てが変化した変換関数それぞれを更新し、
その後、 前記音声記憶手段に記憶された入力音声すべてについて、 その入力 音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるの に最適な変換関数を、 前記変換関数記憶手段に記憶された 1以上の変換関数の 中から検出し、 その最適な変換関数に、 前記入力音声を割り当てし直す ことを、 前記変換関数への入力音声の割り当てが変化しなくなるまで操り返 す
ことを特徴とする請求の範囲第 1 2項に記載の音声認識装置。
1 4 . 前記変換関数記憶手段に記憶されている変換関数を削除する変換関数 削除手段をさらに備える
ことを特徴とする請求の範囲第 1項に記載の音声認識装置。
1 5 . 前記変換関数削除手段は、 前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、 所定の削除条件を満たす変換関数を削除する ことを特徴とする請求の範囲第 1 4項に記載の音声認識装置。
1 6 . 前記変換関数削除手段は、 前記変換関数記憶手段に記憶されている 1 以上の変換関数のうちの、 所定の閾値以下の発話数の入力音声が割り当てられ ている変換関数を、 所定の削除条件を満たす変換関数として削除する
ことを特徴とする請求の範囲第 1 5項に記載の音声認識装置。
1 7 . 前記変換関数削除手段は、
前記変換関数を、 前記変換関数記憶手段から削除し、
削除した変換関数に割り当てられていた入力音声すべてについて、 その入力 音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるの に最適な変換関数を、 前記変換関数記憶手段に残っている 1以上の変換関数の 中から検出し、 その最適な変換関数に、 前記入力音声を割り当てし直す ことを特徴とする請求の範囲第 1 4項に記載の音声認識装置。
1 8 . 前記変換関数削除手段は、 前記変換関数への入力音声の割り当てをし 直した後、
前記変換関数記憶手段に記憶された 1以上の変換関数のうちの、 前記入力音 声の割り当てが変化した変換関数それぞれを更新し、
その後、 前記音声記憶手段に記憶された入力音声すべてについて、 その入力 音声とその入力音声に対応する音響モデルのうちの一方を他方に適応させるの に最適な変換関数を、 前記変換関数記憶手段に記憶された 1以上の変換関数の 中から検出し、 その最適な変換関数に、 前記入力音声を割り当てし直す ことを、 前記変換関数への入力音声の割り当てが変化しなくなるまで繰り返 す ことを特徴とする請求の範囲第 1 7項に記載の音声認識装置。
1 9 . 前記変換阛数選択手段は、 前記変換関数記憶手段に記憶された 1以上 の変換関数それぞれによって、 前記入力音声と前記音響モデルのうちの一方を 変換したものと、 他方とのマッチング処理を行ったときに、 最も尤度の高い音 声認識結果が得られる前記変換関数を選択する
ことを特徴とする請求の範囲第 1項に記載の音声認識装置。
2 0 . 入力音声と、 音声認識に用いる音響モデルのうちの一方を変換し、 他 方に適応させるモデル適応を行うときの、 前記入力音声または音響モデルのう ちの一方を変換する 1以上の変換関数を用い、 前記入力音声を音声認識する音 声認識方法であって、
前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、 前 記 1以上の変換関数それぞれによつて変換した変換結果に基づき、 前記 1以上 の変換関数の中から、 前記入力音声と音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数を検出し、 その最適な変換関数に、 前記入力音声を割 り当てる割り当てステップと、 '
前記変換関数が割り当てられた前記入力音声を記憶する音声記憶ステップと 前記 1以上の変換関数のうち、 前記割り当てステップにおいて新たな入力音 声が割り当てられた変換関数を、 その変換関数に割り当てられているすべての 入力音声を用いて更新する変換関数更新ステップと、
前記 1以上の変換関数の中から、 前記入力音声と前記音響モデルのうちの一 方を変換するのに用いる前記変換関数を選択する変換関数選択ステップと、 前記変換関数選択ステップおいて選択された前記変換関数によって、 前記入 力音声と前記音響モデルのうちの一方を変換する変換ステツプと、
前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換し たものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づい て、 前記入力音声の音声認識結果を出力するマ
を備えることを特徴とする音声認識方法。
2 1 . 入力音声と、 音声認識に用いる音響モデルのうちの一方を変換し、 他 方に適応させるモデル適応を行うときの、 前記入力音声または音響モデルのう ちの一方を変換する 1以上の変換関数を用い、 前記入力音声を音声認識する音 声認識処理を、 コンピュータに行わせるプログラムであって、
前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、 前 記 1以上の変換関数それぞれによって変換した変換結果に基づき、 前記 1以上 の変換関数の中から、 前記入力音声と音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数を検出し、 その最適な変換関数に、 前記入力音声を割 り当てる割り当てステップと、
前記変換関数が割り当てられた前記入力音声を記憶する音声記憶ステツプと , 前記 1以上の変換関数のうち、 前記割り当てステップにおいて新たな入力音 声が割り当てられた変換関数を、 その変換関数に割り当てられているすべての 入力音声を用いて更新する変換関数更新ステップと、
前記 1以上の変換関数の中から、 前記入力音声と前記音響モデルのうちの一 方を変換するのに用いる前記変換関数を選択する変換関数選択ステップと、 前記変換関数選択ステップおいて選択された前記変換関数によって、 前記入 力音声と前記音響モデルのうちの一方を変換する変換ステップと、
前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換し たものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づい て、 前記入力音声の音声認識結果を出力するマッチングステップと
を備えることを特徴とするプログラム。
2 2 . 入力音声と、 音声認識に用いる音響モデルのうちの一方を変換し、 他 方に適応させるモデル適応を行うときの、 前記入力音声または音響モデルのう ちの一方を変換する 1以上の変換関数を用い、 前記入力音声を音声認識する音 声認識処理を、 コンピュータに行わせるプログラムが記録されている記録媒体 であって、
前記入力音声とその入力音声に対応する前記音響モデルのうちの一方を、 前 記 1以上の変換関数それぞれによって変換した変換結果に基づき、 前記 1以上 の変換関数の中から、 前記入力音声と音響モデルのうちの一方を他方に適応さ せるのに最適な変換関数を検出し、 その最適な変換関数に、 前記入力音声を割 り当てる割り当てステップと、
前記変換関数が割り当てられた前記入力音声を記憶する音声記憶ステップと 前記 1以上の変換関数のうち、 前記割り当てステップにおいて新たな入力音 声が割り当てられた変換関数を、 その変換関数に割り当てられているすべての 入力音声を用いて更新する変換関数更新ステップと、
前記 1以上の変換関数の中から、 前記入力音声と前記音響モデルのうちの一 方を変換するのに用いる前記変換関数を選択する変換関数選択ステツプと、 前記変換関数選択ステップおいて選択された前記変換関数によって、 前記入 力音声と前記音響モデルのうちの一方を変換する変換ステツプと、
前記入力音声と前記音響モデルのうちの一方を前記変換関数によって変換し たものと、 他方とのマッチング処理を行い、 そのマッチング処理結果に基づい て、 前記入力音声の音声認識結果を出力するマッチングステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
PCT/JP2002/005647 2001-06-08 2002-06-07 Voice recognition apparatus and voice recognition method WO2002101719A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP02733382A EP1394770A4 (en) 2001-06-08 2002-06-07 VOICE RECOGNIZING METHOD AND DEVICE
KR1020037001766A KR100924399B1 (ko) 2001-06-08 2002-06-07 음성 인식 장치 및 음성 인식 방법
US10/344,031 US7219055B2 (en) 2001-06-08 2002-06-07 Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001174633A JP2002366187A (ja) 2001-06-08 2001-06-08 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2001-174633 2001-06-08

Publications (1)

Publication Number Publication Date
WO2002101719A1 true WO2002101719A1 (en) 2002-12-19

Family

ID=19015892

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/005647 WO2002101719A1 (en) 2001-06-08 2002-06-07 Voice recognition apparatus and voice recognition method

Country Status (6)

Country Link
US (1) US7219055B2 (ja)
EP (1) EP1394770A4 (ja)
JP (1) JP2002366187A (ja)
KR (1) KR100924399B1 (ja)
CN (1) CN1244902C (ja)
WO (1) WO2002101719A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645135B2 (en) 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050246330A1 (en) * 2004-03-05 2005-11-03 Giang Phan H System and method for blocking key selection
US7818172B2 (en) * 2004-04-20 2010-10-19 France Telecom Voice recognition method and system based on the contexual modeling of voice units
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
CN1811911B (zh) * 2005-01-28 2010-06-23 北京捷通华声语音技术有限公司 自适应的语音变换处理方法
WO2006128107A2 (en) * 2005-05-27 2006-11-30 Audience, Inc. Systems and methods for audio signal analysis and modification
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7617103B2 (en) * 2006-08-25 2009-11-10 Microsoft Corporation Incrementally regulated discriminative margins in MCE training for speech recognition
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
TWI319563B (en) * 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9478216B2 (en) 2009-12-08 2016-10-25 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
US8635067B2 (en) 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
US9224384B2 (en) * 2012-06-06 2015-12-29 Cypress Semiconductor Corporation Histogram based pre-pruning scheme for active HMMS
KR20140028174A (ko) * 2012-07-13 2014-03-10 삼성전자주식회사 음성 인식 방법 및 이를 적용한 전자 장치
CN102862587B (zh) * 2012-08-20 2016-01-27 泉州市铁通电子设备有限公司 一种铁路车机联控语音分析方法和设备
KR101429138B1 (ko) * 2012-09-25 2014-08-11 주식회사 금영 복수의 사용자를 위한 장치에서의 음성 인식 방법
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
CN103730120A (zh) * 2013-12-27 2014-04-16 深圳市亚略特生物识别科技有限公司 电子设备的语音控制方法及系统
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR20170046291A (ko) * 2015-10-21 2017-05-02 삼성전자주식회사 전자 기기, 그의 음향 모델 적응 방법 및 음성 인식 시스템
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
CN107180640B (zh) * 2017-04-13 2020-06-12 广东工业大学 一种相位相关的高密度叠窗频谱计算方法
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109754784B (zh) 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
CN110517680B (zh) * 2018-11-15 2023-02-03 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN113345428B (zh) * 2021-06-04 2023-08-04 北京华捷艾米科技有限公司 语音识别模型的匹配方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223159B1 (en) * 1998-02-25 2001-04-24 Mitsubishi Denki Kabushiki Kaisha Speaker adaptation device and speech recognition device
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2980382B2 (ja) * 1990-12-19 1999-11-22 富士通株式会社 話者適応音声認識方法および装置
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
JPH06324695A (ja) * 1993-05-13 1994-11-25 Seiko Epson Corp 音声認識装置
JP3216565B2 (ja) * 1996-08-02 2001-10-09 日本電信電話株式会社 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP3035239B2 (ja) * 1997-03-10 2000-04-24 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化装置、話者適応化装置及び音声認識装置
JP3088357B2 (ja) * 1997-09-08 2000-09-18 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者音響モデル生成装置及び音声認識装置
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US7165028B2 (en) * 2001-12-12 2007-01-16 Texas Instruments Incorporated Method of speech recognition resistant to convolutive distortion and additive distortion
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6223159B1 (en) * 1998-02-25 2001-04-24 Mitsubishi Denki Kabushiki Kaisha Speaker adaptation device and speech recognition device
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FURUI MATSUI: "Onsei ninshiki no tame no N-best ni motozuku washa tekioka", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) HEISEI 8 NENDO SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU, vol. 3-3-16, 25 September 1996 (1996-09-25), pages 117 - 118, XP002954482 *
KOSAKA, MATSUNAGA, SAGAYAMA: "Ki kozo washa clustering o mochiita washa tekio", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) HEISEI 5 NENDO SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU, vol. 2-7-14, 5 October 1993 (1993-10-05), pages 97 - 98, XP002954483 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645135B2 (en) 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model

Also Published As

Publication number Publication date
CN1244902C (zh) 2006-03-08
KR100924399B1 (ko) 2009-10-29
EP1394770A1 (en) 2004-03-03
CN1465043A (zh) 2003-12-31
US20040059576A1 (en) 2004-03-25
US7219055B2 (en) 2007-05-15
EP1394770A4 (en) 2006-06-07
JP2002366187A (ja) 2002-12-20
KR20030018073A (ko) 2003-03-04

Similar Documents

Publication Publication Date Title
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP6705008B2 (ja) 話者照合方法及びシステム
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP5106371B2 (ja) 話認認証の検証のための方法および装置、話者認証システム
WO2001065541A1 (fr) Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20040006469A1 (en) Apparatus and method for updating lexicon
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
Zgank et al. Predicting the acoustic confusability between words for a speech recognition system using Levenshtein distance
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
JP5136621B2 (ja) 情報検索装置及び方法
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
Wang Automatic Speech Recognition Model for Swedish Using Kaldi
JPH10149190A (ja) 音声認識方法及び音声認識装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002733382

Country of ref document: EP

Ref document number: 1020037001766

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1020037001766

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 028025784

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 10344031

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002733382

Country of ref document: EP