WO2001065541A1 - Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement - Google Patents

Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement Download PDF

Info

Publication number
WO2001065541A1
WO2001065541A1 PCT/JP2001/001127 JP0101127W WO0165541A1 WO 2001065541 A1 WO2001065541 A1 WO 2001065541A1 JP 0101127 W JP0101127 W JP 0101127W WO 0165541 A1 WO0165541 A1 WO 0165541A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
score
speech recognition
words
speech
Prior art date
Application number
PCT/JP2001/001127
Other languages
English (en)
French (fr)
Inventor
Yasuharu Asano
Katsuki Minamino
Hiroaki Ogawa
Helmut Lucke
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to EP01904512A priority Critical patent/EP1215662A4/en
Priority to JP2001564146A priority patent/JP4802434B2/ja
Priority to US10/019,125 priority patent/US7881935B2/en
Publication of WO2001065541A1 publication Critical patent/WO2001065541A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Definitions

  • the present invention relates to a speech recognition device! And a speech recognition method, and a recording medium, in particular, for example, a speech that enables accurate speech recognition with a small number of resources even if the speech includes a word whose acoustic feature amount is unstable. It relates to a recognition device, a voice recognition method, and a recording medium.
  • FIG. 1 shows an example of a conventional speech recognition device.
  • the voice obtained by the user is input to the microphone 1.
  • the microphone 1 converts the input sound into a sound signal as an electric signal.
  • the audio signal, A / D (AnaIo g / Di g ital) is supplied to the converter 2.
  • the A / D converter 2 samples and quantizes an audio signal, which is an analog signal output from the microphone 1, and converts it into an audio signal, which is a digital signal. This audio data is supplied to the feature extraction unit 3.
  • the feature extraction unit 3 performs sound processing on the audio data from the A / D conversion unit 2 for each appropriate frame, thereby extracting feature amounts such as MFCC (Mel Frequency Cepstrum Coefficient), and matching unit.
  • MFCC Mel Frequency Cepstrum Coefficient
  • Supply 4 the feature extraction unit 3 can also extract other feature amounts such as a spectrum, a linear prediction coefficient, a cepstrum coefficient, and a line spectrum pair.
  • the matching unit 4 uses the features from the feature extraction unit 3 to refer to the acoustic model database 5, the dictionary database 6, and the grammar database 7 as necessary, and to input the speech input to the microphone 1 (Input speech) is recognized based on, for example, a continuous distribution HMM method. That is, the acoustic model database 5 stores acoustic models representing acoustic features such as individual phonemes and syllables in the language of the speech to be recognized. Here, since speech recognition is performed based on the continuous distribution HMM method, HMM (Hidden Markov Model) is used as the acoustic model.
  • the dictionary database 6 stores a word dictionary in which information (phonological information) about the ultimate sound is described for each word (vocabulary) to be recognized.
  • the grammar database 7 stores grammar rules (language models) that describe how each word registered in the word dictionary of the dictionary database 6 is linked, that is, connected.
  • the grammar rule for example, a rule based on a context-free grammar (CFG) or a statistical word chain probability (N-gram) can be used.
  • CFG context-free grammar
  • N-gram statistical word chain probability
  • the matching unit 4 refers to the word dictionary in the dictionary database 6 and connects the acoustic models stored in the acoustic model database 5 to form an acoustic model (word model) of the word. Further, the matching unit 4 connects several word models by referring to the grammar rules stored in the grammar database 7, and uses the word models connected in this way to generate a feature. Based on the volume, the speech input to the microphone 1 is recognized by the continuous distribution HMM method. That is, the matching unit 4 detects a word model sequence having the highest score (likelihood) at which the time-series feature amount output from the feature extraction unit 3 is observed, and determines a word corresponding to the word model sequence. Output the sequence as a speech recognition result.
  • the matching unit 4 accumulates the appearance probabilities of the respective feature amounts for the word strings corresponding to the connected word models, and uses the accumulated value as a score to determine the word string that has the highest score. Output as speech recognition result.
  • the score calculation is performed based on an acoustic score (hereinafter, appropriately referred to as an acoustic score) given by the acoustic model stored in the acoustic model database 5 and a grammatical rule stored in the grammar data 7.
  • Linguistic scores hereinafter referred to as linguistic scores, as appropriate).
  • the acoustic score is based on the probability (observation probability) of observing the sequence of feature amounts output by the feature extracting unit 3 from the acoustic model forming the word model. , Calculated for each word.
  • the language score is, for example, In the case of bigram, it is obtained based on the probability that the word of interest and the word immediately before the word are linked (connected). Then, a speech recognition result is determined based on a final score (hereinafter, appropriately referred to as a final score) obtained by comprehensively evaluating the acoustic score and the language score for each word.
  • the k-th word in a word string consisting of a certain N words is w k
  • the acoustic score of the word w k is A (w k )
  • the language score is L (w k ).
  • the final score S of the word string is calculated according to, for example, Equation 1.
  • indicates that a summary is taken by changing k from 1 to N.
  • C k represents a weight applied to the language score L (w k ) of the word w k .
  • the matching section 4 for example, the N of the greatest final score shown in equation 1, the word sequence w l 5 w 2, ⁇ ⁇ ⁇ , matching processing for obtaining w N is made, the word column ww 2, ⁇ ⁇ ⁇ , W N are output as speech recognition results.
  • the matching section 4 evaluates the word sequence of the 5 5 kinds, among them, the best match to the utterance of the user, i.e. to be determined what the greatest final score No. If the number of words registered in the word dictionary increases, the number of words arranged as the number of words becomes the number of words multiplied by the number of words, so the number of word strings that must be evaluated becomes enormous.
  • the score calculation is terminated.
  • acoustic pruning techniques and linguistic pruning techniques that narrow down the words to be scored based on linguistic scores. According to these pruning methods, the target of score calculation is narrowed down based on a predetermined criterion (for example, an acoustic score in the middle of calculation as described above, or a language score given to a word), and the calculation is performed. The amount can be reduced.
  • a method of sharing has been proposed.
  • the common method is to use the same acoustic model for the words in the word dictionary that have the same phoneme at the beginning, from the phoneme at the beginning to the phoneme that is the same, and thereafter
  • For the different phonemes there is a method in which a single tree-structured network is constructed as a whole by using acoustic models individually, and the acoustic score is calculated using this network.
  • acoustic scores of the words “Akita” and “Akebono” are also calculated for the first two phonemes a and k. For the remaining phonemes k, i, t, a of the word “Akita” and the remaining phonemes e , b, o, n, o of the word “Akebono”, acoustic scores are calculated independently. Therefore, according to this method, the calculation amount of the acoustic score can be significantly reduced.
  • the above-described tree-structured network is configured for all the words in the word dictionary, so that a large memory capacity for holding the network is required. Required.
  • the words to be calculated for the acoustic score are reserved. There is a method to select (preliminarily select) words and calculate the acoustic score only for the preselected words.
  • the method of preliminary selection is, for example, LR Bahl, SV De Gennaro, P.S.Gopalakrishnan and RL Mercer, "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc, vol. 1, p.59-67, 1993 and the like.
  • Preliminary selection is generally based on simple acoustic models and grammar rules that are not very accurate. This is done using rules. That is, since the preliminary selection is performed for all words in the word dictionary, if the preliminary selection is performed using a high-accuracy acoustic model or grammar rule, real-time imitation and the like are maintained. Many resources such as the amount of calculation divided by the memory capacity are required. Therefore, the preliminary selection can be performed at high speed with relatively few resources even when targeting large vocabulary by using simple acoustic models and grammar rules.
  • a speech recognition device that performs pre-selection, matching processing only needs to be performed on words that have been pre-selected. Can be. Therefore, a speech recognition device that performs preliminary selection is particularly useful when performing speech recognition for a large vocabulary.
  • the preliminary selection after a matching process using a feature amount sequence (feature amount sequence) is completed for a certain word, and a tentative end point is determined for the time being, the end point is set as a start point and the corresponding start point is determined. This is performed using the feature sequence after time. In other words, the preliminary selection is performed when the boundaries between words (word boundaries) included in the continuously uttered speech are not finally determined.
  • the start point and end point of the feature sequence used for preliminary selection deviate from the start and end points of the corresponding word, the feature including the phoneme features of the word immediately before and after the word is used.
  • the preliminary selection is performed using a quantity sequence or a feature quantity sequence lacking the feature quantity of the first or last part of the corresponding word, that is, a so-called acoustically unstable feature quantity sequence.
  • the words included in the utterance may not be selected.
  • words with a short phonological number such as Japanese particles and auxiliary verbs, and English articles and prepositions, are highly likely to cause such omission.
  • the present invention has been made in view of such a situation, and it is an object of the present invention to improve speech recognition accuracy while minimizing an increase in necessary resources.
  • a speech recognition device selects one or more first words from a group of words to be subjected to speech recognition based on a first scale calculated using a feature amount, and selects one or more first words. Selecting means for selecting a second word based on a second scale different from the first scale; score calculating means for calculating a score for the first and second words selected by the selecting means; Is provided.
  • the selecting means can select, as a second word, a word whose phoneme number satisfies a predetermined condition, using the number of phonemes as a second measure. Further, the selection means can select a word whose part of speech satisfies a predetermined condition as a second word using the part of speech as a second scale. Further, the selection means can select a word having a high linguistic likelihood as a second word using the linguistic likelihood as a second measure.
  • the speech recognition device of the present invention can further include a storage unit that stores a speech recognition result. In this case, the selection unit includes the second measure that is stored in the storage unit. A word included in the speech recognition result stored in the storage means can be selected as the second word.
  • the speech recognition device may further include an input unit for giving an input for correcting a speech recognition result.
  • the storage means is an input means The speech recognition result corrected according to these inputs is stored.
  • the selecting means causes a score to be calculated using the feature amount of the voice, and selects the first word based on the score.
  • the speech recognition method selects one or more first words from a group of words to be subjected to speech recognition based on a first scale calculated using a feature amount, and selects one or more first words.
  • the recording medium selects one or more first words from a group of words to be subjected to speech recognition based on a first scale calculated using the feature amount, and selects one or more first words.
  • Prepared programs are recorded.
  • the speech recognition apparatus, the speech recognition method, and the recording medium according to the present invention are configured such that one or more first words are determined from a group of words to be subjected to speech recognition based on a first scale calculated using a feature amount.
  • FIG. 1 is a block diagram showing an example of a conventional voice recognition device.
  • FIG. 2 is a block diagram showing an example of the speech recognition device according to the present invention.
  • FIG. 3 is a diagram for explaining word connection information.
  • FIG. 4 is a flowchart for explaining the processing of the speech recognition device.
  • FIG. 5 is a block diagram showing another example of the speech recognition device according to the present invention.
  • FIG. 6 is a flowchart for explaining the processing of the speech recognition device.
  • FIG. 7 is a block diagram showing an example of a computer to which the present invention is applied.
  • BEST MODE FOR CARRYING OUT THE INVENTION FIG. 2 shows an example of a speech recognition apparatus according to the present invention.
  • parts corresponding to the apparatus shown in FIG. 1 are denoted by the same reference numerals, and a detailed description thereof will be omitted as appropriate below.
  • the sequence of the feature amounts of the voices output by the user output by the feature amount extraction unit 3 is supplied to the control unit 11 in frame units, and the control unit 11 converts the feature amount from the feature amount extraction unit 3 into the feature amount. It is supplied to the storage unit 12.
  • the control unit 11 controls the matching unit 14 with reference to the word connection information stored in the word connection information storage unit 16. Further, the control unit 11 performs word connection based on an acoustic score, a language score, or the like as a matching processing result obtained by performing the same matching processing as the matching unit 4 in FIG. 1 described above. Information is generated, and the storage contents of the word connection information storage unit 16 are updated based on the word connection information. Further, the control unit 11 determines and outputs the final speech recognition result based on the word connection information stored in the word connection information storage unit 16.
  • the feature amount storage unit 12 stores a series of feature amounts supplied from the control unit 11 until, for example, a recognition result of a user's voice is obtained.
  • the control unit 11 sets the time at which the feature amount output by the feature extraction unit 3 is obtained (hereinafter, appropriately referred to as an extraction time) with the start time of the voice section as a reference (eg, 0). Is supplied to the feature amount storage unit 12.
  • the feature amount storage unit 12 stores the feature amount together with the extraction time.
  • the feature amount stored in the feature amount storage unit 12 and the extraction time thereof can be referred to as needed in the word preliminary selection unit 13 and the matching unit 14.
  • the word preliminary selection unit 13 includes a word connection information storage unit 16, an acoustic model database 17A, a dictionary database 18A, and a grammar database.
  • the word preselection process of selecting one or more words to be subjected to the matching process in the matching unit 14 while referring to the source 19 A as necessary is performed by the feature amount stored in the feature amount storage unit 12. This is performed using
  • the matching unit 14 Based on the control from the control unit 11, the matching unit 14 6.
  • the result of the word preselection process from the word preselection unit 13 is obtained by referring to the acoustic model database 17B, dictionary database 18B, and grammar database 19B as necessary.
  • the matching process for the word is performed using the feature amount stored in the feature amount storage unit 12, and the result of the matching process is supplied to the control unit 11.
  • the word connection information storage unit 16 stores the word connection information supplied from the control unit 11 until a recognition result of the user's voice is obtained.
  • the word connection information indicates a connection (chain or concatenation) relationship between words constituting a word string that is a candidate for a final speech recognition result, and includes an acoustic score, a language score, and a speech score of each word. It also includes the start time and end time of the utterance corresponding to each word (that is, FIG. 3 shows the word connection information stored in the word connection information storage unit 16 using a graph structure.
  • the graph structure as the word connection information includes a mark representing a word (in FIG. 3, a portion indicated by a line connecting ⁇ marks) and a node representing a boundary between the words ( (Indicated by a triangle in FIG. 3).
  • the node has time information, and the time information indicates the extraction time of the feature corresponding to the node.
  • the extraction time is the time at which the feature amount output by the feature extraction unit 3 is obtained, with the start time of the voice section being 0, so that in FIG.
  • the time information of the node Nod ei corresponding to the beginning of the word is 0.
  • the nodes are the start and end of the arc.
  • the time information of the start node (start node) or the end node (end node) is the start time of the utterance of the word corresponding to the node. , Or end time.
  • the time from the left to the right represents the passage of time. Therefore, among the nodes on the left and right of a certain work, the left node is the start node, and the right node is the end node. And
  • the arc has an acoustic score and a linguistic score of the word corresponding to the arc, and the arc is sequentially connected with the node serving as a terminal node as a starting node, thereby obtaining a speech recognition result.
  • arc Ar C l corresponding to "today”, "good” in the corresponding ⁇ over click Arc e, and "Arc corresponding to weather j" are connected. Whether the word is likely to be a speech recognition result is determined based on the acoustic score and the language score obtained by the matching unit 14.
  • the end node Node 2 is the end of the arc Ar Cl corresponding to the "Today”
  • the termination node Node 7 is the end of the arc Arc 6 corresponding to "good”, corresponding to the "weather”
  • arcs corresponding to probable words are connected.
  • one or more paths composed of arcs and nodes are formed from left to right starting from the start of the voice section.
  • the control unit 11 configures the paths for each path formed from the start to the end of the voice section.
  • the acoustic and linguistic scores that the arc is apprehensive are accumulated to determine the final score. Then, for example, a word string corresponding to an arc constituting the path having the highest final score is determined and output as a speech recognition result.
  • the end of one arc is the start node of one or more arcs to be connected next.
  • the path is constructed so that the branches and leaves expand. Exceptionally, if the end of one arc matches the end of another arc, that is, the end node of one arc and the end node of another arc are shared by the same node There are cases.
  • the arc Arc 7 extending from the node Node 7 as a starting point and the arc Arc 13 extending from the node Node 13 as a starting point both correspond to ⁇ weather '', and the end times of the utterances are the same. because it is, the terminal node is common to the same node node 8.
  • bigrams are used as grammar rules, but other nodes, such as trigrams, can be shared.
  • word connection information stored in the word connection information storage unit 16 can be referred to as necessary in the word preliminary selection unit 13 and the matching unit 14.
  • the acoustic model databases 17 A and 17 B basically store the acoustic models as described in the acoustic model database 5 of FIG. 1. However, the acoustic model database 17 B stores a high-accuracy acoustic model that can perform processing with higher accuracy than the acoustic model database 17A.
  • the acoustic model database 17A stores, for example, only one pattern acoustic model that does not depend on the context before and after each phoneme or syllable
  • the acoustic model database 17B For each phoneme or syllable, for example, in addition to the acoustic model that does not depend on the context before and after, the acoustic model that depends on the context between words, that is, the crossword model and the context within the word The acoustic model is also stored.
  • the dictionary databases 18A and 18B basically store word dictionaries as described in the dictionary database 6 of FIG.
  • the word dictionary of the dictionary database 18B stores highly accurate phonological information that can be processed with higher accuracy than the word dictionary of the dictionary database 18A. That is, in the word dictionary of the dictionary database 18A, for example, if only one type of phonological information (reading) is registered for each word, the word dictionary of the dictionary database 18B For example, for each word, plural types of phonemic information are registered.
  • the word database of the dictionary database 18A contains only one type of phonological information "Ohayo" in the word dictionary of the dictionary database 18B.
  • “Ohayo”, “Ohayoichi” and “Ohayo” are each registered as phonemic information.
  • the grammar databases 19A and 19B basically store grammar rules as described in the grammar database 7 in FIG.
  • the grammar database 19B stores high-precision grammar rules that can perform processing with higher precision than the grammar database 19A. That is, if the grammar database 19 A stores, for example, grammar rules based on a unigram (probability of occurrence of a word), the grammar database 19 B will generate The grammar rules based on the context-free grammar, such as the trigram (probability of the word considering the relation between the immediately preceding word and the next preceding word), the trigram (the probability of occurrence of the word considering the relation), and the trigram I have.
  • the acoustic model database 17 A contains one pattern acoustic model for each phoneme or syllable, and the acoustic model database 17 B contains multiple pattern acoustic models for each phoneme or syllable. It is remembered. Also, the dictionary database 18 A stores one type of phonological information for each word, and the dictionary database 18 B stores multiple types of phonological information for each word. .
  • the grammar database 19 A contains simple grammar rules, —Source 19 B stores highly accurate grammatical rules.
  • the word preliminary selection unit 13 referring to the acoustic model database 1 ⁇ A, the dictionary database 18 A, and the grammar database 19 A is not very accurate, but can quickly process many words. Acoustic score and language score can be obtained.
  • the matching unit 14 that refers to the acoustic model database 17 B, the dictionary database 18 B, and the grammar database 19 B quickly and accurately obtains an acoustic score and a linguistic score for a certain number of words. Can be requested.
  • the acoustic model databases 1 ⁇ A and 17B and the accuracy of the acoustic models stored in the acoustic model databases are set to be superior or inferior, but the acoustic model databases 17A and 17B have the same acoustic model.
  • a model can be stored, and in this case, the acoustic model databases 17A and 17B can be shared by one acoustic model database.
  • the stored contents of the word dictionaries of the dictionary databases 18A and 18B, and the grammatical rules of the grammar databases 198 and 19B can be the same.
  • the speech as the speech is converted into digital speech data via the microphone 1 and the A / D conversion unit 2 and supplied to the feature extraction unit 3.
  • the feature extracting unit 3 sequentially extracts a feature amount of the audio from the audio data supplied thereto for each frame, and supplies it to the control unit 11.
  • the control unit 11 recognizes a voice section by some method, and in the voice section, associates a series of feature amounts supplied from the feature extraction unit 3 with an extraction time of each feature amount. Then, it is supplied to and stored in the feature amount storage unit 12.
  • control unit 11 After the start of the voice section, the control unit 11 generates a node (hereinafter, appropriately referred to as an initial node) representing the start of the voice section in step S1 and supplies the node to the word connection information storage unit 16.
  • the control unit 11 stores the node Node in FIG. 3 in the word connection information storage unit 16 in step S1.
  • step S2 the control unit 11 reads the word in the word connection information storage unit 16 By referring to the connection information, it is determined whether an intermediate node exists.
  • a path extending from the start to the end of the voice section is formed by connecting an arc to the terminal node.
  • the terminal nodes whose arcs are not yet connected and which have not reached the end of the voice section are the intermediate nodes (for example, nodes Node 8 , Node 10 , and Nocle No in FIG. 3). ), And it is determined whether or not such a node exists.
  • the voice section is recognized by some method, and the time corresponding to the terminal node can be recognized by referring to the time information of the terminal node. Whether or not the end node that has not reached is the midway node that has not reached the end of the voice section can be determined by comparing the last time of the voice section with the time information of the end node.
  • step S2 If it is determined in step S2 that there is an intermediate node, the process proceeds to step S3, where the control unit 11 sets one of the intermediate nodes in the information connection information as an arc connecting to the intermediate node. It is selected as a node that determines the word (hereafter referred to as the attention node as appropriate).
  • the control unit 11 selects the intermediate node as a target node. Further, when there are a plurality of intermediate nodes in the information connection information, the control unit 11 selects one of the plurality of intermediate nodes as a target node. Specifically, the control unit 11 refers to, for example, the time information of the plurality of intermediate nodes and the time information represented by the time information is the oldest (the one on the start side of the voice section), or The new one (the one at the end of the voice section) is selected as the node of interest.
  • control unit 11 accumulates, for example, the acoustic score and the language score of the arc constituting the path from the initial node to a plurality of intermediate nodes and the intermediate nodes, and accumulates the accumulative value (hereinafter referred to as partial accumulation as appropriate).
  • the node at the end of the path with the largest (or the score) or the path with the smallest is selected as the node of interest.
  • control unit 11 issues a command to perform matching processing using the time information of the node of interest as a start time (hereinafter, appropriately referred to as a matching processing command). Output to the switching section 14.
  • the matching unit 14 Upon receiving the matching processing command from the control unit 11, the matching unit 14 supplies the node of interest and the time information possessed by the node to the word preliminary selection unit 13, requests the word preliminary selection process, and requests the word preliminary selection process. Proceed to 4.
  • step S4 when the word preliminary selection unit 13 receives the word preliminary selection request from the matching unit 14, the word preliminary selection unit 13 performs a word preliminary selection process of selecting word candidates to be arcs connected to the node of interest. This is done for words registered in the word dictionary of dictionary database 18A.
  • the word preliminary selection unit 13 recognizes the start time of the feature amount sequence used for calculating the language score and the acoustic score from the time information of the node of interest, and recognizes the necessary feature amount after the start time.
  • the sequence is read from the feature storage unit 12.
  • the word preliminary selection unit 13 is configured by connecting the word model of each word registered in the word dictionary of the dictionary database 18 A to the sound model of the sound model database 17 A. Then, based on the word model, an acoustic score is calculated using a sequence of the feature values read from the feature value storage unit 12.
  • the word preliminary selection unit 13 calculates the language score of the word corresponding to each word model based on the grammatical rules stored in the grammar database 19A. That is, the word preliminary selection unit 13 obtains a language score of each word based on, for example, a unigram.
  • the word preliminary selection unit 13 refers to the word connection information, and calculates the acoustic score of each word by using the word immediately before that word (the word corresponding to the arc ending with the noted node). This can be done using a cross-lead model that depends on). However, when the crossword model is used, the calculation amount of the acoustic score increases as compared with the case where the crossword model is not used.
  • the word preliminary selection unit 13 calculates the language score of each word by referring to the word connection information based on a bigram that defines the probability that the word is linked to the word immediately before it. It is possible. However, when a language score is calculated based on a bigram (or a trigram, etc.), the calculation amount is larger than when the language score is calculated based on a unigram.
  • the word preliminary selection unit 13 sets the acoustic score and the word for each word.
  • a word score obtained by comprehensively evaluating the acoustic score and the linguistic score is obtained (first scale), and the top L words are subjected to the matching process. And supplied to the matching unit 14.
  • the word preliminary selection unit 13 converts one or more words registered in the dictionary database 18A to a scale (second scale) different from the word score reflecting the acoustic score. Based on the selection, it is supplied to the matching unit 14. That is, among the words registered in the dictionary data base 18 A, the word preliminary selection unit 13, for example, includes a short word having a phoneme number or a phoneme number equal to or less than a predetermined value and a word having a predetermined part of speech (eg, In general, words with short utterance times, such as prepositions and articles in English, particles and auxiliary verbs in Japanese, etc., are selected regardless of their acoustic scores and supplied to the matching unit 14. In this case, words with short utterance times are always subject to matching processing.
  • the word selected by the word preliminary selection unit 13 on the specific scale not related to the acoustic score is hereinafter referred to as a specific word as appropriate.
  • the matching unit 14 compares the L words selected based on the word score and the specific words selected based on a predetermined condition (scale) not related to the word score from the word preliminary selecting unit 13. Upon receipt, in step S5, matching processing is performed on those words.
  • the matching unit 14 recognizes the start time of the feature amount sequence used for calculating the language score and the acoustic score from the time information of the node of interest, and determines the necessary feature amount sequence after the start time. It is read from the feature storage unit 12. Further, the matching unit 14 recognizes the phonological information of the word from the word preliminary selecting unit 13 by referring to the dictionary database 18B, and generates an acoustic model corresponding to the phonological information. A word model is constructed by reading from the base 17B and connecting. The matching unit 14 calculates the acoustic score of the word from the word preliminary selection unit 13 using the feature amount sequence read from the feature amount storage unit 12 based on the word model configured as described above.
  • the matching unit 14 can calculate the acoustic score of the word based on the crossword model. Further, the matching unit 14 calculates the language score of the word from the word preliminary selection unit 13 by referring to the grammar database 19B. That is, for example, the matching unit 14 recognizes the word immediately before the word from the selection unit 13 and the word before that by referring to the word connection information, and based on the trigram. The language score of the word from the word preliminary selection unit 13 is obtained from the probability.
  • the matching unit 14 obtains the L words from the word preliminary selection unit 13 and all the specific words (hereinafter collectively, as appropriate, the selected words and ⁇ ⁇ ). A sound score and a language score are obtained, and the process proceeds to step S6.
  • step S6 a word score obtained by comprehensively evaluating the acoustic score and the language score of each selected word is obtained, and the word connection information stored in the word connection information storage unit 16 is updated based on the word score. You.
  • step S6 the matching unit 14 obtains a word score for the selected word, and for example, compares the word score with a predetermined threshold to determine a word as an arc connected to the node of interest, Narrow down from inside.
  • the matching unit 14 supplies the words remaining as a result of the narrowing down to the control unit 11 together with the acoustic score, the language score, and the end time of the word.
  • the end time of the word is recognized from the extraction time of the feature used to calculate the acoustic score.
  • the set of each end time and the corresponding acoustic score and language score are controlled. Supplied to part 11.
  • the control unit 11 executes a word connection information storage unit for each word from the matching unit 14.
  • the arc is extended with the target node in the word connection information (Fig. 3) stored in 16 as the start node, and the arc is connected to the end node corresponding to the position of the end time. Further, the control unit 11 gives a corresponding word and its acoustic score and linguistic score to each arc, and gives a corresponding end time as time information to the terminal node of each arc. Then, the process returns to step S2, and the same processing is repeated thereafter.
  • the word connection information is sequentially determined based on the processing result of the matching unit 14. Since the next word is updated, the word preliminary selection unit 13 and the matching unit 14 can always perform processing using the latest word connection information.
  • control unit 11 When updating the word connection information, the control unit 11 shares the terminal node as described above, if possible.
  • step S2 when it is determined in step S2 that there is no intermediate node, the process proceeds to step S7, and the control unit 11 refers to the word connection information, and the control unit 11 configures each of the nodes configured as the word connection information.
  • the final score is obtained.For example, a word string corresponding to the arc constituting the path having the highest final score is output as a speech recognition result for the utterance of the user, and the processing ends. I do.
  • the word preliminary selection unit 13 selects a word that is likely to be a speech recognition result based on the word score including the acoustic score calculated from the acoustic feature amount.
  • a word with an unstable acoustic feature is selected based on a scale that is calculated from the acoustic feature and that is not related to the acoustic score, and is matched. Since the words are subjected to the matching process in the unit 14, it is possible to prevent the deterioration of the speech recognition accuracy due to the fact that the words having unstable acoustic features are not selected by the word preliminary selecting unit 13. be able to.
  • the word preliminary selection unit 13 does not use a narrower range of pruning (narrowing) when selecting words, nor does it use highly accurate acoustic models and grammatical rules. Resources (computation amount, memory, etc.) can be reduced as much as possible.
  • the words selected based on the word score including the acoustic score in the word preliminary selection unit 13 are However, only words having a long phoneme whose acoustic features are relatively stable may be used. In the word preliminary selection unit 13, even if a simpler acoustic model or grammatical rule is used, the omission of selection of a correct word does not occur. As a result, resources required for the processing of the word preliminary selection unit 13 are reduced. While improving the speech recognition accuracy.
  • the word preliminary selection unit 13 uses the word score including the acoustic score based on the word score. If only words with long phonemes whose acoustic features are relatively stable are selected, more stringent acoustical or linguistic criteria are used when selecting words. Even if the number of words selected based on the acoustic score and the language score is reduced, correct words will not be missed, and as a result, resources required for the processing of the matching unit 14 will be reduced. The accuracy of speech recognition can be improved while doing so.
  • the word preliminary selection unit 13 selects words having a short talk time irrespective of their acoustic scores based on the scale of the talk time, so that the acoustic feature amount is reduced.
  • the word preliminary selection unit 13 is also selected based on the word score.
  • the scale is not related to the acoustic score, i.e., a measure that is not related to the features of speech.For example, words can be selected based only on the language score. It can also improve speech recognition accuracy while reducing resources.
  • the word preliminary selection unit 13 includes, for example, a word that is likely to be connected to the series of N ⁇ 1 words on the attention node side of the path leading to the attention node, based on the statistical word chain probability.
  • N-gram N-gram
  • grammar rules can be used to make a selection based only on the language score obtained.
  • the word is selected without considering the acoustic score calculated from the feature, and the acoustic score becomes small due to the instability of the acoustic feature. It is possible to prevent the speech recognition accuracy from deteriorating due to the fact that a word whose score becomes small is not selected.
  • the calculation of the language score requires a very small amount of calculation as compared with the calculation of the acoustic score, so that the addition of resources can be minimized.
  • the selection of words based solely on the language score obtained from the grammar rules based on the statistical word chain probability is performed by storing such grammar rules in the grammar table 19A. By doing so, it can be easily performed.
  • FIG. 5 is a block diagram showing another example of the speech recognition apparatus according to the present invention.
  • the same reference numerals are given to the same parts as those shown in FIG. 2, and detailed description is omitted. I do. That is, in the speech recognition device of FIG. 5, a recognition result storage unit 21 is newly provided. Other than that, it is common to the speech recognition device in Fig. 2.
  • the recognition result storage unit 21 is supplied with the speech recognition result output from the control unit 11, and the recognition result storage unit 21 stores the speech recognition result.
  • the recognition result storage unit 21 has, for example, a storage capacity enough to store one or a plurality of speech recognition results, and also stores the speech recognition results by the storage capacity. Then, the next supplied speech recognition result is stored over the oldest stored value. Therefore, the recognition result storage unit 21 stores the history of the latest speech recognition results. Then, the history of the latest speech recognition result stored in the recognition result storage unit 21 can be referred to by the word preliminary selection unit 13.
  • the speech recognition apparatus in FIG. 5 basically performs the same processing as in steps S1 to S7 in FIG. 4 in steps S11 to S17.
  • step S17 after the control unit 11 outputs a word string corresponding to the arc constituting the path having the highest final score as a speech recognition result for the utterance of the user, the process proceeds to step S18.
  • the unit 11 supplies the speech recognition result to the recognition result storage unit 21 and stores it, and ends the processing.
  • step S14 the word preliminary selection unit 13 performs the following word preliminary selection processing.
  • the word preliminary selection unit 13 reads out a necessary feature amount sequence after the start time in the time information of the attention node from the feature amount storage unit 12, Dictionary database 18 For each word registered in the word dictionary of 18A, an acoustic score is calculated using the feature sequence read from the feature storage unit 12, and a grammar database 19 A language score is calculated based on the grammar rules stored in A, and a word score (first scale) obtained by comprehensively evaluating the acoustic score and the language score is obtained.
  • the word preliminary selection unit 13 supplies words having a word score within the upper L rank to the matching unit 14 as words to be subjected to matching processing.
  • the word preliminary selection unit 13 is used to select one of the words registered in the dictionary database 18 A. Based on the scale (second scale) that at least one of the two is stored in the recognition result storage unit 21, it is supplied to the matching unit 14.
  • the word preliminary selection unit 13 in FIG. 5 selects, from the dictionary database 18 A, the same word as the word constituting the speech recognition result stored in the recognition result storage unit 21 as a specific word, It is supplied to the matching unit 14 as a word to be processed.
  • the matching unit 14 includes the L words selected from the word preliminary selection unit 13 based on the word score and a predetermined condition (scale) irrelevant to the word score (here, the recognition result storage unit 21 When a specific word selected based on the stored scale is received, a matching process is performed on those words in step S15.
  • the word preliminary selection unit 13 selects words based on a scale that is not related to the acoustic score, so that, for example, the speech feature fluctuates greatly due to environmental noise or line noise. Even if a word is not selected based on a word score that reflects the acoustic score calculated from such a feature value, the matching process can be performed without using a highly accurate acoustic model. Therefore, the voice recognition accuracy can be improved with less resources.
  • the voice recognition device may further include an input unit 22 such as a keyboard operated by a user to provide an input for correcting the voice recognition result. It is possible. In this case, when the user operates the input unit 22 to correct the speech recognition result output from the control unit 11, the control unit 11 sends the speech recognition result output by the control unit 11 to itself. Instead of the result (or together with the speech recognition result), the modified speech recognition result can be stored in the recognition result storage unit 21. Also in this case, as in the case described above, the speech recognition accuracy can be improved with few resources.
  • an input unit 22 such as a keyboard operated by a user to provide an input for correcting the voice recognition result. It is possible. In this case, when the user operates the input unit 22 to correct the speech recognition result output from the control unit 11, the control unit 11 sends the speech recognition result output by the control unit 11 to itself. Instead of the result (or together with the speech recognition result), the modified speech recognition result can be stored in the recognition result storage unit 21. Also in this case, as in the case described above, the speech recognition accuracy can be
  • the series of processes described above can be performed by hardware, or can be performed by software.
  • a program constituting the software is installed on a general-purpose computer or the like. To be called.
  • FIG. 7 shows an example of a computer on which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 105 or ROM 103 as a recording medium built in the computer.
  • the program is stored on a removable storage medium such as a floppy disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto optical) disk, DVD (Digital Versatile Disc), magnetic disk, or semiconductor memory. Alternatively, it can be permanently stored (recorded).
  • a removable recording medium 111 can be provided as so-called package software.
  • the program is installed at the convenience store from the removable recording medium 111 as described above, and is also transmitted wirelessly from a down-site to a computer via an artificial satellite for digital satellite broadcasting. Or via a network such as a LAN (Local Area Network) or the Internet, and then transfer the data to the computer via a wire, and the computer sends the transferred program to the communication unit 108. It can be received and installed on the built-in hard disk 105.
  • LAN Local Area Network
  • the convenience store includes a CPU (Central Processing Unit) 102.
  • An input / output interface 110 is connected to the CPU 102 via a bus 101, and the CPU 102 is connected to the CPU 102 by a user via the input / output interface 110.
  • the program stored in the ROM (Read Only Memory) 103 is executed in accordance with the command.
  • the CPU 102 may execute a program stored on the hard disk 105, a program transferred from a satellite or a network, received by the communication unit 108, and installed on the hard disk 105.
  • a program read from the removable recording medium 111 mounted on the drive 109 and installed on the hard disk 105 is loaded into a RAM (Random Access Memory) 104. Run. Accordingly, the CPU 102 executes the processing according to the above-described flowchart or the above-described blow The processing performed by the configuration shown in FIG.
  • the CPU 102 outputs the processing result from the output unit 106 including an LCD (Liqukl Crystal Display), a speaker, or the like, as necessary, for example, via the input / output interface 110, or The data is transmitted from the communication unit 108 and further recorded on the hard disk 105.
  • the output unit 106 including an LCD (Liqukl Crystal Display), a speaker, or the like
  • processing steps for describing a program for performing various kinds of processing in a convenience store are not necessarily performed in chronological order in the order described as a flowchart, and may be performed in parallel. It also includes processes that are executed either individually or individually (for example, parallel processing or object-based processing).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • the word preliminary selection unit 13 selects a word from a group of words registered in the dictionary database 18A based on a word score calculated using the feature amount, and Based on a scale different from the score, select words that have a short utterance time, words that are linguistically easy to connect to the word that was recognized immediately before, and words that are included in past speech recognition results. Is targeted for the matching process, so that it is possible to prevent a predetermined word from being missed without using a high-accuracy acoustic model in the word preliminary selection process, and as a result, the required resources increase. Can be prevented from deteriorating while the voice recognition accuracy is reduced.
  • the words targeted for the matching process are determined based on a scale different from the word score, that is, a scale that is not related to the acoustic score calculated using the speech features and is not affected by the speech features. For example, in a noisy environment, a word to be matched can be selected without being affected by the noise, and the noise tolerance of the speech recognition device can be improved. it can.
  • the score calculation of each word by the matching unit 14 is performed by the acoustic score as described above. Can be performed independently for each word, without constructing a tree-structured network that shares part of the computations. In this case, the score calculation for each word in the matching unit 14 is performed in a time-division manner. As a result, the memory capacity that needs to be secured for the calculation can be reduced.
  • the score calculation by the matching unit 14 can be performed independently for each word in terms of time, and the required memory capacity can be reduced by reusing the memory capacity required for the score calculation.
  • the voice recognition device shown in FIGS. 2 and 5 can be used, for example, to search a database by voice, to operate various devices, to input data to each device, It can be applied to a conversation system and the like. More specifically, for example, a database search device that displays corresponding map information in response to a query for a place name by voice, an industrial robot that sorts luggage in response to a voice command, and a keyboard. Instead of this, it can be applied to a dictation system that creates text by voice input, a dialogue system in a robot that talks with a user, and the like.
  • the specific word selected in the word preliminary selection unit 13 based on the number of phonemes or the part of speech can be registered in a word dictionary, distinguishing it from other words.
  • the word preliminary selection unit 13 selects L words based on the word score obtained by comprehensively evaluating the acoustic score and the language score, but the L words are: For example, it is possible to make a selection based only on the acoustic score.
  • a plurality of scales can be used as the scale.
  • the present invention provides a method for selecting one or more first words from a group of words to be subjected to speech recognition based on a first scale calculated using a feature amount. The above second word is selected based on a second scale different from the first scale, and a score is calculated for the selected first and second words. It is possible to prevent the speech recognition accuracy from deteriorating due to not being selected based on the first scale.

Description

明細書 音声認識装置及び音声認識方法、 並びに記録媒体 技術分野 本発明は、 音声認識装!!及び音声認識方法、 並びに記録媒体に関し、 特に、 例 えば、 音響的な特徴量が不安定な単語を含む音声であっても、 少ないリソースで 精度の良い音声認識を行うことができるようにする音声認識装置及び音声認識方 法、 並びに記録媒体に関する。 背景技術 図 1は、 従来の音声認識装置の一例を示している。
ュ一ザが究した音声は、 マイクロホン 1に入力される。 マイクロホン 1は、 入 力された音声を、 電気信号としての音声信号に変換する。 この音声信号は、 A / D (AnaIog/Digital)変換部 2に供給される。 A / D変換部 2は、 マイクロホン 1 から出力されるアナログ信号である音声信号をサンプリング、 量子化し、 デイジ タル信号である音声デ一夕に変換する。 この音声データは、 特徴抽出部 3に供給 される。
特徴抽出部 3は、 A / D変換部 2からの音声データについて、 適当なフレーム 毎に音響処理を施し、 これにより、 例えば、 M F C C (Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、 マッチング部 4に供給する。 なお、 特徴抽出部 3では、 その他、 例えば、 スペク トルや、 線形予測係数、 ケプス トラム係数、 線 スぺク トル対等の特徴量を抽出することが可能である。
マッチング部 4は、 特徴抽出部 3からの特徴量を用いて、 音響モデルデータべ —ス 5、 辞書データベース 6及び文法データベース 7を必要に応じて参照しなが ら、 マイクロホン 1に入力された音声 (入力音声) を、 例えば、 連続分布 H M M 法等に基づいて音声認識する。 即ち、 音響モデルデータベース 5は、 音声認識する音声の言語における個々の 音素や音節などの音響的な特徴を表す音響モデルを記憶している。 ここでは、 連 続分布 H M M法に基づいて音声認識を行うので、 音響モデルとしては、 H M M (Hi dden Markov Model)が用いられる。 辞書データべ一ス 6は、 認識対象の各単 語 (語彙) について、 その究音に関する情報 (音韻情報) が記述された単語辞書 を記憶している。 文法データベース 7は、 辞書データベース 6の単語辞書に登録 されている各単語が、 どのように連鎖、 すなわちつながるかを記述した文法規則 (言語モデル) を記憶している。 ここで、 文法規則としては、 例えば、 文脈自由 文法 (C F G ) や、 統計的な単語連鎖確率 (N— g r a m ) などに基づく規則を 用いることができる。
マッチング部 4は、 辞書データベース 6の単語辞書を参照することにより、 音 響モデルデ一夕ベース 5に記憶されている音響モデルを接続することで、 単語の 音響モデル (単語モデル) を構成する。 さらに、 マッチング部 4は、 幾つかの単 語モデルを、 文法デ一夕ベース 7に記憶された文法規則を参照することにより接 続し、 そのようにして接続された単語モデルを用いて、 特徴量に基づき、 連続分 布 H M M法によって、 マイクロホン 1に入力された音声を認識する。 即ち、 マツ チング部 4は、 特徴抽出部 3が出力する時系列の特徴量が観測されるスコア (尤 度) が最も高い単語モデルの系列を検出し、 その単語モデルの系列に対応する単 語列を音声の認識結果として出力する。
具体的には、 マッチング部 4は、 接続された単語モデルに対応する単語列につ いて、 各特徴量の出現確率を累積し、 その累積値をスコアとして、 そのスコアを 最も高くする単語列を音声認識結果として出力する。
スコア計算は、 一般に、 音響モデルデータベース 5に記憶された音響モデルに よって与えられる音響的なスコア (以下、 適宜、 音響スコアという) と、 文法デ —夕べ一ス 7に記憶された文法規則によって与えられる言語的なスコア (以下、 適宜、 言語スコアという) とを総合評価することで行われる。
即ち、 音響スコアは、 例えば、 H M M法による場合には、 単語モデルを構成す る音響モデルから、 特徴抽出部 3が出力する特徴量の系列が観測される確率 (出 現する確率) に基づいて、 単語ごとに計算される。 また、 言語スコアは、 例えば、 バイグラムによる場合には、 注目している単語と、 その単語の直前の単語とが連 鎖 (連接) する確率に基づいて求められる。 そして、 各単語についての音響スコ ァと言語スコアとを総合評価して得られる最終的なスコア (以下、 適宜、 最終ス コアという) に基づいて音声認識結果が確定される。
具体的には、ある N個の単語からなる単語列における k番目の単語を wkとして、 その単語 wkの音響スコアを A ( wk) と、 言語スコアを L ( wk) と、 それぞれ表 すとき、 その単語列の最終スコア Sは、 例えば、 式 1にしたがって計算される。
S =∑ ( A ( wk) + C k x L ( wk) ) · · · ( 1 )
但し、 ∑は、 kを 1から Nに変えてのサメーシヨンをとることを表す。 また、 C kは、 単語 wkの言語スコア L ( wk) にかける重みを表す。
マッチング部 4では、 例えば、 式 1に示す最終スコアを最も大きくする Nと、 単語列 w l 5 w2, · · ·, wNを求めるマッチング処理が行われ、 その単語列 w w2, · · ·, wNが、 音声認識結果として出力される。
以上のような処理が行われることにより、 図 1の音声認識装置では、 例えば、 ユーザが、 「ニューヨークに行きたいです」 と発話した場合には、 「ニューョ一 ク」 、 「に」 、 「行きたい」 、 「です」 といった各単語に、 音響スコア及び言語 スコアが与えられ、 それらを総合評価して得られる最終スコアが最も大きいとき と、 単語列 「ニューヨーク」 、 「に」 、 「行きたい」 、 「です」 が音声認識結果 として出力される。
ところで、 上述の場合において、 辞書デ一夕ベース 6の単語辞書に、 「ニュー ヨーク」 、 「に」 、 「行きたい」 及び 「です」 の 5単語が登録されているとする と、 これらの 5単語を用いて構成し得る 5単語の並びは、 5 5通り存在する。 従つ て、 単純には、 マッチング部 4では、 この 5 5通りの単語列を評価し、 その中から、 ユーザの発話に最も適合するもの、 すなわち最終スコアを最も大きくするものを 決定しなければならない。 単語辞書に登録する単語数が増えれば、 その単語数分 の単語の並びの数は、 単語数の単語数乗通りになるから、 評価の対象としなけれ ばならない単語列は膨大な数となる。
さらに、 一般には、 発話中に含まれる単語の数は未知であるから、 5単語の並 びからなる単語列だけでなく、 1単語、 2単語、 · · · からなる単語列も、 評価 の対象とする必要がある。 従って、 評価すべき単語列の数は、 さらに膨大なもの となるから、 そのような膨大な単語列の中から、 音声認識結果として最も確から しいものを、計算量及び使用するメモリ容量の観点から効率的に決定することは、 非常に重要な問题である。
計算量及びメモリ容量の効率化を図る方法としては、 例えば、 音響スコアを求 める過程において、 その途中で得られる音響スコアが所定の閾値以下となった場 合に、 そのスコア計算を打ち切るという音響的な枝刈り手法や、 言語スコアに基 づいて、 スコア計算の対象とする単語を絞り込む言語的な枝刈り手法がある。 これらの枝刈り手法によれば、 スコア計算の対象が、 所定の判断基準 (例えば、 上述したような計算途中の音響スコアや、 単語に与えられる言語スコア) に基づ いて絞り込まれることで、 計算量の削減を図ることができる。 しかしながら、 そ の反面、 絞り込みを強くすると、 即ち、 判断基準を厳しくすると、 本来、 音声認 識結果として正しいものまでも枝刈りされてしまい、誤認識が生じることになる。 従って、 枝刈り手法による場合には、 音声認識結果として正しいものが枝刈りさ れないように、 ある程度のマ一ジンをもたせた絞り込みを行う必要があり、 この ため、 計算量を大きく削減することは困難である。
また、 音響スコアを求める場合に、 スコア計算の対象となっているすべての単 語について独立に行うと、 その計算量が大きくなることから、 複数の単語につい て音響スコアの計算の一部を共通化 (共有化) する方法が提案されている。 この 共通化の方法としては、 単語辞書の単語のうち、 その先頭の音韻が同一のものに ついて、 その先頭の音韻から、 同一になっている音韻までは、 音響モデルを共通 に用い、 それ以後の異なる音韻には、 音響モデルを個々に用いることにより、 全 体として 1つの木構造のネッ トワークを構成し、 これを用いて、 音響スコアを求 める方法がある。 具体的には、 例えば、 いま、 単語 「秋田」 と 「曙」 を考え、 「秋 田」 の音韻情報が 「akita」 であり、 「曙」 の音韻情報が 「akebono」 であるとす ると、 単語 「秋田」 と 「曙」 の音響スコアは、 それぞれの先頭から 2番目までの 音韻 a, kについては兼用で計算される。 そして、 単語 「秋田」 の残りの音韻 k,i,t,a、 及び単語 「曙」 の残りの音韻 e,b,o,n,oについては、 それそれ独立に音響スコアが 計算される。 従って、 この方法によれば、 音響スコアの計算量を大幅に低減することができ る。
この方法では、 共通化されている部分である音響スコアが兼用で計算される部 分において、 その音響スコアの計算の対象となっている単語を決定することがで きない。 即ち、 上述の単語 「秋田」 と 「曙」 の例でいえば、 それそれの先頭から 2番目までの音韻 a,kについて音響スコアが計算されている場合は、その音響スコ ァが計算されている単語が、 「秋田」 であるのか、 又は 「曙」 であるのかを同定 することができない。
この場合、 「秋田」 については、 その 3番目の音韻 iについて音響スコアの計算 が開始されたときに、 その計算対象が 「秋田」であることを同定することができ、 「曙」についても、 その 3番目の音韻 eについての音響スコアの計算が開始された ときに、 その計算対象が 「曙」 であることを同定することができる。
従って、 音響スコアの計算の一部を共通化してしまうと、 単語の音響スコアの 計算の開始時に、 その単語を同定することができないため、 その単語について、 言語スコアを考慮することができない。その結果、単語の音響スコアの開始前に、 上述したような言語的な枝刈り手法を用いることが困難となり、 無駄な計算が行 われることがある。
さらに、 音響スコアの計算の一部を共通化する場合、 単語辞書のすべての単語 を対象として、 上述したような木構造のネッ トワークが構成されるから、 これを 保持するための大きなメモリ容量が必要となる。
また、 計算量及びメモリ容量の効率化を図る方法としては、 音響スコアを計算 する場合に、 単語辞書のすべての単語を対象とするのではなく、 その音響スコア の計算の対象とする単語を予備的に選択 (予備選択) し、 その予備選択された単 語についてだけ、 音響スコアを計算する方法がある。
ここで、 予備選択の方法は、 例えば、 L. R. Bahl, S. V. De Gennaro, P. S . Gopalakrishnan and R. L. Mercer, "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE Trans. Speech and Audio Proc, vol . 1, p.59-67, 1993等に記載されている。
予備選択は、 一般に、 それほど精度の高くない、 簡易的な音響モデルや文法規 則を用いて行われる。 即ち、 予備選択は、 単語辞書の単語すベてを対象として行 われるため、 精度の高い音響モデルや文法規則を用いて予備選択を行うと、 リア ル夕ィム性等を維持するのに、 計算量ゃメモリ容量といったリソースが多く必要 となる。 そこで、 予備選択は、 簡易的な音響モデルや文法規則を用いることで、 大語彙を対象とした場合でも、 比較的少ないリソースで、 高速に行うことが可能 となっている。
予備選択を行う音声認識装置では、 予備選択された単語についてだけマツチン グ処理を行えば良いので、 マッチング処理は、 精度の高い音響モデルや文法規則 を用いても、 少ないリソースで、 高速に行うことができる。 従って、 予備選択を 行う音声認識装置は、 大語彙を対象として音声認識を行う場合に、 特に有用であ る。
ところで、 予備選択は、 ある単語について、 特徴量の系列 (特徴量系列) を用 いてのマッチング処理が終了し、 とりあえず確からしい終点が求められた後に、 その終点を始点として、 その始点に対応する時刻以後の特徴量系列を用いて行わ れる。 即ち、 予備選択は、 連続発話された音声に含まれる単語どう しの境界 (単 語境界) が、 最終的に確定していない時点で行われる。
従って、 予備選択に用いられる特徴量系列の始点ゃ終点が、 対応する単語の始 点や終点からずれている場合には、 その単語の直前の単語や直後の単語の音韻の 特徴量を含む特徴量系列や、 対応する単語の最初や最後の部分の特徴量が欠けた 特徴量系列、 即ち、 いわば音響的に安定していない特徴量系列を用いて、 予備選 択が行われることになる。
このため、 簡易的な音響モデルを用いる予備選択では、 発話中に含まれる単語 が選択されないことが起こり得る。 特に、 例えば、 日本語の助詞や助動詞、 英語 の冠詞や前置詞などの音韻数が短い単語については、 そのような選択漏れが生じ る可能性が高い。
そして、 予備選択において、 正しい単語が選択されない場合には、 その単語に ついてマツチング処理が行われないから、 音声認識結果は誤つたものとなる。 そこで、 予備選択において、 単語を選択するときの音響的又は言語的な判断基 準を緩く して、 選択される単語の数を多くする方法や、 精度の高い音響モデル及 び文法規則を用いる方法がある。
しかしながら、 予備選択において、 単語を選択するときの音響的又は言語的な 判断基準を緩くすると、 音声認識結果としてそれほど可能性の高くない単語の多 くが、 マッチング処理の対象となり、 予備選択に比較して 1単語あたりの負荷の 重いマッチング処理に要するリソースが大きく増大する。
また、 予備選択において、 精度の高い音響モデル及び文法規則を用いる場合に は、 予備選択に要するリソースが大きく増大する。 発明の開示 本発明は、 このような状況に鑑みてなされたものであり、 必要なリソースの増 加を極力抑えながら、 音声認識精度を向上させることができるようにするもので ある。
本発明に係る音声認識装置は、 音声認識の対象とする単語群から、 1以上の第 1の単語を、特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を、 第 1の尺度とは異なる第 2の尺度に基づいて選択する選 択手段と、 選択手段において選択された第 1及び第 2の単語について、 スコアを 計算するスコア計算手段とを備える。
選択手段には、 音韻数を、 第 2の尺度として、 音韻数が所定の条件を満たす単 語を、 第 2の単語として選択させることができる。 また、 選択手段には、 品詞を、 第 2の尺度として、 品詞が所定の条件を満たす単語を、 第 2の単語として選択さ せることができる。 さらに、 選択手段には、 言語的な尤度を、 第 2の尺度として、 言語的な尤度が高い単語を、 第 2の単語として選択させることができる。 また、 本発明の音声認識装置には、 音声認識結果を記憶する記憶手段をさらに備えるこ とができ、 この場合、 選択手段には、 記憶手段に記憶されていることを、 第 2の 尺度として、 記憶手段に記憶されている音声認識結果に含まれる単語を、 第 2の 単語として選択させることができる。
また、 本発明に係る音声認識装置は、 音声認識結果を修正するための入力を与 える入力手段をさらに備えることができる。 この場合、 記憶手段は、 入力手段か らの入力にしたがって修正された音声認識結果を記憶する。 また、 選択手段は、 音声の特徴量を用いて、 スコアを計算させ、 そのスコアに基づいて、 第 1の単語 を選択する。
本究明に係る音声認識方法は、 音声認識の対象とする単語群から、 1以上の第 1の単語を、特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を、 第 1の尺度とは異なる第 2の尺度に基づいて選択する選 択ステツプと、 選択ステツプにおいて選択された第 1及び第 2の単語について、 スコアを計算するスコア計算ステツプとを備える。
本究明に係る記録媒体は、 音声認識の対象とする単語群から、 1以上の第 1の 単語を、 特徴量を用いて計算される第 1の尺度に基づいて選択するとともに、 1 以上の第 2の単語を、 第 1の尺度とは異なる第 2の尺度に基づいて選択する選択 ステップと、 選択ステップにおいて選択された第 1及び第 2の単語について、 ス コァを計算するスコア計算ステップとを備えるプログラムが記録されている。 本発明に係る音声認識装置及び音声認識方法、 並びに記録媒体は、 音声認識の 対象とする単語群から、 1以上の第 1の単語が、 特徴量を用いて計算される第 1 の尺度に基づいて選択されるとともに、 1以上の第 2の単語が、 第 1の尺度とは 異なる第 2の尺度に基づいて選択され、 その選択された第 1及び第 2の単語につ いて、 スコアが計算される。 図面の簡単な説明 図 1は、 従来の音声認識装置の一例を示すプロック図である。
図 2は、 本発明に係る音声認識装置の一例を示すプロック図である。
図 3は、 単語接続情報を説明するための図である。
図 4は、 音声認識装置の処理を説明するためのフローチヤ一トである。
図 5は、 本発明に係る音声認識装置の他の例を示すプロック図である。
図 6は、 音声認識装置の処理を説明するためのフローチャートである。
図 7は、 本発明を適用したコンピュータの一例を示すプロック図である。 発明を実施するための最良の形態 図 2は、 本究明に係る音声認識装置の一例を示している。 なお、 図中、 図 1 に 示す装置と対応する部分については、 同一の符号を付し、 以下では、 その詳細な 説明は適宜省略する。
特徴量抽出部 3が出力するユーザが発した音声の特徴量の系列は、 フレーム単 位で制御部 1 1に供給され、 制御部 1 1は、 特徴量抽出部 3からの特徴量を特徴 量記憶部 1 2に供給する。
制御部 1 1は、 単語接続情報記憶部 1 6に記憶された単語接続情報を参照して マツチング部 1 4を制御する。 さらに、 制御部 1 1は、 マッチング部 1 4が前述 した図 1のマッチング部 4と同様のマッチング処理を行うことにより得られるマ ツチング処理結果としての音響スコアや言語スコア等に基づいて、 単語接続情報 を生成し、 その単語接続情報によって、 単語接続情報記憶部 1 6の記憶内容を更 新する。 また、 制御部 1 1は、 単語接続情報記憶部 1 6に記憶された単語接続情 報に基づいて最終的な音声認識結果を確定して出力する。
特徴量記憶部 1 2は、 制御部 1 1から供給される特徴量の系列を、 例えば、 ュ —ザの音声の認識結果が得られるまで記憶する。 なお、 制御部 1 1は、 音声区間 の開始時刻を基準 (例えば 0 ) とする、 特徴抽出部 3が出力する特徴量が得られ た時刻 (以下、 適宜、 抽出時刻という) を、 その特徴量とともに特徴量記憶部 1 2に供給するようになっており、 特徴量記憶部 1 2は、 特徴量をその抽出時刻と ともに記憶する。 特徴量記憶部 1 2に記憶された特徴量及びその抽出時刻は、 単 語予備選択部 1 3及びマッチング部 1 4において必要に応じて参照することがで きるようになつている。
単語予備選択部 1 3は、 マッチング部 1 4からの要求に応じ、 単語接続情報記 憶部 1 6、 音響モデルデ一夕べ一ス 1 7 A、 辞書デ一夕ベース 1 8 A及び文法デ —夕べ一ス 1 9 Aを必要に応じて参照しながら、 マッチング部 1 4でマッチング 処理の対象とする 1以上の単語を選択する単語予備選択処理を、 特徴量記憶部 1 2に記憶された特徴量を用いて行う。
マッチング部 1 4は、 制御部 1 1からの制御に基づき、 単語接続情報記憶部 1 6、 音響モデルデータベース 1 7 B、 辞書データベース 1 8 B及び文法デ一夕べ —ス 1 9 Bを必要に応じて参照しながら、 単語予備選択部 1 3からの単語予備選 択処理の結果得られる単語を対象としたマッチング処理を、 特徴量記憶部 1 2に 記憶された特徴量を用いて行い、 そのマッチング処理の結果を制御部 1 1 に供給 する。
単語接続情報記憶部 1 6は、 制御部 1 1から供給される単語接続情報をユーザ の音声の認識結果が得られるまで記憶する。
ここで、 単語接続情報は、 最終的な音声認識結果の候補となる単語列を構成す る単語どう しの接続 (連鎖又は連接) 関係を表すもので、 各単語の音響スコア及 び言語スコア並びに各単語に対応する発話の閧始時刻及び終了時刻も含んでいる ( 即ち、 図 3は、 単語接続情報記憶部 1 6に記憶される単語接続情報を、 グラフ 構造を用いて示している。
図 3に示す例において、 単語接続情報としてのグラフ構造は、 単語を表すァ一 ク (図 3において、 〇印どう しを結ぶ線分で示す部分) と、 単語どう しの境界を 表すノード (図 3において〇印で示す部分) とから構成されている。
ノードは、 時刻情報を有しており、 この時刻情報は、 そのノードに対応する特 徴量の抽出時刻を表す。 上述したように、 抽出時刻は、 音声区間の開始時刻を 0 とする、 特徴抽出部 3が出力する特徴量が得られた時刻であるから、 図 3におい て、 音声区間の開始、 即ち、 最初の単語の先頭に対応するノード Node iが有する 時刻情報は 0となる。 ノードは、 アークの始端及び終端となるが、 始端のノード (始端ノード) 、 又は終端のノード (終端ノード) が有する時刻情報は、 それそ れ、 そのノードに対応する単語の発話の鬨始時刻、 又は終了時刻となる。
なお、 図 3では、 左から右方向が、 時間の経過を表しており、 従って、 あるァ ークの左右にあるノードのうち、 左側のノードが始端ノードとなり、 右側のノー ドが終端ノ一ドとなる。
アークは、 そのアークに対応する単語の音響スコア及び言語スコアを有してお り、 このアークが、 終端ノードとなっているノードを始端ソードとして、 順次接 続されていくことにより、 音声認識結果の候補となる単語の系列が構成されてい < Q 即ち、 制御部 1 1においては、 まず最初に、 音声区間の開始を表すノード Node i に対して、 音声認識結果として確からしい単語に対応するアークが接続される。 図 3の実施の形態では、 「今日」 に対応するアーク ArC l、 「いい」 に対応するァ ーク Arce、 及び 「天気 j に対応する Arc„が接続されている。 なお、 音声認識結果 として確からしい単語かどうかは、 マツチング部 1 4において求められる音響ス コア及び言語スコアに基づいて決定される。
そして、 以下、 同様にして、 「今日」 に対応するアーク ArClの終端である終端 ノード Node2、 「いい」に対応するアーク Arc6の終端である終端ノード Node7、 「天 気」 に対応する ArC l lの終端である終端ノード Nocle 12それそれに対して、 同様に、 確からしい単語に対応するアークが接続されていく。
以上のようにしてアークが接続されていくことで、 音声区間の開始を始点とし て、 左から右方向に、 アークとノードで構成される 1以上のパスが構成されて行 くが、 例えば、 そのパスのすべてが、 音声区間の最後 (図 3では、 時刻 T ) に到 達すると、 制御部 1 1において、 音声区間の開始から最後までに形成された各パ スについて、 そのパスを構成するアークが宥している音響スコア及び言語スコア が累積され、 最終スコアが求められる。 そして、 例えば、 その最終スコアが最も 高いパスを構成するアークに対応する単語列が、 音声認識結果として確定されて 出力される。
具体的には、 図 3において、 例えば、 ノード Node 1から、 「今日」 に対応する アーク Arc,、 ノード Node2、 「は」 に対応するアーク Arc2、 ノード Node3、 「いい」 に対応するアーク Arc3、 ノード Node4、 「天気」 に対応するアーク Arc4、 ノード Node5、 「ですね」 に対応するアーク Arc5、 及びノード Node6で構成されるパスに ついて、 最も高い最終スコアが得られた場合には、 単語列 「今日」 、 「は」 、 「い い」 、 「天気」 、 「ですね」 が、 音声認識結果として出力されることになる。 なお、 上述の場合には、 音声区間内にあるノードについて、 必ずアークを接続 して、 音声区間の開始から最後にまで延びるパスを構成するようにしたが、 この ようなパスを構成する過程において、 それまでに構成されたパスについてのスコ ァから、 音声認識結果として不適当であることが明らかであるパスに関しては、 その時点で、 パスの構成を打ち切る (その後に、 アークを接続しない) ようにす ることが可能である。
上述のようなパスの構成ルールに従えば、 1つのアークの終端が、 次に接続さ れる 1以上のアークの始端ノードなり、 基本的には、 枝葉が拡がるように、 パス が構成されて行くが、 例外的に、 1つのアークの終端が、 他のアークの終端に一- 致する場合、 つまり、 あるアークの終端ノードと、 他のアークの終端ノードとが 同一のノードに共通化される場合がある。
文法規則として、 例えば、 バイグラムを用いた場合には、 別のノードから延び る 2つのアークが、 同一の単語に対応するものであり、 さらに、 その単語の発話 の終了時刻も同一であるときには、 その 2つのアークの終端は一致する。
図 3において、ノ一ド Node7を始端として延びるアーク Arc7、及びノード Node13 を始端として延びるアーク Arc13は、 いずれも 「天気」 に対応するものであり、 そ の発話の終了時刻も同一であるため、 その終端ノードは、 同一のノード Node8に 共通化されている。
なお、 ノードの共通化は行わないようにすることも可能であるが、 メモリ容量 の効率化の観点からは、 行うのが好ましい。
図 3では、 文法規則としてバイグラムを用いているが、 その他、 例えば、 トラ ィグラム等を用いる場合も、 ノードの共通化は可能である。
さらに、 単語接続情報記憶部 1 6に記憶されている単語接続情報は、 単語予備 選択部 1 3及びマッチング部 1 4において、 必要に応じて参照することができる ようになつている。
図 2に戻り、 音響モデルデータベース 1 7 A及び 1 7 Bは、 基本的には、 図 1 の音響モデルデータベース 5において説明したような音響モデルを記憶している 但し、 音響モデルデ一夕ベース 1 7 Bは、 音響モデルデータベース 1 7 Aより も精度の高い処理が可能な高精度の音響モデルを記憶している。 即ち、 音響モデ ルデータベース 1 7 Aにおいて、 各音素や音節について、 例えば、 前後のコンテ キス トに依存しない 1パターンの音響モデルだけが記憶されているとすると、 音 響モデルデータベース 1 7 Bには、 各音素や音節について、 例えば、 前後のコン テキス 卜に依存しない音響モデルの他、 単語間にまたがるコンテキス 卜に依存す る音響モデル、 つまり、 クロスワードモデルや、 単語内のコンテキス トに依存す る音響モデルも記憶されている。
辞書データベース 1 8 A及び 1 8 Bは、 基本的には、 図 1の辞書データベース 6において説明したような単語辞書を記憶している。
即ち、 辞書データベース 1 8 A及び 1 8 Bの単語辞書には、 同一セッ トの単語 が登録されている。 但し、 辞書データベース 1 8 Bの単語辞書は、 辞書データべ ース 1 8 Aの単語辞書よりも精度の高い処理が可能な高精度の音韻情報を記憶し ている。 即ち、 辞書デ一夕ベース 1 8 Aの単語辞書には、 例えば、 各単語に対し て、 1通りの音韻情報 (読み) だけ登録されているとすると、 辞書データベース 1 8 Bの単語辞書には、 例えば、 各単語に対して、 複数通りの音韻情報が登録さ れている。
具体的には、 例えば、 単語 「お早う」 に対して、 辞書データべ一ス 1 8 Aの単 語辞書には、 1通りの音韻情報 「おはよう」 だけが、 辞書データベース 1 8 Bの 単語辞書には、 「おはよう」 の他、 「おはよ一」 や 「おはよ」 が、 それそれ音韻 情報として登録されている。
文法データベース 1 9 A及び 1 9 Bは、 基本的には、 図 1の文法データベース 7において説明したような文法規則を記憶している。
但し、 文法データべ一ス 1 9 Bは、 文法データベース 1 9 Aよりも精度の高い 処理が可能な高精度の文法規則を記憶している。 即ち、 文法データベース 1 9 A が、 例えば、 ュニグラム (単語の生起確率) に基づく文法規則を記憶していると すると、 文法デ一夕べ一ス 1 9 Bは、 例えば、 バイグラム (直前の単語との関係 を考慮した単語の生起確率) や、 トライグラム (直前の単語及びそのさらに 1つ 前の単語との関係を考慮した単語の生起確率) 、 文脈自由文法等に基づく文法規 則を記憶している。
以上のように、 音響モデルデータベース 1 7 Aには、 各音素や音節について、 1パターンの音響モデルが、 音響モデルデータベース 1 7 Bには、 各音素や音節 について、 複数パターンの音響モデルが、 それそれ記憶されている。 また、 辞書 データベース 1 8 Aには、 各単語について、 1通りの音韻情報が、 辞書デ一夕べ —ス 1 8 Bには、 各単語について、 複数通りの音韻情報が、 それそれ記憶されて いる。 そして、 文法データベース 1 9 Aには、 簡易な文法規則が、 文法デ一夕べ —ス 1 9 Bには、 精度の高い文法規則が、 それぞれ記憶されている。
これにより、 音響モデルデータベース 1 Ί A、 辞書データベース 1 8 A及び文 法データベース 1 9 Aを参照する単語予備選択部 1 3では、 それほど精度は高く ないが、 多くの単語を対象として、 迅速に、 音響スコアや言語スコアを求めるこ とができる。 また、 音響モデルデータベース 1 7 B、 辞書データベース 1 8 B、 及び文法データベース 1 9 Bを参照するマッチング部 1 4では、 ある程度の数の 単語を対象として、 迅速に、 精度の高い音響スコアや言語スコアを求めることが できる。
ここでは、 音響モデルデータベース 1 Ί A及び 1 7 Bそれそれに記憶させる音 響モデルの精度について優劣を設けるようにしたが、 音響モデルデータベース 1 7 A及び 1 7 Bには、 いずれにも同一の音響モデルを記憶させることができ、 こ の場合、 音響モデルデータべ一ス 1 7 A及び 1 7 Bは、 1つの音響モデルデータ ベースに共通化することができる。 同様に、 辞書データベース 1 8 A及び 1 8 B の単語辞書それそれの記憶内容や、 文法データベース 1 9八及び 1 9 Bそれぞれ の文法規則も同一にすることができる。
次に、 図 4のフローチャートを参照して、 図 2の音声認識装置による音声認識 処理について説明する。
ユーザが発話を行うと、 その発話としての音声は、 マイクロホン 1及び A / D 変換部 2を介することにより、 ディジタルの音声データとされ、 特徴抽出部 3に 供給される。 特徴抽出部 3は、 そこに供給される音声デ一夕から、 音声の特徴量 を、 フレームごとに順次抽出し、 制御部 1 1に供給する。
制御部 1 1は、 何らかの手法で音声区間を認識するようになっており、 音声区 間においては、 特徴抽出部 3から供給される特徴量の系列を、 各特徴量の抽出時 刻と対応付けて、 特徴量記憶部 1 2に供給して記憶させる。
さらに、 制御部 1 1は、 音声区間の開始後、 ステップ S 1において、 音声区間 の開始を表すノード (以下、 適宜、 初期ノードという) を生成し、 単語接続情報 記憶部 1 6に供給して記憶させる。 即ち、 制御部 1 1は、 ステツブ S 1において、 図 3におけるノード Node ,を、 単語接続情報記憶部 1 6に記憶させる。
そして、 ステップ S 2に進み、 制御部 1 1は、 単語接続情報記憶部 1 6の単語 接続情報を参照することで、 途中ノードが存在するかどうかを判定する。
即ち、 上述したように、 図 3に示した単語接続情報においては、 終端ノードに、 アークが接続されていくことにより、 音声区間の開始から最後にまで延びるパス が形成されて行くが、 ステップ S 2では、 終端ノードのうち、 まだアークが接続 されておらず、 かつ、 音声区間の最後にまで到達していないものが、 途中ノード (例えば、 図 3におけるノード Node8や、 Node10, Nocle„) として検索され、 そ のような途中ノ一ドが存在するかどうかが判定される。
上述したように、 音声区間は何らかの手法で認識され、 さらに、 終端ノードに 対応する時刻は、 その終端ノ一ドが有する時刻情報を参照することで認識するこ とができるから、 アークが接続されていない終端ノードが、 音声区間の最後に到 達していない途中ノードであるかどうかは、 音声区間の最後の時刻と、 終端ノー ドが有する時刻情報とを比較することで判定することができる。
ステップ S 2において、 途中ノードが存在すると判定された場合、 ステップ S 3に進み、 制御部 1 1は、 情報接続情報の中に存在する途中ノードのうちの 1つ を、 それに接続するアークとしての単語を決定するノード (以下、 適宜、 注目ノ ―ドという) として選択する。
即ち、 制御部 1 1は、 情報接続情報の中に 1つの途中ノードしか存在しない場 合には、 その途中ノードを注目ノードとして選択する。 また、 制御部 1 1は、 情 報接続情報の中に複数の途中ノードが存在する場合には、 複数の途中ノードのう ちの 1つを注目ノードとして選択する。 具体的には、 制御部 1 1は、 例えば、 複 数の途中ノードそれそれが有する時刻情報を参照し、 その時刻情報が表す時刻が 最も古いもの (音声区間の開始側のもの) 、 又は最も新しいもの (音声区間の終 わり側のもの) を、 注目ノードとして選択する。 また、 制御部 1 1は、 例えば、 初期ノードから、 複数の途中ノードそれそれに至るまでのパスを構成するアーク が有する音響スコア及び言語スコアを累積し、 その累積値 (以下、 適宜、 部分累 積スコアという) が最も大きくなるパス、 又は小さくなるパスの終端になってい る途中ノードを、 注目ノードとして選択する。
その後、 制御部 1 1は、 注目ノードが有する時刻情報を閧始時刻としてマッチ ング処理を行う旨の指令 (以下、 適宜、 マッチング処理指令という) を、 マヅチ ング部 1 4に出力する。
マッチング部 1 4は、 制御部 1 1からマッチング処理指令を受信すると、 注目 ノード、 及びそれが有する時刻情報を、 単語予備選択部 1 3に供給し、 単語予備 選択処理を要求して、 ステップ S 4に進む。
ステップ S 4では、 単語予備選択部 1 3は、 マッチング部 1 4から、 単語予備 選択処理の要求を受信すると、 注目ノードに接続されるアークとなる単語の候補 を選択する単語予備選択処理を、 辞書データベース 1 8 Aの単語辞書に登録され た単語を対象として行う。
即ち、 単語予備選択部 1 3は、 言語スコア及び音響スコアを計算するのに用い る特徴量の系列の開始時刻を注目ノードが有する時刻情報から認識し、 その開始 時刻以降の必要な特徴量の系列を特徴量記憶部 1 2から読み出す。 さらに、 単語 予備選択部 1 3は、 辞書データべ一ス 1 8 Aの単語辞書に登録された各単語の単 語モデルを音響モデルデ一夕ベース 1 7 Aの音響モデルを接続することで構成し、 その単語モデルに基づき、 特徴量記憶部 1 2から読み出した特徴量の系列を用い て音響スコアを計算する。
単語予備選択部 1 3は、 各単語モデルに対応する単語の言語スコアを文法デー 夕べ一ス 1 9 Aに記憶された文法規則に基づいて計算する。 即ち、 単語予備選択 部 1 3は、 各単語の言語スコアを例えばュニグラムに基づいて求める。
単語予備選択部 1 3においては、 単語接続情報を参照することにより、 各単語 の音響スコアの計算をその単語の直前の単語 (注目ノ一ドが終端となっているァ ークに対応する単語) に依存するクロスヮ一ドモデルを用いて行うことが可能で ある。 但し、 クロスワードモデルを用いる場合には、 用いない場合に比較して音 響スコアの計算量は増大することになる。
また、 単語予備選択部 1 3においては、 単語接続情報を参照することにより、 各単語の言語スコアの計算を、 その単語が、 その直前の単語と連鎖する確率を規 定するバイグラムに基づいて行うことが可能である。 但し、 バイグラム (さらに は、 トライグラム等) に基づいて言語スコアの計算を行う場合には、 ュニグラム に基づいて行う場合に比較してその計算量は増大することになる。
単語予備選択部 1 3は、 以上のようにして、 各単語について音響スコア及び言 語スコアを求めると、 その音響スコア及び言語スコアを総合評価したスコア (以 下、 適宜、 単語スコアという) (第 1の尺度) を求め、 その上位 L個を、 マヅチ ング処理の対象とする単語としてマッチング部 1 4に供給する。
さらに、 単語予備選択部 1 3は、 ステップ S 4において、 辞書データベース 1 8 Aに登録されている 1以上の単語を、 音響スコアが反映された単語スコアとは 異なる尺度 (第 2の尺度) に基づいて選択してマッチング部 1 4に供給する。 即ち、 単語予備選択部 1 3は、 辞書デ一夕ベース 1 8 Aに登録されている単語 のうち、 例えば、 音素数又は音韻数が、 所定値以下の短い単語及び所定の品詞の 単語 (例えば、 英語における前置詞や冠詞、 日本語における助詞や助動詞など) などの一般に発話時間が短い単語をその音響スコアに関係なく選択してマツチン グ部 1 4に供給する。 この場合、 発話時間が短い単語は、 必ず、 マッチング処理 の対象とされる。
単語予備選択部 1 3において、 上述のように、 音響スコアに関係のない特定の 尺度で選択される単語を、 以下、 適宜、 特定単語という。
マッチング部 1 4は、 単語予備選択部 1 3から、 単語スコアに基づいて選択さ れた L個の単語と、 単語スコアに関係ない所定の条件 (尺度) に基づいて選択さ れた特定単語を受信すると、 ステップ S 5において、 それらの単語を対象として マッチング処理を行う。
即ち、 マッチング部 1 4は、 言語スコア及び音響スコアを計算するのに用いる 特徴量の系列の開始時刻を注目ノードが有する時刻情報から認識し、 その開始時 刻以降の必要な特徴量の系列を特徴量記憶部 1 2から読み出す。 さらに、 マッチ ング部 1 4は、 辞書データベース 1 8 Bを参照することで、 単語予備選択部 1 3 からの単語の音韻情報を認識し、 その音韻情報に対応する音響モデルを音響モデ ルデ—夕ベース 1 7 Bから読み出して接続することで単語モデルを構成する。 マッチング部 1 4は、 上述のようにして構成した単語モデルに基づき、 特徴量 記憶部 1 2から読み出した特徴量系列を用いて単語予備選択部 1 3からの単語の 音響スコアを計算する。 マッチング部 1 4は、 単語接続情報を参照することによ り、 単語の音響スコアの計算をクロスワードモデルに基づいて行うようにするこ とが可能である。 さらに、 マッチング部 1 4は、 文法データべ一ス 1 9 Bを参照することで、 単 語予備選択部 1 3からの単語の言語スコアを計算する。 即ち、 マッチング部 1 4 は、 例えば、 単語接続情報を参照することにより、 単語予 (1選択部 1 3からの単 語の直前の単語と、 さらにその前の単語を認識し、 トライグラムに基づく確率か ら単語予備選択部 1 3からの単語の言語スコアを求める。
マツチング部 1 4は、 以上のようにして、 単語予備選択部 1 3からの L個の単 語と、 特定単語のすべて (以下、 適宜、 これらをまとめて、 選択単語とぃゔ) に ついてその音響スコア及び言語スコアを求め、 ステップ S 6に進む。 ステップ S 6では、 選択単語それそれについてその音響スコア及び言語スコアを総合評価し た単語スコアが求められ、 その単語スコアに基づいて単語接続情報記憶部 1 6に 記憶された単語接続情報が更新される。
即ち、 ステップ S 6では、 マッチング部 1 4は、 選択単語について単語スコア を求め、 例えば、 その単語スコアを所定の閾値と比較すること等によって、 注目 ノードに接続するアークとしての単語を選択単語の中から絞り込む。 マッチング 部 1 4は、 その絞り込みの結果残った単語を、 その音響スコア、 言語スコア及び その単語の終了時刻とともに、 制御部 1 1に供給する。
なお、 単語の終了時刻は、 音響スコアを計算するのに用いた特徴量の抽出時刻 から認識される。 また、 ある単語について、 その終了時刻としての蓋然性の高い 抽出時刻が複数得られた場合には、 その単語については、 各終了時刻と、 対応す る音響スコア及び言語スコアとのセッ トが、 制御部 1 1に供給される。
制御部 1 1は、 上述のようにしてマッチング部 1 4から供給される単語の音響 スコア、 言語スコア、 及び終了時刻を受信すると、 マッチング部 1 4からの各単 語について、 単語接続情報記憶部 1 6に記憶された単語接続情報 (図 3 ) におけ る注目ノードを始端ノードとして、 アークを延ばし、 そのアークを、 終了時刻の 位置に対応する終端ノードに接続する。 さらに、 制御部 1 1は、 各アークに対し て、 対応する単語、 並びにその音響スコア及び言語スコアを付与するとともに、 各アークの終端ノードに対して、 対応する終了時刻を時刻情報として与える。 そ して、 ステップ S 2に戻り、 以下、 同様の処理が繰り返される。
以上のように、 単語接続情報は、 マッチング部 1 4の処理結果に基づいて、 逐 次更新されるので、 単語予備選択部 1 3及びマッチング部 1 4は、 常時、 最新の 単語接続情報を利用して処理を行うことが可能となる。
なお、 制御部 1 1は、 単語接続情報を更新する際に、 可能であれば、 上述した ような終端ノードの共通化を行う。
一方、 ステップ S 2において、 途中ノードが存在しないと判定された場合、 ス テツプ S 7に進み、 制御部 1 1は、 単語接続情報を参照することで、 その単語接 続情報として構成された各パスについて単語スコアを累積することで、 最終スコ ァを求め、 例えば、 その最終スコアが最も大きいパスを構成するアークに対応す る単語列をユーザの発話に対する音声認識結果として出力して処理を終了する。 以上のように、 単語予備選択部 1 3において、 音響的な特徴量から計算される 音響スコアを含む単語スコアに基づいて音声認識結果として確からしい単語を選 択する他、 例えば、 日本語の助詞や助動詞、 英語の冠詞や前置詞、 その他の音韻 数が短い音響的な特徴量が不安定な単語を音響的な特徴量から計算される音響ス コアとは関係ない尺度に基づいて選択し、 マッチング部 1 4において、 それらの 単語をマッチング処理の対象とするようにしたので、 音響的な特徴量が不安定な 単語が単語予備選択部 1 3で選択されないことによる音声認識精度の劣化を防止 することができる。
この場合、 単語予備選択部 1 3において、 単語を選択するときの枝刈り (絞り 込み) の範囲を小さく したり、 精度の高い音響モデル及び文法規則を用いている わけではないので処理に必要なリソース (演算量やメモリ等) を極力低減するこ とができる。
また、 音響的な特徴量が不安定な音韻数の短い単語が、 必ずマッチング処理の 対象とされるため、 単語予備選択部 1 3において、 音響スコアを含む単語スコア に基づいて選択される単語は、 音響的な特徴量が比較的安定している音韻数の長 い単語だけであっても良い。 単語予備選択部 1 3では、 より簡易な音響モデルや 文法規則を用いても、 正しい単語の選択漏れが生じないこととなり、 その結果、 単語予備選択部 1 3の処理に必要なリソースを低減しながら音声認識精度を向上 させることができる。
さらに、 単語予備選択部 1 3において、 音響スコアを含む単語スコアに基づい て選択される単語が、 音響的な特徴量が比較的安定している音韻数の長い単語だ けとなる場合には、 単語を選択するときの音響的又は言語的な判断基準としてよ り厳しいものを用い、 音響スコアや言語スコアに基づいて選択される単語の数を 少なく しても正しい単語の選択漏れが生じないこととなり、 その結果、 マツチン グ部 1 4の処理に必要なリソースを低減しながら音声認識精度を向上させること ができる。
上述の場合には、 単語予備選択部 1 3において、 究話時間という尺度に基づい て、究話時間が短い単語をその音響スコアに関係なく選択するようにすることで、 音響的な特徴量が不安定な単語が、 単語予備選択部 1 3で選択されないことによ る音声認識精度の劣化を防止するようにしたが、 その他、 単語予備選択部 1 3に は、 単語スコアに基づいて選択される単語とは別に、 音響スコアとは関係がない 尺度、 即ち、 音声の特徴量とは無関係の尺度である、 例えば、 言語スコアにのみ 基づいて単語を選択させるようにすることができ、 この場合もリソースを低減し ながら音声認識精度を向上させることができる。
即ち、 単語予備選択部 1 3には、 例えば、 注目ノードに至るまでのパスの、 注 目ノード側の N— 1単語の系列に接続する可能性の高い単語を、 統計的な単語連 鎖確率 (N— g r a m ) に基づく文法規則から得られる言語スコアにのみ基づい て選択させることができる。 この場合、 特徴量から計算される音響スコアは考慮 されずに単語が選択されることから、 音響的な特徴量が不安定であることによつ て音響スコアが小さくなり、 それに起因して単語スコアも小さくなつてしまう単 語が選択されないことによる音声認識精度の劣化を防止することができる。
また、 言語スコアの計算は、 音響スコアの計算に比較して計算量が非常に少な くて済むことから、 リソースの增加を最小限に抑えることができる。
上述のように、 統計的な単語連鎖確率に基づく文法規則から得られる言語スコ ァのみに基づいて行う単語の選択は、 文法デ一夕べ一ス 1 9 Aにそのような文法 規則を記憶させておくことで容易に行うことが可能である。
次に、 図 5は、 本発明に係る音声認識装置の他の例を示すブロック図であり、 図 2に示すものと共通する部分については、 同一の符号を付して詳細な説明は省 略する。 即ち、 図 5の音声認識装置は、 認識結果記憶部 2 1が新たに設けられて いる他は、 図 2の音声認識装置と共通する。
認識結果記憶部 2 1には、 制御部 1 1が出力する音声認識結果が供給されるよ うになつており、 認識結果記憶部 2 1は、 その音声認識結果を記憶する。 なお、 認識結果記憶部 2 1は、 例えば、 1つ又は複数の音声認識結果を記憶することが できる分の記憶容量を有しており、 また、 その記憶容量の分だけ音声認識結果を 記憶すると、 次に供給される音声認識結果を、 最も古い記憶値に上書きする形で 記憶するようになっている。 従って、 認識結果記憶部 2 1では、 最新の音声認識 結果の履歴が記憶される。 そして、 認識結果記憶部 2 1 に記憶された最新の音声 認識結果の履歴は、 単語予備選択部 1 3が参照することができるようになつてい る。
次に、 図 6のフローチャートを参照して、 図 5の音声認識装置による音声認識 処理について説明する。
図 5の音声認識装置は、 ステップ S 1 1乃至 S 1 7において、 基本的に、. 図 4 のステツブ S 1乃至 S 7における場合とそれそれ同様の処理を行う。
ステップ S 1 7において、 制御部 1 1が、 最終スコアが最も大きいパスを構成 するアークに対応する単語列をユーザの発話に対する音声認識結果として出力し た後は、 ステップ S 1 8に進み、 制御部 1 1は、 その音声認識結果を認識結果記 憶部 2 1に供給して記憶させて処理を終了する。
但し、 ステップ S 1 4では、 単語予備選択部 1 3は、 次のような単語予備選択 処理を行う。
即ち、 単語予備選択部 1 3は、 図 4のステップ S 4における場合と同様に、 注 目ノードが有する時刻情報における開始時刻以降の必要な特徴量の系列を特徴量 記憶部 1 2から読み出し、 辞書データべ一ス 1 8 Aの単語辞書に登録された各単 語について、 特徴量記憶部 1 2から読み出した特徴量の系列を用いて音響スコア を計算するとともに、 文法データべ一ス 1 9 Aに記憶された文法規則に基づいて 言語スコアを計算し、 その音響スコァ及び言語スコァを総合評価した単語スコァ (第 1の尺度) を求める。 単語予備選択部 1 3は、 単語スコアが上位 L位以内の 単語をマッチング処理の対象とする単語としてマッチング部 1 4に供給する。 単語予備選択部 1 3は、 辞書データべ一ス 1 8 Aに登録されている単語のうち の 1以上を認識結果記憶部 2 1に記憶されているという尺度 (第 2の尺度) に基 づいて選択してマッチング部 1 4に供給する。
ユーザが過去に行った究話に含まれる単語は、 経験的に、 その後の究話におい て再度発話されることが多い。 そこで、 図 5の単語予備選択部 1 3は、 認識結果 記憶部 2 1に記憶されている音声認識結果を構成する単語と同一の単語を、 辞書 データベース 1 8 Aから特定単語として選択し、 マツチング処理の対象とする単 語としてマッチング部 1 4に供給する。
マッチング部 1 4は、 単語予備選択部 1 3から単語スコアに基づいて選択され た L個の単語と、 単語スコアに関係ない所定の条件 (尺度) (ここでは、 認識結 果記憶部 2 1 に記憶されているという尺度) に基づいて選択された特定単語を受 信すると、 ステップ S 1 5において、 それらの単語を対象としてマッチング処理 を行う。
この場合も、 単語予備選択部 1 3において、 音響スコアとは関係ない尺度に基 づいて単語が選択されるので、 例えば、 環境雑音や回線雑音等に起因して音声の 特徴量が大きな揺らぎを荷し、 そのような特徴量から計算される音響スコアを反 映した単語スコアによっては選択されない単語であっても、 精度の高い音響モデ ルを用いずに、 マッチング処理の対象とされることになり、 少ないリソースで音 声認識精度を向上させることができる。
なお、 音声認識装置には、 図 5に点線で示すように、 ユーザが、 音声認識結果 を修正するための入力を与えるときに操作するキ一ボード等の入力部 2 2をさら に設けることが可能である。 この場合、 制御部 1 1が出力した音声認識結果に対 してユーザが入力部 2 2を操作することにより、 その修正を行ったときには、 制 御部 1 1には、 自身が出力した音声認識結果に替えて (あるいは、 その音声認識 結果とともに) 、 その修正された音声認識結果を認識結果記憶部 2 1に記憶させ るようにすることができる。 この場合においても、 上述した場合と同様に、 少な いリソースで音声認識精度を向上させることができる。
上述した一連の処理は、 ハードウェアにより行うこともでき、 あるいは、 ソフ トウエアにより行うこともできる。 一連の処理をソフ トウエアによって行う場合 には、 そのソフ トウェアを構成するプログラムが汎用のコンピュータ等にィンス ト一ルされる。
図 7は、 上述した一連の処理を実行するプログラムがィンス トールされるコン ピュー夕の一例を示している。
プログラムは、 コンピュー夕に内蔵されている記録媒体としてのハードデイス ク 1 0 5や R O M 1 0 3に予め記録しておくことができる。
プログラムは、 フロッピ一ディスク、 CD-ROM(Compact Disc Rea d Only Memory) , MO(Magneto optical)デイスク, DVD(Digital Versatile Disc)、 磁気 ディスク、 半導体メモリなどのリムーバブル記録媒体 1 1 1に、 一時的あるいは 永続的に格納 (記録) しておく ことができる。 このようなリム一バブル記録媒体 1 1 1は、 いわゆるパッケージソフ トウェアとして提供することができる。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 1 1 1 からコンビ ユー夕にインス ト一ルする他、 ダウン口一ドサイ トから、 ディジタル衛星放送用 の人工衛星を介して、 コンピュータに無線で転送したり、 LAN (Local Area Network), インターネッ トといったネッ トヮ一クを介して、 コンビュ一夕に有線 で転送し、 コンピュータでは、 そのようにして転送されてくるプログラムを通信 部 1 0 8で受信し、 内蔵するハ一ドディスク 1 0 5にィンス トールすることがで ぎる。
コンビュ一夕は、 CPU(Central Processing Unit) 1 0 2を内蔵している。 CPU 1 0 2には、 バス 1 0 1 を介して、 入出力ィンタフエース 1 1 0が接続されてお り、 CPU 1 0 2は、 入出力インタフェース 1 1 0を介して、 ユーザによって、 キ —ボードや、 マウス、 マイクロホン等で構成される入力部 1 0 7が操作等される ことにより指令が入力されると、 それにしたがって、 ROM(Read Only Memory) 1 0 3に格納されているプログラムを実行する。 あるいは、 また、 CPU 1 0 2は、 ハードディスク 1 0 5に格納されているプログラム、 衛星若しくはネヅ トワーク から転送され、 通信部 1 0 8で受信されてハードディスク 1 0 5にィ ンス トール されたプログラム、 又はドライブ 1 0 9に装着されたリム一バブル記録媒体 1 1 1から読み出されてハ一ドディスク 1 0 5にィンス トールされたプログラムを、 RAM(Random Access Memory) 1 0 4にロードして実行する。 これにより、 CPU 1 0 2は、 上述したフローチャートにしたがった処理、 あるいは上述したブロヅ ク図の構成により行われる処理を行う。 CPU 1 0 2は、 その処理結果を、 必要に 応じて、 例えば、 入出力インタフェース 1 1 0を介して、 LCD(Liqukl Crystal Display)やスピーカ等で構成される出力部 1 0 6から出力、 あるいは、 通信部 1 0 8から送信、 さらには、 ハードディスク 1 0 5に記録等させる。
ここで、 本発明において、 コンビュ一夕に各種の処理を行わせるためのプログ ラムを記述する処理ステップは、 必ずしもフローチヤ一トとして記載された順序 に沿つて時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例 えば、 並列処理あるいはオブジェク トによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良い し、 複数のコンピュータによって分散処理されるものであってもよい。 さらに、 プログラムは、遠方のコンピュー夕に転送されて実行されるものであってもよい。 上述のように、 単語予備選択部 1 3において、 辞書デ一夕べ一ス 1 8 Aに登録 された単語群から、 特徴量を用いて計算される単語スコアに基づいて単語を選択 するとともに、 単語スコアとは異なる尺度に基づいて発話時間の短い単語や、 言 語的に、 直前に認識された単語に接続しやすい単語、 過去の音声認識結果に含ま れる単語をも選択し、 その選択した単語をマッチング処理の対象とするようにし たので、 単語予備選択処理にあたって、 精度の高い音響モデルを用いなくても、 所定の単語の選択漏れを防止することができ、 その結果、 必要なリソースの増加 を極力抑えながら音声認識精度の劣化を防止することができる。
さらに、 マッチング処理の対象とする単語を、 単語スコアとは異なる尺度、 即 ち、 音声の特徴量を用いて計算される音響スコアに関係がなく、 音声の特徴量の 影響を受けない尺度に基づいて選択するようにしたので、 例えば、 雑音環境下に おいて、 その雑音の影響を受けることなく、 マッチングの対象とする単語を選択 することができ、 音声認識装置の雑音耐性を向上させることができる。
マッチング部 1 4でスコア計算の対象となる単語は、 単語予備選択部 1 3にお いてあらかじめ選択されているから、 マヅチング部 1 4による各単語のスコア計 算は、 前述したような、 音響スコアの計算の一部を共通化する木構造のネッ トヮ —クを構成せずに、 各単語ごとに独立して行うことができる。 この場合、 マッチ ング部 1 4において各単語についてのスコア計算を時分割で行うようにすること により、 その計算のために確保する必要のあるメモリ容量を小さく抑えることが できる。
マッチング部 1 4によるスコア計算は、 各単語ごとに、 時間的に独立して行う ことができ、 スコア計算に要するメモリ容量を使い回すことにより、 必要とする メモリ容量を小さく抑えることができる。
この場合、 単語のスコア計算を開始するときに、 その単語が、 どの単語である のかを同定することができるから、 そのスコア計算の初期の段階で、 言語スコア を適用して枝刈りを行うことが可能となり、 その結果、 前述したような、 単語を 同定することができないことによつて無駄な計算が行われることを防止すること ができる。
なお、 図 2や図 5に示した音声認識装置は、 例えば、 音声によってデータべ一 スの検索を行う場合や、 各種の機器の操作を行う場合、 各機器へのデータ入力を 行う場合、 音声対話システム等に適用可能である。 より具体的には、 例えば、 音 声による地名の問合せに対して、 対応する地図情報を表示するデータベース検索 装置や、 音声による命令に対して、 荷物の仕分けを行う産業用ロボッ ト、 キーボ 一ドの代わりに音声入力によりテキス ト作成を行うディクテ一ションシステム、 ユーザとの会話を行うロボッ 卜における対話システム等に適用可能である。 また、 単語予備選択部 1 3において、 音韻数や品詞に基づいて選択される特定 単語は、 他の単語とは区別して、 単語辞書に登録しておくことが可能である。 さらに、 上述の例では、 単語予備選択部 1 3において、 音響スコア及び言語ス コアを総合評価した単語スコアに基づいて L個の単語を選択するようにしたが、 L個の単語は、 その他、 例えば、 音響スコアだけに基づいて選択することも可能 である。
また、 マ、ソチング処理の対象とする単語を音響スコアが反映された単語スコア とは異なる尺度に基づいて選択する場合においては、 その尺度として、 複数の尺 度を用いることが可能であり、 これにより、 例えば、 究話時間の短い単語と、 過 去の音声認識結果に含まれる単語の両方を、 必ず、 マッチング処理の対象とする 単語とすること等が可能である。 産業上の利用可能性 本発明は、 音声認識の対象とする単語群から、 1以上の第 1の単語が、 特徴量 を用いて計算される第 1の尺度に基づいて選択されるとともに、 1以上の第 2の 単語が、 第 1の尺度とは異なる第 2の尺度に基づいて選択され、 その選択された 第 1及び第 2の単語について、 スコアが計算されるので、 第 2の単語が第 1の尺 度に基づいて選択されないことによる音声認識精度を劣化を防止することができ る。

Claims

請求の範囲
1 . 入力された音声に対してその音声認識結果の音響的な尤度を反映したスコア を計算し、 そのスコアに基づいて前記音声を認識する音声認識装置において、 前記音声の特徴量を抽出する抽出手段と、
音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計 算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択手段と、
前記選択手段において選択された前記第 1及び第 2の単語について前記スコア を計算するスコア計算手段と、
前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定 手段とを備える音声認識装置。
2 . 前記選択手段は、 音韻数を前記第 2の尺度として音韻数が所定の条件を満た す単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。
3 . 前記選択手段は、 品詞を前記第 2の尺度として品詞が所定の条件を満たす単 語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。
4 . 前記選択手段は、 言語的な尤度を前記第 2の尺度として言語的な尤度が高い 単語を前記第 2の単語として選択する請求の範囲第 1項記載の音声認識装置。
5 . 上記装置は、 さらに音声認識結果を記憶する記憶手段を備え、
前記選択手段は、 前記記憶手段に記憶されていることを前記第 2の尺度として 前記記憶手段に記憶されている音声認識結果に含まれる単語を前記第 2の単語と して選択する請求の範囲第 1項記載の音声認識装置。
6 . 上記装置は、 さらに音声認識結果を修正するための入力を与える入力手段を さらに備え、
前記記憶手段は、 前記入力手段からの入力にしたがって修正された音声認識結 果を記憶する請求の範囲第 5項記載の音声認識装置。
7 . 前記選択手段は、 前記音声の特徴量を用いて前記スコアを計算し、 そのスコ ァに基づいて前記第 1の単語を選択する請求の範囲第 1項記載の音声認識装置。
8 . 入力された音声に対してその音声認識結果の音響的な尤度を反映したスコア を計算し、 そのスコアに基づいて前記音声を認識する音声認識方法において、 前記音声の特徴量を抽出する抽出ステツプと、
音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計 箅される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステツプと、
前記選択ステツプにおいて選択された前記第 1及び第 2の単語について前記ス コアを計算するスコア計算ステップと、
前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定 ステツプとを備える音声認識方法。
9 . 入力された音声に対して、 その音声認識結果の音響的な尤度を反映したスコ ァを計算し、 そのスコアに基づいて前記音声を認識する音声認識処理をコンビュ —夕に行わせるプログラムが記録されている記録媒体において、
上記プログラムは、
前記音声の特徴量を抽出する抽出ステツプと、
音声認識の対象とする単語群から 1以上の第 1の単語を前記特徴量を用いて計 算される第 1の尺度に基づいて選択するとともに、 1以上の第 2の単語を前記第 1の尺度とは異なる第 2の尺度に基づいて選択する選択ステツプと、
前記選択ステツプにおいて選択された前記第 1及び第 2の単語について前記ス コアを計算するスコア計算ステヅプと、
前記スコアに基づいて前記音声の音声認識結果としての単語列を確定する確定 ステップとを備えることを特徴とする記録媒体。
PCT/JP2001/001127 2000-02-28 2001-02-16 Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement WO2001065541A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP01904512A EP1215662A4 (en) 2000-02-28 2001-02-16 SPEECH RECOGNITION DEVICE, SPEECH RECOGNITION METHOD, AND RECORDING MEDIUM
JP2001564146A JP4802434B2 (ja) 2000-02-28 2001-02-16 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US10/019,125 US7881935B2 (en) 2000-02-28 2001-02-16 Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000-51466 2000-02-28
JP2000051466 2000-02-28

Publications (1)

Publication Number Publication Date
WO2001065541A1 true WO2001065541A1 (fr) 2001-09-07

Family

ID=18573116

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/001127 WO2001065541A1 (fr) 2000-02-28 2001-02-16 Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement

Country Status (5)

Country Link
US (1) US7881935B2 (ja)
EP (1) EP1215662A4 (ja)
JP (1) JP4802434B2 (ja)
CN (1) CN1157712C (ja)
WO (1) WO2001065541A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA02000842A (es) 1999-07-22 2002-07-30 Procter & Gamble Conjugados de proteasa que tienen sitios de corte protegidos estericamente.
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2007041988A (ja) * 2005-08-05 2007-02-15 Sony Corp 情報処理装置および方法、並びにプログラム
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US9582805B2 (en) 2007-10-24 2017-02-28 Invention Science Fund I, Llc Returning a personalized advertisement
US9513699B2 (en) 2007-10-24 2016-12-06 Invention Science Fund I, LL Method of selecting a second content based on a user's reaction to a first content
US20090113297A1 (en) * 2007-10-24 2009-04-30 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Requesting a second content based on a user's reaction to a first content
US8229921B2 (en) * 2008-02-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for indexing for retrieving documents using particles
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
DE102008049129A1 (de) 2008-09-26 2010-04-08 Gea Niro Gmbh Kupplungsverschluss sowie Befestigungsmodul und Andockeinrichtung, jeweils enthaltend diesen Kupplungsverschluss
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
JP5613335B2 (ja) * 2011-08-19 2014-10-22 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US8914288B2 (en) 2011-09-01 2014-12-16 At&T Intellectual Property I, L.P. System and method for advanced turn-taking for interactive spoken dialog systems
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US10825357B2 (en) 2015-02-19 2020-11-03 Tertl Studos Llc Systems and methods for variably paced real time translation between the written and spoken forms of a word
CN106033669B (zh) * 2015-03-18 2019-06-07 展讯通信(上海)有限公司 语音识别方法及装置
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
JP7103763B2 (ja) * 2017-07-20 2022-07-20 株式会社日立製作所 情報処理システムおよび情報処理方法
US10665228B2 (en) 2018-05-23 2020-05-26 Bank of America Corporaiton Quantum technology for use with extracting intents from linguistics

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5786899A (en) * 1980-11-18 1982-05-31 Mitsubishi Electric Corp Voice recognition apparatus
JPS5852696A (ja) * 1981-09-25 1983-03-28 大日本印刷株式会社 音声認識装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
JPS59204896A (ja) * 1983-05-09 1984-11-20 カシオ計算機株式会社 音声認識における候補選定方法
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
DE4412930A1 (de) * 1994-04-15 1995-10-19 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5677991A (en) * 1995-06-30 1997-10-14 Kurzweil Applied Intelligence, Inc. Speech recognition system using arbitration between continuous speech and isolated word modules
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5764851A (en) * 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6146147A (en) * 1998-03-13 2000-11-14 Cognitive Concepts, Inc. Interactive sound awareness skills improvement system and method
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states
US6178401B1 (en) * 1998-08-28 2001-01-23 International Business Machines Corporation Method for reducing search complexity in a speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6502072B2 (en) * 1998-11-20 2002-12-31 Microsoft Corporation Two-tier noise rejection in speech recognition
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US6275802B1 (en) * 1999-01-07 2001-08-14 Lernout & Hauspie Speech Products N.V. Search algorithm for large vocabulary speech recognition
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5786899A (en) * 1980-11-18 1982-05-31 Mitsubishi Electric Corp Voice recognition apparatus
JPS5852696A (ja) * 1981-09-25 1983-03-28 大日本印刷株式会社 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. R. BAHL ET AL.: "A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 1, no. 1, January 1993 (1993-01-01), pages 59 - 67, XP002938067, ISSN: 1063-6676 *
See also references of EP1215662A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
CN106560891A (zh) * 2015-10-06 2017-04-12 三星电子株式会社 使用声学建模的语音识别设备和方法
US11176926B2 (en) 2015-10-06 2021-11-16 Samsung Electronics Co., Ltd. Speech recognition apparatus and method with acoustic modelling
CN106560891B (zh) * 2015-10-06 2022-03-08 三星电子株式会社 使用声学建模的语音识别设备和方法

Also Published As

Publication number Publication date
EP1215662A4 (en) 2005-09-21
US20020173958A1 (en) 2002-11-21
CN1365488A (zh) 2002-08-21
JP4802434B2 (ja) 2011-10-26
CN1157712C (zh) 2004-07-14
US7881935B2 (en) 2011-02-01
EP1215662A1 (en) 2002-06-19

Similar Documents

Publication Publication Date Title
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7240002B2 (en) Speech recognition apparatus
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US8914286B1 (en) Speech recognition with hierarchical networks
EP1575030A1 (en) New-word pronunciation learning using a pronunciation graph
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3494338B2 (ja) 音声認識方法
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP3369121B2 (ja) 音声認識方法および音声認識装置
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 01800736.8

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

ENP Entry into the national phase

Ref document number: 2001 564146

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2001904512

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10019125

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2001904512

Country of ref document: EP