WO2004075168A1 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
WO2004075168A1
WO2004075168A1 PCT/JP2004/001109 JP2004001109W WO2004075168A1 WO 2004075168 A1 WO2004075168 A1 WO 2004075168A1 JP 2004001109 W JP2004001109 W JP 2004001109W WO 2004075168 A1 WO2004075168 A1 WO 2004075168A1
Authority
WO
WIPO (PCT)
Prior art keywords
score
garbage
verbal
speech
acoustic
Prior art date
Application number
PCT/JP2004/001109
Other languages
English (en)
French (fr)
Inventor
Maki Yamada
Makoto Nishizaki
Yoshihisa Nakatoh
Shinichi Yoshizawa
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP04708029A priority Critical patent/EP1603116A1/en
Priority to US10/504,926 priority patent/US7711560B2/en
Priority to JP2004553528A priority patent/JP3678421B2/ja
Publication of WO2004075168A1 publication Critical patent/WO2004075168A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Definitions

  • the present invention relates to a speech recognition device and a speech recognition method that allow unnecessary words that do not need to be semantically distinguished and perform continuous word speech recognition.
  • a word-speech recognition device that uses a garbage acoustic model, which is an acoustic model learned from a set of unnecessary words, in response to unnecessary words that do not need to be semantically distinguished (for example, Naoki Inoue, 2 others, "A Method for Processing Unwanted Words in Freely Spoken Sentences Using Garbage HMM", IEICE Transactions A, Vol. J77—A, No. 2, pp. 2 15—2 (See February 2, 1994).
  • a garbage acoustic model which is an acoustic model learned from a set of unnecessary words, in response to unnecessary words that do not need to be semantically distinguished
  • FIG. 1 is a diagram showing a configuration of a conventional speech recognition device.
  • the speech recognition apparatus includes a feature amount calculation unit 1221, a network dictionary storage unit 122, a route calculation unit 1203, and a route candidate storage unit 1204. , Recognition result output section 125, language model storage section 1206, language score calculation section 122, word acoustic model storage section 128, word acoustic score calculation section 1209, garbage It consists of an acoustic model storage unit 1 210 and a garbage acoustic score calculation unit 1 2 1 1.
  • the feature value calculation unit 1201 performs acoustic analysis of the input unknown input speech, and calculates feature parameters necessary for recognition.
  • the network dictionary storage unit 1222 stores a network dictionary describing a word string that can be accepted by the speech recognition device.
  • the route calculation unit 123 uses the description of the network dictionary. Then, the cumulative score of the path for calculating the optimal word sequence of the unknown input speech is calculated.
  • the route candidate storage section 124 stores information on the route candidate.
  • the recognition result output unit 1205 finally outputs the word series having the highest score as the recognition result.
  • the language model storage unit 1206 stores a language model in which the probability of occurrence of a word has been statistically learned in advance.
  • the language score calculation unit 1207 calculates a language score, which is the probability of occurrence of words linked from the immediately preceding word.
  • the word acoustic model storage unit 128 stores in advance a word acoustic model which is an acoustic model of a word corresponding to the vocabulary to be recognized.
  • the word acoustic score calculation unit 1209 compares the feature parameters with the word acoustic model and calculates a word acoustic score.
  • the garbage acoustic model storage unit 1 210 stores a garbage acoustic model, which is an acoustic model learned from a set of unnecessary words that do not need to be semantically distinguished, such as “Eichito” and “U-J”.
  • the garbage acoustic score calculation unit 1 2 1 1 compares the feature parameters with the garbage acoustic model, and calculates the garbage acoustic score, which is the probability of occurrence of the garbage model, which is an unnecessary word. calculate.
  • the unknown input voice uttered by the user is input to the feature amount calculation unit 1221, and the feature amount calculation unit 1221 performs sound analysis for each frame, which is a time unit of sound analysis. Calculate the characteristic parameters.
  • the frame length is 1 O ms.
  • FIG. 2 is a diagram showing a route candidate when the input voice is “that is, who”.
  • Fig. 2 (a) shows the input speech and the word break positions.
  • Figure 2 (b) shows a route candidate when the input frame is t-1.
  • FIG. 2 (c) shows a route candidate when the input frame is t.
  • the horizontal axis indicates the frame.
  • the unnecessary word “da” that is stuttering by “who” is recognized as a garbage model.
  • the garbage model is given a path in the same way as one word.
  • the routes 5 1 1, 5 1 2, 5 1 3, and 5 2 are routes other than the optimal route up to the middle of a word, and the routes 5 2 1 and 5 2 2 are the optimal routes that reach the end of the word.
  • Paths 531 and 532 are paths other than the optimal path that has reached the end of the word, and path 54 is an optimal path up to the middle of the word.
  • the route calculation unit 123 expands the route from the route candidate in the immediately preceding frame, and calculates the cumulative score for each route.
  • FIG. 2 (b) shows a route candidate in the t-1st frame which is one frame before the frame t, and this route candidate information is stored in the route candidate storage unit 124. I have. Then, from these route candidates, as shown in the frame t, the route is extended as shown in FIG. 2 (c). There is a path where the word in the path candidate of the previous frame is further extended, and a path where the word ends and a word that can be newly connected to the word starts.
  • connectable words are words described in the network dictionary.
  • Fig. 2 (b) in frame t-1, there is a word “cotton” on route 5 11 other than the optimal route up to the middle of the word and a word “cotton j" on the optimal route 5 2 1 reaching the end of the word.
  • Fig. 2 (c) which is the frame t, the word “cotton” on the route 511 other than the optimal route up to the middle of the word is further expanded, and the word “cotton” on the optimal route 521 reaching the word end is expanded.
  • Cotton The word “seed” on the road 54 is connected to the word “confection” on the route 512 other than the optimal route up to the middle of the word.
  • a language score and an acoustic score are calculated for each of the extended route candidates.
  • the language score is obtained by the language score calculation unit 1207 using the language model stored in the language model storage unit 1206.
  • the logarithmic value of the bigram probability which is the probability of a word linked from the previous word, is used.
  • the optimal path that reaches the end of the word 5 2 2 For the path that connects “ ⁇ ⁇ ” after “it”, the probability that “cotton” appears after “it” is used. This should be given only once per word.
  • the word acoustic score calculation unit 1209 is stored in the word acoustic model storage unit 128 if the path candidate is a word with respect to the input feature parameter vector of the frame. It is calculated using the word acoustic model, and if the path candidate is a garbage model that is an unnecessary word, the garbage acoustic score calculator 1 2 1 1 is stored in the garbage acoustic model storage 1 2 1 0. Garbage acoustic model.
  • FIG. 2 (b) four paths correspond to the path for obtaining the acoustic score in frame t-1-1, and the path using the word acoustic model is the path 51 connected to the path 52 2 "it”. 1 "Cotton”, route 5 2 2 Route connected to "it” 5 2 1 Route connected to "cotton” and route 5 3 1 "ha” 5 1 3 "who”, and the route using the garbage acoustic model is The route 531 1 is the route 532 “garbage model” connected to “”.
  • a hidden Markov model that stochastically models acoustic features.
  • An HMM that represents the acoustic features of words is called a word acoustic model, and the acoustic features of unnecessary words that do not need to be semantically distinguished, such as ⁇ Eichito '' and ⁇ Uchin, '' are grouped into one.
  • Model The HMM expressed in garbage is called a garbage acoustic model.
  • the word acoustic score and the garbage acoustic score are logarithmic values of the probability obtained from the HMM, and indicate the occurrence probability of the word and the garbage model.
  • the linguistic score and the acoustic score obtained in this way are added together to obtain a collation score, and the cumulative score of each path is obtained by the V iterbi algorithm (for example, see Seiichi Nakagawa, “Speech Recognition by Stochastic Model,” (Information Society of Information and Communication, PP. 44-46, published the first edition of 1998)).
  • V iterbi algorithm for example, see Seiichi Nakagawa, “Speech Recognition by Stochastic Model,” (Information Society of Information and Communication, PP. 44-46, published the first edition of 1998).
  • K is a natural number
  • the recognition result output unit 1255 outputs the highest cumulative score among the route candidates stored in the route candidate storage unit 124 in the final frame.
  • a word string of a high route candidate is output as a recognition result.
  • stuttering is an utterance that cannot be spoken fluently when uttering spoken words because the first and intermediate sounds are clogged, the same sound is repeated many times, and the sound is stretched.
  • the cause is that the garbage acoustic model learns from all acoustic data considered as unnecessary words including stuttering, so the distribution becomes extremely wide, and unnecessary word utterances, that is, high for non-verbal sounds This is because an acoustic score cannot be obtained.
  • a cumulative score of a language score, a word acoustic score, and a garbage acoustic score is calculated for each path, and a word string having the highest cumulative score is calculated.
  • a garbage acoustic model which is an acoustic model learned from a set of unnecessary words, is a speech recognition device that outputs as a result of recognition of unknown input speech including non-verbal speech.
  • Garbage acoustic model storage means to be stored, for each frame which is a unit of acoustic analysis, a characteristic amount calculating means for acoustically analyzing the unknown input speech and calculating characteristic parameters required for recognition, and for each of the frames
  • the garbage acoustic score calculating means for comparing the characteristic parameter with the garbage acoustic model and calculating the garbage acoustic score; and the garbage acoustic score calculated by the garbage acoustic score calculating means, wherein the non-verbal voice is input.
  • a garbage sound score correcting means for correcting the frame to increase, a cumulative score of the linguistic score, the word sound score, and the garbage sound score corrected by the garbage sound score correcting means.
  • Recognition result output that outputs the highest word string as the recognition result of the unknown input speech Characterized in that it comprises a stage.
  • the 'speech recognition device further uses, for each of the frames, an estimated value indicating the degree of non-verbalness of the non-verbal voice using a non-verbal voice estimation function.
  • the garbage sound score correcting means increases the garbage sound score using the estimated value in the frame in which the non-verbal sound calculated by the non-verbal sound estimation means is input. It can be characterized as follows.
  • the non-verbal voice estimating means estimates the non-verbal voice and raises the garbage acoustic score corresponding to the non-verbal voice, whereby the unknown input voice can be accurately recognized.
  • the non-verbal speech estimating means calculates a spectrum of the unknown input speech based on a feature parameter for each frame calculated by the feature amount calculating means. Part that becomes a repeating pattern May be characterized by calculating a large estimated value. As a result, non-verbal speech such as stuttering can be accurately estimated as a garbage model by detecting the repetitive pattern of the spectrum of the unknown input speech.
  • the speech recognition device may further include a non-verbal estimation feature parameter for calculating a non-language estimation feature parameter necessary for estimating the non-verbal speech for each of the frames.
  • a non-verbal acoustic model storage unit that stores a non-verbal acoustic model, which is an acoustic model obtained by modeling a non-verbal feature, in advance, wherein the non-verbal sound estimating unit is provided for each of the frames.
  • the non-verbal estimation score may be calculated as the estimated value by comparing the non-verbal estimation feature parameter with the non-verbal acoustic model.
  • the non-verbal sound model is compared with the non-verbal sound model using feature parameters necessary for estimating the non-verbal sound, which are different from the feature parameters for speech recognition. Since it can be estimated, the garbage acoustic score corresponding to non-verbal speech can be increased, and unknown input speech can be correctly recognized.
  • the sound recognition device may further include a high-frequency power sustaining frame number based on the non-verbal estimation feature parameter calculated by the non-verbal estimation feature amount calculating unit.
  • the non-verbal speech estimation means calculates a non-language collation score obtained by comparing the non-verbal estimation feature parameter with the non-verbal acoustic model. An estimated value indicating non-verbalness may be calculated from the non-verbal matching score and the number of high-frequency power sustained frames.
  • Non-verbal sound can be estimated using the matching score with the non-verbal acoustic model using the feature parameters necessary for estimating the voice, and the number of frames in which high-frequency power is maintained.
  • the garbage acoustic score can be increased, and unknown input speech can be correctly recognized.
  • the high-frequency power sustaining frame number calculating means may include a high-frequency power obtained by the non-verbal estimation feature amount calculating means, when the high-frequency power is higher than a predetermined threshold. It can also be characterized as a frame with high high-frequency power.
  • the speech recognition device may further include, based on an estimated value estimated by the non-verbal speech estimating unit, at least the ideographic character and the emoticon corresponding to the non-verbal voice. It is also possible to provide a non-language-compatible character inserting means for selecting one and inserting at least one of the selected ideographic character and face character into the recognition result of the recognition result output means.
  • a mail can be created by automatically inserting an ideographic character or face character representing the non-verbal voice using the estimated value.
  • the speech recognition device further includes an agent displayed based on the estimated value estimated by the non-verbal speech estimation unit and the recognition result of the recognition result output unit. And an agent control means for controlling the synthesized sound spoken by the page.
  • the voice recognition device further calculates a non-verbal estimated value of a non-verbal phenomenon related to the non-verbal voice based on user information linked to the non-verbal voice.
  • a garbage sound score correcting means wherein the garbage sound score correcting means corrects the garbage sound score by using the estimated value in the frame to which the non-linguistic phenomenon calculated by the non-linguistic phenomenon estimating means is input. It is characterized by doing.
  • the non-verbal phenomena are estimated by the non-verbal phenomena estimating means, and the garbage acoustic score is increased according to the non-verbal phenomena, whereby the unknown input speech can be recognized with high accuracy.
  • the speech recognition device may further include, based on an estimated value estimated by the non-linguistic phenomenon estimating means, at least the ideogram and the face character corresponding to the non-language. It is also possible to provide a non-language-compatible character insertion unit that selects one and at least one of the selected ideographic character and the emoticon is included in the recognition result of the recognition result output unit.
  • the speech recognition device further includes an operation of an agent displayed based on the estimated value estimated by the non-verbal phenomenon estimation unit and a recognition result of the recognition result output unit.
  • An agent control means for controlling the synthesized sound spoken by the agent may be provided.
  • the speech recognition device further causes the user to select a value of a correction parameter for determining a degree of correcting the garbage sound score in the garbage sound score correction means, and And a garbage acoustic score modifying means for modifying the garbage acoustic score based on the modification parameter.
  • the speech recognition device of the present invention it is possible to correctly recognize speech even with unknown input speech including non-linguistic parts such as stuttering, laughter, and coughing.
  • the present invention can be realized not only as such a voice recognition device, but also as a voice recognition method in which characteristic steps provided in such a voice recognition device are used as steps.
  • it can be realized as a program that causes a computer to execute those steps.
  • a program can be distributed via a recording medium such as CD-ROM or a transmission medium such as the Internet.
  • FIG. 1 is a diagram showing a configuration of a conventional speech recognition device.
  • Figure 2 shows the route candidates when the input voice is "that, who"
  • FIG. 3 is a block diagram showing a functional configuration of the speech recognition device according to Embodiment 1 of the present invention.
  • FIG. 4 is a flowchart showing a process executed by each unit of the speech recognition device 1.
  • FIG. 5 is a diagram showing a non-verbal speech estimation function and a route candidate when the unknown input speech is “that is, who”.
  • FIG. 6 is a block diagram showing a functional configuration of the speech recognition device according to Embodiment 2 of the present invention.
  • FIG. 7 is a flowchart illustrating a process executed by each unit of the speech recognition device 2.
  • FIG. 8 is a block diagram showing a functional configuration of the speech recognition device according to Embodiment 3 of the present invention.
  • FIG. 9 is a diagram illustrating a situation in which a user is inputting mail by voice toward a camera-equipped mobile phone.
  • FIG. 10 is a block diagram showing a functional configuration of the speech recognition device 4 according to Embodiment 4 of the present invention.
  • FIG. 11 is a diagram showing a state in which the mail text with emoticons is actually displayed on the screen 91 of the mobile phone.
  • FIG. 12 is a block diagram showing a functional configuration of a speech recognition device according to Embodiment 5 of the present invention.
  • FIG. 13 is a block diagram showing a functional configuration of a speech recognition device according to Embodiment 6 of the present invention.
  • FIG. 3 is a block diagram showing a functional configuration of the speech recognition device according to Embodiment 1 of the present invention.
  • a case will be described as an example where the target of non-verbal estimation is stuttering.
  • the voice recognition device 1 is a computer device that operates a television using voice recognition, and as shown in FIG. 3, a feature amount calculation unit 101 and a network dictionary storage unit 102 , Route calculation unit 103, route candidate storage unit 104, recognition result output unit 105, language model storage unit 106, language score calculation unit 107, and word acoustic model Storage unit 108, word acoustic score calculation unit 109, garbage acoustic model storage unit 110, garbage acoustic score calculation unit 111, non-verbal speech estimation unit 112, It has a garbage acoustic score correction unit 113 and so on.
  • each unit constituting such a speech recognition device 1 includes a CPU, a ROM for storing a program to be executed by the CPU, a work area for executing the program, and an unknown input. This is realized by a memory that temporarily stores the acoustic data of the PCM signal corresponding to the input voice, and the like.
  • the feature amount calculation unit 101 acoustically analyzes the input unknown input speech and calculates feature parameters required for recognition.
  • the network dictionary storage unit 102 stores a network dictionary describing a word string that can be accepted by the speech recognition device 1.
  • the route calculation unit 103 refers to the description in the network dictionary, and calculates the cumulative score of the route for determining what word sequence is most appropriate for the unknown input speech.
  • the route candidate storage unit 104 stores the cumulative score of the route candidate.
  • the recognition result output unit 105 finally outputs a word sequence having the highest cumulative score as a recognition result.
  • the language model storage unit 106 stores a language model in which the probability of occurrence of a word has been statistically learned in advance.
  • the language score calculation unit 107 calculates a language score corresponding to the word string from the language model.
  • the word acoustic model storage unit 108 previously stores a word acoustic model that is an acoustic model of a word corresponding to the vocabulary to be recognized.
  • the word acoustic score calculation unit 109 compares the feature parameter with the word acoustic model and calculates a word acoustic score.
  • Garbage acoustic model storage unit 1 1 pre-semantically need not name to distinguish between "e first and” and, the garbage acoustic model is an acoustic model learned from a set of unnecessary words such as "UHajimen J
  • the garbage sound score calculation unit 111 compares the feature parameters with the garbage sound model to calculate a garbage sound score.
  • the garbage sound score correction unit 113 calculates a non-verbal sound estimation value which is a value for estimating the sound, and corrects the garbage sound score calculated from the garbage sound score calculation unit 111 for each frame.
  • FIG. 4 is a flowchart showing processing executed by each unit of the speech recognition device 1.
  • Each unit of the speech recognition device 1 performs the following processing while advancing the input frame t by one frame from 1 to T for each frame which is a time unit of the acoustic analysis.
  • the frame length is set to 10 ms.
  • the feature amount calculating unit 101 acoustically analyzes the input unknown input speech and calculates a feature parameter (S201).
  • the non-verbal speech estimating unit 112 calculates an estimated value of the non-verbal voice, which is a value for estimating the non-verbal voice (S202).
  • the estimated value of the non-verbal speech is calculated using the repeating pattern of the vector.
  • a method of calculating the estimated value of the non-verbal sound will be described in detail below.
  • X (t) be the feature parameter vector at frame t
  • the Euclidean distance between the feature parameter vector X (i) at frame ⁇ and the feature parameter vector X (j) at frame j Assuming that d (i, j), the distance D (t) of the non-verbal speech estimation value is expressed by Expression (1). It should be noted that a weighted Euclidean distance may be used instead of the Euclidean distance. Even when the weighted Euclidean distance is used, the same effect as the Euclidean distance can be obtained.
  • Equation (1) indicates that when the value of ⁇ takes a value from N s to N e (where ⁇ is an integer), the time between the past ⁇ frames and the future; It represents the value when the distance is the smallest among the distances between patterns.
  • the distance D (t) of the non-verbal speech estimation value takes a small value.
  • the non-verbal speech estimation function R (t) which is a function for obtaining an estimated value of the non-verbal voice in the frame t, is represented by Expression (2).
  • the non-verbal speech estimation function R (t) shown may be used.
  • C for R The non-verbal speech estimation function R (t)
  • Fig. 5 is a diagram showing the non-verbal speech estimation function and the route candidate when the unknown input voice is "it is who j".
  • Fig. 5 (a) shows the non-verbal speech.
  • FIG. 3 is a diagram illustrating an example of a speech estimation function.
  • Fig. 5 (a) the vertical axis is the value indicating the non-verbal speech estimated value, and the horizontal axis is the frame.
  • Figure 5 (b) shows the location of the words in the unknown input speech.
  • the non-verbal speech estimation function R (t) shows a high non-verbal speech estimate in the frame of the stuttering part "da" which is a non-verbal voice.
  • the route calculation unit 103 first determines the route candidate in the immediately preceding frame. From the network dictionary stored in the network dictionary storage unit 102 to expand the route. Then, the route calculation unit 103 finds the next connectable word or garbage model for the route terminating in the previous frame by referring to the network dictionary. A new path connecting the connectable words or the garbage model is created (S203). In the route in the middle of a word in the previous frame, the route calculation unit 103 further extends the word.
  • FIG. 5 (c) shows a route candidate when the input speech is “it is who j” and the frame is t ⁇ 1 1.
  • FIG. 5 (d) shows the same Represents a route candidate when the frame is t.
  • routes 311, 312, 313, and 314 represent routes other than the optimal route up to the middle of a word
  • route 321 represents a route other than the optimal route that has reached the word end
  • Paths 331 and 332 represent the optimal paths to the end of the word
  • path 341 represents the optimal path to the middle of the word.
  • I “cotton J” of route 3 21 is connected to “species of route 3 11” and “confectionery” of route 3 12.
  • the "garbage model” of the route 332 is connected to the "who J" of the route 341, and the words are further extended in the other routes.
  • the language score calculation unit 107 refers to the language model stored in the language model storage unit 106 to calculate the language score of the extended and connected new route candidate. Output to 03 (S204).
  • the logarithmic value of the bigram probability which is the probability of a word linked from the previous word, is used as the language score. For example, in Fig. 5 (c), ⁇ on path 3 3 1 is after j, and on path 3 13 3, who is connected to j, “is the probability that“ who ”appears after j. Is used. You only need to give this once per word.
  • the route calculation unit 103 determines whether or not the route candidate of the frame is a word (S205). In other words, it determines whether it is a word or a garbage model.
  • steps S206 to be described later are executed, and if it is a page model, steps S207 and S208 to be described later are executed.
  • Step S is performed for the "cotton” of the path 314, the "cotton” of the path 3221, and the "who j" of the path 313.
  • Step 206 is executed
  • S207 and S208 are executed for the "garbage model" of the route 3332.
  • the word acoustic score calculation unit 109 refers to the word acoustic model and calculates the word acoustic score of the applicable route candidate (S 206).
  • the garbage acoustic score calculation unit 111 refers to the garbage acoustic model and calculates the garbage acoustic score of the corresponding route candidate. Calculate (S207).
  • the garbage sound score correction unit 113 corrects the garbage sound score calculated in step S207 with reference to the non-verbal sound estimation function, and calculates a new garbage sound score (S200). 8).
  • the feature parameter vector X (t) is set, and the garbage acoustic score obtained by matching with the garbage acoustic model is G (t).
  • the section 1 1 3 contains the garbage acoustic score calculated by the garbage acoustic score calculation section 1 1 1.
  • G (t) is corrected as in equation (4), and the corrected garbage acoustic score G * (t) is obtained.
  • w is a weight constant (modification parameter).
  • the garbage acoustic score which conventionally stayed at 2 points, is corrected to 6 points in the first embodiment.
  • Any function other than Equation (4) may be used as long as the function increases the garbage acoustic score.
  • HMM hidden Markov model
  • the route calculation unit 103 adds the language score, the word acoustic score, and the garbage acoustic score of the applicable route candidate, and calculates a matching score of the applicable route candidate. Further, the route calculation unit 103 calculates the route up to the current frame of the applicable route candidate by the V iterbi algorithm as in the conventional example, calculates the cumulative score from the matching scores of all the routes, and obtains the route candidate information. Is registered in the route candidate storage unit 104 (S209).
  • step S210 determines whether or not the cumulative scores of all the route candidates have been calculated. As a result of the judgment, if the calculation of the cumulative score of all the route candidates is not completed (NO in S210), step S211 is executed, and if the calculation of the cumulative score of all the route candidates is completed, (S If YES in step 210), step S212 is executed.
  • step S210 If the calculation of the cumulative score of all the route candidates is not completed (NO in S210), the process proceeds to the next route candidate in step S211 and the process from step S205 to step S210 is performed. By repeating the process, the cumulative score of all route candidates up to the frame is calculated.
  • Step S 212 the route calculation unit 103 judges whether or not the processing has been completed for all the frames. As a result of the determination, if the processing for all frames is not completed (NO in S212), step S213 is executed, and if the processing for all frames is completed (YES in S212). ), Steps S214 are executed.
  • step S212 If the processing has not been completed for all frames (NO in S212), the process moves to the next frame in step S213, and the processing from step S201 to step S210 is performed. By repeating the processing, the processing up to the last frame is performed.
  • the recognition result output unit 105 stores the most accumulated path candidate among the path candidates stored in the path candidate storage unit 104 in the last frame. A word sequence of a route candidate with a high score is output as a recognition result (S2114).
  • the garbage acoustic score of the stuttering portion which is a non-verbal speech is not applied by applying the non-verbal speech estimation function, instead of uniformly increasing the garbage acoustic score. By increasing only the size, unknown input speech can be correctly recognized.
  • the word acoustic model may be a combination of phoneme, syllable, and CV and VC subword unit acoustic models.
  • nonverbal speech is estimated by detecting a pattern in which the spectrum is repeated, but other estimation methods may be used.
  • FIG. 6 is a block diagram showing a functional configuration of the speech recognition device according to Embodiment 2 of the present invention.
  • the target of non-verbal estimation is laughter.
  • parts corresponding to those of the speech recognition apparatus 1 of the first embodiment are denoted by the same reference numerals, and detailed description thereof will be omitted.
  • a computer device that performs an operation as shown in FIG. 6, a feature amount calculation unit 101, a network dictionary storage unit 102, a route calculation unit 103, and a route candidate storage unit 104.
  • Recognition result output unit 105 language model storage unit 106, language score calculation unit 107, word acoustic model storage unit 108, word acoustic score calculation unit 109, garbage acoustic model storage unit 1 1 0, Garpage acoustic score calculation unit 1 1 1, non-verbal sound estimation unit 1 1 2 and garbage acoustic score correction unit 1 1 3, non-verbal estimation feature amount calculation unit 1 1 4, Non-language Acoustic model storage unit 115 and high-frequency power sustained frame number calculation unit 116 .
  • the components constituting the speech recognition device 2 are similar to the speech recognition device 1, except for the storage unit, the CPU, the ROM for storing the programs executed by the CPU, and the work area for executing the programs.
  • This is realized by a memory or the like that provides or temporarily stores acoustic data of a PCM signal corresponding to the input unknown input voice.
  • the non-verbal estimation feature amount calculating unit 114 analyzes the input unknown input speech acoustically, and calculates, for each frame, a feature parameter and a high-frequency power required for matching with the non-verbal acoustic model.
  • the non-verbal acoustic model storage unit 115 stores in advance a non-verbal acoustic model that is a non-linguistic acoustic model such as a laughter.
  • the high-frequency power sustained frame number calculation section 1 16 counts the number of consecutive frames having high high-frequency power.
  • the non-verbal speech estimator 1 1 2 uses the feature parameters for non-verbal estimation of the input voice, the collation score of the non-verbal acoustic model, and the number of sustained frames in the high-frequency power section to determine the non-verbal likelihood for each frame.
  • the non-verbal speech estimation function is calculated.
  • the garbage acoustic score corrector 113 corrects the garbage acoustic score calculated from the garbage acoustic score calculator 111 for each frame using a non-verbal sound estimation function.
  • FIG. 7 is a flowchart illustrating a process executed by each unit of the speech recognition device 2.
  • Each unit of the speech recognition device 2 performs the following steps S701 to S714 while advancing the input frame t by one frame from 1 to T for each frame.
  • the frame length is also 1 O ms.
  • the feature amount calculation unit 101 analyzes the input unknown input speech acoustically and calculates feature parameters (S701).
  • the mel-filter bank cepstrum coefficient (MFCC), its regression coefficient, and the audio power difference are used as the characteristic parameters.
  • the non-verbal estimation feature amount calculation unit 114 calculates non-verbal estimation feature parameters of the laughter of the input unknown input voice (S702).
  • the high-frequency power sustained frame number calculation unit 116 calculates the high-frequency power obtained by the spectrum non-verbal estimation feature value calculation unit 114 when the high-frequency power is higher than a predetermined threshold ⁇ . Assuming that the high-frequency power is high, the number of high-frequency power sustained frames N hp is incremented. When the high-frequency power falls below the threshold ⁇ , the number of high-frequency power sustained frames N hp is calculated as " Clear to "0". That is, the number of frames where the high-frequency power is high is counted (S703).
  • the non-verbal speech estimating unit 112 compares the non-verbal estimation feature parameter with the non-verbal acoustic model, and calculates the value of the non-verbal estimation function indicating laughteriness. In other words, a non-verbal collation score is calculated from the non-verbal feature parameter for laughter non-verbal estimation and the non-verbal model. It is calculated (S704). The method is described in detail below.
  • matching with the non-verbal acoustic model stored in the non-verbal acoustic model storage unit 115 is performed for each frame.
  • the non-verbal acoustic model is learned from a lot of laughter voice data in advance and stored in the non-verbal acoustic model storage unit 115.
  • feature parameters of the non-verbal acoustic model feature parameters different from those of the word acoustic model, such as pitch frequency, whole-range speech, high-frequency power, and low-frequency, are used.
  • the same feature parameters (MFCC) as in the word acoustic model may be used, or both may be used in combination.
  • parameters such as maximum power, minimum power, difference between maximum power and minimum power, minimum pitch frequency, maximum pitch frequency, and difference between maximum pitch frequency and minimum pitch frequency in the past N frames are used. You may.
  • a feature parameter vector is constructed from feature parameters of the frame or a plurality of frames including the frame, and is used as a feature parameter vector for non-verbal estimation for matching with a non-verbal acoustic model.
  • non-verbal acoustic model a hidden Markov model (HMM), a Gaussian unmixed model (GMM), a Bayesian network (BN), a graphical model (GM), a neural network (NN), and the like can be used.
  • a GMM is used.
  • the score for laughter in the input frame t obtained by matching with the nonverbal acoustic model is defined as a nonverbal matching score s (t).
  • the nonverbal collation score S (t) shall have a larger value as it resembles laughter, and may have a positive number, "0", or a negative number.
  • the nonverbal speech estimation function for laughter R (t) Is expressed as in equation (5).
  • ⁇ , R min, and R max are constants and are set to values that will increase the recognition rate in recognition experiments.
  • step S705 to step S716 is the same as that from step S203 to step S214 in the first embodiment, and a description thereof will not be repeated.
  • the garbage acoustic score of the laughter portion is increased instead of uniformly increasing the garbage acoustic score. This allows unknown input speech to be correctly recognized.
  • the word acoustic model may be a combination of phoneme, syllable, and acoustic models in subword units of CV and VC, as in the first embodiment.
  • the garbage acoustic model is not limited to unnecessary words such as “Eichito” and “Puichi j”.
  • learning including non-verbal voices including laughter, coughing and sudden pronunciation will further improve recognition accuracy.
  • the laughter estimation function is determined using both the collation score with the nonverbal acoustic model and the number of high-frequency power sustained frames, but only one of them may be used.
  • a laughter is targeted as a non-verbal voice, but a voice including a cough can be recognized in the same manner even when a cough is targeted.
  • FIG. 8 is a block diagram showing a functional configuration of the speech recognition device according to the third embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a state in which the user is inputting mail by voice toward.
  • a case will be described as an example where a camera-equipped mobile phone detects a laughter or a cough by inputting a camera image and corrects a garbage acoustic score for voice recognition.
  • the same reference numerals are given to the components corresponding to those of the speech recognition device 1 of the first embodiment, and description thereof will be omitted.
  • the speech recognition device 3 is a computer device such as a mobile phone that composes an e-mail by using speech recognition.
  • a feature amount calculation unit 101 a network dictionary storage unit 1 02, route calculation unit 103, route candidate storage unit 104, recognition result output unit 105, language model storage unit 106, language score calculation unit 107, word acoustic model storage unit 10 8.
  • a nonverbal phenomena estimation unit 117 used in place of the nonverbal speech estimation unit 112 is further provided.
  • each unit constituting the speech recognition device 3 has a CPU, a ROM for storing programs executed by the CPU, and a work area when executing the programs, except for the storage unit.
  • This is realized by a memory or the like that provides or temporarily stores acoustic data of a PCM signal corresponding to the input unknown input voice.
  • the nonverbal phenomena estimating unit 117 detects a laughing face by inputting the power camera image information that captures the user's face in real time, and generates a nonverbal phenomena estimating function R (t) that indicates “laughingness”. calculate. Any existing method for detecting a laughing face may be used. The larger the nonverbal phenomena estimation function R (t), the more “the laughing j is shown.
  • laughter is detected by extracting edge information indicating the contours of individual organs such as eyes, nose, and mouth from a face image input with a force sensor, and using the shape and positional relationship as feature parameters and comparing it with a laughing face model. I do.
  • a coughing image may be detected instead of a laughing face, and the non-verbal phenomenon estimation function indicating “coughness j” may be used.
  • the non-verbal phenomena estimation function R (t) can use the equations (2) to (5) as in the first and second embodiments.
  • a new non-verbal phenomena estimation function can be obtained by using a weighted sum of a non-verbal speech estimation function using speech and a non-verbal phenomenon estimation function using images. Good.
  • a biological information sensor such as an electroencephalogram, blood pressure, heart rate, sweating, and face temperature may be used to input these biological information.
  • a non-verbal phenomena estimation function R (t) that indicates ⁇ likeliness of laughing '' by comparing the time-series pattern of brain waves input by an electroencephalograph with a laughing EEG model representing a laughing state. Can be calculated.
  • the speech recognition device 3 In addition to the EEG, not only brain waves but also the voltage time series pattern from the piezoelectric sensor of the sphygmomanometer, which indicates blood pressure and heart rate, and the current time series from the humidity sensor and the temperature sensor, which indicate the amount of sweating and face temperature By combining patterns, etc., more advanced nonverbal phenomena can be estimated.
  • the speech recognition device 3 is directed to a mobile phone, it may be a personal computer, a power navigation system, a television, or other home appliances.
  • a face image in the e-mail input of a camera-equipped mobile phone, a face image can be used to accurately detect a laughing face in synchronization with a laughing voice even in a place with a lot of noise, and a garbage acoustic score can be obtained. Since the value can be corrected to a high value, the speech recognition performance can be improved. Also, in the case of coughing, speech recognition performance can be improved as in the case of laughter.
  • FIG. 10 is a block diagram showing a functional configuration of a speech recognition apparatus 4 according to Embodiment 4 of the present invention
  • FIG. FIG. 9 is a diagram showing a state in which the text of a mail with text is actually displayed on a screen 901 of the mobile phone.
  • speech recognition when speech recognition is used as an interface for character input of a mobile phone, non-verbal speech estimation for laughter or cough is performed when laughing or coughing during speech recognition. If the function exceeds a predetermined threshold, a face character corresponding to the type of non-language is displayed at the end of the sentence or at the end of the sentence Is what you do.
  • a smiley emoticon is ⁇ o8) j
  • a coughing emoticon is “ P (> ⁇ ⁇ ) j.
  • the speech recognition device 4 is a computer device such as a mobile phone that creates an e-mail by using speech recognition.
  • a feature amount calculation unit 101 and a network dictionary storage unit 1 are provided.
  • a non-language compatible character input unit 118 is further provided.
  • the components constituting the speech recognition device 4 are similar to the speech recognition device 2 except for a storage unit, a CPU, a ROM for storing a program executed by the CPU, and a work area for executing the program.
  • a storage unit a CPU, a ROM for storing a program executed by the CPU, and a work area for executing the program.
  • This is realized by a memory or the like that provides or temporarily stores acoustic data of a PCM signal corresponding to the input unknown input voice.
  • the non-language-compatible character input unit 118 includes emoticons and characters (ideographic characters) that correspond to non-verbal sounds such as laughter and cough, and the non-verbal sound estimation unit 112 outputs the non-verbal sound.
  • a face character corresponding to the type of the non-language is inserted at the position in the sentence or at the end of the sentence.
  • the sentence in which the emoticon as shown in Fig. 11 is inserted in the recognition result output by 5 is displayed. It should be noted that face characters can be displayed as characters. For example, if the user laughs, If r (laugh) J is inserted and the user coughs out, ⁇ (cough) J can also be inserted.
  • the type of characters and face characters to be displayed by the non-verbal phenomenon can be set in advance by the user himself. Whether or not insertion is required can be set.
  • the non-verbal speech estimation function R (t) When the value of the non-verbal speech estimation function R (t) is small, it is regarded as a smiley face, and when the value of the non-verbal speech estimation function R (t) is large, the subject smiles. It can also be an emoticon. In addition, characters and emoticons to be displayed due to non-verbal phenomena can be changed depending on the number of sustained frames of frames where the value of the non-verbal voice estimation function is equal to or greater than a predetermined threshold.
  • the emoticon ⁇ (to o) ” can be displayed when smiling, and the emoticon ⁇ ( ⁇ ⁇ ⁇ )” can be displayed when laughing.
  • the user can set the display position to be in the sentence where the non-verbal phenomenon appears or at the end of the sentence.
  • the garbage acoustic score may not be modified, and only the character corresponding to the type of non-language detected by the non-verbal speech estimation function R (t) may be displayed.
  • a non-verbal sound estimation function is estimated by comparing with a non-verbal acoustic model such as "anger j,""joy,” or "question j," and the value of the non-verbal voice estimation function is equal to or greater than a predetermined threshold.
  • it is also possible to display a character corresponding to the non-verbal phenomenon and further, as shown in the voice recognition device 3 of the third embodiment, the non-language calculated by using the camera image and the biological information together. More accurate display can be achieved by using the language phenomenon estimation function R (t), and a non-language-compatible sentence is added to the speech recognition device 1 of the first embodiment.
  • the speech recognition device 4 may be configured by adding a character insertion unit 118.
  • characters and emoticons other than the above can also be displayed as characters and emoticons that display non-linguistic phenomena.
  • FIG. 12 is a block diagram showing a functional configuration of a speech recognition device according to Embodiment 5 of the present invention.
  • the agent when stuttering, laughter, and coughing are detected in the dialogue with the agent on the personal computer, the agent performs a response corresponding to the type of the non-language. Also, components corresponding to those of the speech recognition apparatus 2 according to the second embodiment are given the same numbers, and descriptions thereof are omitted.
  • the voice recognition device 5 is a computer device such as a personal computer having a voice recognition function, and as shown in FIG. 12, a feature amount calculation unit 101, a network dictionary storage unit 102, a route calculation unit. 103, route candidate storage unit 104, recognition result output unit 105, language model storage unit 106, language score calculation unit 107, word acoustic model storage unit 108, word acoustic score calculation unit 1 0 9, mo —Page acoustic model storage unit 110, garbage acoustic score calculation unit 111, non-verbal speech estimation unit 112, garbage acoustic score correction unit 113, non-language estimation feature amount calculation unit 111 4.
  • an age control unit 119 is further provided.
  • each unit constituting the speech recognition device 5 has a CPU, a ROM for storing programs to be executed by the CPU, and a work area when executing the programs, except for the storage unit.
  • This is realized by a memory or the like that provides or temporarily stores acoustic data of a PCM signal corresponding to the input unknown input voice.
  • the agent control unit 119 includes an image of the agent displayed on the screen and data of a synthetic sound spoken by the agent, and includes a recognition result obtained from the recognition result output unit 105 and a non-verbal voice estimation.
  • age:! It changes the movement and expression of the unit, displays it on the screen, and outputs the sentence of the synthesized speech corresponding to the agent.
  • e-gent will output a synthetic voice saying "Do not be nervous! J" and perform an action that encourages relaxation, such as waving the hand of the agent. If a laughter is detected, the agent laughs together and outputs a synthesized voice saying “That strange?” If a coughing is detected, an anxious face Then, a synthesized voice is output as "Do you catch a cold?"
  • the dialogue with the agent on the personal computer is performed.
  • the same display can be performed not only on the personal computer but also on other electronic devices such as a television and a mobile phone.
  • the agent can execute the same operation by using the result of detecting a laughing face from the image of the mobile phone.
  • the speech recognition device 5 may be configured by adding an agent control unit 119 to the speech recognition device 1 of the first embodiment.
  • the fifth embodiment has been described using the non-verbal speech estimation function, a similar effect can be obtained by using at least one of the non-verbal phenomenon estimation function and the non-verbal speech estimation function. .
  • FIG. 13 is a block diagram showing a functional configuration of a speech recognition device according to Embodiment 6 of the present invention.
  • the user previously determines the value of the correction parameter w used in the garbage acoustic score correction unit 113 in Expression (4).
  • a non-language part is likely to be inserted as a speech recognition result, and if the value of w is reduced, a non-language part is difficult to be inserted.
  • a user who easily utters stuttering has a higher correction level and has higher performance and is easier to use.
  • a user who does not utter stutterer has a lower correction degree and has higher performance and is easier to use.
  • the speech recognition device 6 is a computer device having a speech recognition function. As shown in FIG. 13, a feature amount calculation unit 101, a network dictionary storage unit 102, a route calculation unit 103, Route candidate storage unit 104, recognition result output unit 105, language model storage unit 106, language score calculation unit 107, word acoustic model storage unit 108, word acoustic score calculation unit 109, Garbage acoustic model storage unit 110, garbage acoustic score calculation unit 111, non-verbal sound estimation unit 112, garbage acoustic score correction unit 113, non-verbal estimation feature amount calculation unit 114
  • a correction parameter selection change unit 120 is further provided.
  • each unit constituting the voice recognition device 6 has a CPU, a ROM for storing a program executed by the CPU, and a work area when executing the program, except for the storage unit.
  • This is realized by a memory or the like that provides or temporarily stores acoustic data of a PCM signal corresponding to the input unknown input voice.
  • the correction parameter selection change section 120 has buttons for increasing the degree of correction, buttons for reducing the degree of correction, and buttons for not correcting at all. Three are displayed, and the value of the parameter w of the equation (4) used by the garbage acoustic score correction unit 113 is changed based on the user's selection. First, the correction parameter selection / change unit 120 displays a correction parameter button on the screen in an initial setting or the like, and allows the user to select a correction degree according to his / her preference.
  • the correction parameter selection changing unit 120 changes the value of the correction parameter w of the equation (4) used in the garbage acoustic score correction unit 113 based on the selection of the user.
  • the insertion frequency of the non-language part of the recognition result can be set according to the user's preference.
  • correction parameter selection / change unit 120 may display a slide bar instead of a button so that the user can specify an arbitrary value.
  • the screen is small and a pointing device such as a mobile phone is used. If it is difficult to use, you can assign it to a numeric button or function key.
  • the garbage score since the value of the garbage score fluctuates depending on the quality of the voice of the user and the way of speaking, the garbage score is actually spoken so that the user recognizes the speech including the non-language part with the most accurate way of speaking. May be set.
  • N s and Ne in Equation (1), ⁇ in Equations (2), (3), and (5) ⁇ , ⁇ , R mi ⁇ , and R max can be set by the user.
  • the parameter may be corrected by adding a correction parameter selection changing unit 120 to the voice recognition device 1, the voice recognition device 3, the voice recognition device 4, and the voice recognition device 5.
  • the present invention can be easily implemented by another independent computer system by realizing the present invention by a program, recording the program on a recording medium such as a flexible disk, and transferring the recording medium.
  • a program including an optical disc, an IC card, and a ROM cassette is recorded as a recording medium, the present invention can be similarly executed in any case.
  • the speech recognition device and the speech recognition method according to the present invention are capable of correctly recognizing an unknown input speech including non-verbal parts such as stuttering, laughter, coughing, etc. It is useful as a voice recognition device and a voice recognition method that performs continuous word recognition that allows unnecessary words, and is useful as a TV with voice recognition function, home appliances such as microwave ovens, and mobile phones. It can be applied to portable information terminals and computer devices such as bath computers.

Abstract

音声認識装置(1)は、不要語の集合から学習した音響モデルであるガーベージ音響モデルを予め格納するガーベージ音響モデル格納部(110)と、音響解析の単位であるフレーム毎に、非言語音声を含む未知入力音声を音響分析し、認識に必要な特徴パラメータを算出する特徴量算出部(101)と、フレーム毎に、特徴パラメータとガーベージ音響モデルとを照合し、ガーベージ音響スコアを計算するガーベージ音響スコア計算部(111)と、ガーベージ音響スコア計算部(111)が算出したガーベージ音響スコアを、非言語音声が入力されたフレームについて、上昇させるように修正するガーベージ音響スコア修正部(113)と、言語スコアと、単語音響スコアと、ガーベージ音響スコア修正手段が修正したガーベージ音響スコアとの累積スコアの最も高い単語列を、未知入力音声の認識結果として出力する認識結果出力部(105)とを備える。

Description

明 細 書 音声認識装置及び音声認識方法 技術分野
本発明は、 意味的に区別する必要のない不要語を許容し、 連続単語音 声認識を行う音声認識装置及び音声認識方法に関する。 背景技術
従来から、 予め不要語の集合から学習した音響モデルであるガ一ベー ジ音響モデルを用いて、 意味的に区別する必要のない不要語に対応した 単語音声認識装置がある (例えば、 井ノ上直己、 他 2名、 「ガーベジ H MMを用いた自由発話文中の不要語処理手法」 、 電子情報通信学会論文 誌 A、 V o l . J 7 7 — A、 N o . 2、 p p . 2 1 5— 2 2 2、 1 9 9 4年 2月 参照) 。
図 1 は、 従来の音声認識装置の構成を示す図である。
図 1 に示されるように、 音声認識装置は、 特徴量算出部 1 2 0 1 、 ネ ッ 卜ワーク辞書格納部 1 2 0 2、 経路計算部 1 2 0 3、 経路候補格納部 1 2 0 4、 認識結果出力部 1 2 0 5、 言語モデル格納部 1 2 0 6、 言語 スコア計算部 1 2 0 7、 単語音響モデル格納部 1 2 0 8、 単語音響スコ ァ計算部 1 2 0 9、 ガーベージ音響モデル格納部 1 2 1 0及びガーべ一 ジ音響スコア計算部 1 2 1 1 からなる。
特徴量算出部 1 2 0 1 は、 入力された未知入力音声を音響分析し、 認 識に必要な特徴パラメータを算出する。 ネッ トワーク辞書格納部 1 2 0 2は、 音声認識装置で受理できる単語列を記述したネッ トワーク辞書を 格納する。 経路計算部 1 2 0 3は、 そのネッ トワーク辞書の記述を用い て、 未知入力音声の最適な単語系列を求めるための経路の累積スコア計 算を行う。 経路候補格納部 1 2 0 4は、 その経路候補の情報を格納する 。 認識結果出力部 1 2 0 5は、 最終的に最もスコァの高かつた単語系列 を認識結果と して出力する。
また、 言語モデル格納部 1 2 0 6は、 単語の出現する確率を予め統計 的に学習した言語モデルを予め格納する。 言語スコア計算部 1 2 0 7は 、 1 つ前の単語から連鎖する単語の出現確率である言語スコアを計算す る。 単語音響モデル格納部 1 2 0 8は、 認識対象語彙に対応する単語の 音響モデルである単語音響モデルを予め格納する。 単語音響スコア計算 部 1 2 0 9は、 特徴パラメータと単語音響モデルとを照合し、 単語音響 スコアを計算する。
また、 ガーベージ音響モデル格納部 1 2 1 0は、 「え一と」 や、 「う —ん J などのように意味的に区別する必要のない不要語の集合から学習 した音響モデルであるガーベージ音響モデルを予め格納する。 ガーべ一 ジ音響スコア計算部 1 2 1 1 は、 特徴パラメータとガーベージ音響モデ ルとを照合し、 不要語であるガーベージモデルの生起確率であるガーべ ージ音響スコアを計算する。
次いで、 従来の音声認識装置の各部が行う動作を説明する。
まず、 ユーザが発声した未知入力音声が、 特徴量算出部 1 2 0 1 に入 力され、 特徴量算出部 1 2 0 1 が、 音響分析の時間的単位であるフ レー ム毎に音響分析し、 特徴パラメータを算出する。 なお、 ここではフ レー ム長は 1 O m s とする。
次に、 経路計算部 1 2 0 3が、 ネッ トワーク辞書格納部 1 2 0 2に格 納されている受理できる単語接続を記述したネッ トワーク辞書を参照し 、 当該フ レームまでの経路候補の累積スコア計算を行い、 経路候補情報 を経路候補格納部 1 2 0 4に登録する。 図 2は、 入力音声が 「それは、 だ、 だれ」 である場合の、 経路候補を 表す図である。 特に、 図 2 ( a ) は、 入力音声を示し、 単語の区切れ位 置を表示している。 また、 図 2 ( b ) は、 入力フ レームが t — 1 のとき の経路候補を示している。 また、 図 2 ( c ) は、 入力フレームが t のと きの経路候補を示している。 なお、 横軸は、 フ レームを示している。 こ こで、 「だれ」 の吃音である不要語 「だ」 は、 ガーベージモデルと して 認識される。 また、 ガーベージモデルは、 1 つの単語と同様に経路が与 えられる。
ここで、 経路 5 1 1 , 5 1 2 , 5 1 3 , 5 2は、 単語途中までの最適 経路以外の経路であり、 経路 5 2 1 , 5 2 2は、 単語終端まで達した最 適経路であリ、 経路 5 3 1 , 5 3 2は、 単語終端まで達した最適経路以 外の経路であり、 経路 5 4は、 単語途中までの最適経路である。
また、 経路計算部 1 2 0 3では、 1 つ前のフレームにおける経路候補 から経路を伸張し、 各経路に対する累積スコアを計算する。
図 2 ( b ) は、 当該フレーム t の 1 つ前のフレームである第 t — 1 フ レームにおける経路候補を示しており、 この経路候補情報は、 経路候補 格納部 1 2 0 4に格納されている。 そして、 これらの経路候補から、 当 該フ レーム t に示すように、 図 2 ( c ) のように経路を伸張する。 前フ レームの経路候補にある単語がさらに伸長する経路と、 単語が終端し、 新たにその単語に接続可能な単語が始まる経路がある。 ここで、 接続可 能な単語は、 ネッ 卜ワーク辞書で記述されている単語である。
図 2 ( b ) では、 フレーム t — 1 において、 単語途中までの最適経路 以外の経路 5 1 1 の単語 「綿」 と、 単語終端まで達した最適経路 5 2 1 の単語 「綿 j とがあり、 フ レーム t である図 2 ( c ) では、 単語途中ま での最適経路以外の経路 5 1 1 の単語 「綿」 はさらに伸長され、 単語終 端まで達した最適経路 5 2 1 の単語 「綿」 には、 単語途中までの最適経 路 5 4の単語 「種」 と、 単語途中までの最適経路以外の経路 5 1 2の単 語 「菓子」 が接続されている。
次に、 伸張した経路候補それぞれに対して言語スコアと音響スコアを 計算する。
言語スコアは、 言語スコア計算部 1 2 0 7が、 言語モデル格納部 1 2 0 6に格納されている言語モデルを用いて求める。 言語スコアと して、 1 つ前の単語から連鎖する単語の確率であるバイグラム確率の対数値を 用いる。 ここで、 単語終端まで達した最適経路 5 2 2 「それ」 の後に Γ 綿」 が接続する経路では、 「それ j の後に 「綿」 が出現する確率を用い る。 これを与えるタイミングは単語に付き 1 回でよい。
音響スコアは、 当該フレームの入力特徴パラメータべク トルに対し、 当該経路候補が単語であれば、 単語音響スコア計算部 1 2 0 9が、 単語 音響モデル格納部 1 2 0 8に格納されている単語音響モデルを用いて計 算し、 当該経路候補が不要語であるガーベージモデルであれば、 ガーべ ージ音響スコア計算部 1 2 1 1 が、 ガーベージ音響モデル格納部 1 2 1 0に格納されているガーベージ音響モデルを用いて計算する。
例えば、 図 2 ( b ) においては、 フレーム t一 1 における音響スコア を求める経路は、 4経路が該当し、 単語音響モデルを用いる経路は、 経 路 5 2 2 「それ」 に接続した経路 5 1 1 「綿」 、 経路 5 2 2 「それ」 に 接続した経路 5 2 1 「綿」 及び経路 5 3 1 「は」 に接続した経路 5 1 3 「だれ」 であり、 ガーベージ音響モデルを用いる経路は、 経路 5 3 1 Γ は」 に接続した経路 5 3 2 「ガーベージモデル」 である。
音響モデルと しては一般に、 音響的特徴を確率的にモデル化した隠れ マルコフモデル (H M M ) などが用いられる。 単語の音響的特徴を表し た H M Mを、 単語音響モデルと呼び、 「え一と」 や、 「う一ん」 などの 意味的に区別する必要のない不要語の音響的特徴をまとめて 1 つのモデ ルで表した H M Mを、 ガーベージ音響モデルと呼ぷ。 単語音響スコア及 びガーベージ音響スコアは、 H M Mから得られる確率の対数値であり、 単語及びガーベージモデルの生起確率を示す。
このようにして得られた言語スコァと音響スコァとを足しあわせて照 合スコアとし、 V i t e r b i アルゴリズムによって各経路の累積スコ ァを求める (例えば、 中川聖一著、 「確率モデルによる音声認識」 電子 情報通信学会編、 P P . 4 4— 4 6、 1 9 8 8年初版発行 参照) 。 ただし、 単純に伸張した経路候補を全て記録することは、 計算量とメ モリ容量との膨大な増加を招くため、 好ましくない。 そこで、 フ レーム 毎に累積スコアの高い順に K個 (Kは自然数) のみを残すビームサーチ を用いる。 この当該フ レームにおける K個の経路候補の情報を経路候補 格納部 1 2 0 4へ登録する。
以上の処理を、 入力フ レームを 1 フ レーム進めながら繰り返し行う。 最後に、 全フ レームの処理が終了後、 認識結果出力部 1 2 0 5が、 最 終フレームにおいて、 経路候補格納部 1 2 0 4に格納されている経路候 補の中から最も累積スコアの高い経路候補の単語列を、 認識結果として 出力する。
しかしながら、 上記従来例では、 吃音などの非言語音声と音響的に類 似した単語系列が認識対象語彙に存在すれば、 認識を誤るという問題点 力《ある。 ,
ここで、 吃音とは、 話し言葉を発する時、 第一音や途中の音が詰まつ たり、 同じ音を何度も繰り返したり、 音を引き伸ばしたり して、 流暢に 話すことができない発声である。
また、 図 2 ( c ) において、 それぞれの単語の上部にカツコ内で表記 した数値が、 単語毎の照合スコアである。
図 2 ( c ) において、 未知入力音声の吃音部分 「だ j の区間がガーべ ージモデルを通り、 その後に 「だれ」 が続く経路 5 2が時亥 I t において 最適経路となるのが正解であるが、 「それ J + 「綿」 の場合には、 7 + 1 0 = 1 7点、 「それ」 + 「綿」 + 「種 j の場合には、 7 + 9 + 2 = 1 8点、 「それ」 + 「綿」 + 「菓子」 の場合には、 7 + 9 + 1 = 1 7点、 「それ j + Γは j + Γだれ j の場合には、 7 + 5 + 4 = 1 6点、 「それ J + 「は j +ガーベージモデル + 「だれ」 の場合には 7 + 5 + 2 + 1 = 1 5点となるため、 「それ」 + 「綿」 + 「種」 が当該フ レームにおける 最高スコアとなる。
この原因は、 ガーベージ音響モデルが、 吃音を含む不要語と して考え られる全ての音響データから学習するため、 分布が非常に広いものにな リ、 不要語発声、 即ち非言語音声に対して高い音響スコアが得られない ためである。
これを解決する方法と して、 ガーベージ音響スコアを一律に底上げす る方法が考えられるが、 そのような方法では、 本来、 最適経路が不要語 ではないフレームにおいても、 ガーベージ音響スコアの値が大きくなつ てしまうため、 誤認識の原因となる。
本発明は、 不要語、 特に、 吃音などの非言語音声を含む未知入力音声 であっても、 正しく認識することができる音声認識装置を提供すること を目的とする。
'
発明の開示
上記目的を達成するために、 本発明に係る音声認識装置においては、 言語スコアと、 単語音響スコアと、 ガーベージ音響スコアとの累積スコ ァを経路毎に計算し、 累積スコアの最も高い単語列を、 非言語音声を含 む未知入力音声の認識結果と して出力する音声認識装置であって、 不要 語の集合から学習した音響モデルであるガーベージ音響モデルを予め格 納するガーベージ音響モデル格納手段と、 音響解析の単位であるフ レー ム毎に、 前記未知入力音声を音響分析し、 認識に必要な特徴パラメータ を算出する特徴量算出手段と、 前記フ レーム毎に、 前記特徴パラメータ と前記ガーベージ音響モデルとを照合し、 前記ガーベージ音響スコア 計算するガーベージ音響スコア計算手段と、 前記ガーベージ音響スコア 計算手段が算出したガーベージ音響スコアを、 前記非言語音声が入力さ れたフ レームについて、 上昇させるように修正するガーベージ音響スコ ァ修正手段と、 前記言語スコアと、 前記単語音響スコアと、 前記ガーべ —ジ音響スコア修正手段が修正したガーベージ音響スコアとの累積スコ ァの最も高い単語列を、 前記未知入力音声の認識結果と して出力する認 識結果出力手段とを備えることを特徴とする。
これにより、 非言語音声に対応するガーベージ音響スコアだけを上昇 させることができ、 未知入力音声を正しく認識することができる。 また、 本発明に係る音声認識装置においては、'前記音声認識装置は、 さらに前記フ レーム毎に、 前記非言語音声の非言語らしさの度合いを示 す推定値を、 非言語音声推定関数を用いて算出する非言語音声推定手段 を備え、 前記ガーベージ音響スコア修正手段は、 前記非言語音声推定手 段が算出した非言語音声が入力されたフレームにおける推定値を用いて 、 ガーベージ音響スコアを上昇させるように修正することを特徴とする ことができる。
これにより、 非言語音声推定手段で非言語音声を推定し、 非言語音声 に相当するガーベージ音響スコアを上昇させることにより、 未知入力音 声を精度よく認識することができる。
また、 本発明に係る音声認識装置においては、 前記非言語音声推定手 段は、 前記特徴量算出手段が算出したフ レーム毎の特徴パラメータに基 づいて、 前記未知入力音声のスぺク トルが繰り返しパターンとなる部分 において値の大きい推定値を算出することを特徴とすることもできる。 これにより、 未知入力音声のスぺク トルの繰り返しパターンを検出す ることで、 吃音などの非言語音声をガーベージモデルと して精度よく推 定することができる。
また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記フ レーム毎に、 前記非言語音声を推定するために必要な非言 語推定用特徴パラメータを算出する非言語推定用特徴量算出手段と、 非 言語の特徴をモデル化した音響モデルである非言語音響モデルを予め格 納する非言語音響モデル格納手段とを備え、 前記非言語音声推定手段は 、 前記フ レーム毎に、 前記非言語推定用特徴パラメータと前記非言語音 響モデルとを照合することにより非言語照合スコアを前記推定値として 計算することを特徴とすることができる。
これによリ、 音声を認識するための特徴パラメ一タとは異なる非言語 音声を推定するために必要な特徴パラメータを用いて非言語音響モデル と照合を行うことにより、 非言語音声を精度よく推定することができる ので、 非言語音声に相当するガーベージ音響スコアを上昇させ、 未知入 力音声を正しく認識することができる。
また、 本発明に係る音声認識装置においては、 前記音 認識装置は、 さらに前記非言語推定用特徴量算出手段が計算した前記非言語推定用特 徴パラメータに基づいて、 高域パワー持続フ レーム数を算出する高域パ ヮー持続フ レーム数計算手段を備え、 前記非言語音声推定手段は、 前記 非言語推定用特徴パラメータと前記非言語音響モデルとを照合した非言 語照合スコアを算出し、 前記非言語照合スコアと前記高域パワー持続フ レーム数とから非言語らしさを示す推定値を算出することを特徴として もよい。
これにより、 音声を認識するための特徴パラメータとは異なる非言語 音声を推定するために必要な特徴パラメータを用いて非言語音響モデル との照合スコア及び高域パワーが持続するフ レーム数を用いて非言語音 声を推定することができ、 非言語音声に相当するガーベージ音響スコア を上昇させ、 未知入力音声を正しく認識することができる。
また、 本発明に係る音声認識装置においては、 前記高域パワー持続フ レーム数計算手段は、 前記非言語推定用特徴量算出手段で得られた高域 パワーが、 予め定めた閾値より高い場合に、 高域パワーの高いフ レーム とみなすことを特徴とすることもできる。
これにより、 高域パワー持続フ レーム数の算出を容易に行うことがで さる。
また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記非言語音声推定手段が推定した推定値に基づいて、 前記非言 語音声に対応する表意文字及び顔文字の少なく とも一方を選択し、 選択 した表意文字及ぴ顏文字の少なく とも一方を前記認識結果出力手段の認 識結果に挿入する非言語対応文字挿入手段を備えることを特徴とするこ ともできる。
これにより、 認識性能を向上させるだけではなく、 推定値を用いてそ の非言語音声を表すような表意文字又は顏文字を自動的に挿入してメー ルを作成するようなことができる。
また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記非言語音声推定手段が推定した推定値及び前記認識結果出力 手段の認識結果に基づいて、 表示されるエージ Iン トの動作及び当該ェ —ジ; πントが話す合成音を制御するエージェン ト制御手段を備えること を特徴とすることもできる。
これにより、 認識結果と推定値とを用いることにより、 非言語音声に 応じてエージェン トの動き及び話による応答を変えることができる。 また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに非言語音声に連動したユーザの情報に基づいて、 当該非言語音声 に関連する非言語現象の推定値を算出する非言語現象推定手段を備え、 前記ガーベージ音響スコア修正手段は、 前記非言語現象推定手段が算出 した非言語現象が入力されたフレームにおける推定値を用いて、 ガーべ ージ音響スコアを上昇させるように修正することを特徴とすることがで さる。
これにより、 非言語現象推定手段で非言語現象を推定し、 非言語現象 に応じてガーベージ音響スコアを上昇させることにより、 未知入力音声 を精度よく認識することができる。
また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記非言語現象推定手段が推定した推定値に基づいて、 前記非言 語に対応する表意文字及ぴ顏文字の少なく とも一方を選択し、 選択した 表意文字及び顔文字の少なく とも一方を前記認識結果出力手段の認識結 果に揷入する非言語対応文字挿入手段を備えることを特徴とすることも できる。
これにより、 認識性能を向上させるだけではなく、 推定値を用いてそ の非言語を表すような表意文字や、 顔文字を自動的に挿入してメールを 作成するようなことができる。
また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記非言語現象推定手段が推定した推定値及び前記認識結果出力 手段の認識結果に基づいて、 表示されるエージェントの動作及び当該ェ 一ジェン 卜が話す合成音を制御するエージェン ト制御手段を備えること を特徴とすることもできる。
これにより、 認識結果と推定値とを用いることにより、 非言語現象に 応じてエージェン トの動き及び話による応答を変えることができる。 また、 本発明に係る音声認識装置においては、 前記音声認識装置は、 さらに前記ガーベージ音響スコア修正手段におけるガーベージ音響スコ ァを修正する度合いを決めるための修正パラメータの値をユーザに選択 させ、 選択された修正パラメータの値に変更するための修正パラメータ 選択変更手段を備え、 前記ガーベージ音響スコア修正手段は、 前記修正 パラメータに基づいて、 前記ガーベージ音響スコアを修正することを特 徴と してもよい。
これにより、 ユーザに修正パラメータを選択させることで、 非言語の 挿入され易さの状況に応じて自由に設定できる。
以上の説明から明らかなように、 本発明に係る音声認識装置によれば 、 吃音、 笑い声、 咳払い等の非言語部分を含む未知入力音声であっても 正しく音声認識することができる。
よって、 本発明により、 非言語部分を含む未知入力音声であっても正 しく音声認識することができ、 音声認識機能を有する家電機器や、 携帯 電話機等が普及してきた今日における本願発明の実用的価値は極めて高 い。
なお、 本発明は、 このような音声認識装置と して実現することができ るだけでなく、 このような音声認識装置が備える特徴的な手段をステツ プとする音声認識方法と して実現したり、 それらのステップをコンビュ ータに実行させるプログラムとして実現したりすることもできる。 そし て、 そのようなプログラムは、 C D— R O M等の記録媒体やインタ一ネ ッ ト等の伝送媒体を介して配信することができるのは言うまでもない。 図面の簡単な説明
図 1 は、 従来の音声認識装置の構成を示す図である。
図 2は、 入力音声が 「それは、 だ、 だれ」 である場合の、 経路候補を 表す図である。
図 3は、 発明の実施の形態 1 に係る音声認識装置の機能構成を示す プロック図である。
図 4は、 音声認識装置 1 の各部が実行する処理を示すフローチャート である。
図 5は、 未知入力音声が 「それは、 だ、 だれ」 である場合の、 非言語 音声推定関数及び経路候補を表す図である。
図 6は、 本発明の実施の形態 2に係る音声認識装置の機能構成を示す ブロック図である。
図 7は、 音声認識装置 2の各部が実行する処理を示すフローチャート である。
図 8は、 本発明の実施の形態 3に係る音声認識装置の機能構成を示す ブロック図である。
図 9は、 カメラ付き携帯電話機に向かって、 ユーザが音声でメール入 力をしている場合の様子を表す図である。
図 1 0は、 本発明の実施の形態 4に係る音声認識装置 4の機能構成を 示すブロック図である。
図 1 1 は、 顔文字付きのメール本文を携帯電話機の画面 9 0 1 に実際 に表示した状態を示す図である。
図 1 2は、 本発明の実施の形態 5に係る音声認識装置の機能構成を示 すブロック図である。
図 1 3は、 本発明の実施の形態 6に係る音声認識装置の機能構成を示 すブロック図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態に係る音声認識装置について、 図面を用い て説明する。
(実施の形態 1 )
図 3は、 本発明の実施の形態 1 に係る音声認識装置の機能構成を示す ブロック図である。 なお、 本実施の形態 1 では、 非言語の推定の対象が 吃音である場合を例にして説明する。
音声認識装置 1 は、 音声認識を用いてテレビの操作を行うようなコン ピュータ装置であって、 図 3に示されるように、 特徴量算出部 1 0 1 と 、 ネッ トワーク辞書格納部 1 0 2と、 経路計算部 1 0 3と、 経路候補格 納部 1 0 4と、 認識結果出力部 1 0 5と、 言語モデル格納部 1 0 6と、 言語スコア計算部 1 0 7 と、 単語音響モデル格納部 1 0 8 と、 単語音響 スコア計算部 1 0 9 と、 ガーベージ音響モデル格納部 1 1 0と、 ガーべ ージ音響スコア計算部 1 1 1 と、 非言語音声推定部 1 1 2と、 ガーべ一 ジ音響スコア修正部 1 1 3等とを備える。
なお、 このような音声認識装置 1 を構成する各部は、 格納部を除き、 C P U , C P Uによって実行されるプログラムを格納する R O M、 プロ グラム実行の際にワークエリアを提供したり、 入力された未知入力音声 に対応する P C M信号の音響データ等を一時的に格納するメモリ等によ リ実現される。
特徴量算出部 1 0 1 は、 入力された未知入力音声を音響分析し、 認識 に必要な特徴パラメータを算出する。 ネッ トワーク辞書格納部 1 0 2は 、 この音声認識装置 1 で受理できる単語列を記述したネッ トワーク辞書 を格納する。 経路計算部 1 0 3は、 ネッ トワーク辞書の記述を参照し、 未知入力音声がどのような単語系列であるのが最も適切であるかを求め るための経路の累積スコアを計算する。 経路候補格納部 1 0 4は、 その 経路候補の累積スコアを格納する。 認識結果出力部 1 0 5は、 最終的に 累積スコアが最高となる単語系列を認識結果として出力する。 また、 言語モデル格納部 1 0 6は、 単語の出現する確率を予め統計的 に学習した言語モデルを予め格納する。 言語スコア計算部 1 0 7は、 言 語モデルからその単語列に対応した言語スコアを計算する。 単語音響モ デル格納部 1 0 8は、 認識対象語彙に対応する単語の音響モデルである 単語音響モデルを予め格納する。 単語音響スコア計算部 1 0 9は、 特徴 パラメータと単語音響モデルとを照合し、 単語音響スコアを計算する。 ガーベージ音響モデル格納部 1 1 0は、 予め意味的に区別する必要のな い 「え一と」 や、 「う一ん J などの不要語の集合から学習した音響モデ ルであるガーベージ音響モデルを予め格納する。 ガーベージ音響スコア 計算部 1 1 1 は、 特徴パラメータとガーベージ音響モデルとを照合し、 ガーベージ音響スコアを計算する。 また、 非言語音声推定部 1 1 2は、 フ レーム毎に非言語音声を推定す る値である非言語音声の推定値を算出する。 ガーベージ音響スコア修正 部 1 1 3は、 フレーム毎にガーベージ音響スコア計算部 1 1 1 から算出 されるガーベージ音響スコアを修正する。
次いで、 音声認識装置 1 の各部による未知入力音声の認識動作につい て説明する。
図 4は、 音声認識装置 1 の各部が実行する処理を示すフローチャー ト である。
音声認識装置 1 の各部は、 音響分析の時間的単位であるフ レーム毎に 、 入力フレーム t を 1 から Tまで 1 フレームずつ進めながら以下の処理 を行う。 なお、 ここではフ レーム長を 1 0 m s とする。
まず、 特徴量算出部 1 0 1 は、 入力された未知入力音声を音響分析し 、 特徴パラメータを算出する (S 2 0 1 ) 。
次に、 非言語音声推定部 1 1 2は、 非言語音声を推定する値である非 言語音声の推定値を算出する (S 2 0 2 ) 。 本実施の形態 1 では、 スぺ ク トルの繰り返しパターンを用いて非言語音声の推定値を計算する。 ここで、 非言語音声の推定値の算出方法を以下に詳述する。
フレーム t における特徴パラメータベク トルを X ( t ) と し、 フレー ム ί における特徴パラメータベク トル X ( i ) とフ レーム j における特 徴パラメ一タベク トル X ( j ) とのユーク リ ッ ド距離を d ( i 、 j ) と すると、 非言語音声推定値の距離 D ( t ) は、 式 ( 1 ) で表される。 なお、 ュ一ク リ ッ ド距離に代えて、 重み付けユーク リ ッ ド距離を用い てもよい。 重み付けユークリ ッ ド距離を用いた場合においても、 ユーク リッ ド距離と同様な効果を得ることができる。
式 ( 1 ) は、 λの値が N sから N e ( λは整数) までの値をとるとき に、 時刻 t を挟んで過去 λフレーム分と未来; Iフレーム分とのスぺク ト ルパターン間の距離のうち、 最も距離が小さくなるときの値を表す。 例 ぇぱ、 N s = 3 、 N e = 1 0とすると、 3 フ レームの繰り返しから 1 0 フ レームの繰り返しまでを検出することができる。 未知入力音声のスぺ ク トルが繰り返しのパターンを呈するとき、 非言語音声推定値の距離 D ( t ) は小さな値をとる。
そして、 フ レーム t における非言語音声の推定値を求める関数である 非言語音声推定関数 R ( t ) は、 本実施の形態 1 では、 式 ( 2 ) で表さ れる。
及び は定数である。 スぺク トルが繰り返しのパターンになるとき 、 非言語音声推定関数 R ( t ) の値は大きくなる。 の場合
の場合 の場合
( 2 ) なお、 式 ( 2 ) の非言語音声推定関数 R ( t ) に代えて、
示される非言語音声推定関数 R ( t ) を用いてもよい。 く R の場合)
≥ の場合)
[β ΐ-ΐ)~αθ(ή 〈 の場合)
(Rmt-cd)(i) ≥ fiR(t-l)-aD{t) ≥ Rmia の場合) となる)
… ( 3 ) 図 5は、 未知入力音声が 「それは、 だ、 だれ j である場合の、 非言語 音声推定関数及び経路候補を表す図である。 特に、 図 5 ( a ) は、 非言 語音声推定関数の例を、 示す図である。
図 5 ( a ) において、 縦軸は非言語音声推定値を示す値であり、 横軸 はフ レームである。 また、 図 5 ( b ) は未知入力音声の単語の区切れ位 置を示したものである。 このように非言語音声推定関数 R ( t ) は、 非 言語音声である吃音部分 「だ」 のフ レームにおいて高い非言語音声推定 値を示すことになる。
次に、 経路計算部 1 0 3は、 まず 1 つ前のフ レームにおける経路候補 から経路を、 ネッ トワーク辞書格納部 1 0 2に格納されているネッ トヮ ーク辞書を参照して伸張する。 そして、 経路計算部 1 0 3は、 1 つ前の フレームで単語終端になっている経路では、 次に接続可能な単語又はガ 一べ一ジモデルを、 ネッ トワーク辞書を参照して求め、 全ての接続可能 な単語又はガーベージモデルを接続した新たな経路を作成する (S 2 0 3 ) 。 なお、 1 つ前のフ レームで単語途中の経路では、 経路計算部 1 0 3は、 その単語をさらに伸張させる。
また、 図 5 ( c ) は、 入力音声が 「それは、 だ、 だれ j である場合に おいて、 フレームが t 一 1 であるときの経路候補を表している。 図 5 ( d ) は、 同様に、 フ レームが tのときの経路候補を表している。
ここで、 経路 3 1 1 , 3 1 2 , 3 1 3 , 3 1 4は単語途中までの最適 経路以外の経路を表し、 経路 3 2 1 は単語終端まで達した最適経路以外 の経路を表し、 経路 3 3 1 , 3 3 2は単語終端まで達した最適経路を表 し、 経路 3 4 1 は単語途中までの最適経路を表す。
例えば、 図 5 ( d ) では、 経路 3 2 1 の I"綿 J には、 経路 3 1 1 の Γ 種」 と、 経路 3 1 2の 「菓子」 とが接続されている。 また、 経路 3 3 2 の 「ガーベージモデル」 には、 経路 3 4 1 の 「だれ J が接続されている 。 そして、 それ以外の経路では、 単語がさらに伸長されている。
次に、 言語スコア計算部 1 07は、 言語モデル格納部 1 06に格納さ れている言語モデルを参照して、 伸長及び接続した新たな経路候補の言 語スコアを計算し、 経路計算部 1 0 3に出力する (S 2 0 4) 。
ここで、 言語スコアと しては、 1 つ前の単語から連鎖する単語の確率 であるバイグラム確率の対数値を用いる。 例えば、 図 5 ( c ) の経路 3 3 1 の上にある Γは j の後に、 経路 3 1 3の Γだれ j が接続する経路で は、 「は j の後に 「だれ」 が出現する出現確率を用いる。 これを与える タイ ミングは単語に付き 1 回でよい。 次に、 経路計算部 1 0 3は、 該当フ レームの経路候補が単語であるか 否か判断する (S 2 0 5 ) 。 つまり、 単語であるかガーベージモデルで あるかを判断する。
判断の結果、 単語であれば後述するステップ S 2 0 6が実行され、 ガ —ページモデルであれば後述するステップ S 2 0 7 , S 2 0 8が実行さ れる。
例えば、 図 5 ( c ) のフレーム t 一 1 においては、 経路 3 1 4の 「綿 」 と、 経路 3 2 1 の 「綿」 と、 経路 3 1 3の 「だれ j とについて、 ステ ップ S 2 0 6が実行される。 一方、 経路 3 3 2の 「ガーベージモデル」 については、 S 2 0 7 , S 2 0 8が実行されることになる。
ステップ S 2 0 5において経路計算部 1 0 3が単語と判断した場合、 単語音響スコア計算部 1 0 9は、 単語音響モデルを参照して、 該当する 経路候補の単語音響スコアを計算する (S 2 0 6 ) 。
一方、 ステップ S 2 0 5において経路計算部 1 0 3がガーベージと判 断した場合、 ガーベージ音響スコア計算部 1 1 1 は、 ガーベージ音響モ デルを参照して、 該当する経路候補のガーベージ音響スコアを計算する ( S 2 0 7 ) 。
次に、 ガーベージ音響スコア修正部 1 1 3は、 非言語音声推定関数を 参照して、 ステップ S 2 0 7で計算したガーベージ音響スコァを修正し 、 新たなガーベージ音響スコアを計算する (S 2 0 8 ) 。
ここで、 新たなガーベージ音響スコアの計算方法について、 以下に詳 述する。
フレーム t において、 特徴パラメータベク トル X ( t ) とし、 ガーべ —ジ音響モデルとの照合によリ得られるガーベージ音響スコアを G ( t ) とすると、 本実施の形態 1 では、 ガーベージ音響スコア修正部 1 1 3 は、 ガーベージ音響スコア計算部 1 1 1 が計算したガーベージ音響スコ ァ G ( t ) を式 ( 4 ) のように修正し、 修正後の新たなガーベージ音響 スコア G * ( t ) とする。 wは重み定数 (修正パラメータ) である。
- ( 4 ) この結果、 例えば、 従来では 2ポイン トのままであったガーベージ音 響スコアが、 本実施の形態 1 では、 6ポイントに修正されることになる なお、 スペク トルが時間的に繰り返す部分で、 ガーベージ音響スコア が上昇する関数であれば、 式 ( 4 ) 以外のどのような関数を用いてもよ い。
なお、 単語音響モデル及びガーベージ音響モデルは、 従来例と同様隠 れマルコフモデル (H M M ) を用いる。 また、 単語音響スコア及びガー ページ音響スコアは、 H M Mから得られる確率の対数値であり、 単語及 ぴガーべ一ジモデルの生起確率を示す。
次に、 経路計算部 1 0 3は、 該当する経路候補の言語スコア、 単語音 響スコア及びガーベージ音響スコアを加算し、 該当する経路候補の照合 スコアを計算する。 さらに、 経路計算部 1 0 3は、 従来例と同様 V i t e r b i アルゴリズムによって該当する経路候補の現フ レームまでの経 路の計算を行い、 経路全ての照合スコアから累積スコアを計算し、 経路 候補情報と して経路候補格納部 1 0 4に登録する (S 2 0 9 ) 。
ここで、 単純に伸張した経路候補を全て計算し、 記録することは、 計 算量及びメモリ容量の増加を招くため、 好ましくない。 そこで、 フ レー ム毎に累積スコアの高い順に K個 ( Kは自然数) のみを残すビームサー チを用いる。 この当該フ レームにおける K個の経路候補の情報を経路候 補格納部 1 0 4へ登録する。 次に、 経路計算部 1 0 3は、 全経路候補の累積スコアを算出したか否 か判断する (S 2 1 0 ) 。 判断の結果、 全経路候補の累積スコアの算出 が未完の場合は ( S 2 1 0で N O ) 、 ステップ S 2 1 1 が実行され、 全 経路候補の累積スコアの算出が完了した場合は (S 2 1 0で Y E S ) 、 ステップ S 2 1 2が実行される。
全経路候補の累積スコアの算出が未完の場合は (S 2 1 0で N O ) 、 ステップ S 2 1 1 にて次の経路候補に移行され、 ステップ S 2 0 5から ステップ S 2 1 0までの処理を繰り返すことにより、 該当フ レームまで の全経路候補の累積スコアが算出される。
全経路候補の累積スコアの算出が完了した場合は (S 2 1 0で Y E S ) 、 経路計算部 1 0 3は、 全フレームについて処理が完了したか否か判 断する (S 2 1 2 ) 。 判断の結果、 全フ レームについての処理が未完の 場合は ( S 2 1 2で N O ) 、 ステップ S 2 1 3が実行され、 全フレーム についての処理が完了した場合は (S 2 1 2で Y E S ) 、 ステップ S 2 1 4が実行される。
全フレームについての処理が未完の場合は (S 2 1 2で N O) 、 ステ ップ S 2 1 3にて次のフレームに移行され、 ステップ S 2 0 1 からステ ップ S 2 1 0までの処理を繰り返すことにより、 最終フレームまでの処 理が行われる。
全フレームについての処理が完了した場合は (S 2 1 2で Y E S ) 、 認識結果出力部 1 0 5は、 最終フレームにおいて経路候補格納部 1 0 4 に格納されている経路候補の中から最も累積スコアの高い経路候補の単 語列を、 認識結果として出力する ( S 2 1 4 ) 。
この結果、 従来では図 2 ( c ) に示されるように、 「それ J + 「綿 j の場合には、 7 + 1 0 = 1 7点、 「それ」 + 「綿」 + 「種 j の場合には 、 7 + 9 + 2 = 1 8点、 「それ」 + 「綿」 + 「菓子」 の場合には、 7 + 9 + 1 = 1 7点、 「それ」 + 「は」 + 「だれ J の場合には、 7 + 5 + 4 = 1 6点、 「それ」 + 「は j +ガーベージモデル + 「だれ j の場合には 7 + 5 + 2 + 1 = 1 5点となるため、 Γそれ j + 「綿 j + 「種 j が当該 フレームにおける最高スコアであった。
これに対して、 この実施の形態 1 に係る音声認識装置 1 によれば、 図 5 ( d ) に示されるように、 「それ j + 「綿」 の場合には、 7 + 1 0 = 1 7点、 「それ」 + 「綿」 + 「種 j の場合には、 7 + 9 + 2 = 1 8点、 「それ」 + 「綿」 + 「菓子」 の場合には、 7 + 9 + 1 = 1 7点、 「それ J + 「は」 + 「だれ」 の場合には、 7 + 5 + 4 = 1 6点、 「それ j + Γ は」 +ガーベージモデル + 「だれ」 の場合には 7 + 5 + 6 + 1 = 1 9点 となるため、 「それ」 + 「は」 +ガーベージモデル + 「だれ」 が当該フ レーム t までにおける最高スコアとなる。
以上より、 本実施の形態 1 の音声認識装置 1 では、 非言語音声推定関 数を適用することにより、 ガーベージ音響スコアを一律に底上げするの ではなく、 非言語音声である吃音部分のガーベージ音響スコアのみ大き くすることで、 未知入力音声を正しく認識できるようになる。
これにより、 例えば、 テレビの操作を、 音声認識を用いて行うような 場合、 ユーザが緊張して吃音を発したと しても、 正しく認識できるため 、 ユーザの労力や精神的負担を軽減することができるという効果も併せ て発揮できる。
なお、 単語音響モデルは、 音素、 音節、 C V及び V Cのサブワード単 位の音響モデルを連結してもよい。
なお、 本実施の形態 1 では、 スペク トルが繰り返されるパターンの検 出によって非言語音声の推定を行ったが、 他の推定方法を用いてもよい
(実施の形態 2 ) 次いで、 本発明の実施の形態 2に係る音声認識装置について、 説明す る。
図 6は、 本発明の実施の形態 2に係る音声認識装置の機能構成を示す ブロック図である。 なお、 この実施の形態 2では、 非言語の推定の対象 が笑い声である場合を例にして説明する。 また、 実施の形態 1 の音声認 識装置 1 と対応する部分に同じ番号を付し、 その詳細な説明を省略する 音声認識装置 2は、 音声認識装置 1 と同様に音声認識を用いてテレビ の操作を行うようなコンピュータ装置であって、 図 6に示されるように 、 特徴量算出部 1 0 1 、 ネッ トワーク辞書格納部 1 0 2、 経路計算部 1 0 3、 経路候補格納部 1 0 4、 認識結果出力部 1 0 5、 言語モデル格納 部 1 0 6、 言語スコア計算部 1 0 7、 単語音響モデル格納部 1 0 8、 単 語音響スコア計算部 1 0 9、 ガーベージ音響モデル格納部 1 1 0、 ガー ページ音響スコア計算部 1 1 1 、 非言語音声推定部 1 1 2及びガーべ一 ジ音響スコア修正部 1 1 3の他、 非言語推定用特徴量算出部 1 1 4、 非 言語音響モデル格納部 1 1 5及び高域パワー持続フ レーム数計算部 1 1 6をさらに備える。
なお、 このような音声認識装置 2を構成する各部は、 音声認識装置 1 と同様に、 格納部を除き、 C P U、 C P Uによって実行されるプログラ ムを格納する R O M、 プログラム実行の際にワークエリアを提供したり 、 入力された未知入力音声に対応する P C M信号の音響データ等を一時 的に格納するメモリ等により実現される。
非言語推定用特徴量算出部 1 1 4は、 入力された未知入力音声を音響 分析し、 非言語音響モデルとの照合に必要な特徴パラメータ及び高域パ ヮーをフ レーム毎に算出する。 非言語音響モデル格納部 1 1 5は、 笑い 声など非言語の音響モデルである非言語音響モデルを予め格納する。 また、 高域パワー持続フ レーム数計算部 1 1 6は、 高域パワーの高い フレームがどれだけ連続するかというフレーム数をカウントする。 非言 語音声推定部 1 1 2は、 入力音声の非言語推定用特徴パラメータと非言 語音響モデルの照合スコア及び高域パワーの高い部分の持続フレーム数 を用いて、 フレーム毎に非言語らしさである非言語音声推定関数を算出 する。 ガーベージ音響スコア修正部 1 1 3は、 フ レーム毎にガーベージ 音響スコア計算部 1 1 1 から算出されるガーベージ音響スコアを、 非言 語音声推定関数を用いて修正する。
次いで、 音声認識装置 2の各部による未知入力音声の認識動作につい て、 図 7を用いて説明する。
図 7は、 音声認識装置 2の各部が実行する処理を示すフローチャート である。
音声認識装置 2の各部は、 フレーム毎に、 入力フ レーム t を 1 から T まで 1 フレームずつ進めながら以下のステップ S 7 0 1 からステップ S 7 1 4の処理を行う。 なお、 ここでも、 フ レーム長を 1 O m sとする。 まず、 特徴量算出部 1 0 1 は、 入力された未知入力音声を音響分析し 、 特徴パラメータを算出する ( S 7 0 1 ) 。 なお、 ここでは、 特徴パラ メータとしてメルフィルタバンクケプス トラム係数 (M F C C ) 及びそ の回帰係数及び音声パワー差分を用いる。
次に、 非言語推定用特徴量算出部 1 1 4は、 入力された未知入力音声 の笑い声の非言語推定用特徴パラメータを算出する (S 7 0 2 ) 。
次に、 高域パワー持続フ レーム数計算部 1 1 6は、 スペク トル非言語 推定用特徴量算出部 1 1 4で得られた高域パワーが、 予め定めた閾値 Θ より高い場合は、 高域パワーの高いフ レームとみなし、 高域パワー持続 フ レーム数 N h pをインク リ メ ン トし、 高域パワーが閾値 Θよりも低く なった時点で高域パワー持続フ レーム数 N h pを " 0 " にクリアする。 つまり、 高域パワーの高い部分が持続するフ レーム数をカウン トする ( S 7 0 3 ) 。
次に、 非言語音声推定部 1 1 2は、 非言語推定用特徴パラメータと非 言語音響モデルとを照合し、 笑い声らしさを示す非言語推定関数の値を 算出する。 つまり、 笑い声の非言語推定用特徴パラメータ と非言語モデ ルとから非言語照合スコアを算出し、 非言語照合スコアと高域パワー持 続フレーム数とから笑い声らしさを示す非言語音声の推定値を算出する ( S 7 0 4 ) 。 その方法を以下に詳しく述べる。
まず、 非言語音響モデル格納部 1 1 5に格納してある非言語音響モデ ルとの照合をフ レーム毎に行う。 非言語音響モデルは、 予め多くの笑い 声音声データから学習し、 非言語音響モデル格納部 1 1 5に格納してお < α
非言語音響モデルの特徴パラメータは、 ピッチ周波数、 音声全域パヮ 一、 高域パワー、 低域パヮ一など単語音響モデルとは異なる特徴パラメ —タを用いる。 あるいは単語音響モデルと同じ特徴パラメータ (M F C C ) を用いるか、 両方を併用してもよい。 また、 過去 N フ レームにおけ る音声の最大パワー、 最低パワー、 最大パワーと最低パワーとの差、 最 小ピッチ周波数、 最大ピッチ周波数及び最大ピッチ周波数と最小ピッチ 周波数との差などのパラメータを用いてもよい。
そして、 当該フ レーム又は当該フ レームを含む複数フ レームの特徴パ ラメータから特徴パラメータべク トルを構成し、 非言語音響モデルとの 照合のための非言語推定用特徴パラメータべク トルとする。
非言語音響モデルとしては、 隠れマルコフモデル ( H M M ) やガウシ アンミクスチヤ一モデル ( G M M ) 、 ベイジアンネッ トワーク ( B N ) 、 グラフィカルモデル (G M ) 、 ニューラルネッ トワーク ( N N ) 等を 用いることができる。 なお、 本実施の形態 2では G M Mを用いる。 非言語音響モデルとの照合により得られた入力フレーム t における笑 い声に対するスコアを非言語照合スコア s ( t ) とする。 非言語照合ス コア S ( t ) は、 笑い声に似ているほど大きな値を持つものと し、 正に 数、 " 0 " 又は負の数の値を持つ。 非言語照合スコア S ( t ) と高域パ ヮー持続フレーム数計算部 1 1 6により得られた高域パワー持続フレー ム数 N h pを用いて、 笑い声用の非言語音声推定関数 R ( t ) を式 ( 5 ) のように表す。 ただし、 ひ、 λ、 R m i n 、 R m a xは、 定数で、 認 識実験によリ認識率が高くなるような値に定める。
{Nhp 〈 A の場合)
[Nhp ≥ λ かつ < の場合)
(Nhp ≥ λ かつ ≥ cS(t) の場合)
(Nhp ≥ λ
かつ oS(i) 〈 max の場合)
となる) ■■■ ( 5 ) これにより、 笑い声があるときに、 非言語音声推定関数 R ( t ) の値 が大きく なる。
以下、 ステップ S 7 0 5からステップ S 7 1 6の処理は、 実施の形態 1 のステップ S 2 0 3からステップ S 2 1 4と同じであるため、 ここで の説明は省略する。
以上より、 本実施の形態 2の音声認識装置 2では、 非言語音声推定関 数を適用することにより、 一律にガーべ一ジ音響スコアを底上げするの ではなく、 笑い声部分のガーベージ音響スコアのみ大きくすることがで き、 未知入力音声を正しく認識できるようになる。
なお、 単語音響モデルは、 実施の形態 1 と同様に、 音素、 音節、 C V 及び V Cのサブワード単位の音響モデルを連結してもよい。 またガーべ ージ音響モデルは 「え一と」 や Γう一ん j などの不要語音声だけではな く、 笑い声、 咳払い及び突発音を含む非言語音声も含めて学習を行うと 、 さらに認識精度が向上する。
これにより、 例えば、 テレビの操作を、 音声認識を用いて行うような 場合、 ユーザが笑いながら喋ったと しても、 正しく認識できるため、 ュ —ザの労力や精神的負担を軽減することができる。
なお、 実施の形態 2では、 非言語音響モデルとの照合スコア及び高域 パワー持続フ レーム数の両方を用いて笑い声推定関数を定めたが、 どち らか一方のみを用いてもよい。
また実施の形態 2では、 非言語音声として笑い声を対象としたが、 咳 を対象と しても同様の方法で咳を含む音声を認識できる。
(実施の形態 3 )
次いで、 本発明の実施の形態 3に係る音声認識装置について説明する 図 8は本発明の実施の形態 3に係る音声認識装置の機能構成を示すブ ロック図であり、 図 9はカメラ付き携帯電話機に向かって、 ユーザが音 声でメール入力をしている場合の様子を表す図である。 なお、 この実施 の形態 3では、 カメラ付き携帯電話機において、 カメラ画像を入力とし て笑いや咳払いを検出し、 音声認識のガーベージ音響スコアを修正する 場合を例にして説明する。 また、 実施の形態 1 の音声認識装置 1 と対応 する構成部分に同じ番号を付し、 その説明を省略する。
音声認識装置 3は、 音声認識を用いてメールを作成するような携帯電 話機などのコンピュータ装置であって、 図 8に示されるように、 特徴量 算出部 1 0 1 、 ネッ トワーク辞書格納部 1 0 2、 経路計算部 1 0 3、 経 路候補格納部 1 0 4、 認識結果出力部 1 0 5、 言語モデル格納部 1 0 6 、 言語スコア計算部 1 0 7、 単語音響モデル格納部 1 0 8、 単語音響ス コア計算部 1 0 9、 ガーベージ音響モデル格納部 1 1 0、 ガーベージ音 響スコア計算部 1 1 1及びガーベージ音響スコア修正部 1 1 3の他、 非 言語音声推定部 1 1 2に代えて用いられる非言語現象推定部 1 1 7をさ らに備える。
なお、 このような音声認識装置 3を構成する各部は、 音声認識装置 1 と同様に、 格納部を除き、 C P U、 C P Uによって実行されるプログラ ムを格納する R O M、 プログラム実行の際にワークエリアを提供したり 、 入力された未知入力音声に対応する P C M信号の音響データ等を一時 的に格納するメ モ リ等により実現される。
非言語現象推定部 1 1 7は、 ユーザの顏をリアルタイムに撮影する力 メラ画像情報を入力として笑い顔を検出し、 「笑っているらしさ」 を示 す非言語現象推定関数 R ( t ) を計算する。 笑い顔を検出する方式は既 存のどのようなものを用いてもよく、 非言語現象推定関数 R ( t ) は大 きいほど 「笑っているらしさ j を示すものとする。
例えば、 力メラ入力による顔画像から目 ■ 鼻 ■ 口などの個々の器官の 輪郭を示すエッジ情報を抽出し、 その形状や位置関係を特徴パラメータ とし、 笑い顔モデルと照合することにより笑いを検出する。 また、 笑い 顏ではなく、 咳をしている画像を検出し、 「咳をしているらしさ j を示 す非言語現象推定関数と してもよい。
なお、 非言語現象推定関数 R ( t ) は、 実施の形態 1 , 2と同様に、 式 ( 2 ) から式 ( 5 ) を用いることができる。
さらに、 実施の形態 1 , 2の少なく とも一方と組み合わせることで、 音声による非言語音声推定関数と画像による非言語現象推定関数の重み 付き和を用いて新たな非言語現象推定関数と してもよい。
また、 カメラ画像情報を入力とするのではなく、 脳波、 血圧、 心拍数 、 発汗、 顔の温度などの生体情報センサ一をと りつけて、 これらの生体 情報を入力と してもよい。 例えば、 脳波測定器により入力された脳波の時系列パターンと、 笑つ ている状態を表す笑い脳波モデルとを照合することにより、 「笑ってい るらしさ」 を示す非言語現象推定関数 R ( t ) を計算することができる 。 また、 入力特徴量として、 脳波だけでなく、 血圧、 心拍数を表す血圧 計の圧電センサーからの電圧時系列パターンや、 発汗量、 顔の温度を表 す湿度センサー、 温度センサーからの電流時系列パターン等を組み合わ せることにより、 より高度な非言語現象を推定することができる。 なお、 実施の形態 3の音声認識装置 3では、 携帯電話機を対象とした が、 パソコン、 力一ナビゲーシヨンシステム、 テレビ、 その他家電製品 などでもよい。
これにより、 例えば、 カメラ付き携帯電話機におけるメール入力では 、 顔画像を用いることにより、 周囲の雑音が多い場所であっても、 笑い 声と同期して笑い顔を正確に検出でき、 ガーベージ音響スコアを高い値 に修正できるので、 音声認識性能を向上させることができる。 また、 咳 の場合についても笑い声と同様に、 音声認識性能を向上させることがで きる。
(実施の形態 4 )
次いで、 本発明の実施の形態 4に係る音声認識装置について説明する 図 1 0は本発明の実施の形態 4に係る音声認識装置 4の機能構成を示 すブロック図であり、 図 1 1 は顏文字付きのメール本文を携帯電話機の 画面 9 0 1 に実際に表示した状態を示す図である。 なお、 この実施の形 態 4では、 携帯電話機の文字入力のインターフェースと して音声認識を 用いる場合において、 音声認識時に、 笑ったり、 咳をしたり した場合に 、 笑い又は咳に対する非言語音声推定関数が予め定めた閾値を超えた場 合、 その文中位置又は文末に、 その非言語の種類に応じた顏文字を表示 するものである。 例えば、 笑顔の顔文字と しては Γ o 八 ) j があり 、 咳をした場合の顔文字と しては 「P ( > ο < ) j がある。 また、 実施 の形態 2の音声認識装置 2と対応する構成部分に同じ番号を付し、 その 説明を省略する。
音声認識装置 4は、 音声認識を用いてメールを作成するような携帯電 話機などのコンピュータ装置であり、 図 1 0に示されるように、 特徴量 算出部 1 0 1 、 ネッ トワーク辞書格納部 1 0 2、 経路計算部 1 0 3、 経 路候補格納部 1 0 4、 認識結果出力部 1 0 5、 言語モデル格納部 1 0 6 、 言語スコア計算部 1 0 7、 単語音響モデル格納部 1 0 8、 単語音響ス コア計算部 1 0 9、 ガーベージ音響モデル格納部 1 1 0、 ガーベージ音 響スコア計算部 1 1 1 、 非言語音声推定部 1 1 2、 ガーベージ音響スコ ァ修正部 1 1 3、 非言語推定用特徴量算出部 1 1 4、 非言語音響モデル 格納部 1 1 5及び高域パワー持続フ レーム数計算部 1 1 6の他、 非言語 対応文字揷入部 1 1 8をさらに備える。
なお、 このような音声認識装置 4を構成する各部は、 音声認識装置 2 と同様に、 格納部を除き、 C P U、 C P Uによって実行されるプログラ ムを格納する R O M、 プログラム実行の際にワークエリアを提供したり 、 入力された未知入力音声に対応する P C M信号の音響データ等を一時 的に格納するメモリ等により実現される。
非言語対応文字揷入部 1 1 8は、 笑いや咳などの非言語音声に対応す る顔文字や文字 (表意文字) を備えており、 非言語音声推定部 1 1 2が 出力する非言語音声推定関数 R ( t ) の大きさが、 しきい値を超えた場 合、 その文中位置又は文末にその非言語の種類に応じた顏文字を挿入す るものであり、 認識結果出力部 1 0 5が出力した認識結果に、 図 1 1 に 示したような顔文字が挿入された文を表示する。 なお、 顏文字は、 文字 と して表示することも可能である。 例えば、 ユーザが笑った場合には、 r (笑) J を挿入し、 ユーザが咳払いをした場合には、 Γ (咳) J を揷 入することもできる。
なお、 非言語現象によってどのような文字及び顏文字を表示するのか は、 予めユーザ自身が設定することもでき、 音声認識による文字入力中 にも、 ユーザにより非言語現象による文字及ぴ顏文字の挿入の要否を設 定することができる。
また、 非言語音声推定関数 R ( t ) の値が小さい場合は、 微笑んでい るような顔文字と し、 非言語音声推定関数 R ( t ) の値が大きい場合は 、 大笑いしているような顔文字とすることもできる。 また、 非言語音声 推定関数の値が、 予め定めた閾値以上となるフ レームの持続フ レーム数 によって、 非言語現象によって表示する文字及び顔文字を変更すること ができる。
例えば、 微笑んでいる場合には、 Γ (へ o ) 」 の顔文字を表示し、 大笑いしている場合には、 Γ (≥▽≤) 」 の顔文字を表示することがで きる。
さらに、 表示位置をその非言語現象が現れた文中位置にするか文末に するか、 ユーザ自身が設定することができる。
なお、 ガーベージ音響スコアは修正せずに、 非言語音声推定関数 R ( t ) によって検出された非言語の種類に応じた文字ゃ顏文字を表示する だけでもよい。 この場合、 「怒り j 、 「喜び」 、 「疑問 j などの非言語 音響モデルと照合して非言語音声推定関数を推定し、 非言語音声推定関 数の値が、 予め定めた閾値以上である場合に、 非言語現象に応じた文字 を表示することも可能であり、 さらに、 実施の形態 3の音声認識装置 3 に示したように、 カメラ画像や生体情報を併用することにより算出され た非言語現象推定関数 R ( t ) を用いることで、 より精度よく表示させ ることができる。 また、 実施の形態 1 の音声認識装置 1 に非言語対応文 字挿入部 1 1 8を付加することにより、 音声認識装置 4を構成してもよ い。
こ こで、 「怒り」 に対しては、 「 (怒) j や、 Γ ( T Tメ) j などを 表示し、 「喜び」 に対しては、 「 (喜) J や、 Γ 0 ( Λ ν Λ ) 0〜 」 などを表示し、 「疑問」 に対しては、 Γ (? ) 」 や、 「 ( ·—■ ? ) 」 などを表示することができる。
なお、 非言語現象を表示する文字及び顔文字は、 上記以外の文字及び 顔文字も表示することができる。
以上の構成により、 例えば、 携帯電話機におけるメール入力では、 音 声認識が向上するにとどまらず、 さらに実際に音声入力しながら笑った ところで顔文字を挿入するようなことができ、 より リアリティ一のある メールが書けるようになる。
(実施の形態 5 )
次いで、 本発明の実施の形態 5に係る音声認識装置について説明する 。
図 1 2は、 本発明の実施の形態 5に係る音声認識装置の機能構成を示 すブロック図である。 なお、 この実施の形態 5では、 パソコン上のエー ジェン トとの対話において、 吃音、 笑い声、 咳払いを検出したら、 その 非言語の種類に応じた対応をエージェントが実行するものである。 また 、 実施の形態 2の音声認識装置 2と対応する構成部分に同じ番号を付し 、 その説明を省略する。
音声認識装置 5は、 音声認識機能を備えるパソコンなどのコンビユー タ装置であり、 図 1 2に示されるように、 特徴量算出部 1 0 1 、 ネッ ト ワーク辞書格納部 1 0 2、 経路計算部 1 0 3、 経路候補格納部 1 0 4、 認識結果出力部 1 0 5、 言語モデル格納部 1 0 6、 言語スコア計算部 1 0 7、 単語音響モデル格納部 1 0 8、 単語音響スコァ計算部 1 0 9、 ガ —ベ一ジ音響モデル格納部 1 1 0、 ガーベージ音響スコア計算部 1 1 1 、 非言語音声推定部 1 1 2、 ガーベージ音響スコア修正部 1 1 3、 非言 語推定用特徴量算出部 1 1 4、 非言語音響モデル格納部 1 1 5及び高域 パワー持続フ レーム数計算部 1 1 6の他、 エージ: Eン ト制御部 1 1 9を さらに備える。
なお、 このような音声認識装置 5を構成する各部は、 音声認識装置 2 と同様に、 格納部を除き、 C P U、 C P Uによって実行されるプログラ ムを格納する R O M、 プログラム実行の際にワークエリアを提供したり 、 入力された未知入力音声に対応する P C M信号の音響データ等を一時 的に格納するメモリ等により実現される。
エージェン ト制御部 1 1 9は、 画面に表示するエージ Iントの画像や 、 エージェン トが話す合成音のデータを備え、 認識結果出力部 1 0 5か ら得られる認識結果と、 非言語音声推定部 1 1 2から得られる非言語音 声推定関数の大きさに応じて、 エージ:!:ン 卜の動きや表情を変えて画面 に表示するとともに、 エージェン トが対応する合成音声の文章を出力す るものである。
例えば、 吃音が検出された場合には、 ェ一.ジェン卜が 「緊張しなくて いいよ ! J という合成音声を出力すると共に、 エージェントが手を振る など、 リラックスを促すような動作をエージェン トに実行させる。 また 、 笑い声が検出された場合には、 エージェン トが一緒に笑いながら 「そ んなにおかしい?」 と合成音声を出力し、 咳払いが検出された場合には 、 心配そうな顔で 「風邪引いているの?」 というように合成音声を出力 する。
さらに、 笑い声や咳が多く検出され、 認識結果が得られなかった場合 に、 「笑い声が多くて認識できませんでした」 、 あるいは 「咳が多くて 認識できませんでした」 と合成音で出力し、 画面上でエージ:!:ン トがす まなさそうに謝るなどの動作を実行することができる。
なお、 実施の形態 5では、 パソコン上のエージェン トとの対話と した が、 パソコ ンに限らず、 テレビや携帯電話機など他の電子機器でも同様 の表示を実行することができる。 また、 実施の形態 3 と組み合わせて、 携帯電話機の力メラ画像から.笑い顔を検出した結果などを用いることで 、 エージェン トに同様の動作を実行させることができる。 また、 実施の 形態 1 の音声認識装置 1 にエージェン ト制御部 1 1 9を付加することに より、 音声認識装置 5を構成してもよい。
なお、 実施の形態 5では、 非言語音声推定関数を用いて説明したが、 非言語現象推定関数又は非言語音声推定関数の少なく とも一方を用いる 構成と しても同様の効果を得ることができる。
以上の構成により、 エージヱン 卜との対話において、 音声認識が向上 するにとどまらず、 ュ一ザの緊張をやわらげ、 より楽しく会話を行うこ とができる。
(実施の形態 6 )
次いで、 本実施の形態 6に係る音声認識装置について説明する。 図 1 3は、 本発明の実施の形態 6に係る音声認識装置の機能構成を示 すブロック図である。 なお、 この実施の形態 6では、 式 ( 4 ) における ガーベージ音響スコア修正部 1 1 3で用いる修正パラメータ wの値を、 ユーザが予め決定するものである。
ここで、 wの値を大きくすれば、 音声認識結果と して非言語部分が揷 入され易くなリ、 wの値を小さくすれば、 非言語部分が挿入され難くな る。 例えば、 吃音を発声し易いユーザは、 修正度合いが大きい方が、 性 能が高く使い易くなり、 吃音をあまり発声しないユーザは、 修正度合い が小さい方が、 性能が高く使い易い。
また、 くだけた文章のメールを音声で入力するような場合は、 親しい 友人へのメールなどでは、 笑い声などにより顔文字が揷入され易い方が 、 都合がよく、 また、 目上の人へのメールなどでは、 顔文字が揷入され 難い方が、 あるいは、 全く挿入されない方が、 都合がよい場合もある。 このため、 ュ一ザ自身が、 非言語部分の挿入頻度を決定するパラメータ を設定するものである。
また、 ここでは、 音声認識装置 2を基礎と してガーベージ音響スコア 修正部 1 1 3で用いる修正パラメータ wの値を、 ユーザが修正する場合 について説明する。 また、 音声認識装置 2と対応する構成部分に同じ番 号を付して、 その説明を省略する。
音声認識装置 6は、 音声認識機能を備えたコンピュータ装置であり、 図 1 3に示されるように、 特徴量算出部 1 0 1 、 ネッ トワーク辞書格納 部 1 0 2、 経路計算部 1 0 3、 経路候補格納部 1 0 4、 認識結果出力部 1 0 5、 言語モデル格納部 1 0 6、 言語スコア計算部 1 0 7、 単語音響 モデル格納部 1 0 8、 単語音響スコア計算部 1 0 9、 ガーベージ音響モ デル格納部 1 1 0、 ガーベージ音響スコア計算部 1 1 1 、 非言語音声推 定部 1 1 2、 ガーベージ音響スコア修正部 1 1 3、 非言語推定用特徴量 算出部 1 1 4、 非言語音響モデル格納部 1 1 5及び高域パワー持続フ レ —ム数計算部 1 1 6の他、 修正パラメータ選択変更部 1 2 0をさらに備 える。
なお、 このような音声認識装置 6を構成する各部は、 音声認識装置 2 と同様に、 格納部を除き、 C P U、 C P Uによって実行されるプログラ ムを格納する R O M、 プログラム実行の際にワークエリアを提供したり 、 入力された未知入力音声に対応する P C M信号の音響データ等を一時 的に格納するメモリ等により実現される。
修正パラメータ選択変更部 1 2 0は、 画面に修正度合いを大きくする ボタン、 修正度合いを小さくするボタン、 全く修正しなくするポタンの 3つを表示し、 ユーザの選択に基づいて、 ガーベージ音響スコア修正部 1 1 3が用いる式 ( 4 ) のパラメータ wの値を変更するものである。 まず、 修正パラメータ選択変更部 1 2 0は、 初期設定などにおいて修 正パラメータのポタンを画面に表示し、 ユーザ自身の好みに合わせて、 修正度合いを選択させる。
次に、 修正パラメータ選択変更部 1 2 0が、 ュ一ザの選択に基づいて ガーベージ音響スコア修正部 1 1 3で用いる式 ( 4 ) の修正パラメータ wの値を変更する。
これにより、 認識結果の非言語部分の挿入頻度をユーザの嗜好により 設定することができる。
なお、 修正パラメータ選択変更部 1 2 0は、 ボタンではなくスライ ド バーを表示して任意の値をユーザが指定できるようにしてもよく、 また 、 携帯電話のように画面が小さくポィンティングデバイスが使い難い場 合は、 数字ポタンや機能キーに割り当ててもよい。
また、 ユーザの声の質や喋り方によってガーベージスコアの値が変動 するため、 ユーザが自分の喋り方で最も精度よく非言語部分を含む音声 を認識するように、 実際に喋りながらガーべ一ジスコアの修正パラメ一 タを設定させるようにしてもよい。
なお、 本実施の形態 6では修正パラメータ wのみをユーザが決定する としたが、 式 ( 1 ) における N s, N e と、 式 ( 2 ) , 式 ( 3 ) , 式 ( 5 ) における α , β , Ύ , R m i η, R m a x とをユーザが設定する構 成とすることもできる。
また、 音声認識装置 1 や、 音声認識装置 3、 音声認識装置 4、 音声認 識装置 5に修正パラメータ選択変更部 1 2 0を付加し、 パラメータを修 正するようにしてもよい。
これにより、 例えば、 吃音を発声し易いユーザは、 修正度合いが大き くすることにより認識性能を向上させることができ、 また、 メール入力 における巔文字揷入では、 親しい友人へのメールと目上の人へのメール とで顔文字の挿入頻度を使い分けることなどができるようになる。
なお、 本発明は、 プログラムによって実現し、 これをフレキシブルデ イスクなどの記録媒体に記録して移送することによ ύ、 独立した他のコ ンピュータシステムで容易に実施することができる。 ここで、 記録媒体 と して、 光ディスク、 I Cカード及び R O Mカセッ トを含むプログラム を記録するのもであれば、 いずれであっても同様に実施することができ る。 産業上の利用可能性
本発明に係る音声認識装置及び音声認識方法は、 吃音、 笑い声、 咳払 い等の非言語部分を含む未知入力音声であっても正しく音声認識するこ とができるため、 意味的に.区別する必要のない不要語を許容する連続単 語音声認識等を行う音声認識装置及び音声認識方法等と して有用であり 、 音声認識機能を有するテレビや、 電子レンジなどの家電機器、 携帯電 話機などの携帯情報端末、 バソコンなどのコンピュータ装置に適用でき る。

Claims

請 求 の 範 囲
1 . 言語スコアと、 単語音響スコアと、 ガーべ一ジ音響スコアとの累 積スコアを経路毎に計算し、 累積スコアの最も高い単語列を、 非言語音 声を含む未知入力音声の認識結果として出力する音声認識装置であって 不要語の集合から学習した音響モデルであるガーベージ音響モデルを 予め格納するガーベージ音響モデル格納手段と、
音響解析の単位であるフ レーム毎に、 前記未知入力音声を音響分析し 、 認識に必要な特徴パラメータを算出する特徴量算出手段と、
前記フ レーム毎に、 前記特徴パラメータと前記ガーベージ音響モデル とを照合し、 前記ガーベージ音響スコアを計算するガーベージ音響スコ ァ計算手段と、
前記ガーベージ音響スコア計算手段が算出したガーベージ音響スコア を、 前記非言語音声が入力されたフ レームについて、 上昇させるように 修正するガーベージ音響スコア修正手段と、
前記言語スコアと、 前記単語音響スコアと、 前記ガーベージ音響スコ ァ修正手段が修正したガーベージ音響スコァとの累積スコアの最も高い 単語列を、 前記未知入力音声の認識結果と して出力する認識結果出力手 段と
を備えることを特徴とする音声認識装置。
2 . 前記音声認識装置は、 さらに
前記フ レーム毎に、 前記非言語音声の非言語らしさの度合いを示す推 定値を、 非言語音声推定関数を用いて算出する非言語音声推定手段を備
7L、 前記ガーベージ音響スコァ修正手段は、 前記非言語音声推定手段が算 出した非言語音声が入力されたフ レームにおける推定値を用いて、 ガー ページ音響スコアを上昇させるように修正する
ことを特徴とする請求の範囲第 1 項記載の音声認識装置。
3 . 前記非言語音声推定手段は、 前記特徴量算出手段が算出したフ レ ーム毎の特徴パラメータに基づいて、 前記未知入力音声のスぺク トルが 繰り返しパターンとなる部分において値の大きい推定値を算出する ことを特徴とする請求の範囲第 2項記載の音声認識装置。
4 . 前記音声認識装置は、 さらに
前記フレーム毎に、 前記非言語音声を推定するために必要な非言語推 定用特徴パラメータを算出する非言語推定用特徴量算出手段と、 非言語の特徴をモデル化した音響モデルである非言語音響モデルを予 め格納する非言語音響モデル格納手段とを備え、
前記非言語音声推定手段は、 前記フ レーム毎に、 前記非言語推定用特 徵パラメータと前記非言語音響モデルとを照合することによリ非言語照 合スコアを前記推定値と して計算する
ことを特徴とする請求の範囲第 2項記載の音声認識装置。
5 . 前記音声認識装置は、 さらに
前記非言語推定用特徴量算出手段が計算した前記非言語推定用特徵パ ラメ一タに基づいて、 高域パワー持続フ レーム数を算出する高域パワー 持続フ レーム数計算手段を備え、
前記非言語音声推定手段は、 前記非言語推定用特徴パラメータと前記 非言語音響モデルとを照合した非言語照合スコァを算出し、 前記非言語 照合スコアと前記高域パワー持続フ レーム数とから非言語らしさを示す 推定値を算出する
ことを特徴とする請求の範囲第 4項記載の音声認識装置。
6 . 前記高域パワー持続フ レーム数計算手段は、 前記非言語推定用特 徵量算出手段で得られた高域パワーが、 予め定めた閾値より高い場合に 、 高域パワーの高いフ レームとみなす
ことを特徴とする請求の範囲第 5項記載の音声認識装置。
7 . 前記音声認識装置は、 さらに
前記非言語音声推定手段が推定した推定値に基づいて、 前記非言語音 声に対応する表意文字及び顔文字の少なく とも一方を選択し、 選択した 表意文字及び顏文字の少なく とも一方を前記認識結果出力手段め認識結 果に挿入する非言語対応文字挿入手段を備える
ことを特徴とする請求の範囲第 2項記載の音声認識装置。
8 . 前記音声認識装置は、 さらに
前記非言語音声推定手段が推定した推定値及び前記認識結果出力手段 の認識結果に基づいて、 表示されるエージェン トの動作及び当該エージ ェ ン 卜が話す合成音を制御するエージ:!:ン ト制御手段を備える
ことを特徴とする請求の範囲第 2項記載の音声認識装置。
9 . 前記音声認識装置は、 さらに
非言語音声に連動したユーザの情報に基づいて、 当該非言語音声に関 連する非言語現象の推定値を算出する非言語現象推定手段を備え、 前記ガーベージ音響スコア修正手段は、 前記非言語現象推定手段が算 出した非言語現象が入力されたフレームにおける推定値を用いて、 ガー ベ一ジ音響スコアを上昇させるように修正する
ことを特徴とする請求の範囲第 1 項記載の音声認識装置。
1 0 . 前記音声認識装置は、 さらに
前記非言語現象推定手段が推定した推定値に基づいて、 前記非言語に 対応する表意文字及び顔文字の少なく とも一方を選択し、 選択した表意 文字及び顔文字の少なく とも一方を前記認識結果出力手段の認識結果に 挿入する非言語対応文字挿入手段を備える
ことを特徴とする請求の範囲第 9項記載の音声認識装置。
1 1 . 前記音声認識装置は、 さらに
前記非言語現象推定手段が推定した推定値及び前記認識結果出力手段 の認識結果に基づいて、 表示されるエージェン トの動作及び当該エージ ェン 卜が話す合成音を制御するエージェント制御手段を備える
ことを特徴とする請求の範囲第 9項記載の音声認識装置。
1 2 . 前記音声認識装置は、 さらに
前記ガーベージ音響スコア修正手段におけるガーベージ音響スコアを 修正する度合いを决めるための修正パラメータの値をユーザに選択させ 、 選択された修正パラメータの値に変更するための修正パラメータ選択 変更手段を備え、
前記ガーベージ音響スコア修正手段は、 前記修正パラメータに基づい て、 前記ガーベージ音響スコアを修正する
ことを特徴とする請求の範囲第 1項記載の音声認識装置。
1 3 . 言語スコアと、 単語音響スコアと、 ガーベージ音響スコアとの 累積スコアを経路毎に計算し、 累積スコアの最も高い単語列を、 非言語 音声を含む未知入力音声の認識結果として出力する音声認識装置に用い られる音声認識方法であって、
音響解析の単位であるフ レーム毎に、 前記未知入力音声を音響分析し . 、 認識に必要な特徴パラメータを算出する特徴量算出ステップと、 前記フ レーム毎に、 前記特徴パラメータとガーベージ音響モデル格納 手段に予め格納された前記ガーベージ音響モデルとを照合し、 前記ガー ページ音響スコアを計算するガーベージ音響スコア計算ステップと、 前記ガーベージ音響スコア計算ステツプで算出したガーベージ音響ス コアを、 前記非言語音声が入力されたフ レームについて、 上昇させるよ うに修正するガーベージ音響スコア修正ステップと、
前記言語スコアと、 前記単語音響スコアと、 前記ガーベージ音響スコ ァ修正ステップで修正したガーベージ音響スコアとの累積スコアの最も 高い単語列を、 前記未知入力音声の認識結果と して出力する認識結果出 力ステップと
を含むことを特徴とする音声認識方法。
1 4 . 言語スコアと、 単語音響スコアと、 ガーベージ音響スコアとの 累積スコアを経路毎に計算し、 累積スコアの最も高い単語列を、 非言語 音声を含む未知入力音声の認識結果と して出力する音声認識装置と して 機能させるためのプログラムであって、
コンピュータに、
音響解析の単位であるフ レーム毎に、 前記未知入力音声を音響分析し 、 認識に必要な特徴パラメータを算出する特徴量算出ステップと、 前記フ レーム毎に、 前記特徴パラメータとガーベージ音響モデル格納 手段に予め格納された前記ガーベージ音響モデルとを照合し、 前記ガー ベ一ジ音響スコアを計算するガーベージ音響スコア計算ステップと、 前記ガーベージ音響スコア計算ステップで算出したガーベージ音響ス コアを、 前記非言語音声が入力されたフ レームについて、 上昇させるよ うに修正するガーベージ音響スコア修正ステップと、
前記言語スコアと、 前記単語音響スコアと、 前記ガーベージ音響スコ ァ修正ステップで修正したガーベージ音響スコアとの累積スコアの最も 高い単語列を、 前記未知入力音声の認識結果と して出力する認識結果出 力ステップと
を実行させるためのプログラム。
1 5 . 言語スコアと、 単語音響スコアと、 ガーベージ音響スコアとの 累積スコアを経路毎に計算し、 累積スコアの最も高い単語列を、 非言語 音声を含む未知入力音声の認識結果と して出力する音声認識装置と して 機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体 であって、
コンピュータに、
音響解析の単位であるフ レーム毎に、 前記未知入力音声を音響分析し 、 認識に必要な特徴パラメータを算出する特徴量算出ステップと、 前記フ レーム毎に、 前記特徴パラメータ とガーベージ音響モデル格納 手段に予め格納された前記ガーベージ音響モデルとを照合し、 前記ガー ページ音響スコアを計算するガーベージ音響スコア計算ステップと、 前記ガーベージ音響スコア計算ステップで算出したガーベージ音響ス コアを、 前記非言語音声が入力されたフ レームについて、 上昇させるよ うに修正するガーベージ音響スコア修正ステップと、
前記言語スコアと、 前記単語音響スコアと、 前記ガーベージ音響スコ ァ修正ステップで修正したガーベージ音響スコアとの累積スコアの最も 高い単語列を、 前記未知入力音声の認識結果と して出力する認識結果出 力ステップと
を実行させるためのプログラム記録したコンピュータ読み取り可能な 記録媒体。
PCT/JP2004/001109 2003-02-19 2004-02-04 音声認識装置及び音声認識方法 WO2004075168A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04708029A EP1603116A1 (en) 2003-02-19 2004-02-04 Speech recognition device and speech recognition method
US10/504,926 US7711560B2 (en) 2003-02-19 2004-02-04 Speech recognition device and speech recognition method
JP2004553528A JP3678421B2 (ja) 2003-02-19 2004-02-04 音声認識装置及び音声認識方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003041129 2003-02-19
JP2003-041129 2003-02-19
JP2003281625 2003-07-29
JP2003-281625 2003-07-29

Publications (1)

Publication Number Publication Date
WO2004075168A1 true WO2004075168A1 (ja) 2004-09-02

Family

ID=32911401

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/001109 WO2004075168A1 (ja) 2003-02-19 2004-02-04 音声認識装置及び音声認識方法

Country Status (4)

Country Link
US (1) US7711560B2 (ja)
EP (1) EP1603116A1 (ja)
JP (1) JP3678421B2 (ja)
WO (1) WO2004075168A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
US9812122B2 (en) 2014-09-24 2017-11-07 International Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
WO2022254912A1 (ja) * 2021-06-01 2022-12-08 株式会社Nttドコモ 音声認識装置
WO2022254909A1 (ja) * 2021-06-01 2022-12-08 株式会社Nttドコモ 音声認識装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848927B2 (en) * 2004-11-30 2010-12-07 Panasonic Corporation Speech recognition device and method of recognizing speech using a language model
US20060116878A1 (en) * 2004-11-30 2006-06-01 Kenji Nagamine Asthma diagnostic apparatus, asthma diagnostic method, and storage medium storing asthma diagnostic program
GB0511307D0 (en) 2005-06-03 2005-07-13 South Manchester University Ho A method for generating output data
US20070057798A1 (en) * 2005-09-09 2007-03-15 Li Joy Y Vocalife line: a voice-operated device and system for saving lives in medical emergency
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
KR101513847B1 (ko) * 2007-12-21 2015-04-21 코닌클리케 필립스 엔.브이. 화상들을 재생하기 위한 방법 및 장치
US8677386B2 (en) * 2008-01-02 2014-03-18 At&T Intellectual Property Ii, Lp Automatic rating system using background audio cues
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
JP2009288523A (ja) * 2008-05-29 2009-12-10 Toshiba Corp 音声認識装置及びその方法
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8082448B2 (en) * 2008-10-28 2011-12-20 Xerox Corporation System and method for user authentication using non-language words
US8595010B2 (en) * 2009-02-05 2013-11-26 Seiko Epson Corporation Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition
US20100017192A1 (en) * 2009-09-26 2010-01-21 Manuel-Devadoss Smith Johnson Method and portable apparatus for performing spoken language translation using language areas of intended recipients' brain
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
CN102520788B (zh) * 2011-11-16 2015-01-21 歌尔声学股份有限公司 一种语音识别控制方法
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
KR101709188B1 (ko) * 2012-11-16 2017-03-08 한국전자통신연구원 비문형적 어휘 모델 기반 음성 인식 방법
EP3012833B1 (en) * 2013-06-19 2022-08-10 Panasonic Intellectual Property Corporation of America Voice interaction method, and device
US10050926B2 (en) * 2014-02-05 2018-08-14 Facebook, Inc. Ideograms based on sentiment analysis
US9515968B2 (en) * 2014-02-05 2016-12-06 Facebook, Inc. Controlling access to ideograms
US10013601B2 (en) 2014-02-05 2018-07-03 Facebook, Inc. Ideograms for captured expressions
US10360904B2 (en) 2014-05-09 2019-07-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10003938B2 (en) 2015-08-14 2018-06-19 Apple Inc. Easy location sharing
US10445425B2 (en) * 2015-09-15 2019-10-15 Apple Inc. Emoji and canned responses
US20180074661A1 (en) * 2016-09-14 2018-03-15 GM Global Technology Operations LLC Preferred emoji identification and generation
JP6585022B2 (ja) 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
DK180171B1 (en) 2018-05-07 2020-07-14 Apple Inc USER INTERFACES FOR SHARING CONTEXTUALLY RELEVANT MEDIA CONTENT
CN110875060A (zh) 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 语音信号处理方法、装置、系统、设备和存储介质
FR3089334A1 (fr) * 2018-12-04 2020-06-05 Orange Activation d’alarme via un réseau de communication bas-débit
US11194467B2 (en) 2019-06-01 2021-12-07 Apple Inc. Keyboard management user interfaces
US11074408B2 (en) 2019-06-01 2021-07-27 Apple Inc. Mail application features
CN112767924A (zh) * 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339446A (ja) * 1995-06-09 1996-12-24 Sharp Corp 対話装置
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
JPS6350896A (ja) * 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
DE3733659A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Verfahren zum vergleichen von mustern
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5339385A (en) * 1992-07-22 1994-08-16 Itt Corporation Speaker verifier using nearest-neighbor distance measure
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US5832429A (en) * 1996-09-11 1998-11-03 Texas Instruments Incorporated Method and system for enrolling addresses in a speech recognition database
US6058363A (en) * 1997-01-02 2000-05-02 Texas Instruments Incorporated Method and system for speaker-independent recognition of user-defined phrases
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
US7007235B1 (en) * 1999-04-02 2006-02-28 Massachusetts Institute Of Technology Collaborative agent interaction control and synchronization system
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
AU8030300A (en) * 1999-10-19 2001-04-30 Sony Electronics Inc. Natural language interface control system
US6535850B1 (en) * 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
JP2002036158A (ja) * 2000-07-27 2002-02-05 Yamaha Motor Co Ltd 自律機能を有する電子機器
DE60028219T8 (de) * 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
US7076430B1 (en) * 2002-05-16 2006-07-11 At&T Corp. System and method of providing conversational visual prosody for talking heads
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339446A (ja) * 1995-06-09 1996-12-24 Sharp Corp 対話装置
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BON K. SY AND HOROWITZ DAVID M.: "A statistical causal model for the assessment of dysarthric speech and the utility of computer-based speech recognition", IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING, vol. 40, no. 12, December 1993 (1993-12-01), pages 1282 - 1298, XP002904601 *
INOUE, TAKEDA, YAMAMOTO: "A Method to Deal with Out-of-Vocabulary Words in Spontaneous Speech by Using Garbage HMM", THE TRANSACTION OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS A, vol. J77-A, no. 2, 25 February 1994 (1994-02-25), pages 215 - 222, XP002971098 *
KAI NAKAGAWA: "Jochogo iinaoshi nado o fukumu hatsuwa no tame no michigo shori o mochiita onsei ninshiki system no hikaku hyoka", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS D-II, vol. J80-D-II, no. 10, 25 October 1997 (1997-10-25), pages 2615 - 2625, XP002904498 *
KANEDA, SUGIYAMA: "Onkyo jokei jimaku hyoji no tame no waraigoe no kento", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2001 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU -I-, vol. 3-P-3, 14 March 2001 (2001-03-14), pages 169 - 170, XP002904500 *
OKUMURA ET AL.: "Onsei ninshiki no okeru kitsuon shori ni kansuru kento", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU UONSEI], vol. 99, no. 576, 20 January 2000 (2000-01-20), pages SP99 - 135, XP002904499 *
REGIS PRIVAT ET AL.: "Accessibility and affordance for Voice XML technology", PROCEEDINGS OF THE 8TH INTERNATIONAL CONFERENCE ON COMPUTERS HELPING PEOPLE WITH SPECIAL NEEDS (ICCHP 2002), July 2002 (2002-07-01), pages 61 - 63, XP002904602 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
US9812122B2 (en) 2014-09-24 2017-11-07 International Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
WO2022254912A1 (ja) * 2021-06-01 2022-12-08 株式会社Nttドコモ 音声認識装置
WO2022254909A1 (ja) * 2021-06-01 2022-12-08 株式会社Nttドコモ 音声認識装置

Also Published As

Publication number Publication date
US7711560B2 (en) 2010-05-04
JP3678421B2 (ja) 2005-08-03
US20050256712A1 (en) 2005-11-17
JPWO2004075168A1 (ja) 2006-06-01
EP1603116A1 (en) 2005-12-07

Similar Documents

Publication Publication Date Title
JP3678421B2 (ja) 音声認識装置及び音声認識方法
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
EP1557822B1 (en) Automatic speech recognition adaptation using user corrections
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
EP1701338B1 (en) Speech recognition method
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP6654611B2 (ja) 成長型対話装置
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
JP2002091482A (ja) 感情検出方法及び感情検出装置ならびに記録媒体
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
CN106653002A (zh) 一种文字直播方法及平台
KR20180057970A (ko) 음성감성 인식 장치 및 방법
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
CN100495535C (zh) 语音识别装置及语音识别方法
JP4847581B2 (ja) 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JP2009265567A (ja) 音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置
Addarrazi et al. The Hmm Based Amazigh Digits Audiovisual Speech Recognition System
JP2005128242A (ja) 音声認識装置
CN114255758A (zh) 口语评测方法及装置、设备以及存储介质
JP2005091709A (ja) 音声認識装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2004553528

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2004708029

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10504926

Country of ref document: US

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 20048004331

Country of ref document: CN

WWW Wipo information: withdrawn in national office

Ref document number: 2004708029

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2004708029

Country of ref document: EP