WO2013035293A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- WO2013035293A1 WO2013035293A1 PCT/JP2012/005540 JP2012005540W WO2013035293A1 WO 2013035293 A1 WO2013035293 A1 WO 2013035293A1 JP 2012005540 W JP2012005540 W JP 2012005540W WO 2013035293 A1 WO2013035293 A1 WO 2013035293A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- alphabet
- dot
- character string
- word
- user
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 description 55
- 230000010365 information processing Effects 0.000 description 14
- RPNUMPOLZDHAAY-UHFFFAOYSA-N Diethylenetriamine Chemical compound NCCNCCN RPNUMPOLZDHAAY-UHFFFAOYSA-N 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000000832 Ayote Nutrition 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 240000001980 Cucurbita pepo Species 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- BJAJDJDODCWPNS-UHFFFAOYSA-N dotp Chemical compound O=C1N2CCOC2=NC2=C1SC=C2 BJAJDJDODCWPNS-UHFFFAOYSA-N 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Definitions
- the present invention relates to a speech recognition apparatus.
- C”, “E”, “T”, and the like are portions where the energetic energy of the pronunciation is extended to “e” at the end of the word, which is difficult for humans to hear.
- consonants are mixed into the noise and become unclear, making recognition more difficult. Therefore, conventionally, English words starting with the letters are assigned to each alphabet such as A: alpha, B: bravo, C: Charlie, etc., and the reading is registered in the speech recognition device.
- the user has taken a means of acquiring the alphabet corresponding to the English word by uttering the assigned English word.
- the method of assigning English words starting with the letters for each alphabet requires the speaker to learn English words corresponding to the 26 letters of the alphabet. That is, in order to perform voice input more promptly, it is necessary to store English words corresponding to each alphabet, which takes time to store, leading to an increase in training cost.
- a method of assigning English words starting with the letters for each alphabet there is a problem that the speaker must always associate the next alphabet when speaking and remember to remember the corresponding English word .
- ADC will be read as “ABC,” but after “A” Talking “Dee” as it is, or uttering an alphabet that should follow a certain alphabet without saying it, is likely to cause false utterances.
- an object of the present invention is to provide a speech recognition apparatus that leads to improvement in accuracy of speech recognition and is suitable for reducing the burden on a speaker.
- One aspect of the present invention includes a recognition dictionary and a speech recognition processing unit that performs speech recognition processing using the recognition dictionary.
- the recognition dictionary includes a character to be recognized, a predetermined character string, and The recognition data associated with the voice data representing the reading of the continuous character string consisting of the subsequent characters to be recognized is registered, and the predetermined character string has been read by reading the continuous character string.
- the speech recognition apparatus is a character string that increases the speech energy of the first phoneme of the character to be recognized.
- the predetermined character string may be a Japanese character string, the reading of which is 3 mora or more, and the last 2 mora of the character string may be “tto”.
- the predetermined character string may be an English character string, and may be a character string whose reading is configured in the order of consonant, vowel, and consonant.
- the predetermined character string may be a Chinese character string, and may be a character string whose reading is classified into a third voice in Chinese tone and becomes one syllable.
- the recognition dictionary includes recognition data in which a character to be recognized is associated with information related to voice data representing a reading of a continuous character string including the predetermined character string and the character to be recognized that is continued a predetermined number of times. May be registered.
- the character to be recognized may be an alphabet.
- the recognition data in which the information related to the speech data representing the reading of the continuous character string including the predetermined character string and the subsequent recognition target character and the recognition target character are associated with the recognition dictionary.
- the character string that increases the speech energy of the first phoneme of the character to be recognized is set as the predetermined character string.
- the predetermined character string is a Japanese character string, which is a word of 3 mora or more in Japanese reading, such as “dot”, “at”, and the last two mora are “tto”.
- the predetermined character string is an English character string and the English reading of the character string such as “dot”, “pub”, “pot”, “dub” is configured in the order of consonant, vowel, and consonant.
- the predetermined character string is a Chinese character string, and the Chinese reading of the character string such as “Den”, “Dien”, “Dan” is in Chinese tone.
- a character string that is classified into three voices and becomes one syllable, it is possible to easily increase the voice energy of the first phoneme of the character to be recognized when uttered.
- a recognition dictionary corresponding to a continuous character string consisting of consecutive recognition target characters, one of the recognition target characters is difficult to recognize.
- By making the target characters continuous and making it easier to extract the acoustic feature quantity it is possible to easily identify characters that are difficult to identify, that is, the recognition rate can be further improved.
- a predetermined character string is added to the alphabet.
- the alphabet is short in length when spoken and there are many characters that are similar to each other, but adding a predetermined character string to the alphabet makes it easier to extract the acoustic features of the alphabet and improves the recognition rate. Can be made.
- FIG. 4 is an enlarged view of a leading element portion of alphabet “B” in FIG. 3.
- FIG. 5 is an enlarged view of a leading element portion of alphabet “B” in FIG. 4. It is an example of a spectrogram when a North American native English speaker speaks the alphabet “K”.
- FIG. 12 is an enlarged view of a leading element portion of alphabet “D” in FIG. 11.
- FIG. 13 is an enlarged view of a leading element portion of alphabet “D” in FIG. 12.
- FIG. 1 is a schematic configuration diagram illustrating an example of a speech recognition apparatus 100 according to an embodiment of the present invention.
- the voice recognition device 100 is configured by, for example, a personal computer, and includes a user information processing unit 1, a voice recognizer 2, a voice input device 3, and a recognition result output device 4.
- the user information processing unit 1 includes a user information input device 11, a user information processing execution unit 12, and an alphabet utterance method database 13.
- the user information input device 11 is a device for logging in to the voice recognition device 100 and inputting user information, and is composed of, for example, a keyboard.
- the user information is information that identifies a user who performs voice recognition, and includes, for example, a user ID.
- the user information processing execution unit 12 inputs user information from the user information input device 11 and reads various information corresponding to the user information from the alphabet utterance method database 13.
- the alphabet utterance method database 13 stores, for each user ID, alphabet input method information indicating what input method the user specified by the user ID inputs the alphabet. This alphabet input method information will be described later.
- the user information processing execution unit 12 reads alphabet input method information corresponding to the user information input from the user information input device 11 from the alphabet utterance method database 13, and reads this from the later-described voice collation processing execution unit 21 of the speech recognizer 2. Output to.
- the speech recognizer 2 includes a speech collation processing execution unit 21, an acoustic model database 22, a word dictionary database 23, and a language model database 24.
- the voice collation processing execution unit 21 inputs voice data from the voice input device 3 and inputs the voice data based on the acoustic model, the word dictionary, and the language model stored in the acoustic model database 22, the word dictionary database 23, and the language model database 24. Voice recognition is performed on the received voice data, and the result is output to the recognition result output device 4.
- the word dictionary database 23 as a word dictionary, a character string representing an arbitrary word and a time-series feature amount of an acoustic model corresponding to the character string are stored in association with each other.
- a time-series feature amount of an acoustic model representing a word previously set for each alphabet for example, a word to which “dot” is added is associated.
- the time-series feature quantity of the acoustic model corresponding to “Dot A dot D” and the word “ADC” are stored in association with each other.
- the alphabet string here is not an English word, but an alphabetical sequence representing one word spoken for each alphabet.
- the characteristic amount of the acoustic model corresponding to “Dot N” for “N” and “Dot Peep” for “P” is stored in association with each other.
- the time-series feature amount of the acoustic model corresponding to “dot dot dot M” and the word “PM” are stored in association with each other.
- the type of words added before these alphabets and the feature value setting method for the alphabets “N” and “P” are set corresponding to the alphabet input method information of each user who uses the speech recognition apparatus 100. ing.
- the voice input device 3 is composed of a sound collecting device such as a microphone.
- the voice input device 3 converts the voice voice into an analog electric signal corresponding to the voice, converts the electric signal into a digital signal by an A / D converter (not shown), and converts the electric signal to the voice recognizer 2 as voice data.
- the recognition result output device 4 is constituted by a display device, for example, and displays a result of speech recognition by the speech recognizer 2, that is, a character string corresponding to the input speech data.
- the speech recognition apparatus 100 when inputting alphabets, a preset word is added before each alphabet. As the added word, a word that can be directed so as to increase the speech energy of the first phoneme of the alphabet is set.
- a word that is a Japanese character string and is a word of 3 mora or more in Japanese reading, and a word having a prompt sound “tto” is set at its last 2 mora.
- it is an English character string that is composed of consonants in the order of consonants, vowels, and consonants in English reading, or a Chinese character string whose reading is classified as the third voice in Chinese tone and one syllable. Is set.
- mora is a syllable unit of sound, and represents how many times the word is read. For example, in Japanese reading, “Nasu” is 2 mora, “Pumpkin” is 3 mora, and “Lucky” is 5 mora.
- tone languages such as Chinese
- tone (Tone) uses the tone (Tone) to distinguish the meaning of words.
- Tone 1 to Tone 4 there are basically four tones (first to fourth voices: Tone 1 to Tone 4) in Chinese.
- the horizontal axis in FIG. 2 is the normalized time, and the vertical axis is the fundamental frequency (f0) extracted from the input voice.
- the numbers “0-9” in Chinese are “1, 3, 7, 8” for the first voice (Tone1), “0” for the second voice (Tone2), and “5,9” for the third voice ( Tone3), “0, 2, 4, 6” is classified as the fourth voice (Tone4).
- the third voice has a characteristic that the fundamental frequency (f0) is lower than other tones, and the fundamental frequency (f0) decreases immediately after utterance and then increases.
- Specific words that can be directed to increase the speech energy of the first phoneme of the alphabet as described above, specifically, “dot”, “at”, “alphabet” , “Pub”, “pot”, “Den”, “Dien”, “Dan”, etc. can be applied in Chinese reading.
- ADC is read as “dot dot dot dot dot”.
- a word such as “dot” that can be directed to increase the speech energy of the first phoneme of the alphabet is added before the alphabet
- the “t” part added before the alphabet is strong first.
- the first phoneme of the alphabet following “t” is also strongly uttered while maintaining its momentum.
- FIG. 3 is a spectrogram when a Japanese whose native language is Japanese speaks “Bee” without adding an alphabet “B” in front of it.
- FIG. 4 is a spectrogram when the same person as in FIG. 3 adds “dot” in front of the alphabet “B” and speaks “dot bee”.
- the horizontal axis represents time and the vertical axis represents frequency.
- brightness represents strength.
- a region surrounded by a dotted line represents a consonant portion of “B”.
- 5 and 6 are enlarged views of the area surrounded by the dotted line.
- FIG. 5 is an enlarged view of the part surrounded by the dotted line in FIG. 3, and
- FIG. 6 is surrounded by the dotted line in FIG. This is an expanded area.
- FIG. 7 is a spectrogram when a North American native English speaker speaks “K” without adding the alphabet “K” in front of it.
- FIG. 8 is a spectrogram when the same person as in FIG. 7 adds “pub” before the alphabet “K” and speaks “pub-ke”. 7 and 8, the horizontal axis represents time and the vertical axis represents frequency. In addition, brightness represents strength.
- FIG. 9 is an enlarged view of the portion surrounded by the dotted line in FIG. 7, and FIG. 10 is surrounded by the dotted line in FIG. This is an expanded area.
- FIG. 11 is a spectrogram when a Chinese native speaker of Mandarin speaks “D” without adding the alphabet “D” in front of it.
- FIG. 12 is a spectrogram when the same person as in FIG. 11 adds “point (dien)” in front of the alphabet “D” and speaks “diendi”.
- the horizontal axis represents time and the vertical axis represents frequency.
- brightness represents strength.
- a region surrounded by a dotted line represents a consonant part of “D”.
- 13 and 14 are enlarged views of the area surrounded by the dotted line.
- FIG. 13 is an enlarged view of the part surrounded by the dotted line in FIG. 11, and
- FIG. 14 is surrounded by the dotted line in FIG. This is an expanded area.
- FIGS. 15 to 18 show a case where a speaker whose native language is Japanese speaks without adding anything in front of the alphabet, and a case in which “dot” is added before the alphabet.
- the voice recognition rate is compared.
- FIGS. 15 and 16 show a case where five adult males and five adult females who are native speakers of Japanese have a total of 10 subjects as subjects and speak one alphabet without adding anything in front of the alphabet. This represents the average recognition rate for each individual and the overall average recognition rate for utterances with “dots” added before the alphabet, and the recognition rate for the first candidate and the recognition for the second candidate. It represents the rate.
- the recognition rate of the Nth candidate represents the probability that the correct alphabet is included up to the Nth candidate of the speech recognition result.
- the average recognition rate when “dot” is not added before the alphabet is 91.15% for the first candidate and 96 for the second candidate.
- the average recognition rate when “dot” is added before the alphabet is 93.85% for the first candidate and 99.62% for the second candidate, Recognition rate is improved by about 2-3%.
- the average recognition rate when “dot” is not added before the alphabet is 77.33% in the case of the first candidate
- the average recognition rate when adding “dot” in front of each alphabet is 88.67% for the first candidate and 97.67% for the second candidate. Therefore, the recognition rate is improved by about 7 to 11%.
- the improvement of the speech recognition rate by adding “dot” in front of each alphabet and speaking is larger than the case of recognizing one alphabetic character. That is, in the case of utterances in which alphabets are continuous, it can be seen that adding “dots” to the front of each alphabet to utter a speech is more effective in improving the recognition rate.
- FIG. 19 and 20 show a case in which one person from North America, whose native language is English, is a subject and speaks without adding anything in front of the alphabet, and when publishing with “pub” in front of the alphabet And compare the speech recognition rates.
- FIG. 19 shows the recognition rates of the first to fifth candidates when one alphabet is spoken without adding anything in front of the alphabet and when “s” is added before the alphabet. It is a thing.
- FIG. 20 is the same subject as FIG. 19, the first to fifth candidates when speaking two alphabetic characters without adding anything before the alphabet and when speaking with “pub” added before the alphabet. It represents the recognition rate.
- FIGS. 21 and 22 show a case where one person from China, whose native language is Mandarin, is a subject who speaks without adding anything in front of the alphabet, and in Chinese reading before the alphabet. The speech recognition rate is compared with the case where the utterance is added.
- FIG. 21 shows the recognition rates of the first to fifth candidates when one alphabet is spoken without adding anything in front of the alphabet and when “dot (dien)” is spoken before the alphabet. It represents.
- FIGS. 22A and 22B are the same subjects as those in FIG. 21, in which two alphabets are uttered without adding anything in front of the alphabet and when “Den” is added before the alphabet. To the recognition rate of the fifth candidate.
- a character string composed of consonants, vowels and consonants in order such as “pub”, “dot (dien)” in front of the alphabet, and the pronunciation is in Chinese tone. It can be seen that the recognition rate is improved by adding a character string that is classified into the third voice and becomes one syllable. This is similar to the case of speaking with “dot” added before each alphabet, as compared to the case of speaking without adding anything in front of the alphabet, such as “pub”, “dot (dien)”, etc. Adding the character string makes it easier to clearly speak the first phoneme of each alphabet, and because the alphabet utterances do not continue because the alphabet is separated by the above character string, the alphabet part is broken The reason is that it is difficult to become.
- a common word is added to each alphabet, and it is possible to individually set for each alphabet whether the alphabet part is uttered once or twice.
- the letters “M” and “N” differ in pronunciation from the beginning, not the second mora, and “M” in “M” and “N” in “N” are both nasal sounds. Therefore, identification is difficult.
- alphabet input method information information on whether to utter the alphabet only once or twice (hereinafter referred to as alphabet input method information) is stored in the alphabet utterance method database 13 for each user. ing.
- the number of times the alphabet following the added word “dot” is read, for example, “M” is 1 time and “N” is 2 times.
- the number of times the alphabet following the added word “dot” is read is set, for example, “B” is set to 1 and “P” is set to 2 times.
- the alphabet set “M and N” is set, for example, “M” is set twice, “N” is set once, and the alphabet set “B and P” is set. For example, “B” is set twice and “P” is set once.
- the user ID is associated with the user ID from the alphabet utterance method database 13 based on the user ID included in the user information.
- the alphabet input method information is acquired, and the acquired alphabet input method information is output to the speech collation processing execution unit 21 of the speech recognizer 2.
- the voice collation processing execution unit 21 performs voice recognition based on the alphabet input method information input from the user information processing execution unit 12. As a result, it is possible to perform speech recognition with optimal settings for each user of the speech recognition apparatus 100.
- FIG. 23 shows an example of a series of operations of the speech recognition apparatus 100 when performing speech recognition.
- the user A first operates the user information input device 11 to input user information and performs a login operation.
- the user information input device 11 reads the user information and outputs it to the user information processing execution unit 12 (step S1).
- the user information processing execution unit 12 reads the alphabet input method information corresponding to the user ID included in the user information from the alphabet utterance method database 13 and outputs it to the voice collation process execution unit 21 (step S2).
- the user A utters a recognition target alphabet string to the voice input device 3.
- the user A speaks by the input method set in advance as the user A's alphabet input method information.
- the alphabet input method information For example, as described above, for the alphabet set “M and N” that is difficult to identify, in the case of the user A, as the alphabet input method information, the number of times the alphabet following the added word “dot” is read, for example, “M “N” is defined as 1 time, and “N” is defined as 2 times.
- the alphabet set “B and P” the number of times the alphabet following the added word "dot” is read, for example, "B” is 1 It is assumed that “P” is set as a setting twice.
- user A inputs, for example, “PAM” as an alphabetical string.
- User A utters “dot dot dot dot dot” according to the input method set as the alphabet input method information of user A.
- the voice of the user A is collected by the voice input device 3 and subjected to predetermined processing, then converted into voice data composed of a digital signal, and input to the voice collation processing execution unit 21 (steps S3 and S4). .
- the speech collation processing execution unit 21 performs speech recognition processing on the input speech data based on the acoustic model, the word dictionary, and the language model (Step S5).
- the word dictionary database 23 a word dictionary corresponding to the alphabet input method information of the user who uses the speech recognition apparatus 100 is registered for words including alphabet strings or words including alphabet strings.
- the voice collation processing execution unit 21 executes voice recognition processing using a word dictionary corresponding to the alphabet input method information input from the user information processing execution unit 12. That is, a word dictionary corresponding to the alphabet input method information of each user is set in the word dictionary database 23.
- the setting of the word dictionary may be performed using a known word dictionary generation device that generates a word dictionary in which a word to be recognized is associated with a feature value of voice data representing the reading of the word.
- time-series feature quantities of acoustic models representing words to be registered with a preset word for example, “dot” added in advance, are stored in association with each alphabet.
- voice data representing “dot-peep” a feature quantity of an acoustic model corresponding to the voice data is stored in association with each other. That is, for example, the word “PAM” is stored in association with “dot dot dot dot dot” corresponding to the alphabet input method of the user A and “dot dot dot dot dot” corresponding to the alphabet input method of the user B. Has been.
- the word “NB” stores “Dot N.D.B” and “Dot N.D.B” in association with each other.
- “M” is set once
- “N” is set twice
- “B” is set once
- “P” is set twice as alphabet input method information. Therefore, speech recognition is performed with reference to the word dictionary in which the words “PAM” and “Dot PP dot A dot M” corresponding to the alphabet input method of the user A are associated.
- the voice data representing “dot-py dot-dot dot-em” is recognized as “P A M” by referring to the word dictionary corresponding to the alphabet input method information of the user A, and this is recognized as a recognition result as a recognition result output device. 4 is output and displayed (step S6).
- “M” is set twice
- “N” is set once
- “B” is set twice
- “P” is set once. Therefore, when inputting the word “PAM” by voice, the user B speaks “dot dot dot dot dot M”.
- the speech collation processing execution unit 21 performs speech recognition using a word dictionary corresponding to the user B's alphabet input method information. Therefore, a word dictionary in which the words “PAM” and “DotP dot dot dot M” are associated with each other is used. Speech recognition is performed with reference to the above. Therefore, the voice data representing “Dot P dot A dot M” is recognized as “P A M” by referring to the word dictionary corresponding to the alphabet input method information of the user B.
- the alphabets “P”, “A”, and “M” are separated by the word “dot”.
- the “AM” portion is less likely to be spoken as “Ame”.
- the first element of the alphabet is clearly uttered. Therefore, the acoustic feature amount “M” is likely to appear in the audio data. Therefore, the recognition rate can be improved.
- the user needs to add “dot” in front of the alphabet, but “dot” that is a common word is added to each alphabet, and it is relatively easy to speak. It is possible to suppress making mistakes and saying.
- alphabet input method information is set for each user, and when user A performs voice recognition based on the voice data spoken by user A, an input method that can ensure a certain recognition rate. Speaking using. Therefore, the recognition rate can be further improved by performing speech recognition in consideration of the speech characteristics of user A.
- “dot” is used as a word to be added in front of the alphabet.
- the present invention is not limited to this.
- “at” or “alphabet” may be added.
- a word having a good recognition rate is detected in advance for each user as a word to be added, so that a different word is added for each user. You may do it.
- the feature value of the acoustic model representing the word with “dot” added in front of each alphabet is associated with the alphabet string, and the word
- the present invention is not limited to this. For example, you may register into a word dictionary by the unit of the alphabet which added "dot”. That is, it may be registered in the word dictionary in units of “dot M” and “dot bee”.
- the alphabet, the character string that increases the speech energy of the first phoneme of the alphabet, and the information related to the speech data representing the reading of the continuous character string composed of the alphabet following the alphabet are registered in association with each other.
- characters to be recognized are not limited to alphabets, hiragana and katakana, and are not particularly limited, and the number of characters to be recognized is not limited.
- the user information processing unit 1 and the speech recognizer 2 are incorporated into one device and the speech recognition device 100 is configured has been described. It is not limited.
- the user information processing unit 1 and the speech recognizer 2 may be incorporated in separate devices. In this case, the user information processing unit 1 and the speech recognizer 2 may be connected via a communication line or the like. .
- the present invention is not limited to this.
- a character or word that is easy to speak may be added after the alphabet.
- another word for example, “at”.
- words or characters that can provide sufficient acoustic features may be added between alphabets that are difficult to identify.
- the word dictionary stored in the word dictionary database 23 corresponds to the recognition dictionary
- the voice collation processing execution unit 21 corresponds to the voice recognition processing unit
- “dot” corresponds to the predetermined character string. is doing.
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
特に、物流・医療などの業務においては、製品の型番やIDなど、アルファベットと数字とが混在するような文字列の入力を必要とするケースが多く、アルファベットや数字の音声認識精度が良く、且つ誤認識が少ないということは、音声認識による業務の効率化に大きく貢献する。
しかしながら、特にアルファベットは、発話した際に非常に短い上、発音が互いに近い文字も多く、正確に認識することは困難である。
特に、倉庫や工場など雑音が存在する環境では、子音が雑音に紛れ、はっきりとしなくなるため認識がより困難なものとなる。
そのため、従来は、A:alpha(アルファー)、B:bravo(ブラボー)、C:Charlie(チャーリー)などのように、アルファベット毎にその文字で始まる英単語を割り当て、その読みを音声認識装置に登録しておき、ユーザにはこれらの割り当てられた英単語を発話させることで英単語に対応するアルファベットを取得するという手段がとられていた。
この方式では、例えば「ADC」の場合の読みは、「エービー ディーイー シーディー」となる。
これは、アルファベット2文字の組み合わせとすることにより、発話の音響的特徴量が大きくなるということを利用して、アルファベット1文字の場合に比べて認識率を向上させることを狙いとしている。
また、アルファベット毎にその文字で始まる英単語を割り付ける方式の場合には、発話者が発話時に常に次のアルファベットを連想し、これに対応する英単語を思い出しながら発話しなければならないという問題がある。
そこでこの発明は、音声認識の精度の向上に繋がり、かつ発話者にとって負担を小さくするのに好適な音声認識装置を提供することを目的としている。
前記所定文字列は、英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であってよい。
前記所定文字列は、中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であってよい。
前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていてよい。
前記認識対象の文字は、アルファベットであってよい。
また、所定文字列として、英語の文字列であり且つ「dot」、「pub」、「pot」、「dub」といった、その文字列の英語読みが、子音、母音、子音の順で構成される文字列を付加することにより、発話されたときに認識対象の文字の先頭音素の音声エネルギを容易に高めることができる。
また、所定文字列を付加するだけでなく、認識対象の文字を連続させてなる連続文字列に対応する認識辞書を用いることによって、識別しにくい認識対象の文字どうしであっても、一方は認識対象の文字を連続させ音響的特徴量を抽出しやすくすることにより、識別しにくい文字どうしを識別しやすくすることができ、すなわち、認識率をより向上させることができる。
図1は、本発明の一実施形態を示す、音声認識装置100の一例を示す概略構成図である。
この音声認識装置100は、例えばパーソナルコンピュータで構成され、ユーザ情報処理部1と、音声認識器2と、音声入力装置3と、認識結果出力装置4と、を備える。
ユーザ情報入力装置11は、音声認識装置100へのログイン操作、またユーザ情報などを入力するための装置であって、例えばキーボードなどで構成される。前記ユーザ情報とは、音声認識を行うユーザを特定する情報であって、例えばユーザIDを含む。
音声認識器2は、音声照合処理実行部21と、音響モデルデータベース22と、単語辞書データベース23と、言語モデルデータベース24と、を備える。
ここで、単語辞書データベース23には、単語辞書として、任意の単語を表す文字列とこれに対応する音響モデルの時系列の特徴量とが対応付けられて格納されている。さらに、アルファベット列からなる単語、またアルファベットを含む単語については、アルファベット毎にその前に予め設定した単語、例えば「ドット」が付加された単語を表す音響モデルの時系列の特徴量が対応付けられて格納されている。
認識結果出力装置4は例えば表示装置で構成され、音声認識器2での音声認識された結果、すなわち入力された音声データに対応する文字列を表示する。
本音声認識装置100では、アルファベットを入力する際には、各アルファベットの前に予め設定した単語を付加して入力する。この付加する単語としては、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語が設定される。
この他、英語の文字列であり英語読みで子音、母音、子音の順で構成される単語や、中国語の文字列でありその読みが中国語声調で第3声に分類され且つ一音節となる単語が設定される。
モーラ(mora)とは音の文節単位であり、その語句を何拍で読むかを表すものである。例えば日本語読みで、「なす」は2モーラ、「かぼちゃ」は3モーラ、「らっかせい」は5モーラとなる。
中国語などのいわゆる声調言語は、声調(Tone)を用いて言葉の意味を区別する。例えば、図2に示すように、中国語には基本的に4つの声調(第1声~第4声:Tone1~Tone4)が存在する。なお、図2の横軸は規格化した時間であり、縦軸は入力された音声から抽出される基本周波数(f0)である。中国語の「0~9」の数字は、「1、3、7、8」は第1声(Tone1)、「0」は第2声(Tone2)、「5、9」は第3声(Tone3)、「0、2、4、6」は第4声(Tone4)に分類される。
前述のようにアルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な、各アルファベットに対して共通に付加する単語として、具体的には、「ドット」、「アット」、「アルファベット」、「パブ」、「ポット」、また、中国語読みで「点(ディエン)」、「簡(ジエン)」、「党(ダン)」などを適用することが可能である。
通常、「ドット」など、アルファベットの先頭音素の音声エネルギが高くなるように仕向けることの可能な単語をアルファベットの前に付加した場合、まずアルファベットの前に付加された「ット」の部分が強く発話され、その勢いを保ちながら「ット」に続くアルファベットの先頭音素も強く発話されやすくなる。
このアルファベットの先頭音素は、各アルファベットを音響的に区別するのに有効な部分であり、その部分が強くはっきり発話されることは、音響的特徴量が抽出されやすくなることに繋がる。そのため、このような単語をアルファベットの前に付加して発話することはアルファベットの認識率の向上に繋がる。
例えば「NHK(登録商標)」や「SI」はそれぞれ本来の読み方は「エヌエイチケー」や「エスアイ」であるが、実際の発話では「エネーチケー」「エサイ」などという発音に近くなりやすい。
これらのいわゆる崩れたアルファベット発話と言うのは、音声認識器2で用いられる音響モデルで学習されている、通常のアルファベットの発音とは異なるため、認識ミスを発生させる要因となる。
すなわち、音響モデルで学習されているアルファベットの発音に近くなるため、アルファベットの認識率の向上に繋がる。
図3および図4において、点線で囲まれた領域は「B」の子音部分を表す。この点線で囲まれた領域を拡大したのが図5および図6であって、図5は、図3の点線で囲まれた部分を拡大したもの、図6は、図4の点線で囲まれた領域を拡大したものである。
このことより、アルファベットの前に、日本語の文字列でありその読みが3モーラ以上であり且つ末尾が「っと」で終わるような単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図7および図8の点線で囲まれた部分、つまり「K」の子音部分を比較すると、図9および図10から明らかなように、図10の方が黒い部分と白い部分とのコントラストがはっきりしており、子音部分のスペクトルがはっきりとしていることが分かる。つまり強く発音されていることがわかる。
このことより、アルファベットの前に、その読みが子音、母音、子音の順で構成される単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図11および図12において、点線で囲まれた領域は「D」の子音部分を表す。この点線で囲まれた領域を拡大したのが図13および図14であって、図13は、図11の点線で囲まれた部分を拡大したもの、図14は、図12の点線で囲まれた領域を拡大したものである。
このことより、アルファベットの前に、その読みが中国語声調で第3声に分類され且つ一音節となる単語を付加することにより、アルファベットの先頭音素の発音がはっきりとした発話が行われるということが分かる。
図15および図16は、日本語を母国語とする成人男性5名、成人女性5名、計10名を被験者とし、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。ここで、第N候補の認識率とは、音声認識結果の第N候補までに正解のアルファベットが含まれている確率を表す。
同様に、図17および図18は日本語を母国語とする成人男性3名を被験者とし、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベット毎にその前に「ドット」を付加して発話した場合とについて、個人毎の平均認識率と全体の平均認識率とを表したものであって、第一候補の認識率および第二候補の認識率を表したものである。
すなわち、アルファベットが連続するような発話の場合、アルファベット毎にその前に「ドット」を付加して発話することで、認識率の向上に対してより効果があることがわかる。
特に、「ドット」や「アット」を共通に付加する単語とした場合、短い単語である上、それぞれ「.」や「@」という日常でもよく見かける記号を連想しやすいため、特に記憶、および単語への付加の実施が容易である。
図19は、アルファベット1文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「「パブ」を付加して発話した場合の第一から第五候補の認識率を表したものである。
図21および図22は、北京語を母国語とする中国出身者1名を被験者とし、アルファベットの前に何も付加せず発話した場合と、アルファベットの前に中国語読みで「点(ディエン)」を付加して発話した場合とで、音声認識率を比較したものである。
図22は、図21と同じ被験者で、アルファベット2文字を、アルファベットの前に何も付加せずに発話した場合とアルファベットの前に「点(ディエン)」を付加して発話した場合の第一から第五候補の認識率を表したものである。
これはアルファベット毎にその前に「ドット」を付加して発話したときと同様に、アルファベットの前に何も付加せず発話する場合に比べて、「パブ」、「点(ディエン)」等の文字列を付加した方が各アルファベットの先頭音素をはっきり発話しやすくなる他、アルファベット間が上記文字列で区切られることにより、アルファベットの発話が連続することがなくなるため、アルファベット部分が崩れた発話になりにくいことが理由として挙げられる。
例えばアルファベットの「M」および「N」は、その発音に違いがある部分は先頭ではなく2モーラ目であり、かつ「エム」の「ム」と「エヌ」の「ヌ」とはどちらも鼻音であるため識別が難しい。
また、本実施形態では、各アルファベットについて、共通して付加する単語に続いて、アルファベットを1回のみ発話するかアルファベットを2回発話するかを、個人毎に設定可能としている。
そこで、共通して付加する単語に続いて、アルファベットを1回のみ発話するか、2回発話するかについての情報(以下、アルファベット入力方式情報という)をユーザごとにアルファベット発話方式データベース13に保持している。
そして、音声照合処理実行部21では、ユーザ情報処理実行部12から入力されたアルファベット入力方式情報に基づき音声認識を行う。
これにより、音声認識装置100のユーザ毎に、最適な設定で音声認識を行うことが可能となる。
図23は、音声認識を行う場合の、音声認識装置100の一連の動作の一例を示したものである。
ユーザAは、まず、ユーザ情報入力装置11を操作してユーザ情報を入力し、ログイン操作を行う。
ユーザ情報が入力されるとユーザ情報入力装置11はユーザ情報を読み込み、これをユーザ情報処理実行部12に出力する(ステップS1)。
ユーザ情報処理実行部12は、ユーザ情報に含まれるユーザIDに対応するアルファベット入力方式情報を、アルファベット発話方式データベース13から読み出し、音声照合処理実行部21に出力する(ステップS2)。
このとき、ユーザAは、予めユーザAのアルファベット入力方式情報として設定された入力方式により発話する。例えば、前述のように、識別が困難なアルファベットの組「MとN」については、ユーザAの場合、アルファベット入力方式情報として、付加した単語「ドット」に続くアルファベットを読む回数として、例えば「M」は1回、「N」は2回として定められており、また、アルファベットの組「BとP」について、付加した単語「ドット」に続くアルファベットを読む回数として、例えば、「B」は1回、「P」は2回として設定として定められているものとする。
ユーザAの発声音声は、音声入力装置3で集音され所定の処理が行われた後、デジタル信号からなる音声データに変換され、音声照合処理実行部21に入力される(ステップS3、S4)。
ここで、単語辞書データベース23には、アルファベット列からなる単語またはアルファベット列を含む単語については、音声認識装置100を使用するユーザのアルファベット入力方式情報に対応した、単語辞書が登録されている。
つまり、単語辞書データベース23には、各ユーザのアルファベット入力方式情報に対応した単語辞書が設定されている。なお、この単語辞書の設定は、認識させたい単語と、この単語の読みを表す音声データの特徴量とを対応付けた単語辞書の生成を行う公知の単語辞書生成装置を用いて行えばよい。
つまり、例えば、単語「PAM」には、ユーザAのアルファベット入力方式に対応した「ドットピーピー ドットエー ドットエム」とユーザBのアルファベット入力方式に対応した「ドットピー ドットエー ドットエムエム」とが対応付けられて格納されている。
そして、ユーザAの場合、前述のようにアルファベット入力方式情報として、「M」は1回、「N」は2回、「B」は1回、「P」は2回として設定されている。そのため、ユーザAのアルファベット入力方式に対応した、単語「PAM」と「ドットピーピー ドットエー ドットエム」とが対応付けられた単語辞書を参照して音声認識が行われる。
一方、ユーザBの場合には、アルファベット入力方式情報として、「M」は2回、「N」は1回として設定され、「B」は2回、「P」は1回として設定されているため、単語「PAM」を音声入力する場合、ユーザBは、「ドットピー ドットエー ドットエムエム」と発話する。
したがって、「ドットピー ドットエー ドットエムエム」を表す音声データは、ユーザBのアルファベット入力方式情報に対応する単語辞書を参照することにより、「P A M」として認識される。
しかしながら、ユーザAは、「PAM」と発話する際に、アルファベット毎にその前に「ドット」を付加し、且つ、「P」については、「ピー」を2回繰り返して「ドットピーピー」と発話している。
また、ユーザは、アルファベットの前に「ドット」を付加する必要があるが、各アルファベットに対して共通の単語である「ドット」を付加しており、比較的発話しやすいため、付加する単語を間違えたり、言い淀んだりすることを抑制することができる。
なお、上記実施の形態においては、アルファベットの前に付加する単語として「ドット」を用いた場合について説明したが、これに限るものではない。
この場合には、ユーザ毎のアルファベット入力方式情報に、アルファベットの前に付加する単語としてどの単語を付加するかの情報も含めるように構成すればよい。
したがって、アルファベットの前に単語を付加するか否かもアルファベット入力方式情報として含めることによって、アルファベットの前に単語を付加する必要がないユーザの場合には、単語を付加しなくても音声認識を行うことの可能な構成とすることもできる。
また、上記実施の形態においては、全てのアルファベットの前に、単語を付加する場合について説明したが、必ずしも全てのアルファベットの前に付加する必要はなく、「M」、「N」、「P」、「B」などの認識しにくいアルファベットのみの前に単語を付加する構成としてもよい。
例えば、「ドット」を付加したアルファベットの単位で、単語辞書に登録してもよい。つまり、「ドットエム」、「ドットビー」の単位で単語辞書に登録するようにしてもよい。
また、アルファベットを含まない文字列であっても適用することができ、この場合、アルファベット列からなる文字列について音声認識を行う場合と同等の作用効果を得ることができる。
なお、上記実施の形態において、単語辞書データベース23に格納されている単語辞書が認識辞書に対応し、音声照合処理実行部21が音声認識処理部に対応し、「ドット」が所定文字列に対応している。
2 音声認識器
3 音声入力装置
4 認識結果出力装置
11 ユーザ情報入力装置
12 ユーザ情報処理実行部
13 アルファベット発話方式データベース
21 音声照合処理実行部
22 音響モデルデータベース
23 単語辞書データベース
24 言語モデルデータベース
100 音声認識装置
Claims (6)
- 認識辞書と、
当該認識辞書を用いて音声認識処理を行う音声認識処理部と、を有し、
前記認識辞書には、認識対象の文字と、所定文字列およびこれに続く前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されており、前記所定文字列は、前記連続文字列の読みが発話されたときに、前記認識対象の文字の先頭音素の音声エネルギを高める文字列であることを特徴とする音声認識装置。 - 前記所定文字列は、日本語の文字列であり、その読みが3モーラ以上であり且つその末尾の2モーラが「っと(tto)」となる文字列であることを特徴とする請求項1に記載の音声認識装置。
- 前記所定文字列は、英語の文字列であり、その読みが子音、母音、子音の順で構成される文字列であることを特徴とする請求項1に記載の音声認識装置。
- 前記所定文字列は、中国語の文字列であり、その読みが中国語声調で第3声に分類され且つ一音節となる文字列であることを特徴とする請求項1に記載の音声認識装置。
- 前記認識辞書は、認識対象の文字と、前記所定文字列およびこれに続く所定回数連続した前記認識対象の文字からなる連続文字列の読みを表す音声データに関する情報と、が対応付けられた認識データが登録されていることを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。
- 前記認識対象の文字は、アルファベットであることを特徴とする請求項1から請求項5のいずれか1項に記載の音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013532432A JP5596869B2 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
US14/239,315 US9437190B2 (en) | 2011-09-09 | 2012-08-31 | Speech recognition apparatus for recognizing user's utterance |
EP12830496.1A EP2755202B1 (en) | 2011-09-09 | 2012-08-31 | Voice recognition device |
CN201280040807.7A CN103827962B (zh) | 2011-09-09 | 2012-08-31 | 声音识别装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-197625 | 2011-09-09 | ||
JP2011197625 | 2011-09-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013035293A1 true WO2013035293A1 (ja) | 2013-03-14 |
Family
ID=47831765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2012/005540 WO2013035293A1 (ja) | 2011-09-09 | 2012-08-31 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9437190B2 (ja) |
EP (1) | EP2755202B1 (ja) |
JP (1) | JP5596869B2 (ja) |
CN (1) | CN103827962B (ja) |
WO (1) | WO2013035293A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016206580A (ja) * | 2015-04-28 | 2016-12-08 | 四郎丸 功 | 音声認識装置及び音声認識システム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107731228B (zh) * | 2017-09-20 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179578A (ja) * | 1995-12-26 | 1997-07-11 | Nec Corp | 単音節認識装置 |
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH1188507A (ja) * | 1997-09-08 | 1999-03-30 | Hitachi Ltd | ページャ用音声認識装置 |
JP2004170466A (ja) * | 2002-11-15 | 2004-06-17 | Toshihisa Tsukada | 音声認識方法と電子装置 |
JP2007535692A (ja) * | 2004-03-09 | 2007-12-06 | ラオ、アシュウィン | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5987410A (en) * | 1997-11-10 | 1999-11-16 | U.S. Philips Corporation | Method and device for recognizing speech in a spelling mode including word qualifiers |
JPH11167393A (ja) | 1997-12-04 | 1999-06-22 | Hitachi Eng & Service Co Ltd | 音声認識装置および音声認識装置用辞書 |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
FI981154A (fi) * | 1998-05-25 | 1999-11-26 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen tunnistamiseksi |
DE19851287A1 (de) * | 1998-11-06 | 2000-06-21 | Siemens Ag | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte |
US6321196B1 (en) * | 1999-07-02 | 2001-11-20 | International Business Machines Corporation | Phonetic spelling for speech recognition |
US6304844B1 (en) * | 2000-03-30 | 2001-10-16 | Verbaltek, Inc. | Spelling speech recognition apparatus and method for communications |
US6975986B2 (en) * | 2001-05-30 | 2005-12-13 | International Business Machines Corporation | Voice spelling in an audio-only interface |
EP1372139A1 (en) * | 2002-05-15 | 2003-12-17 | Pioneer Corporation | Speech recognition apparatus and program with error correction |
US7143037B1 (en) * | 2002-06-12 | 2006-11-28 | Cisco Technology, Inc. | Spelling words using an arbitrary phonetic alphabet |
US20040236581A1 (en) * | 2003-05-01 | 2004-11-25 | Microsoft Corporation | Dynamic pronunciation support for Japanese and Chinese speech recognition training |
US7418387B2 (en) * | 2004-11-24 | 2008-08-26 | Microsoft Corporation | Generic spelling mnemonics |
US20060183090A1 (en) * | 2005-02-15 | 2006-08-17 | Nollan Theordore G | System and method for computerized training of English with a predefined set of syllables |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8515969B2 (en) * | 2010-02-19 | 2013-08-20 | Go Daddy Operating Company, LLC | Splitting a character string into keyword strings |
WO2011103934A1 (de) * | 2010-02-24 | 2011-09-01 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum trainieren des sprachverstehens und trainingsvorrichtung |
-
2012
- 2012-08-31 US US14/239,315 patent/US9437190B2/en not_active Expired - Fee Related
- 2012-08-31 WO PCT/JP2012/005540 patent/WO2013035293A1/ja active Application Filing
- 2012-08-31 CN CN201280040807.7A patent/CN103827962B/zh not_active Expired - Fee Related
- 2012-08-31 EP EP12830496.1A patent/EP2755202B1/en not_active Not-in-force
- 2012-08-31 JP JP2013532432A patent/JP5596869B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09179578A (ja) * | 1995-12-26 | 1997-07-11 | Nec Corp | 単音節認識装置 |
JPH09266510A (ja) * | 1996-03-28 | 1997-10-07 | Mitsubishi Electric Corp | ページャへのメッセージ作成方式 |
JPH1188507A (ja) * | 1997-09-08 | 1999-03-30 | Hitachi Ltd | ページャ用音声認識装置 |
JP2004170466A (ja) * | 2002-11-15 | 2004-06-17 | Toshihisa Tsukada | 音声認識方法と電子装置 |
JP2007535692A (ja) * | 2004-03-09 | 2007-12-06 | ラオ、アシュウィン | 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016206580A (ja) * | 2015-04-28 | 2016-12-08 | 四郎丸 功 | 音声認識装置及び音声認識システム |
Also Published As
Publication number | Publication date |
---|---|
EP2755202A1 (en) | 2014-07-16 |
US20140163987A1 (en) | 2014-06-12 |
EP2755202B1 (en) | 2016-07-13 |
US9437190B2 (en) | 2016-09-06 |
JP5596869B2 (ja) | 2014-09-24 |
EP2755202A4 (en) | 2015-05-27 |
CN103827962B (zh) | 2016-12-07 |
JPWO2013035293A1 (ja) | 2015-03-23 |
CN103827962A (zh) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20060229870A1 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JP6747434B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN105210147B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
US7406408B1 (en) | Method of recognizing phones in speech of any language | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP2010197644A (ja) | 音声認識システム | |
JP5596869B2 (ja) | 音声認識装置 | |
KR102217292B1 (ko) | 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
US20190189026A1 (en) | Systems and Methods for Automatically Integrating a Machine Learning Component to Improve a Spoken Language Skill of a Speaker | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム | |
CN110880327B (zh) | 一种音频信号处理方法及装置 | |
JP2013175067A (ja) | 自動読み付与装置及び自動読み付与方法 | |
JP4445371B2 (ja) | 認識語彙の登録装置と音声認識装置および方法 | |
JP2004309654A (ja) | 音声認識装置 | |
JP2014059330A (ja) | 音調表示制御装置およびプログラム | |
Islam et al. | A process to improve the accuracy of voice recognition system by using word correction system | |
JP2020095176A (ja) | 語学学習用装置および語学学習用プログラム | |
JPS6180298A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12830496 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2013532432 Country of ref document: JP Kind code of ref document: A |
|
REEP | Request for entry into the european phase |
Ref document number: 2012830496 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2012830496 Country of ref document: EP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14239315 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |