WO2020240647A1 - 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法 - Google Patents

音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法 Download PDF

Info

Publication number
WO2020240647A1
WO2020240647A1 PCT/JP2019/020842 JP2019020842W WO2020240647A1 WO 2020240647 A1 WO2020240647 A1 WO 2020240647A1 JP 2019020842 W JP2019020842 W JP 2019020842W WO 2020240647 A1 WO2020240647 A1 WO 2020240647A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
voice
acoustic data
recognition dictionary
basic
Prior art date
Application number
PCT/JP2019/020842
Other languages
English (en)
French (fr)
Inventor
裕三 丸田
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/020842 priority Critical patent/WO2020240647A1/ja
Publication of WO2020240647A1 publication Critical patent/WO2020240647A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to speech recognition of a language in which inflection occurs.
  • words that have the same meaning may change inflection under various conditions.
  • inflections occur between singular and plural, such as child and children.
  • Slavic languages such as Russian or Polish
  • case inflection occurs when a noun becomes the object.
  • the English noun Moscow does not change even if it becomes an object, such as Navigate to Moscow.
  • the English noun hospital does not change even if it becomes an object, such as Navigate to hospital.
  • Patent Document 1 discloses a speech recognition dictionary containing uninflected word data and word data with inflection.
  • one speech recognition dictionary corresponds to the word data of the basic form and the word data of the changed word form, there is a problem that the amount of data is larger than that of the speech recognition dictionary corresponding to only the word data of the basic form.
  • the present invention has been made to solve the above problems, and an object of the present invention is to reduce the amount of data in a speech recognition dictionary used for speech recognition of words with inflection.
  • the first voice recognition dictionary creating device of the present invention includes an acquisition unit for acquiring text data of a basic word used in a target device mounted on a vehicle and whose word shape has not changed, and a word shape change rule for the language of the basic word. Based on, the change word creation unit that creates the text data of the change word whose word shape has changed, and the basic word recognition dictionary that is the information that links the text data of the basic word to the acoustic data of the basic word are created and changed. It is provided with a dictionary creation unit that creates a changing word recognition dictionary, which is information in which text data of a word is associated with acoustic data of a changing word.
  • the first voice recognition device of the present invention is changed into a voice acquisition unit that acquires the spoken voice of a passenger in a vehicle, an acoustic analysis unit that creates acoustic data of the spoken voice, and acoustic data of the spoken voice.
  • a basic word recognition dictionary that is information that links the text data of the basic word to the acoustic data of the basic word, and the information that links the text data of the changed word whose word shape has changed to the acoustic data of the changed word. It is provided with a word recognition dictionary and a voice recognition unit that performs voice recognition of spoken voice.
  • the second voice recognition dictionary creation device of the present invention has an acquisition unit for acquiring text data of a basic word whose word shape has not changed and used in a target device mounted on a vehicle, and a word shape change rule for the language of the basic word. Based on this, the integrated acoustic data is created by replacing the difference between the changing word creation unit that creates the text data of the changing word whose basic word has changed and the acoustic data of the changing word of the acoustic data of the basic word with other acoustic data. It is provided with a dictionary creation unit that creates an integrated recognition dictionary that is information that is created and associated with integrated acoustic data between basic words and changing words.
  • the second voice recognition device of the present invention includes a voice acquisition unit that acquires an operation voice for a target device mounted on a vehicle of a passenger of a vehicle, an acoustic analysis unit that creates acoustic data of the operation voice, and a target device.
  • the integrated recognition dictionary is equipped with a command recognition dictionary that is information that links the text data of the command to the acoustic data of the command, and a voice recognition unit that performs voice recognition of the operation voice using the integrated recognition dictionary.
  • the integrated acoustic data in which the difference from the acoustic data of the change name that has changed as the object from the basic name is replaced with other acoustic data is used as the basic name and the change name.
  • the voice recognition unit identifies the integrated acoustic data corresponding to the acoustic data of the name included in the operation voice as the corresponding integrated acoustic data, and the recognition result of the operation voice by the command recognition dictionary includes the verb.
  • the name included in the operation voice is recognized as the case change name associated with the corresponding integrated acoustic data, and if the recognition part of the operation voice by the command recognition dictionary does not include a verb, it is included in the operation voice. Recognize the name as the basic name associated with the corresponding integrated speech data.
  • the first speech recognition dictionary creating device of the present invention since the changing word recognition dictionary is created separately from the basic word recognition dictionary, the amount of data in each recognition dictionary can be reduced. Further, according to the first speech recognition device of the present invention, since speech recognition is performed using the basic word recognition dictionary and the changing word recognition dictionary, speech recognition is performed using either or both recognition dictionaries as necessary. It can be carried out.
  • the dictionary creation unit creates an integrated recognition dictionary. Since the integrated recognition dictionary is a common speech recognition dictionary for basic words and changing words, an increase in the amount of data due to inflection is suppressed. Further, according to the second voice recognition device of the present invention, the voice recognition unit can perform voice recognition of the operation voice by using the integrated recognition dictionary.
  • FIG. It is a block diagram which shows the structure of the voice recognition dictionary making apparatus of Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the voice recognition dictionary making apparatus of Embodiment 1.
  • FIG. It is a block diagram which shows the structure of the dictionary making part of the voice recognition dictionary making apparatus of Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the dictionary making part of the voice recognition dictionary making apparatus of Embodiment 1.
  • FIG. It is a block diagram which shows the structure of the voice recognition apparatus of Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the voice recognition apparatus of Embodiment 1.
  • It is a block diagram which shows the structure of the voice recognition apparatus of Embodiment 2.
  • FIG. 1 is a block diagram showing a configuration of the voice recognition dictionary creating device 101 of the first embodiment.
  • the voice recognition dictionary creating device 101 individually creates the basic word recognition dictionary 51 and the changing word recognition dictionary 52.
  • the basic word recognition dictionary 51 is a dictionary for voice recognition of basic words
  • the change word recognition dictionary 52 is a dictionary for voice recognition of change words whose word shape has changed from the basic words.
  • the basic word and the changing word are words used in the target device mounted on the vehicle.
  • the target device is a navigation device
  • the names of places or facilities used in the navigation device are examples of basic words and changing words.
  • the voice recognition dictionary creating device 101 may be included in the target device, or may be a device different from the target device.
  • the voice recognition dictionary creation device 101 includes an acquisition unit 11, a changing word creation unit 12, a storage unit 13, and a dictionary creation unit 14A.
  • the storage unit 13 includes a basic word database 131, a case inflection grammar rule table 132, and a case inflection word database 133.
  • the storage unit 13 will be described as a configuration provided in the voice recognition dictionary creation device 101, but the storage unit 13 may be provided in a server or the like outside the voice recognition dictionary creation device 101.
  • the basic word database 131 stores text data of basic words (hereinafter, "basic word data").
  • basic words As an example of basic words, It is shown. These are Russian nouns such as place names or facility names used in navigation devices, and are basic nouns with no inflection. These basic nouns undergo case inflection when they become the object of a verb.
  • case inflection of the noun as the object of the verb will be described as an example of the inflection, but the inflection due to the single or multiple nouns or the inflection other than the noun is also the speech recognition of the present embodiment. It is applicable to the dictionary creation device 101.
  • the case inflection grammar rule table 132 describes the grammar rules when the basic word is changed as the object of the verb, that is, the case inflection rule.
  • the case inflection rule is, for example, a rule that a Russian noun changes from a at the end to y when it becomes the object of a verb.
  • FIG. 2 is a flowchart showing the operation of the voice recognition dictionary creation device 101.
  • the acquisition unit 11 reads the basic word from the basic word database 131 (step S101) and outputs it to the changing word creation unit 12.
  • the changing word creation unit 12 creates text data of the changing word (hereinafter, “changing word data”) (step S102) and stores it in the changing word database 133.
  • the change word creation unit 12 creates a change word by changing the basic word of the basic word data acquired from the acquisition unit 11 according to the case change grammar rule described in the case change grammar rule table 132. ..
  • the change word creation unit 12 is a basic word.
  • the case inflection grammar rule of changing a at the end to y the change word To create.
  • the dictionary creation unit 14A creates the basic word recognition dictionary 51 using the basic word data stored in the basic word database 131, and uses the change word data stored in the change word database 133 to create the change word recognition dictionary. 52 is created (step S103).
  • FIG. 3 is a block diagram showing the configuration of the dictionary creation unit 14A.
  • the dictionary creation unit 14A includes a phoneme string creation unit 141, a dictionary data creation unit 142, a phoneme conversion rule table 143, and an acoustic data storage unit 144.
  • the phoneme conversion rule table 143 and the acoustic data storage unit 144 are not indispensable to the dictionary creation unit 14A, but are provided outside the dictionary creation unit 14A and further on a server outside the voice recognition dictionary creation device 101. You may.
  • the phoneme conversion rule table 143 describes rules for converting each character string of a basic word and a changing word into a phoneme.
  • Acoustic data corresponding to each phoneme is stored in the acoustic data storage unit 144.
  • the acoustic data corresponding to the phonemes s, a, m and the like are shown by numbers such as 1, 2, 3 and the like.
  • FIG. 4 is a flowchart showing the dictionary creation process of the dictionary creation unit 14A.
  • the dictionary creation process of the dictionary creation unit 14A will be described with reference to FIG. This flow corresponds to the details of the process in step S103 of FIG.
  • the phoneme string creation unit 141 uses the basic word data acquired from the basic word database 131 and the changed word data acquired from the changed word database 133 as phonemes according to the phoneme conversion rules described in the phoneme conversion rule table 143. Convert to a column (step S1031). By this process, the basic word Is a phoneme string Converted to a changing word Is a phoneme string Is converted to.
  • the dictionary data creation unit 142 extracts acoustic data corresponding to the phoneme strings of the basic word and the changing word created by the phoneme string creating unit 141 from the acoustic data storage unit 144, and the acoustic data of the basic word and the changing word. Is created (step S1032).
  • the phoneme string Is converted to acoustic data "3-4-1 ... -2" and is a phoneme string. Is converted into acoustic data "3-4-1 ... -5".
  • the dictionary data creation unit 142 uses the acoustic data "3-4-1 ... -2" as a basic word.
  • the basic word recognition dictionary 51 is created in association with the text data of.
  • the dictionary data creation unit 142 changes the acoustic data "3-4-1 ... -5" into words.
  • the changing word recognition dictionary 52 is created in association with the text data of.
  • the basic word recognition dictionary 51 and the changing word recognition dictionary 52 are used for voice recognition processing in the target device.
  • the voice recognition dictionary creating device 101 creates a basic word recognition dictionary 51 and a changing word recognition dictionary 52 in advance before the target device performs the voice recognition process.
  • the voice recognition dictionary creating device 101 may dynamically create the basic word recognition dictionary 51 and the changing word recognition dictionary 52 as needed, that is, when a predetermined condition is satisfied. For example, when the navigation device, which is the target device, recognizes the place name or facility only in the country to which the vehicle's current position belongs, the voice recognition dictionary creation device 101 is used in the country of entry when the vehicle crosses the border.
  • Basic word data about a place name or facility may be read from the basic word database 131 to create a basic word recognition dictionary 51 and a change word recognition dictionary 52.
  • the dictionary creation unit 14A creates the basic word recognition dictionary 51 and the change word recognition dictionary 52 based on the current position of the vehicle.
  • the voice recognition dictionary creation device 101 reads basic word data related to a place name or facility in a new language from the basic word database 131 at the timing when the set language of the navigation device, which is the target device, is switched, and the basic word recognition dictionary 51 And the change word recognition dictionary 52 may be created.
  • the dictionary creation unit 14A creates the basic word recognition dictionary 51 and the variable word recognition dictionary 52 when the setting language of the target device is a predetermined language.
  • the dictionary creation unit 14A may create a basic word recognition dictionary 51 for place names or facilities in all countries in advance, and create only the change word recognition dictionary 52 when predetermined conditions are satisfied. good.
  • FIG. 5 is a block diagram showing the configuration of the voice recognition device 201 of the first embodiment.
  • the voice recognition device 201 recognizes the voice of the passenger of the vehicle by using the command recognition dictionary 53 in addition to the basic word recognition dictionary 51 and the changing word recognition dictionary 52 created by the voice recognition dictionary creation device 101.
  • the voice recognition device 201 may be included in a target device such as a navigation device, or may be a device different from the target device. As shown in FIG. 5, the voice recognition device 201 includes a voice acquisition unit 22, an acoustic analysis unit 23, and a voice recognition unit 24.
  • FIG. 6 is a flowchart showing the operation of the voice recognition device 201.
  • the voice recognition unit 24 selects the basic word recognition dictionary 51, the changing word recognition dictionary 52, and the command recognition dictionary 53 as voice recognition dictionaries (step S201) so that the vocabulary included in these dictionaries can be recognized.
  • the voice acquisition unit 22 acquires the utterance voice of the occupant of the vehicle from the microphone 21 mounted on the vehicle (step S202) and outputs it to the acoustic analysis unit 23.
  • the acoustic analysis unit 23 creates acoustic data of the spoken voice acquired from the voice acquisition unit 22 (step S203). Acoustic data is a vector sequence of acoustic features.
  • the voice recognition unit 24 performs voice recognition of the spoken voice (step S204).
  • the voice recognition unit 24 compares the acoustic data string of the spoken voice created by the acoustic analysis unit 23 in step S203 with the acoustic data string registered in the voice recognition dictionary selected in step S201, and is the most. The one with a high degree of matching is output as the recognition result.
  • the command recognition dictionary 53 is information in which text data of a command for operating a target device is associated with acoustic data of the command.
  • the command for example And so on.
  • the voice recognition unit 24 Is recognized by the command recognition dictionary 53, Is recognized by the changing word recognition dictionary 52.
  • the voice recognition unit 24 Is recognized by the command recognition dictionary 53, Is recognized by the basic word recognition dictionary 51.
  • the voice recognition dictionary creating device 101 of the first embodiment has a acquisition unit 11 for acquiring text data of a basic word used in a target device mounted on a vehicle and having no word shape change, and a word shape change of the language of the basic word. Based on the rules, a change word creation unit 12 that creates text data of a change word whose word shape has changed, and a basic word recognition dictionary 51 that links the text data of the basic word to the acoustic data of the basic word are created.
  • a dictionary creation unit 14A for creating a changing word recognition dictionary 52 which is information in which the text data of the changing word is associated with the acoustic data of the changing word, is provided. As described above, the voice recognition dictionary creating device 101 can reduce the amount of data in each recognition dictionary by separately creating the basic word recognition dictionary 51 and the changing word recognition dictionary 52.
  • the voice recognition device 201 of the first embodiment includes a voice acquisition unit 22 that acquires the spoken voice of a passenger in a vehicle, an acoustic analysis unit 23 that creates acoustic data of the spoken voice, and acoustic data of the spoken voice.
  • the basic word recognition dictionary 51 which is information in which the text data of the basic word that has not changed is linked to the acoustic data of the basic word, and the text data of the changed word whose word shape has changed are linked to the acoustic data of the changed word. It is provided with a voice recognition unit 24 that performs voice recognition of spoken voice by using a change word recognition dictionary 52 which is information.
  • the voice recognition device 201 performs voice recognition using both the basic word recognition dictionary 51 and the change word recognition dictionary 52, regardless of whether or not there is an inflection of the word, for example, a case change as the target word. Accurate voice recognition can be performed.
  • FIG. 7 is a block diagram showing the configuration of the voice recognition device 202 according to the second embodiment.
  • the voice recognition device 202 uses the command recognition dictionary 53 and the garbage recognition dictionary 54 twice in addition to the basic word recognition dictionary 51 and the changing word recognition dictionary 52 created by the voice recognition dictionary creation device 101 of the first embodiment. The recognition result is confirmed by the voice recognition process.
  • the voice recognition device 202 includes a recognition control unit 25, a dictionary switching unit 26, and a temporary storage unit 27 in addition to the configuration of the voice recognition device 201 of the first embodiment.
  • the recognition control unit 25 determines the voice recognition dictionary to be used for the second voice recognition according to the first recognition result of the voice recognition unit 24.
  • the dictionary switching unit 26 switches the voice recognition dictionary used for voice recognition in response to the instruction of the recognition control unit 25.
  • the temporary storage unit 27 stores the uttered voice data or the acoustic data of the uttered voice for the second voice recognition.
  • FIG. 8 is a flowchart showing the operation of the voice recognition device 202.
  • the operation of the voice recognition device 202 will be described according to the flow of FIG.
  • the dictionary switching unit 26 selects the command recognition dictionary 53 and the garbage recognition dictionary 54 as voice recognition dictionaries (step S301) before the user speaks, so that the vocabulary included in these dictionaries can be recognized.
  • the garbage recognition dictionary 54 is a voice recognition dictionary that uses a garbage acoustic model.
  • a gavage acoustic model is a known acoustic model that generally matches any speech to some extent. According to the Gavege recognition dictionary 54, it is not possible to distinguish between "a” and "y”, but it is possible to distinguish between silence and sound, and it is possible to detect that there is some utterance.
  • the voice acquisition unit 22 acquires the spoken voice from the microphone 21 (step S302). Then, the acoustic analysis unit 23 analyzes the acoustic characteristics of the spoken voice and creates acoustic data (step S303). The acoustic data of the spoken voice is stored in the temporary storage unit 27 (step S304) and sent to the voice recognition unit 24.
  • the voice recognition unit 24 uses the command recognition dictionary 53 and the garbage recognition dictionary 54 to perform the first voice recognition of the spoken voice (step S305). Specifically, the voice recognition unit 24 compares the acoustic data of the utterance voice created by the acoustic analysis unit 23 in step S303 with the acoustic data registered in the command recognition dictionary 53 and the garbage recognition dictionary 54. The one with the highest degree of matching is output as the recognition result.
  • the voice recognition unit 24 results in recognition. Is output as the first recognition result.
  • ** represents a character string corresponding to a gabage phoneme, and although some utterance is made, it is not possible to recognize what the utterance is.
  • the recognition control unit 25 acquires the first recognition result from the voice recognition unit 24, determines whether or not the recognition result includes a verb command (step S306), and switches the dictionary according to the determination result. Instruct unit 26 to select a speech recognition dictionary.
  • the dictionary switching unit 26 selects the changing word recognition dictionary 52 and the command recognition dictionary 53 as the second speech recognition dictionary (step S307).
  • the first recognition result is If, the verb Is included, the changing word recognition dictionary 52 and the command recognition dictionary 53 become the second voice recognition dictionary.
  • the dictionary switching unit 26 selects the basic word recognition dictionary 51 and the command recognition dictionary 53 as the voice recognition dictionary used for the second recognition process (step S308). ..
  • the first recognition result is In the case of, since the verb is not included, the basic word recognition dictionary 51 and the command recognition dictionary 53 become the second speech recognition dictionary.
  • the voice recognition unit 24 performs the second voice recognition using the reselected voice recognition dictionary and the acoustic data of the spoken voice stored in the temporary storage unit 27 (step S309).
  • the voice acquisition unit 22 acquires the operation voice of the target device mounted on the vehicle, and the voice recognition unit 24 uses the text data of the command for the target device as the acoustic data of the command.
  • the voice recognition dictionary 53 which is the linked information
  • the gavege recognition dictionary 54 which is a recognition dictionary using the gavege acoustic model
  • the first speech recognition of the spoken voice is performed, and the verb is added to the first speech recognition result.
  • the command recognition dictionary 53 and the basic word recognition dictionary 51 are used to perform the second speech recognition of the spoken voice, and when the first speech recognition result includes a verb, the command recognition dictionary 53 is used.
  • the change word recognition dictionary 52 is used to perform the second speech recognition of the spoken speech.
  • the voice recognition device 202 grasps whether or not the noun included in the spoken voice changes in rank from the first recognition result, and selects the second voice recognition dictionary correspondingly to the voice. The accuracy of recognition can be improved.
  • FIG. 9 is a block diagram showing the configuration of the voice recognition dictionary creating device 103 of the third embodiment.
  • the voice recognition dictionary creation device 103 includes the dictionary creation unit 14B in place of the dictionary creation unit 14A in the voice recognition dictionary creation device 101 of the first embodiment.
  • the dictionary creation unit 14B creates the integrated recognition dictionary 55 by using the basic word data acquired from the basic word database 131 and the changed word data acquired from the changed word database 133.
  • FIG. 10 is a block diagram showing the configuration of the dictionary creation unit 14B.
  • the dictionary creation unit 14B includes a phoneme replacement unit 145 in addition to the configuration of the dictionary creation unit 14A of the first embodiment shown in FIG.
  • the phoneme replacement unit 145 creates an integrated phoneme sequence by replacing a portion of the phoneme sequence of the basic word that differs from the phoneme sequence of the changing word with another phoneme, specifically a gavege phoneme.
  • FIG. 11 is a flowchart showing the operation of the voice recognition dictionary creation device 103.
  • the phoneme string creation unit 141 uses the basic word data acquired from the basic word database 131 and the changed word data acquired from the changed word database 133 as phonemes according to the phoneme conversion rules described in the phoneme conversion rule table 143. Convert to a column (step S2031). This step is the same as step S1031 of FIG.
  • the phoneme replacement unit 145 creates an integrated phoneme sequence (step S2032). Specifically, the phoneme replacement unit 145 compares the phoneme sequence of the basic word with the phoneme sequence of the changing word, and if there are few differences, replaces the difference with a gavege phoneme to create an integrated phoneme sequence.
  • the basic word is And the changing word is In the case of, since the difference between the two is only the last one phoneme, the phoneme replacement part 145 replaces the last one phoneme with a gavege phoneme *, and the integrated phoneme string. To create.
  • the dictionary data creation unit 142 extracts the acoustic data corresponding to each phoneme of the integrated phoneme string from the acoustic data storage unit 144, and creates the integrated acoustic data string.
  • the acoustic data corresponding to the gabage phoneme * is stored as "100" in the acoustic data storage unit 144.
  • the dictionary data creation unit 142 is an integrated phoneme string.
  • the integrated acoustic data "3-4-1 ... -100" is created (step S2033), and this is linked to the basic word data and the changed word data that are the basis of the integrated phoneme string for integrated recognition. Create a dictionary 55.
  • the difference from the acoustic data of the case-changed name that has changed from the basic name as the object is other acoustic data, and in the present embodiment, the gabage phonetic element.
  • This is the information in which the integrated acoustic data replaced with the acoustic data of is linked to the basic name and the change name.
  • FIG. 12 is a block diagram showing the configuration of the voice recognition device 203 according to the third embodiment.
  • the voice recognition device 203 includes a recognition control unit 25 in addition to the configuration of the voice recognition device 201 of the first embodiment.
  • the voice recognition device 203 performs voice recognition using the command recognition dictionary 53 and the integrated recognition dictionary 55 created by the voice recognition dictionary creation device 103.
  • FIG. 13 is a flowchart showing the operation of the voice recognition device 203.
  • the voice recognition unit 24 selects the command recognition dictionary 53 and the integrated recognition dictionary 55 as the voice recognition dictionary (step S401).
  • the voice acquisition unit 22 acquires the spoken voice from the microphone 21 (step S402). Then, the acoustic analysis unit 23 analyzes the acoustic characteristics of the spoken voice and creates acoustic data (step S403). The acoustic data of the spoken voice is sent to the voice recognition unit 24.
  • the voice recognition unit 24 uses the command recognition dictionary 53 and the integrated recognition dictionary 55 to perform voice recognition of the spoken voice (step S405). Specifically, the voice recognition unit 24 compares the acoustic data of the utterance voice created by the acoustic analysis unit 23 in step S403 with the acoustic data registered in the command recognition dictionary 53 and the integrated recognition dictionary 55. The one with the highest degree of matching is output as the recognition result.
  • the voice recognition unit 24 can recognize the command part of the spoken voice by the command recognition dictionary 53.
  • the voice recognition unit 24 can specify the acoustic data (hereinafter, "corresponding integrated acoustic data") corresponding to the portion other than the command of the spoken voice by the integrated recognition dictionary 55.
  • corresponding integrated acoustic data acoustic data
  • the integrated recognition dictionary 55 since the corresponding integrated acoustic data is associated with both the basic word and the changed word, the degree of matching of both words with respect to the spoken voice is equal, and it is necessary to specify which is the correct recognition result. I can't.
  • the recognition control unit 25 determines whether or not the recognition result of the voice recognition unit 24 includes a verb command (step S405).
  • the recognition result includes a verb command in step S405
  • the voice recognition unit 24 adopts the basic word associated with the corresponding integrated acoustic data specified in step S405 as the recognition result (step S407).
  • the voice recognition dictionary creating device 103 of the third embodiment has an acquisition unit 11 for acquiring text data of a basic word that is used in a target device mounted on a vehicle and whose word shape has not changed, and a word shape change rule for the language of the basic word. Based on the above, the difference between the change word creation unit 12 that creates the text data of the change word whose basic word has changed and the change word acoustic data of the change word of the basic word is replaced with other acoustic data, and the integrated sound is integrated. It includes a dictionary creation unit 14B that creates data and creates an integrated recognition dictionary 55 that is information in which integrated acoustic data is associated with basic words and changing words.
  • the integrated recognition dictionary 55 is information in which the text data of the basic word and the text data of the changing word are linked to the common integrated acoustic data, the amount of data is compared with the total of the basic word recognition dictionary 51 and the changing word recognition dictionary 52. Is reduced.
  • the method for creating a voice recognition dictionary according to the third embodiment is used in a target device mounted on a vehicle, acquires text data of a basic word whose word shape has not changed, and based on the word shape change rule of the language of the basic word, the basic word. Creates text data of the changed word, and creates integrated acoustic data in which the difference from the acoustic data of the changed word is replaced with other acoustic data, and uses the integrated acoustic data as the basic word.
  • the integrated recognition dictionary 55 which is the information associated with the changed word, is created.
  • the integrated recognition dictionary 55 is information in which the text data of the basic word and the text data of the changing word are linked to the common integrated acoustic data, the amount of data is compared with the total of the basic word recognition dictionary 51 and the changing word recognition dictionary 52. Is reduced.
  • the voice recognition device 203 of the third embodiment includes a voice acquisition unit 22 that acquires an operation voice for a target device mounted on the vehicle of a passenger of the vehicle, an acoustic analysis unit 23 that creates acoustic data of the operation voice, and a target.
  • the command recognition dictionary 53 which is information in which the text data of the command for the device is linked to the acoustic data of the command, and the voice recognition unit 24, which performs voice recognition of the operation voice by using the integrated recognition dictionary 55, are provided and integrated.
  • the recognition dictionary 55 basically uses integrated acoustic data in which the part of the acoustic data of the basic name that has not changed is replaced with other acoustic data from the acoustic data of the changed name that has changed as the object from the basic name.
  • the information is associated with the name and the change name, and the voice recognition unit 24 identifies the integrated sound data corresponding to the sound data of the name included in the operation voice as the corresponding integrated sound data, and the operation voice by the command recognition dictionary 53.
  • the recognition result of is included in the operation voice
  • the name included in the operation voice is recognized as the case change name associated with the corresponding integrated acoustic data
  • the verb is included in the recognition part of the operation voice by the command recognition dictionary 53.
  • the voice recognition device 203 can perform voice recognition using the integrated recognition dictionary 55 having a small amount of data, and the amount of memory used for the voice recognition dictionary is reduced.
  • FIG. 14 is a block diagram showing the configuration of the voice recognition dictionary creating device 104 of the fourth embodiment.
  • the voice recognition dictionary creation device 104 includes the dictionary creation unit 14C in place of the dictionary creation unit 14B in the voice recognition dictionary creation device 103 of the third embodiment.
  • the dictionary creation unit 14C creates the integrated recognition dictionary 56 by using the basic word data acquired from the basic word database 131 and the changed word data acquired from the changed word database 133.
  • FIG. 15 is a block diagram showing the configuration of the dictionary creation unit 14C.
  • the dictionary creation unit 14C includes an average acoustic data creation unit 146 in place of the phoneme replacement unit 145 in the configuration of the dictionary creation unit 14B of the third embodiment shown in FIG.
  • the average acoustic data creation unit 146 creates average acoustic data of two different acoustic data for the portion of the acoustic data of the basic word data that is different from the acoustic data of the changing word.
  • FIG. 16 is a flowchart showing the operation of the voice recognition dictionary creation device 104.
  • the phoneme string creation unit 141 uses the basic word data acquired from the basic word database 131 and the changed word data acquired from the changed word database 133 as phonemes according to the phoneme conversion rules described in the phoneme conversion rule table 143. Convert to a column (step S3031). This step is the same as step S1031 of FIG.
  • the average acoustic data creation unit 146 creates average acoustic data (step S3032). Specifically, the phoneme replacement unit 145 compares the phoneme sequence of the basic word with the phoneme sequence of the changing word, and if there are few differences, creates average acoustic data of two different acoustic data.
  • the basic word is And the changing word is If, the difference between the two is a and u at the end.
  • the average acoustic data creation unit 146 creates the average acoustic data "101" of a and u and stores them in the acoustic data storage unit 144. Since the acoustic data is a vector sequence of acoustic features such as frequency or power, the average acoustic data can be obtained by taking the average value of these acoustic features between the corresponding vectors of the two acoustic data. can get.
  • the dictionary data creation unit 142 extracts the acoustic data of the phonemes other than the above-mentioned different parts from the phonetic element strings of the basic words from the acoustic data storage unit 144, and the average acoustic data created by the average acoustic data creation unit 146.
  • the integrated acoustic data is created by combining with "101" (step S3033), and the integrated recognition dictionary 56 is created by associating with the basic word data and the changed word data of the creation source. For example, in the above example, the integrated acoustic data is "3-4-1 ...- 101".
  • FIG. 17 is a block diagram showing the configuration of the voice recognition device 204 according to the fourth embodiment.
  • the voice recognition device 204 has the same configuration as the voice recognition device 203 of the third embodiment shown in FIG. 12, but performs voice recognition using the command recognition dictionary 53 and the integrated recognition dictionary 56. Since the operation of the voice recognition device 204 is the same as that of the voice recognition device 203 except that the integrated recognition dictionary 56 is used instead of the integrated recognition dictionary 55, the description thereof will be omitted.
  • the dictionary creation unit 14C replaces the difference portion of the acoustic data of the basic word from the acoustic data of the word with the average acoustic data of both acoustic data for the difference portion.
  • the integrated acoustic data is created, and the integrated recognition dictionary 56, which is information in which the integrated acoustic data is associated with the basic word and the changing word, is created. Since the integrated recognition dictionary 56 is information in which the text data of the basic word and the text data of the changing word are linked to the common integrated acoustic data, the amount of data is compared with the total of the basic word recognition dictionary 51 and the changing word recognition dictionary 52. Is reduced.
  • the voice recognition device 204 of the fourth embodiment performs voice recognition of the operation voice by using the command recognition dictionary 53 and the integrated recognition dictionary 56. Therefore, the voice recognition device 203 can perform voice recognition using the integrated recognition dictionary 56 having a small amount of data, and the amount of memory used for the voice recognition dictionary is reduced.
  • the processing circuit 81 includes the acquisition unit 11, the changing word creation unit 12, the storage unit 13, the dictionary creation units 14A, 14B, 14C (hereinafter referred to as “acquisition unit 11 and the like”), the voice acquisition unit 22, and the sound.
  • the processor includes an analysis unit 23, a voice recognition unit 24, a recognition control unit 25, a dictionary switching unit 26, and a temporary storage unit 27 (hereinafter, referred to as “voice acquisition unit 22 and the like”).
  • Dedicated hardware may be applied to the processing circuit 81, or a processor that executes a program stored in the memory may be applied.
  • the processor is, for example, a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, a DSP (Digital Signal Processor), or the like.
  • the processing circuit 81 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). GateArray), or a combination of these.
  • Each of the functions of each unit such as the acquisition unit 11 or the like or the voice acquisition unit 22 may be realized by a plurality of processing circuits 81, or the functions of each unit may be collectively realized by one processing circuit.
  • the processing circuit 81 When the processing circuit 81 is a processor, the functions of the acquisition unit 11 and the like or the voice acquisition unit 22 and the like are realized by a combination of software and the like (software, firmware or software and firmware). Software and the like are described as programs and stored in memory. As shown in FIG. 19, the processor 82 applied to the processing circuit 81 realizes the functions of each part by reading and executing the program stored in the memory 83. That is, the voice recognition dictionary creation devices 101, 103, 104 are used in the target device mounted on the vehicle when executed by the processing circuit 81, and the step of acquiring the text data of the basic words whose word form has not changed.
  • the difference between the step of creating the text data of the changed word whose basic word has changed and the acoustic data of the changed word of the basic word is changed to other acoustic data.
  • a memory 83 for the purpose is provided. In other words, it can be said that this program causes the computer to execute the procedure or method of the acquisition unit 11 or the like or the voice acquisition unit 22 or the like.
  • the memory 83 is non-volatile, for example, RAM (RandomAccessMemory), ROM (ReadOnlyMemory), flash memory, EPROM (ErasableProgrammableReadOnlyMemory), EEPROM (ElectricallyErasableProgrammableReadOnlyMemory), and the like. Or in volatile semiconductor memory, HDD (Hard Disk Drive), magnetic disk, flexible disk, optical disk, compact disk, mini disk, DVD (Digital Versatile Disk) and its drive device, etc., or any storage medium used in the future. There may be.
  • each function of the acquisition unit 11 or the like or the voice acquisition unit 22 or the like is realized by either hardware or software
  • the present invention is not limited to this, and a configuration may be configured in which a part of the acquisition unit 11 or the like or the voice acquisition unit 22 or the like is realized by dedicated hardware, and another part is realized by software or the like.
  • the dictionary creation units 14A, 14B, and 14C realize their functions with a processing circuit as dedicated hardware, and otherwise, the processing circuit 81 as a processor 82 reads and executes a program stored in the memory 83. By doing so, it is possible to realize the function.
  • the processing circuit can realize each of the above functions by hardware, software, etc., or a combination thereof.
  • the storage unit 13 is composed of the memory 83, they may be composed of a single memory 83 or each of them may be composed of individual memories.
  • the voice recognition dictionary creation devices 101, 103, 104 and the voice recognition devices 201, 202, 203, 204 may be in-vehicle devices, in-vehicle devices, PNDs (Portable Navigation Devices), communication terminals (for example, mobile phones, smartphones). , And mobile terminals such as tablets), the functions of the applications installed on them, and a system constructed by appropriately combining a server and the like.
  • each function or each component of the voice recognition dictionary creating devices 101, 103, 104 or the voice recognition devices 201, 202, 203, 204 described above is distributed and arranged in each device for constructing the system. Alternatively, it may be centrally arranged in any of the devices. As an example, FIG.
  • FIG. 20 shows the configuration of the voice recognition dictionary creating device 101 by the vehicle 70 and the server 71.
  • the acquisition unit 11, the changing word creation unit 12, and the dictionary creation unit 14A are arranged in the vehicle 70, and the storage unit 13 is arranged in the server 71.
  • each embodiment and each modification can be freely combined, and each embodiment and each modification can be appropriately modified or omitted.
  • the present invention has been described in detail, the above description is exemplary in all embodiments and the present invention is not limited thereto. A myriad of variants not illustrated can be envisioned without departing from the scope of the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、基本形の単語と語形変化した単語とで個別の音声認識辞書を作成し、あるいはそれらの音声認識辞書を用いて音声認識を行うことを目的とする。音声認識辞書作成装置(101)は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部(11)と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部(12)と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書(51)を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書(52)を作成する辞書作成部(14A)と、を備える。

Description

音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法
 この発明は、語形変化が生じる言語の音声認識に関する。
 言語によっては、同じ意味を表す単語が、様々な条件の下で語形変化することがある。例えば、英語では、childとchildrenのように、単数と複数で語形変化が生じる。また、ロシア語またはポーランド語などのスラブ系言語では、英語またはドイツ語などの西ヨーロッパ言語と異なり、名詞が目的語になった場合に格変化が生じる。例えば、英語の名詞Moscow(モスクワ)は、目的語になってもNavigate to Moscow(モスクワへ案内する)等のように、変化しない。また、英語の名詞hospital(病院)は、目的語になってもNavigate to hospital(病院へ案内する)等のように、変化しない。これに対して、ロシア語では、名詞
Figure JPOXMLDOC01-appb-M000001
が、目的語になると
Figure JPOXMLDOC01-appb-M000002
等のように、語尾がaからyへ変化する。
 また、名詞
Figure JPOXMLDOC01-appb-M000003
も同様に、
Figure JPOXMLDOC01-appb-M000004
等のように、語尾が変化する。
 このように、単語には言語に特有の語形変化が生じるため、高精度に音声認識を行うためには、語形変化を考慮しない音声認識辞書を用いることが求められる。
特開平9-288494号公報
 特許文献1には、語形変化していない基本形の単語データと語形変化した単語データを含む音声認識辞書が開示されている。しかし、1つの音声認識辞書が、基本形の単語データと語形変化した単語データに対応することから、基本形の単語データのみに対応する音声認識辞書に比べてデータ量が大きいという問題があった。
 本発明は、上記の問題点を解決するためになされたものであり、語形変化を伴う単語の音声認識に用いる音声認識辞書のデータ量を小さくすることを目的とする。
 本発明の第1の音声認識辞書作成装置は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書を作成する辞書作成部と、を備える。
 本発明の第1の音声認識装置は、車両の搭乗者の発話音声を取得する音声取得部と、発話音声の音響データを作成する音響分析部と、発話音声の音響データと、格変化していない基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書と、基本単語が語形変化した変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書と、を用いて、発話音声の音声認識を行う音声認識部と、を備える。
 本発明の第2の音声認識辞書作成装置は、車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部と、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部と、基本単語の音響データの変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書を作成する辞書作成部と、を備える。
 本発明の第2の音声認識装置は、車両の搭乗者の車両に搭載された対象装置に対する操作音声を取得する音声取得部と、操作音声の音響データを作成する音響分析部と、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書と、統合認識辞書とを用いて、操作音声の音声認識を行う音声認識部と、を備え、統合認識辞書は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、基本名称および格変化名称に紐づけた情報であり、音声認識部は、操作音声に含まれる名称の音響データに対応する統合音響データを対応統合音響データと特定し、コマンド認識辞書による操作音声の認識結果に動詞が含まれる場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた格変化名称と認識し、コマンド認識辞書による操作音声の認識部分に動詞が含まれない場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた基本名称と認識する。
 本発明の第1の音声認識辞書作成装置によれば、基本単語認識辞書とは別に変化単語認識辞書が作成されるため、各々の認識辞書のデータ量を小さくすることができる。また、本発明の第1の音声認識装置によれば、基本単語認識辞書と変化単語認識辞書を用いて音声認識を行うため、必要に応じていずれかまたは両方の認識辞書を用いて音声認識を行うことができる。
 本発明の第2の音声認識辞書作成装置によれば、辞書作成部が統合認識辞書を作成する。統合認識辞書は、基本単語と変化単語に対する共通の音声認識辞書であるため、語形変化に伴うデータ量の増加が抑制される。また、本発明の第2の音声認識装置によれば、音声認識部が統合認識辞書を用いて操作音声の音声認識を行うことが可能である。
 本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1の音声認識辞書作成装置の構成を示すブロック図である。 実施の形態1の音声認識辞書作成装置の動作を示すフローチャートである。 実施の形態1の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。 実施の形態1の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。 実施の形態1の音声認識装置の構成を示すブロック図である。 実施の形態1の音声認識装置の動作を示すフローチャートである。 実施の形態2の音声認識装置の構成を示すブロック図である。 実施の形態2の音声認識装置の動作を示すフローチャートである。 実施の形態3の音声認識辞書作成装置の構成を示すブロック図である。 実施の形態3の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。 実施の形態3の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。 実施の形態3の音声認識装置の構成を示すブロック図である。 実施の形態3の音声認識装置の動作を示すフローチャートである。 実施の形態4の音声認識辞書作成装置の構成を示すブロック図である。 実施の形態4の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。 実施の形態4の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。 実施の形態4の音声認識装置の構成を示すブロック図である。 音声認識辞書作成装置または音声認識装置のハードウェア構成を示す図である。 音声認識辞書作成装置または音声認識装置のハードウェア構成を示す図である。 車両とサーバによる音声認識辞書作成装置の構成例を示す図である。
 <A.実施の形態1>
 <A-1.辞書作成>
 図1は、実施の形態1の音声認識辞書作成装置101の構成を示すブロック図である。音声認識辞書作成装置101は、基本単語認識辞書51と変化単語認識辞書52を個別に作成する。基本単語認識辞書51は、基本単語を音声認識するための辞書であり、変化単語認識辞書52は、基本単語から語形変化した変化単語を音声認識するための辞書である。基本単語と変化単語は、車両に搭載された対象装置において使用される単語である。対象装置がナビゲーション装置である場合、ナビゲーション装置で使用される地名または施設の名称等が、基本単語と変化単語の例として挙げられる。音声認識辞書作成装置101は、対象装置に含まれていても良いし、対象装置と異なる装置であっても良い。
 図1に示すように、音声認識辞書作成装置101は、取得部11、変化単語作成部12、記憶部13、および辞書作成部14Aを備えている。記憶部13は、基本単語データベース131、格変化文法ルールテーブル132、および変化単語データベース133を備えている。本実施の形態では、記憶部13を音声認識辞書作成装置101が備える構成として説明するが、記憶部13は音声認識辞書作成装置101の外部のサーバ等に設けられていても良い。
 基本単語データベース131には、基本単語のテキストデータ(以下、「基本単語データ」)が格納されている。図1には、基本単語の例として、
Figure JPOXMLDOC01-appb-M000005
が示されている。これらは、ナビゲーション装置において使用される地名または施設名称等のロシア語の名詞であり、語形変化が生じていない基本名詞である。これらの基本名詞は、動詞の目的語になると格変化が生じる。以下、本実施の形態では、動詞の目的語としての名詞の格変化を、語形変化の例として説明するが、名詞の単複による語形変化、または名詞以外の語形変化も本実施の形態の音声認識辞書作成装置101に適用可能である。
 格変化文法ルールテーブル132には、基本単語が動詞の目的語として格変化する際の文法ルール、すなわち格変化ルールが記載されている。格変化ルールとは、例えば、ロシア語の名詞は、動詞の目的語になると末尾のaがyに変化する、等のルールである。
 図2は、音声認識辞書作成装置101の動作を示すフローチャートである。以下、図2に沿って音声認識辞書作成装置101の動作を説明する。まず、取得部11は、基本単語データベース131から基本単語を読み込み(ステップS101)、変化単語作成部12に出力する。
 次に、変化単語作成部12が変化単語のテキストデータ(以下、「変化単語データ」)を作成し(ステップS102)、変化単語データベース133に格納する。具体的には、変化単語作成部12は、取得部11から取得した基本単語データの基本単語を、格変化文法ルールテーブル132に記載された格変化文法ルールに従って語形変化させて変化単語を作成する。例えば、変化単語作成部12は、基本単語の
Figure JPOXMLDOC01-appb-M000006
に対し、末尾のaをyに変えるという格変化文法ルールに従って、変化単語
Figure JPOXMLDOC01-appb-M000007
を作成する。
 次に、辞書作成部14Aは、基本単語データベース131に格納された基本単語データを用いて基本単語認識辞書51を作成し、変化単語データベース133に格納された変化単語データを用いて変化単語認識辞書52を作成する(ステップS103)。
 図3と図4を用いて、辞書作成部14Aによる基本単語認識辞書51と変化単語認識辞書52の作成処理について説明する。図3は、辞書作成部14Aの構成を示すブロック図である。図3に示すように、辞書作成部14Aは、音素列作成部141、辞書データ作成部142、音素変換ルールテーブル143、および音響データ格納部144を備えている。但し、音素変換ルールテーブル143と音響データ格納部144は、辞書作成部14Aに必須の構成ではなく、辞書作成部14Aの外部、さらには音声認識辞書作成装置101の外部のサーバなどに設けられていても良い。
 音素変換ルールテーブル143には、基本単語および変化単語の各文字列を音素に変換するルールが記載されている。音響データ格納部144には、各音素に対応する音響データが格納されている。図3には、音素s,a,m等に対応する音響データが1,2,3等のように数字で示されている。
 図4は、辞書作成部14Aの辞書作成処理を示すフローチャートである。以下、図4に沿って辞書作成部14Aの辞書作成処理を説明する。このフローは、図2のステップS103における処理の詳細に相当する。まず、音素列作成部141は、基本単語データベース131から取得した基本単語データと、変化単語データベース133から取得した変化単語データとを、音素変換ルールテーブル143に記載された音素変換ルールに従って、それぞれ音素列に変換する(ステップS1031)。この処理によって、基本単語
Figure JPOXMLDOC01-appb-M000008
は、音素列
Figure JPOXMLDOC01-appb-M000009
に変換され、変化単語
Figure JPOXMLDOC01-appb-M000010
は、音素列
Figure JPOXMLDOC01-appb-M000011
に変換される。
 次に、辞書データ作成部142は、音響データ格納部144から、音素列作成部141が作成した基本単語および変化単語の音素列に対応する音響データを抽出し、基本単語および変化単語の音響データを作成する(ステップS1032)。この処理によって、音素列
Figure JPOXMLDOC01-appb-M000012
は音響データ「3-4-1-…-2」に変換され、音素列
Figure JPOXMLDOC01-appb-M000013
は音響データ「3-4-1-…-5」に変換される。
 そして、辞書データ作成部142は、音響データ「3-4-1-…-2」を基本単語
Figure JPOXMLDOC01-appb-M000014
のテキストデータに紐づけて、基本単語認識辞書51を作成する。また、辞書データ作成部142は、音響データ「3-4-1-…-5」を変化単語
Figure JPOXMLDOC01-appb-M000015
のテキストデータに紐づけて、変化単語認識辞書52を作成する。
 <A-2.辞書作成の変形例>
 基本単語認識辞書51と変化単語認識辞書52は、対象装置における音声認識処理に用いられる。音声認識辞書作成装置101は、対象装置が音声認識処理を行う前に、予め基本単語認識辞書51と変化単語認識辞書52を作成しておく。但し、音声認識辞書作成装置101は、必要に応じて、すなわち予め定められた条件が成立した場合に、動的に基本単語認識辞書51と変化単語認識辞書52を作成しても良い。例えば、対象装置であるナビゲーション装置が、車両の現在位置の属する国内に限定して地名または施設を認識する場合、音声認識辞書作成装置101は、車両が国境を越えた時点で、入国した国の地名または施設についての基本単語データを基本単語データベース131から読み込み、基本単語認識辞書51と変化単語認識辞書52を作成しても良い。言い換えれば、辞書作成部14Aは、車両の現在位置に基づき、基本単語認識辞書51と変化単語認識辞書52を作成する。
 あるいは、音声認識辞書作成装置101は、対象装置であるナビゲーション装置の設定言語が切り替えられたタイミングで、新たな言語の地名または施設に関する基本単語データを基本単語データベース131から読み込み、基本単語認識辞書51と変化単語認識辞書52を作成しても良い。言い換えれば、辞書作成部14Aは、対象装置の設定言語が予め定められた言語である場合に、基本単語認識辞書51と変化単語認識辞書52を作成する。
 これらの構成によれば、全ての国の地名または施設に関する基本単語認識辞書51と変化単語認識辞書52を予め作成する必要がないため、基本単語認識辞書51と変化単語認識辞書52のデータ量が削減される。なお、辞書作成部14Aは、全ての国の地名または施設に関する基本単語認識辞書51を予め作成しておき、変化単語認識辞書52についてのみ、予め定められた条件が成立した場合に作成しても良い。
 <A-3.音声認識>
 図5は、実施の形態1の音声認識装置201の構成を示すブロック図である。音声認識装置201は、音声認識辞書作成装置101が作成した基本単語認識辞書51と変化単語認識辞書52の他に、コマンド認識辞書53を用いて車両の搭乗者の音声を認識する。音声認識装置201は、ナビゲーション装置等の対象装置に含まれていても良いし、対象装置と異なる装置であっても良い。図5に示すように、音声認識装置201は、音声取得部22、音響分析部23、および音声認識部24を備えている。
 図6は、音声認識装置201の動作を示すフローチャートである。以下、図6に沿って音声認識装置201の動作を説明する。まず、音声認識部24は、基本単語認識辞書51、変化単語認識辞書52、およびコマンド認識辞書53を、音声認識辞書として選択し(ステップS201)、これらの辞書に含まれる語彙が認識できるようにする。次に、音声取得部22は、車両に搭載されたマイク21から、車両の搭乗者の発話音声を取得し(ステップS202)、音響分析部23に出力する。音響分析部23は、音声取得部22から取得した発話音声の音響データを作成する(ステップS203)。音響データとは、音響特徴量のベクトル列のことである。
 次に、音声認識部24は、発話音声の音声認識を行う(ステップS204)。本ステップにおいて音声認識部24は、ステップS203で音響分析部23が作成した発話音声の音響データ列と、ステップS201で選択した音声認識辞書に登録されている音響データ列とを比較して、最も一致度が高いものを認識結果として出力する。
 ここでは、音声認識辞書として、基本単語認識辞書51、変化単語認識辞書52、およびコマンド認識辞書53が用いられる。コマンド認識辞書53とは、対象装置を操作するためのコマンドのテキストデータを、当該コマンドの音響データに紐づけた情報である。コマンドの例として、例えば
Figure JPOXMLDOC01-appb-M000016
等がある。
 ユーザの発話音声が
Figure JPOXMLDOC01-appb-M000017
であるとすると、音声認識部24は
Figure JPOXMLDOC01-appb-M000018
をコマンド認識辞書53により認識し、
Figure JPOXMLDOC01-appb-M000019
を変化単語認識辞書52により認識する。
 また、ユーザの発話音声が
Figure JPOXMLDOC01-appb-M000020
であるとすると、音声認識部24は
Figure JPOXMLDOC01-appb-M000021
をコマンド認識辞書53により認識し、
Figure JPOXMLDOC01-appb-M000022
を基本単語認識辞書51により認識する。
 <A-4.効果>
 実施の形態1の音声認識辞書作成装置101は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部11と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部12と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書51を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書52を作成する辞書作成部14Aと、を備える。このように、音声認識辞書作成装置101は、基本単語認識辞書51と変化単語認識辞書52を別個に作成することによって、各認識辞書のデータ量を小さくすることができる。
 また、実施の形態1の音声認識装置201は、車両の搭乗者の発話音声を取得する音声取得部22と、発話音声の音響データを作成する音響分析部23と、発話音声の音響データと、格変化していない基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書51と、基本単語が語形変化した変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書52と、を用いて、発話音声の音声認識を行う音声認識部24と、を備える。このように、音声認識装置201は、基本単語認識辞書51と変化単語認識辞書52の両方を用いて音声認識を行うことで、単語の語形変化、例えば目的語としての格変化の有無によらず正確に音声認識を行うことができる。
 <B.実施の形態2>
 <B-1.構成>
 図7は、実施の形態2の音声認識装置202の構成を示すブロック図である。音声認識装置202は、実施の形態1の音声認識辞書作成装置101が作成した基本単語認識辞書51および変化単語認識辞書52に加えて、コマンド認識辞書53とガベジ認識辞書54を用い、2回の音声認識処理により認識結果を確定する。
 音声認識装置202は、実施の形態1の音声認識装置201の構成に加えて、認識制御部25、辞書切替部26、および一時格納部27を備えている。認識制御部25は、音声認識部24の1回目の認識結果に応じて2回目の音声認識に用いる音声認識辞書を決定する。辞書切替部26は、認識制御部25の指示を受けて音声認識に用いる音声認識辞書を切り替える。一時格納部27は、2回目の音声認識のために、発話音声データまたは発話音声の音響データを格納する。
 <B-2.動作>
 図8は、音声認識装置202の動作を示すフローチャートである。以下、図8のフローに沿って音声認識装置202の動作を説明する。
 まず、辞書切替部26は、ユーザの発話の前に、コマンド認識辞書53とガベジ認識辞書54を音声認識辞書として選択し(ステップS301)、これらの辞書に含まれる語彙が認識できるようにする。
 ガベジ認識辞書54とは、ガベジ音響モデルを用いる音声認識辞書である。ガベジ音響モデルとは、一般的にどのような音声にもある程度音響的に一致する、既知の音響モデルである。ガベジ認識辞書54によれば、「a」と「y」を区別するようなことはできないが、無音と有音を区別することができ、何らかの発話があることを検知することができる。
 ユーザが発話を行うと、音声取得部22がマイク21から発話音声を取得する(ステップS302)。そして、音響分析部23が発話音声の音響特徴を解析して音響データを作成する(ステップS303)。発話音声の音響データは、一時格納部27に格納されると共に(ステップS304)、音声認識部24に送られる。
 音声認識部24は、コマンド認識辞書53とガベジ認識辞書54を用いて、発話音声の1回目の音声認識を行う(ステップS305)。具体的には、音声認識部24は、ステップS303で音響分析部23が作成した発話音声の音響データと、コマンド認識辞書53およびガベジ認識辞書54に登録されている音響データとを比較して、最も一致度が高いものを認識結果として出力する。
 例えば、ユーザが
Figure JPOXMLDOC01-appb-M000023
と発話したとする。
 このとき、音声認識部24は認識結果として
Figure JPOXMLDOC01-appb-M000024
を1回目の認識結果として出力する。なお、**はガベジ音素に対応する文字列を表しており、何らかの発話がなされているものの、何と発話しているかを認識できない部分である。
 次に、認識制御部25は、音声認識部24から1回目の認識結果を取得し、認識結果に動詞のコマンドが含まれるか否かを判断し(ステップS306)、判断結果に応じて辞書切替部26に音声認識辞書を選択するよう指示する。
 1回目の認識結果に動詞のコマンドが含まれる場合、辞書切替部26は、変化単語認識辞書52とコマンド認識辞書53を2回目の音声認識辞書として選択する(ステップS307)。例えば、1回目の認識結果が
Figure JPOXMLDOC01-appb-M000025
の場合、動詞
Figure JPOXMLDOC01-appb-M000026
が含まれているため、変化単語認識辞書52とコマンド認識辞書53が2回目の音声認識辞書となる。
 一方、1回目の認識結果に動詞のコマンドが含まれない場合、辞書切替部26は基本単語認識辞書51とコマンド認識辞書53を2回目の認識処理に用いる音声認識辞書として選択する(ステップS308)。例えば、1回目の認識結果が
Figure JPOXMLDOC01-appb-M000027
の場合、動詞が含まれていないため、基本単語認識辞書51とコマンド認識辞書53が2回目の音声認識辞書となる。
 その後、音声認識部24は、再選択された音声認識辞書と、一時格納部27に格納された発話音声の音響データとを用いて、2回目の音声認識を行う(ステップS309)。
 <B-3.効果>
 実施の形態2の音声認識装置202において、音声取得部22は、車両に搭載された対象装置の操作音声を取得し、音声認識部24は、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書53と、ガベジ音響モデルを用いた認識辞書であるガベジ認識辞書54とを用いて、発話音声の1回目の音声認識を行い、1回目の音声認識結果に動詞が含まれない場合に、コマンド認識辞書53と基本単語認識辞書51を用いて発話音声の2回目の音声認識を行い、1回目の音声認識結果に動詞が含まれる場合に、コマンド認識辞書53と変化単語認識辞書52を用いて発話音声の2回目の音声認識を行う。このように、音声認識装置202は、発話音声に含まれる名詞が格変化するかしないかを1回目の認識結果により把握し、それに対応して2回目の音声認識辞書を選択することによって、音声認識の精度を高めることができる。
 <C.実施の形態3>
 <C-1.統合辞書作成>
 図9は、実施の形態3の音声認識辞書作成装置103の構成を示すブロック図である。音声認識辞書作成装置103は、実施の形態1の音声認識辞書作成装置101において、辞書作成部14Aに代えて辞書作成部14Bを備えたものである。辞書作成部14Bは、基本単語データベース131から取得した基本単語データと、変化単語データベース133から取得した変化単語データとを用いて、統合認識辞書55を作成する。
 図10は、辞書作成部14Bの構成を示すブロック図である。辞書作成部14Bは、図3に示した実施の形態1の辞書作成部14Aの構成に加えて、音素置換部145を備えている。音素置換部145は、基本単語の音素列のうち、変化単語の音素列との相違部分を他の音素、具体的にはガベジ音素に置換することにより、統合音素列を作成する。
 図11は、音声認識辞書作成装置103の動作を示すフローチャートである。以下、図11のフローに沿って音声認識辞書作成装置103の動作を説明する。まず、音素列作成部141は、基本単語データベース131から取得した基本単語データと、変化単語データベース133から取得した変化単語データとを、音素変換ルールテーブル143に記載された音素変換ルールに従って、それぞれ音素列に変換する(ステップS2031)。本ステップは図4のステップS1031と同様である。
 次に、音素置換部145が統合音素列を作成する(ステップS2032)。具体的には、音素置換部145が基本単語の音素列を変化単語の音素列と比較し、相違部分が少なければ、相違部分をガベジ音素に置換することにより、統合音素列を作成する。
 例えば、基本単語が
Figure JPOXMLDOC01-appb-M000028
であり、変化単語が
Figure JPOXMLDOC01-appb-M000029
である場合、両者の相違部分は末尾の1音素だけであるため、音素置換部145は末尾の1音素をガベジ音素*に置き換え、統合音素列
Figure JPOXMLDOC01-appb-M000030
を作成する。
 次に、辞書データ作成部142は、音響データ格納部144から統合音素列の各音素に対応する音響データを取り出して、統合音響データ列を作成する。なお、本実施の形態では音響データ格納部144にガベジ音素*に対応する音響データが「100」として格納されているものとする。辞書データ作成部142は、統合音素列
Figure JPOXMLDOC01-appb-M000031
に対して、「3-4-1-…-100」という統合音響データを作成し(ステップS2033)、これを統合音素列の基となった基本単語データおよび変化単語データに紐づけて統合認識辞書55を作成する。統合認識辞書55は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データ、本実施の形態ではガベジ音素の音響データ、に置換した統合音響データを、基本名称および格変化名称に紐づけた情報である。
 <C-2.音声認識処理>
 図12は、実施の形態3の音声認識装置203の構成を示すブロック図である。音声認識装置203は、実施の形態1の音声認識装置201の構成に加えて、認識制御部25を備えている。音声認識装置203は、コマンド認識辞書53と音声認識辞書作成装置103が作成した統合認識辞書55とを用いて音声認識を行う。
 図13は、音声認識装置203の動作を示すフローチャートである。以下、図13のフローに沿って音声認識装置203の動作を説明する。まず、音声認識部24は、音声認識辞書としてコマンド認識辞書53と統合認識辞書55を選択する(ステップS401)。
 ユーザが発話を行うと、音声取得部22がマイク21から発話音声を取得する(ステップS402)。そして、音響分析部23が発話音声の音響特徴を解析して音響データを作成する(ステップS403)。発話音声の音響データは、音声認識部24に送られる。
 音声認識部24は、コマンド認識辞書53と統合認識辞書55を用いて、発話音声の音声認識を行う(ステップS405)。具体的には、音声認識部24は、ステップS403で音響分析部23が作成した発話音声の音響データと、コマンド認識辞書53および統合認識辞書55に登録されている音響データとを比較して、最も一致度が高いものを認識結果として出力する。
 本ステップにおいて、音声認識部24は、コマンド認識辞書53により発話音声のコマンド部分を認識することができる。また、音声認識部24は、統合認識辞書55により発話音声のコマンド以外の部分に対応する音響データ(以下、「対応統合音響データ」)を特定することができる。しかし、統合認識辞書55において対応統合音響データは基本単語と変化単語の両方に紐づけられているため、両単語の発話音声に対する一致度は等しく、いずれが正しい認識結果であるかを特定することができない。
 そこで、認識制御部25は、音声認識部24の認識結果に動詞のコマンドが含まれるか否かを判断する(ステップS405)。ステップS405において認識結果が動詞のコマンドを含む場合、発話音声のコマンド以外の部分には格変化が生じていると考えられる。従って、音声認識部24はステップS405で特定した対応統合音響データに紐づけられた変化単語を、認識結果として採用する(ステップS406)。
 ステップS405において認識結果が動詞のコマンドを含まない場合、発話音声のコマンド以外の部分に格変化が生じていないと考えられる。従って、音声認識部24はステップS405で特定した対応統合音響データに紐づけられた基本単語を、認識結果として採用する(ステップS407)。
 <C-3.効果>
 実施の形態3の音声認識辞書作成装置103は、車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部11と、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部12と、基本単語の音響データの変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書55を作成する辞書作成部14Bと、を備える。統合認識辞書55は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書51と変化単語認識辞書52の合計に比べてデータ量が削減される。
 実施の形態3の音声認識辞書作成方法は、車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得し、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成し、基本単語の音響データの変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書55を作成する。統合認識辞書55は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書51と変化単語認識辞書52の合計に比べてデータ量が削減される。
 実施の形態3の音声認識装置203は、車両の搭乗者の車両に搭載された対象装置に対する操作音声を取得する音声取得部22と、操作音声の音響データを作成する音響分析部23と、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書53と、統合認識辞書55とを用いて、操作音声の音声認識を行う音声認識部24と、を備え、統合認識辞書55は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、基本名称および格変化名称に紐づけた情報であり、音声認識部24は、操作音声に含まれる名称の音響データに対応する統合音響データを対応統合音響データと特定し、コマンド認識辞書53による操作音声の認識結果に動詞が含まれる場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた格変化名称と認識し、コマンド認識辞書53による操作音声の認識部分に動詞が含まれない場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた基本名称と認識する。このように、音声認識装置203は、少ないデータ量の統合認識辞書55を用いて音声認識を行うことができ、音声認識辞書に用いるメモリ量が削減される。
 <D.実施の形態4>
 <D-1.統合辞書作成>
 図14は、実施の形態4の音声認識辞書作成装置104の構成を示すブロック図である。音声認識辞書作成装置104は、実施の形態3の音声認識辞書作成装置103において、辞書作成部14Bに代えて辞書作成部14Cを備えたものである。辞書作成部14Cは、基本単語データベース131から取得した基本単語データと、変化単語データベース133から取得した変化単語データとを用いて、統合認識辞書56を作成する。
 図15は、辞書作成部14Cの構成を示すブロック図である。辞書作成部14Cは、図10に示した実施の形態3の辞書作成部14Bの構成において、音素置換部145に代えて平均音響データ作成部146を備えたものである。平均音響データ作成部146は、基本単語データの音響データのうち、変化単語の音響データとの相違部分について、相違する2つの音響データの平均音響データを作成する。
 図16は、音声認識辞書作成装置104の動作を示すフローチャートである。以下、図16のフローに沿って音声認識辞書作成装置104の動作を説明する。まず、音素列作成部141は、基本単語データベース131から取得した基本単語データと、変化単語データベース133から取得した変化単語データとを、音素変換ルールテーブル143に記載された音素変換ルールに従って、それぞれ音素列に変換する(ステップS3031)。本ステップは図4のステップS1031と同様である。
 次に、平均音響データ作成部146が平均音響データを作成する(ステップS3032)。具体的には、音素置換部145が基本単語の音素列を変化単語の音素列と比較し、相違部分が少なければ、相違する2つの音響データの平均音響データを作成する。
 例えば、基本単語が
Figure JPOXMLDOC01-appb-M000032
であり、変化単語が
Figure JPOXMLDOC01-appb-M000033
である場合、両者の相違部分は末尾のaとuである。平均音響データ作成部146は、aとuの平均音響データ「101」を作成し、音響データ格納部144に格納する。なお、音響データとは、周波数またはパワー等の音響特徴量のベクトル列であるため、2つの音響データの対応するベクトル同士で、これらの音響特徴量の平均値をとることにより、平均音響データが得られる。
 次に、辞書データ作成部142は、基本単語の音素列のうち、上記の相違部分以外の音素の音響データを音響データ格納部144から抽出し、平均音響データ作成部146が作成した平均音響データ「101」と結合することにより統合音響データを作成し(ステップS3033)、作成元の基本単語データおよび変化単語データに紐づけることにより統合認識辞書56を作成する。例えば、上記の例では、統合音響データは「3-4-1-…-101」となる。
 <D-2.音声認識>
 図17は、実施の形態4の音声認識装置204の構成を示すブロック図である。音声認識装置204は図12に示した実施の形態3の音声認識装置203と同様の構成であるが、コマンド認識辞書53と統合認識辞書56を用いて音声認識を行う。統合認識辞書55に代えて統合認識辞書56を用いるという点以外で、音声認識装置204の動作は音声認識装置203と同様であるため、説明を省略する。
 <D-3.効果>
 実施の形態4の音声認識辞書作成装置104において、辞書作成部14Cは、基本単語の音響データの変化単語の音響データとの相違部分を、相違部分についての両音響データの平均音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書56を作成する。統合認識辞書56は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書51と変化単語認識辞書52の合計に比べてデータ量が削減される。
 実施の形態4の音声認識装置204は、コマンド認識辞書53と統合認識辞書56とを用いて操作音声の音声認識を行う。従って、音声認識装置203は、少ないデータ量の統合認識辞書56を用いて音声認識を行うことができ、音声認識辞書に用いるメモリ量が削減される。
 <E.ハードウェア構成>
 上記の音声認識辞書作成装置101,103,104における、取得部11、変化単語作成部12、記憶部13、および辞書作成部14A,14B,14Cと、音声認識装置201,202,203,204における、音声取得部22、音響分析部23、音声認識部24、認識制御部25、辞書切替部26、および一時格納部27は、図18に示す処理回路81により実現される。すなわち、処理回路81は、取得部11、変化単語作成部12、記憶部13、および辞書作成部14A,14B,14C(以下、「取得部11等」と称する)と、音声取得部22、音響分析部23、音声認識部24、認識制御部25、辞書切替部26、および一時格納部27(以下、「音声取得部22等」と称する)を備える。処理回路81には、専用のハードウェアが適用されても良いし、メモリに格納されるプログラムを実行するプロセッサが適用されても良い。プロセッサは、例えば中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。
 処理回路81が専用のハードウェアである場合、処理回路81は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。取得部11等または音声取得部22等の各部の機能それぞれは、複数の処理回路81で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。
 処理回路81がプロセッサである場合、取得部11等または音声取得部22等の機能は、ソフトウェア等(ソフトウェア、ファームウェアまたはソフトウェアとファームウェア)との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリに格納される。図19に示すように、処理回路81に適用されるプロセッサ82は、メモリ83に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識辞書作成装置101,103,104は、処理回路81により実行されるときに、車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得するステップと、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成するステップと、基本単語の音響データの変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成するステップと、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書を作成するステップと、が結果的に実行されることになるプログラムを格納するためのメモリ83を備える。換言すれば、このプログラムは、取得部11等または音声取得部22等の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリ83には、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
 以上、取得部11等または音声取得部22等の各機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、取得部11等または音声取得部22等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば辞書作成部14A,14B,14Cについては専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ82としての処理回路81がメモリ83に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
 以上のように、処理回路は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上記の各機能を実現することができる。なお、記憶部13はメモリ83から構成されるが、それらは単一のメモリ83から構成されてもよいし、それぞれが個別のメモリから構成されてもよい。
 音声認識辞書作成装置101,103,104と音声認識装置201,202,203,204は、車載装置であっても良いし、車載装置、PND(Portable Navigation Device)、通信端末(例えば携帯電話、スマートフォン、およびタブレットなどの携帯端末)、およびこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせて構築されるシステムであっても良い。この場合、以上で説明した音声認識辞書作成装置101,103,104または音声認識装置201,202,203,204の各機能または各構成要素は、システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。その一例として、図20には、車両70とサーバ71による音声認識辞書作成装置101の構成が示されている。図20において、取得部11、変化単語作成部12、および辞書作成部14Aが車両70に配置され、記憶部13がサーバ71に配置されている。
 なお、本発明は、その発明の範囲内において、各実施の形態および各変形例を自由に組み合わせたり、各実施の形態および各変形例を適宜、変形または省略したりすることが可能である。本発明は詳細に説明されたが、上記した説明は全ての態様において例示であり、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得る。
 11 取得部、12 変化単語作成部、13 記憶部、14A,14B,14C 辞書作成部、21 マイク、22 音声取得部、23 音響分析部、24 音声認識部、25 認識制御部、26 辞書切替部、27 一時格納部、51 基本単語認識辞書、52 変化単語認識辞書、53 コマンド認識辞書、54 ガベジ認識辞書、55,56 統合認識辞書、70 車両、71 サーバ、81 処理回路、82 プロセッサ、83 メモリ、101,103,104 音声認識辞書作成装置、131 基本単語データベース、132 格変化文法ルールテーブル、133 変化単語データベース、141 音素列作成部、142 辞書データ作成部、143 音素変換ルールテーブル、144 音響データ格納部、145 音素置換部、146 平均音響データ作成部、201,202,203,204 音声認識装置。

Claims (19)

  1.  車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部と、
     前記基本単語の言語の語形変化ルールに基づき、前記基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部と、
     前記基本単語のテキストデータを前記基本単語の音響データに紐づけた情報である基本単語認識辞書を作成し、前記変化単語のテキストデータを前記変化単語の音響データに紐づけた情報である変化単語認識辞書を作成する辞書作成部と、を備える、
    音声認識辞書作成装置。
  2.  前記基本単語は、語形変化が生じていない名詞であり、
     前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
    請求項1に記載の音声認識辞書作成装置(1001)。
  3.  前記変化単語は、前記基本単語が目的語として格変化した名詞である、
    請求項2に記載の音声認識辞書作成装置(1001)。
  4.  前記辞書作成部(104)は、前記車両の現在位置に基づき、前記変化単語認識辞書を作成する、
    請求項1に記載の音声認識辞書作成装置(1001)。
  5.  前記辞書作成部(104)は、前記対象装置の設定言語が予め定められた言語である場合に、前記変化単語認識辞書を作成する、
    請求項1に記載の音声認識辞書作成装置(1001)。
  6.  車両の搭乗者の発話音声を取得する音声取得部と、
     前記発話音声の音響データを作成する音響分析部と、
     前記発話音声の音響データと、格変化していない基本単語のテキストデータを前記基本単語の音響データに紐づけた情報である基本単語認識辞書と、前記基本単語が語形変化した変化単語のテキストデータを前記変化単語の音響データに紐づけた情報である変化単語認識辞書と、を用いて、前記発話音声の音声認識を行う音声認識部と、を備える、
    音声認識装置。
  7.  前記基本単語は、語形変化が生じていない名詞であり、
     前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
    請求項6に記載の音声認識装置。
  8.  前記変化単語は、前記基本単語が目的語として格変化した名詞である、
    請求項7に記載の音声認識装置。
  9.  前記発話音声は、前記車両に搭載された対象装置の操作音声であり、
     前記音声認識部は、
     前記対象装置に対するコマンドのテキストデータを前記コマンドの音響データに紐づけた情報であるコマンド認識辞書と、ガベジ音響モデルを用いた認識辞書であるガベジ認識辞書とを用いて、前記発話音声の1回目の音声認識を行い、
     1回目の音声認識結果に動詞が含まれない場合に、前記コマンド認識辞書と前記基本単語認識辞書を用いて前記発話音声の2回目の音声認識を行い、
     1回目の音声認識結果に前記動詞が含まれる場合に、前記コマンド認識辞書と前記変化単語認識辞書を用いて前記発話音声の2回目の音声認識を行う、
    請求項8に記載の音声認識装置。
  10.  車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部と、
     前記基本単語の言語の語形変化ルールに基づき、前記基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部と、
     前記基本単語の音響データの前記変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、前記統合音響データを前記基本単語と前記変化単語に紐づけた情報である統合認識辞書を作成する辞書作成部と、を備える、
    音声認識辞書作成装置。
  11.  前記基本単語は、語形変化が生じていない名詞であり、
     前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
    請求項10に記載の音声認識辞書作成装置。
  12.  前記変化単語は、前記基本単語が目的語として格変化した名詞である、
    請求項11に記載の音声認識辞書作成装置。
  13.  前記辞書作成部は、前記基本単語の音素列の前記変化単語の音素列との相違部分を他の音素に置換して統合音素列を作成し、前記統合音素列の音響データを前記統合音響データとして作成する、
    請求項12に記載の音声認識辞書作成装置。
  14.  前記他の音素はガベジ音素である、
    請求項13に記載の音声認識辞書作成装置。
  15.  前記他の音響データは、前記基本単語の音響データと前記変化単語の音響データとの相違部分の平均音響データである、
    請求項10に記載の音声認識辞書作成装置。
  16.  車両の搭乗者の前記車両に搭載された対象装置に対する操作音声を取得する音声取得部と、
     前記操作音声の音響データを作成する音響分析部と、
     前記対象装置に対するコマンドのテキストデータを前記コマンドの音響データに紐づけた情報であるコマンド認識辞書と、統合認識辞書とを用いて、前記操作音声の音声認識を行う音声認識部と、を備え、
     前記統合認識辞書は、格変化していない基本名称の音響データのうち前記基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、前記基本名称および前記格変化名称に紐づけた情報であり、
     前記音声認識部は、前記操作音声に含まれる名称の音響データに対応する前記統合音響データを対応統合音響データと特定し、前記コマンド認識辞書による前記操作音声の認識結果に動詞が含まれる場合に、前記操作音声に含まれる名称を、前記対応統合音響データに紐づけられた前記格変化名称と認識し、前記コマンド認識辞書による前記操作音声の認識部分に動詞が含まれない場合に、前記操作音声に含まれる名称を、前記対応統合音響データに紐づけられた前記基本名称と認識する、
    音声認識装置。
  17.  前記他の音響データはガベジ音素の音響データである、
    請求項16に記載の音声認識装置。
  18.  前記他の音響データは、前記基本名称の音響データと前記格変化名称の音響データとの相違部分の平均音響データである、
    請求項16に記載の音声認識装置。
  19.  車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得し、
     前記基本単語の言語の語形変化ルールに基づき、前記基本単語が格変化した変化単語のテキストデータを作成し、
     前記基本単語の音響データの前記変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成し、
     前記統合音響データを前記基本単語と前記変化単語に紐づけた情報である統合認識辞書を作成する、
    音声認識辞書作成方法。
PCT/JP2019/020842 2019-05-27 2019-05-27 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法 WO2020240647A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/020842 WO2020240647A1 (ja) 2019-05-27 2019-05-27 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/020842 WO2020240647A1 (ja) 2019-05-27 2019-05-27 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Publications (1)

Publication Number Publication Date
WO2020240647A1 true WO2020240647A1 (ja) 2020-12-03

Family

ID=73553103

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020842 WO2020240647A1 (ja) 2019-05-27 2019-05-27 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Country Status (1)

Country Link
WO (1) WO2020240647A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0283594A (ja) * 1988-09-20 1990-03-23 Nec Corp 形態素合成形英単語辞書構成方式
JPH05119793A (ja) * 1991-10-25 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JP2012194245A (ja) * 2011-03-15 2012-10-11 Fujitsu Ltd 音声認識装置、音声認識方法及び音声認識プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0283594A (ja) * 1988-09-20 1990-03-23 Nec Corp 形態素合成形英単語辞書構成方式
JPH05119793A (ja) * 1991-10-25 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JP2012194245A (ja) * 2011-03-15 2012-10-11 Fujitsu Ltd 音声認識装置、音声認識方法及び音声認識プログラム

Similar Documents

Publication Publication Date Title
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
Bruguier et al. Phoebe: Pronunciation-aware contextualization for end-to-end speech recognition
US11270687B2 (en) Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP4942860B2 (ja) 認識辞書作成装置、音声認識装置及び音声合成装置
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
US20160147740A1 (en) Adapting machine translation data using damaging channel model
US20130090921A1 (en) Pronunciation learning from user correction
JP3803029B2 (ja) 音声認識装置
JP6095588B2 (ja) 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
KR102094935B1 (ko) 음성 인식 시스템 및 방법
CN107112007B (zh) 语音识别装置及语音识别方法
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
Erdogan et al. Incorporating language constraints in sub-word based speech recognition
Srivastava et al. Homophone Identification and Merging for Code-switched Speech Recognition.
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
US20150066472A1 (en) Method and apparatus for generating multiple phoneme strings for foreign noun
Long et al. Pronunciation augmentation for Mandarin-English code-switching speech recognition
WO2020240647A1 (ja) 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法
Yu et al. Cross-lingual speech recognition under runtime resource constraints
AbuZeina et al. Cross-word modeling for Arabic speech recognition
US11361752B2 (en) Voice recognition dictionary data construction apparatus and voice recognition apparatus
Zhang et al. Using mutual information criterion to design an efficient phoneme set for Chinese speech recognition
JP7038919B2 (ja) 多言語音声認識装置および多言語音声認識方法
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19931275

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19931275

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP