WO2021019775A1 - 多言語音声認識装置および多言語音声認識方法 - Google Patents

多言語音声認識装置および多言語音声認識方法 Download PDF

Info

Publication number
WO2021019775A1
WO2021019775A1 PCT/JP2019/030281 JP2019030281W WO2021019775A1 WO 2021019775 A1 WO2021019775 A1 WO 2021019775A1 JP 2019030281 W JP2019030281 W JP 2019030281W WO 2021019775 A1 WO2021019775 A1 WO 2021019775A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
voice
language
voice recognition
unit
Prior art date
Application number
PCT/JP2019/030281
Other languages
English (en)
French (fr)
Inventor
道弘 山崎
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2021536583A priority Critical patent/JP7038919B2/ja
Priority to PCT/JP2019/030281 priority patent/WO2021019775A1/ja
Publication of WO2021019775A1 publication Critical patent/WO2021019775A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a voice recognition device, and more particularly to a voice recognition device that supports multiple languages.
  • the character notation and reading of place names and facility names included in the map database are basically expressed in the main languages of the countries and regions where the map database is used. Therefore, when a device having a map database, such as a navigation device, searches for a place name or a facility name included in the map database by using a voice recognition device, the voice recognition device usually performs voice recognition in the main language. Is enough. However, nowadays it has become possible to increase the capacity of map databases, and information on place names and facility names expressed in multiple languages is assumed for use in countries with multiple official languages and areas near borders. There is also a multilingual map database that includes. When a device equipped with a multilingual map database searches for a place name or facility name using a voice recognition device, it is desirable that the voice recognition device can perform voice recognition (multilingual voice recognition) in multiple languages. ..
  • a method of multilingual speech recognition (i) a method of mounting a plurality of acoustic models and speech recognition dictionaries having different supported languages on the speech recognition device and selectively switching the language to be recognized, (ii) speech.
  • method (i) since only one language can be recognized at the same time, for example, when a plurality of languages are mixed in the voice spoken by the user (for example, when the language of the search command and the language of the place name are different). Is difficult to recognize.
  • the amount of data in the multilingual acoustic model and voice recognition dictionary is enormous, the storage size of a car navigation device or the like It is difficult to realize with a limited number of devices.
  • Patent Document 1 an input voice of a language different from the language to be recognized is replaced with a phoneme of the same or similar phoneme as the input voice among the phonemes of the language to be recognized, and after the replacement.
  • a technique for performing voice recognition based on the input voice of is disclosed.
  • the method of selectively switching the language to be recognized is limited to one language that can be recognized at the same time.
  • the method using a multilingual acoustic model and a speech recognition dictionary requires a large amount of storage.
  • the present invention has been made to solve the above problems, and provides a multilingual speech recognition device capable of recognizing input speech including a plurality of languages while suppressing the amount of data in an acoustic model and a speech recognition dictionary.
  • the purpose is to provide.
  • the multilingual voice recognition device has a plurality of input voice storage units that store input voices spoken by the user, and a plurality of voice recognition using voice recognition dictionaries and sound models of different languages for the input voices.
  • a re-recognition voice recognition dictionary which is a voice recognition dictionary of a pre-selected re-recognition language, based on the notation character string or phonetic character string as a result of the voice recognition of each of the voice recognition unit and the plurality of voice recognition units.
  • a re-recognition dictionary creation unit to be created a voice re-recognition unit that performs voice re-recognition using a re-recognition voice recognition dictionary and a re-recognition sound model that is an sound model of a re-recognition language for input voice, To be equipped.
  • the multilingual speech recognition device it is not necessary to use a multilingual acoustic model and a speech recognition dictionary, so that the amount of data in the acoustic model and the speech recognition dictionary for speech recognition can be suppressed. ..
  • the final recognition result can be obtained by performing voice re-recognition of the input voice using the voice recognition dictionary for re-recognition created based on the voice recognition result of each language for the input voice, a plurality of languages can be obtained. Can recognize the input voice of.
  • FIG. It is a figure which shows the structure of the multilingual speech recognition apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the multilingual speech recognition apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the multilingual speech recognition apparatus which concerns on Embodiment 2.
  • It is a flowchart which shows the operation of the multilingual speech recognition apparatus which concerns on Embodiment 3.
  • FIG. 1 is a diagram showing a configuration of a multilingual speech recognition device 10 according to a first embodiment of the present invention.
  • the multilingual voice recognition device 10 includes an input voice storage unit 1 and a plurality of (N) voice recognition units 2 (first voice recognition unit 2_1, second voice recognition unit 2_2, ... (, Nth speech recognition unit 2_N), a plurality of speech models 3 (first speech model 3_1, second speech model 3_2, ..., Nth speech recognition model 3_N), and a plurality of speech recognition dictionaries.
  • first speech recognition dictionary 4_1, second speech recognition dictionary 4_2, ..., Nth speech recognition dictionary 4_N re-recognition dictionary creation unit 5
  • re-recognition speech recognition dictionary 6 It includes a voice re-recognition unit 7 and a re-recognition acoustic model 8.
  • the input voice storage unit 1 acquires and stores the input voice spoken by the user.
  • the Nth voice recognition unit 2_N is a voice in a different language with respect to the input voice stored in the input voice storage unit 1. Recognize.
  • the language to be recognized by the i-th voice recognition unit is defined as the "i-th language”. That is, the first voice recognition unit 2_1 recognizes the first language, the second voice recognition unit 2_2 recognizes the second language, and the Nth voice recognition unit 2_N recognizes the Nth language. set to target.
  • the first voice recognition unit 2_1 regards the input voice as the voice of the first language and performs voice recognition
  • the second voice recognition unit 2_2 regards the input voice as the voice of the second language.
  • the voice recognition is performed
  • the Nth voice recognition unit 2_N regards the input voice as the voice of the Nth language and performs voice recognition.
  • the Nth acoustic model 3_N is a database in which the characteristics of phonemes, which are the units of speech in each language, are described, and each of them is the first speech. It is used in the processing of voice recognition by the recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N. That is, the first acoustic model 3_1 is an acoustic model of the first language, the second acoustic model 3_2 is an acoustic model of the second language, and the Nth acoustic model 3_N is the Nth language. It is an acoustic model of.
  • the first speech recognition dictionary 4_1, the second speech recognition dictionary 4_2, ..., The Nth speech recognition dictionary 4_N are pronunciation dictionaries for linking words in each language with phoneme sequences (reading), respectively. It is used in the process of voice recognition by the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N. That is, the first speech recognition dictionary 4_1 is a speech recognition dictionary of the first language, the second speech recognition dictionary 4_2 is a speech recognition dictionary of the second language, and the Nth speech recognition dictionary 4_N is. , Nth language speech recognition dictionary.
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N includes the characteristics of the phonemes constituting the input voice, the first acoustic model 3_1, and the second acoustic.
  • the Nth acoustic model 3_N By comparing the features of the phonemes described in the model 3_2, ..., The Nth acoustic model 3_N, a model of the phoneme series corresponding to the input voice is created, and further, the first speech recognition dictionary 4-1 The second speech recognition dictionary 4_2, ..., The Nth speech recognition dictionary 4_N is used to identify the word corresponding to the phoneme sequence model.
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N is the notation character of the input voice as a result of the voice recognition of the input voice. Output the column. That is, the first voice recognition unit 2_1 outputs a notation character string when the input voice is regarded as the voice of the first language, and the second voice recognition unit 2_2 outputs the input voice as the voice of the second language.
  • the Nth voice recognition unit 2_N outputs the notation character string when it is regarded as the sound of the Nth language, and outputs the notation character string when the input voice is regarded as the sound of the Nth language.
  • the re-recognition dictionary creation unit 5 is based on the recognition results of the input voice output by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • the re-recognition language is selected from the first to Nth languages, and is preferably a language mainly used by the user or a language having a phonological system close to that language.
  • the re-recognition dictionary creation unit 5 is the input voice output by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • the notation character string is converted into a phoneme character string, which is a character string representing the phoneme sequence of the reading of the notation character string, using G2P (Grapheme to Phoneme), which is a language for re-recognition, and the converted phoneme character string is used.
  • G2P Grapheme to Phoneme
  • a re-recognition speech recognition dictionary 6 which is a speech recognition dictionary of the re-recognition language that associates with the notation character string before conversion is generated.
  • the voice re-recognition unit 7 re-recognizes the input voice stored in the input voice storage unit 1 with respect to the re-recognition acoustic model 8 which is an acoustic model of the re-recognition language and the re-recognition dictionary creation unit 5.
  • the voice recognition is performed again using the recognition voice recognition dictionary 6.
  • the voice recognition performed by the voice re-recognition unit 7 is referred to as "speech re-recognition”.
  • the re-recognition acoustic model 8 may be the same as any one of the first acoustic model 3_1, the second acoustic model 3_2, ..., And the Nth acoustic model 3_N.
  • the multilingual speech recognition device 10 does not need to have the re-recognition acoustic model 8 in addition to the first acoustic model 3_1, the second acoustic model 3_2, ..., The Nth acoustic model 3_N.
  • FIG. 2 is a flowchart showing the operation. The flow of FIG. 2 is executed when voice is input to the multilingual voice recognition device 10.
  • the input voice is stored in the input voice storage unit 1 (step S101).
  • the third voice recognition unit 2_i uses the i-th acoustic model 3_i and the i-th voice recognition dictionary 4_i to refer to the input voice stored in the input voice storage unit 1 in the i-language. Perform voice recognition.
  • the notation character string that is the result of voice recognition by the third voice recognition unit 2_i is input to the re-recognition dictionary creation unit 5.
  • the notation character string which is the result of the voice recognition by the third voice recognition unit 2_i is referred to as "the i-th notation character string”.
  • the information input to the re-recognition dictionary creation unit 5 does not have to be the character data itself of the i-th notation character string.
  • the identifier of the i-notation character string in the i-speech recognition dictionary 4_i Any information such as (ID) that can uniquely identify the i-th notation character string may be used.
  • steps S102 and S103 are repeated N times and the first to Nth notation character strings are input to the re-recognition dictionary creation unit 5, the re-recognition dictionary creation unit 5 uses the re-recognition speech recognition dictionary 6. Clear (step S104). That is, the re-recognition dictionary creation unit 5 puts the re-recognition voice recognition dictionary 6 in a state in which the vocabulary is not registered.
  • the re-recognition dictionary creation unit 5 converts the i-th notation character string into a phoneme character string by G2P conversion of the re-recognition language set in advance by the user.
  • the phoneme character string obtained by G2P conversion of the i-th notation character string is referred to as "the i-th phoneme character string”.
  • the re-recognition dictionary creation unit 5 registers the i-th phoneme character string as the vocabulary of the re-recognition speech recognition dictionary 6. That is, the re-recognition dictionary creation unit 5 registers the i-th phoneme character string in the re-recognition voice recognition dictionary 6 as a reading of the i-th notation character string.
  • the voice re-recognition unit 7 performs the re-recognition acoustic model 8 and the re-recognition.
  • voice recognition dictionary 6 voice re-recognition of the input voice stored in the input voice storage unit 1 in the re-recognition language is executed (step S107). Then, the voice re-recognition unit 7 outputs the result of voice re-recognition as the final recognition result of the input voice from the multilingual voice recognition device 10 (step S108).
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N sequentially perform voice recognition of the input voice. These voice recognitions may be performed in parallel. Similarly, the G2P conversion of the first to Nth notation character strings may be performed in parallel. Further, the re-recognition voice recognition dictionary 6 is cleared (step S104) first (for example, after step S101), and steps S102, S103, S105, and S106 are continuously performed in one loop process. It may be.
  • the voice recognition of the input voice is output from all of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N.
  • the voice recognition results are not output from those for which a valid recognition result could not be obtained, so the number of vocabularies registered in the re-recognition voice recognition dictionary 6 may be less than N. ..
  • the Nth voice recognition unit 2_N the input voice
  • a notation character string corresponding to the correct reading of the input voice is output from the one that recognizes the language (language spoken by the user), and the correct reading of the input voice is output from the other ones.
  • a notation character string different from the reading is output.
  • the vocabulary registered in the re-recognition voice recognition dictionary 6 by the re-recognition dictionary creation unit 5 is the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N.
  • the multilingual voice recognition device 10 can recognize input voices in a plurality of languages.
  • an acoustic model and a speech recognition dictionary of individual languages are used instead of an acoustic model and a speech recognition dictionary for multiple languages.
  • a multilingual acoustic model and speech recognition dictionary corresponding to N languages needs to be provided with an acoustic model and speech recognition dictionary of N languages for input of N languages, and thus N ⁇ N. It is the amount of data for the combination of individual languages.
  • the voice recognition performed by the multilingual voice recognition device 10 according to the first embodiment can be performed if there are sound models and voice recognition dictionaries of N languages, so that the sound model and voice for multiple languages can be performed.
  • the amount of data required for the acoustic model and the speech recognition dictionary is smaller than that of the recognition dictionary.
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N all perform voice recognition of the input voice. Only a part of them may perform voice recognition of the input voice. For example, one or more languages that the user may speak are registered in the multilingual voice recognition device 10, and the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice Of the recognition units 2_N, only those whose recognition target is the registered language may perform voice recognition of the input voice. In that case, the multilingual voice recognition device 10 may determine a language in which the user may speak based on information such as the current position of the user and the nationality of the user.
  • each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N produces one voice recognition result (notation character string).
  • a plurality of voice recognition results may be output by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • the number of vocabularies registered in the re-recognition speech recognition dictionary 6 may be more than N.
  • the configuration of the multilingual speech recognition device 10 according to the second embodiment is the same as that of the first embodiment (FIG. 1).
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N is a notation character string of the input voice as a result of the voice recognition of the input voice.
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N becomes the input voice as a result of the voice recognition of the input voice. Output the corresponding phonetic string.
  • the re-recognition dictionary creation unit 5 outputs a phonetic character string output by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • Re-recognition voice which is a speech recognition dictionary of the re-recognition language, converts to the phonetic character string of the re-recognition language using Lingual Mapping etc. and connects the converted phoneme character string with the phonetic character string before conversion.
  • the re-recognition dictionary creation unit 5 re-recognizes the phonetic character strings output by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • the reason for converting to a language phonetic string is that it is difficult to register phonetic strings in different languages in one speech recognition dictionary 6 for re-recognition because there are phonemes or phonetic sequences that are not used for each language. is there
  • FIG. 3 is a flowchart showing the operation. The flow of FIG. 3 is executed when voice is input to the multilingual voice recognition device 10.
  • the input voice is stored in the input voice storage unit 1 (step S201).
  • the third voice recognition unit 2_i uses the i-th acoustic model 3_i and the i-th voice recognition dictionary 4_i with respect to the input voice stored in the input voice storage unit 1, and uses the i-th language. Perform voice recognition in.
  • the phoneme character string that is the result of voice recognition by the third voice recognition unit 2_i is input to the re-recognition dictionary creation unit 5.
  • the phoneme character string that is the result of voice recognition by the third voice recognition unit 2_i is referred to as "the i-th recognition phoneme character string”.
  • the information input to the re-recognition dictionary creation unit 5 does not have to be the character data itself of the i-th recognition phonetic character string.
  • the i-th recognition phoneme character string in the i-th speech recognition dictionary 4_i Any information such as an identifier (ID) of can be used as long as it can uniquely identify the third recognition phonetic character string.
  • steps S202 and S203 are repeated N times and the first to Nth recognition phonetic character strings are input to the re-recognition dictionary creation unit 5, the re-recognition dictionary creation unit 5 re-recognizes the speech recognition dictionary 6 Is cleared (step S204).
  • the re-recognition dictionary creation unit 5 converts the i-th recognition phonetic character string into the phonetic character string of the re-recognition language by Crosslingual mapping.
  • the phonetic character string obtained by converting the i-th recognized phonetic character string into the language for re-recognition is referred to as the "i-th converted phonetic character string”.
  • the re-recognition dictionary creation unit 5 registers the i-th converted phonetic character string as the vocabulary of the re-recognition speech recognition dictionary 6. That is, the re-recognition dictionary creation unit 5 registers the i-th converted phonetic character string in the re-recognition speech recognition dictionary 6 as a reading of the i-th recognition phonetic character string.
  • the voice re-recognition unit 7 is stored in the input voice storage unit 1.
  • the re-recognition sound model 8 and the re-recognition voice recognition dictionary 6 are used to perform voice re-recognition in the re-recognition language (step S207).
  • the voice re-recognition unit 7 outputs the result of voice re-recognition as the final recognition result of the input voice from the multilingual voice recognition device 10 (step S208).
  • the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N sequentially perform voice recognition of the input voice. These voice recognitions may be performed in parallel. Similarly, the G2P conversion of the first to Nth notation character strings may be performed in parallel. Further, the re-recognition voice recognition dictionary 6 is cleared (step S204) first (for example, after step S201), and steps S202, S203, S205, and S206 are continuously performed in one loop process. It may be.
  • the Nth voice recognition unit 2_N is the recognition target.
  • a phonetic character string corresponding to the correct reading of the input voice (reading intended by the user) is output from the one, and a phonetic character string different from the correct reading of the input voice is output from the other ones.
  • the vocabulary registered in the re-recognition voice recognition dictionary 6 by the re-recognition dictionary creation unit 5 is the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N.
  • the multilingual voice recognition device 10 can recognize input voices in a plurality of languages.
  • the sound model and the voice recognition dictionary of each language are used instead of the sound model and the voice recognition dictionary for multiple languages.
  • the amount of data required for the model and speech recognition dictionary is small.
  • the Nth voice recognition unit 2_N is used as a notation character string as in the first embodiment, a plurality of notation character strings are used. If the reading of is present, erroneous conversion may occur when converting the notation character string into a phonetic character string registered in the speech recognition dictionary 6 for re-recognition.
  • the English notation character string "St.” has a plurality of readings corresponding to "Saint” and “Street"
  • the notation character string "Dr.” corresponds to "Doctor” and "Drive”. There are multiple readings to do.
  • the Nth voice recognition unit 2_N is a phonetic character string, and the phonetic character string is Since it is converted into a phonetic character string of the re-recognition language and registered in the re-recognition speech recognition dictionary 6, it is possible to prevent the above-mentioned erroneous conversion from occurring.
  • the Nth voice recognition unit 2_N generates a notation character string as a voice recognition result in each language, and the notation character is generated.
  • a phonetic character string to be output may be generated by performing G2P conversion in a speech recognition language on the column. In this case, the effect of preventing the above-mentioned erroneous conversion cannot be obtained, but the effect of obtaining a phoneme character string closer to the reading in that language can be obtained by performing G2P conversion matching the language of the notation character string. Be done.
  • FIG. 4 is a diagram showing a configuration of the multilingual speech recognition device 10 according to the third embodiment.
  • the configuration of the multilingual speech recognition device 10 of FIG. 4 is a configuration in which the re-recognition acoustic model 8 is replaced with the re-recognition language selection unit 9 with respect to the configuration of FIG.
  • the re-recognition language selection unit 9 is selected from the languages used by the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N for voice recognition of the input voice. Select the language with the highest priority as the language for re-recognition. Then, the re-recognition language selection unit 9 re-recognizes the voice model of the selected language from the first acoustic model 3_1, the second acoustic model 3_2, ..., And the Nth acoustic model 3_N. Provided to Part 7.
  • the language priority may be set by the user, or may be automatically set by the re-recognition language selection unit 9.
  • the user specifies the language to be the first priority, and for the languages of the second and lower ranks, the language selection unit for re-recognition has a higher priority as the language whose phonological system is closer to the first language. 9 may be set automatically. Further, the re-recognition language selection unit 9 may set the priority of all languages based on information such as the current position of the user and the nationality of the user.
  • the language priority is set as shown in FIG.
  • the languages used by the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N for voice recognition include English, German, French, Italian, and Spain.
  • the re-recognition language selection unit 9 selects the English having the highest priority as the re-recognition language. Further, for example, voice recognition is performed only by a part of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N, and is used for the voice recognition. If the languages include German, French, Italian, and Spanish but not English, the re-recognition language selection unit 9 has the highest priority among the languages used for speech recognition. Select high German as the language for re-recognition.
  • the third embodiment it is not necessary to select the language for re-recognition, and the convenience of the multilingual speech recognition device 10 is improved.
  • the language for re-recognition can be automatically switched according to the language to be voice-recognized. It is effective.
  • FIG. 6 is a flowchart showing the operation of the multilingual speech recognition device according to the third embodiment.
  • the flow of FIG. 6 is obtained by adding step S301 before step S104 to the flow of FIG. 2 described in the first embodiment.
  • the re-recognition language selection unit 9 is among the languages used for voice recognition in the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N. Select the language with the highest priority as the language for re-recognition. Since the steps other than step S301 are the same as those in the first embodiment, the description thereof will be omitted here.
  • FIG. 6 shows an example in which step S301 is added before step S104 of the first embodiment (FIG. 2)
  • the present embodiment is also applicable to the second embodiment.
  • the operation flow of the multilingual speech recognition device 10 is that step S301 is added before step S204 in FIG.
  • the configuration of the multilingual speech recognition device 10 according to the fourth embodiment is the same as that of the third embodiment (FIG. 4).
  • the re-recognition language selection unit 9 uses the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N recognizes the input voice.
  • the language with the highest priority is selected as the re-recognition language from the languages used in the above and for which effective speech recognition results have been obtained.
  • the re-recognition language selection unit 9 re-recognizes the voice model of the selected language from the first acoustic model 3_1, the second acoustic model 3_2, ..., And the Nth acoustic model 3_N.
  • the re-recognition language selection unit 9 excludes a language for which a valid speech recognition result has not been obtained from the selection target of the re-recognition language. It is different from the third embodiment.
  • the following methods can be considered as a method of determining whether the voice recognition result of each language is valid. For example, whether or not the re-recognition language selection unit 9 outputs a voice recognition result by each of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N. , And the language corresponding to the one that did not output the speech recognition result may be determined as the language for which the valid speech recognition result was not obtained. Further, for example, the re-recognition language selection unit 9 confirms the reliability of the voice recognition results of the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., And the Nth voice recognition unit 2_N.
  • a language in which the reliability of the speech recognition result is lower than a predetermined threshold may be determined as a language in which a valid speech recognition result has not been obtained.
  • the above threshold value may be a constant value, or may be a changing value such as an average value of the reliability of speech recognition results in all languages.
  • the same effect as in the third embodiment can be obtained. Further, by excluding the language for which a valid speech recognition result has not been obtained from the selection target of the re-recognition language, the G2P conversion and Cross-Lingual in the re-recognition dictionary creation unit 5 are performed as compared with the third embodiment. It is possible to reduce erroneous conversion in language conversion by Mapping. In addition, the effect of reducing the processing load in the re-recognition dictionary creation unit 5 can also be obtained.
  • FIG. 7 is a flowchart showing the operation of the multilingual speech recognition device according to the fourth embodiment.
  • the flow of FIG. 7 is obtained by adding step S401 before step S104 to the flow of FIG. 2 described in the first embodiment.
  • the re-recognition language selection unit 9 is the language used for voice recognition in the first voice recognition unit 2_1, the second voice recognition unit 2_2, ..., The Nth voice recognition unit 2_N.
  • the language with the highest priority is selected as the re-recognition language from the languages for which effective speech recognition results have been obtained. Since the steps other than step S401 are the same as those in the first embodiment, the description thereof will be omitted here.
  • FIG. 7 shows an example in which step S401 is added before step S104 of the first embodiment (FIG. 2), but this embodiment can also be applied to the second embodiment.
  • the operation flow of the multilingual speech recognition device 10 in that case is that step S401 is added before step S204 in FIG.
  • ⁇ Hardware configuration example> 8 and 9 are diagrams showing an example of the hardware configuration of the multilingual speech recognition device 10, respectively.
  • Each function of the component of the multilingual speech recognition device 10 shown in FIG. 1 or FIG. 4 is realized by, for example, the processing circuit 50 shown in FIG. That is, the multilingual voice recognition device 10 stores the input voice spoken by the user, performs voice recognition on the input voice using a voice recognition dictionary and an acoustic model in different languages, and recognizes the input voice in different languages.
  • a re-recognition voice recognition dictionary which is a voice recognition dictionary of a pre-selected re-recognition language, is created, and a re-recognition voice recognition dictionary is created for the input voice.
  • the processing circuit 50 may be dedicated hardware, or may be a processor (Central Processing Unit (CPU), processing unit, arithmetic unit, microprocessor, microprocessor, etc.) that executes a program stored in the memory. It may be configured by using a DSP (also called a Digital Signal Processor).
  • DSP Digital Signal Processor
  • the processing circuit 50 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). GateArray), or a combination of these, etc.
  • Each function of each component of the multilingual speech recognition device 10 may be realized by an individual processing circuit, or these functions may be collectively realized by one processing circuit.
  • FIG. 9 shows an example of the hardware configuration of the multilingual speech recognition device 10 when the processing circuit 50 is configured by using the processor 51 that executes the program.
  • the functions of the components of the multilingual speech recognition device 10 are realized by software (software, firmware, or a combination of software and firmware).
  • the software or the like is described as a program and stored in the memory 52.
  • the processor 51 realizes the functions of each part by reading and executing the program stored in the memory 52. That is, the multilingual voice recognition device 10 uses a process of storing the input voice spoken by the user when executed by the processor 51, and a voice recognition dictionary and a sound model of different languages for the input voice.
  • a re-recognition voice recognition dictionary which is a voice recognition dictionary of a pre-selected re-recognition language, based on the process of recognition and the notation character string or phonetic character string as a result of voice recognition in different languages. And the process of re-recognizing the input voice using the re-recognition voice recognition dictionary and the re-recognition sound model, which is the sound model of the re-recognition language, will be executed as a result.
  • a memory 52 for storing a program is provided. In other words, it can be said that this program causes the computer to execute the procedure and method of operation of the components of the multilingual speech recognition device 10.
  • the memory 52 is, for example, non-volatile such as RAM (RandomAccessMemory), ROM (ReadOnlyMemory), flash memory, EPROM (ErasableProgrammableReadOnlyMemory), EPROM (ElectricallyErasableProgrammableReadOnlyMemory), or the like. Volatile semiconductor memory, HDD (HardDiskDrive), magnetic disk, flexible disk, optical disk, compact disk, mini disk, DVD (DigitalVersatileDisc) and its drive device, etc., or any storage medium used in the future. You may.
  • RAM RandomAccessMemory
  • ROM ReadOnlyMemory
  • flash memory EPROM (ErasableProgrammableReadOnlyMemory), EPROM (ElectricallyErasableProgrammableReadOnlyMemory), or the like.
  • Volatile semiconductor memory Volatile semiconductor memory, HDD (HardDiskDrive), magnetic disk, flexible disk, optical disk, compact disk, mini disk, DVD (DigitalVersatileDisc) and
  • the present invention is not limited to this, and a configuration in which a part of the components of the multilingual speech recognition device 10 is realized by dedicated hardware and another part of the components is realized by software or the like may be used.
  • the function is realized by the processing circuit 50 as dedicated hardware, and for some other components, the processing circuit 50 as the processor 51 is a program stored in the memory 52. It is possible to realize the function by reading and executing it.
  • the multilingual speech recognition device 10 can realize each of the above-mentioned functions by hardware, software, or a combination thereof.
  • the multilingual voice recognition device 10 according to the first to fourth embodiments can be widely applied to an electronic device having a voice recognition function, a server that provides a voice recognition function to a communication terminal device, and the like.
  • the multilingual voice recognition device 10 according to the first to fourth embodiments has a limited storage size such as a navigation device or a portable electronic device because the amount of data required for the acoustic model and the voice recognition dictionary is small. It is effective to apply to the equipment to be used.
  • Multilingual voice recognition device 1 Input voice storage unit, 2_1 1st voice recognition unit, 2_2, 2nd voice recognition unit, 2_N, Nth voice recognition unit, 3_1, 1st acoustic model, 3_2, 2nd acoustic model 3,_N Nth acoustic model, 4_1 1st speech recognition dictionary, 4_2 second speech recognition dictionary, 4_N Nth speech recognition dictionary, 5 re-recognition dictionary creation unit, 6 re-recognition speech recognition dictionary, 7 speech Re-recognition unit, 8 re-recognition acoustic model, 9 re-recognition language selection unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

多言語音声認識装置(10)において、入力音声記憶部(1)は、ユーザーが発話した入力音声を記憶する。複数の音声認識部(2_1,2_2,・・・,2_N)は、入力音声に対してそれぞれ異なる言語の音声認識辞書(3_1,3_2,・・・,3_N)および音響モデル(4_1,4_2,・・・,4_N)を用いて音声認識を行う。再認識用辞書作成部(5)は、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書(6)を作成する。音声再認識部(7)が、入力音声に対して再認識用音声認識辞書(6)および再認識用言語の音響モデルである再認識用音響モデル(8)を用いた音声再認識を行う。

Description

多言語音声認識装置および多言語音声認識方法
 本発明は、音声認識装置に関し、特に、多言語に対応した音声認識装置に関するものである。
 地図データベースに含まれる地名や施設名の文字表記および読みは、基本的に、当該地図データベースが使用される国や地域の主要言語で表される。このため、例えばナビゲーション装置など、地図データベースを備える装置が、音声認識装置を用いて地図データベースに含まれる地名や施設名の検索を行う場合、通常、音声認識装置は主要言語での音声認識を行えば十分である。しかし、地図データベースの大容量化が可能になった昨今では、公用語が複数ある国や、国境付近の地域などでの使用を想定して、複数の言語で表された地名や施設名の情報を含む多言語対応の地図データベースもある。多言語対応の地図データベースを備える装置が、音声認識装置を用いて地名や施設名の検索を行う場合、当該音声認識装置は複数の言語での音声認識(多言語音声認識)を行えることが望ましい。
 多言語音声認識の方法としては、(i)音声認識装置に、それぞれ対応言語の異なる複数の音響モデルおよび音声認識辞書を搭載させ、認識対象とする言語を選択的に切り替える方法、(ii)音声認識装置に、複数の言語に対応した多言語用の音響モデルおよび音声認識辞書を搭載させる方法がある。方法(i)では、同時に認識できる言語が1つに限られるため、例えばユーザーが発話する音声に複数の言語が混在したとき(例えば、検索コマンドの言語と地名の言語とが異なる場合など)には、音声認識が困難である。方法(ii)では、言語の切り替えは不要であり、同時に複数の言語を認識可能であるが、多言語用の音響モデルおよび音声認識辞書のデータ量は膨大であるため、カーナビゲーション装置などストレージサイズが限られる装置での実現が困難である。
 また、例えば下記の特許文献1には、認識対象の言語とは異なる言語の入力音声を、認識対象の言語の音素のうち、当該入力音声と同一または類似の音素の音声に置換し、置換後の入力音声に基づいて音声認識を行う技術が開示されている。
国際公開第2016/103358号
 上述のように、認識対象とする言語を選択的に切り替える方法には、同時に認識できる言語が1つに限られる。また、多言語用の音響モデルおよび音声認識辞書を用いる方法は、大容量のストレージが必要になる。
 本発明は以上のような課題を解決するためになされたものであり、音響モデルおよび音声認識辞書のデータ量を抑制しつつ、複数の言語を含む入力音声を認識可能な多言語音声認識装置を提供することを目的とする。
 本発明に係る多言語音声認識装置は、ユーザーが発話した入力音声を記憶する入力音声記憶部と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う複数の音声認識部と、複数の音声認識部それぞれの音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、を備える。
 本発明に係る多言語音声認識装置によれば、多言語用の音響モデルおよび音声認識辞書を用いる必要がないため、音声認識のための音響モデルおよび音声認識辞書のデータ量を抑制することができる。また、入力音声に対する各言語の音声認識結果に基づいて作成された再認識用音声認識辞書を用いて、入力音声の音声再認識を行うことで最終的な認識結果が得られるため、複数の言語の入力音声を認識することができる。
 本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
実施の形態1に係る多言語音声認識装置の構成を示す図である。 実施の形態1に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態2に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態3に係る多言語音声認識装置の構成を示す図である。 言語の優先順位の例を示す図である。 実施の形態3に係る多言語音声認識装置の動作を示すフローチャートである。 実施の形態4に係る多言語音声認識装置の動作を示すフローチャートである。 多言語音声認識装置のハードウェア構成例を示す図である。 多言語音声認識装置のハードウェア構成例を示す図である。
 <実施の形態1>
 図1は、本発明の実施の形態1に係る多言語音声認識装置10の構成を示す図である。図1のように、多言語音声認識装置10は、入力音声記憶部1と、複数(N個)の音声認識部2(第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_N)と、複数の音響モデル3(第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_N)と、複数の音声認識辞書4(第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_N)と、再認識用辞書作成部5と、再認識用音声認識辞書6と、音声再認識部7と、再認識用音響モデル8とを備えている。
 入力音声記憶部1は、ユーザーが発話した入力音声を取得して記憶する。第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声記憶部1に記憶された入力音声に対して、それぞれ異なる言語での音声認識を行う。ここで、第iの音声認識部が認識対象とする言語を「第iの言語」と定義する。つまり、第1の音声認識部2_1は第1の言語を認識対象とし、第2の音声認識部2_2は第2の言語を認識対象とし、第Nの音声認識部2_Nは第Nの言語を認識対象とする。言い換えれば、第1の音声認識部2_1は、入力音声を第1の言語の音声とみなして音声認識を行い、第2の音声認識部2_2は、入力音声を第2の言語の音声とみなして音声認識を行い、第Nの音声認識部2_Nは、入力音声を第Nの言語の音声とみなして音声認識を行う。
 第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nは、各言語の発声の単位である音素の特徴が記述されたデータベースであり、それぞれ第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nによる音声認識の処理で用いられる。すなわち、第1の音響モデル3_1は、第1の言語の音響モデルであり、第2の音響モデル3_2は、第2の言語の音響モデルであり、第Nの音響モデル3_Nは、第Nの言語の音響モデルである。
 第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_Nは、各言語の単語と音素系列(読み)とを結びつけるための発音辞書であり、それぞれ第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nによる音声認識の処理で用いられる。すなわち、第1の音声認識辞書4_1は、第1の言語の音声認識辞書であり、第2の音声認識辞書4_2は、第2の言語の音声認識辞書であり、第Nの音声認識辞書4_Nは、第Nの言語の音声認識辞書である。
 第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声を構成する音素の特徴と、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nに記述された音素の特徴とを比較することで、入力音声に対応する音素系列のモデルを作成し、さらに、第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_Nを用いて、その音素系列のモデルに対応する単語を特定する。
 実施の形態1においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声の表記文字列を出力する。つまり、第1の音声認識部2_1は、入力音声を第1の言語の音声とみなしたときの表記文字列を出力し、第2の音声認識部2_2は、入力音声を第2の言語の音声とみなしたときの表記文字列を出力し、第Nの音声認識部2_Nは、入力音声を第Nの言語の音声とみなしたときの表記文字列を出力する。
 再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する入力音声の認識結果に基づいて、予めユーザーが選択した再認識用言語の音声認識辞書である再認識用音声認識辞書6を作成する。再認識用言語は、第1から第Nの言語のうちから選択され、ユーザーが主に用いる言語、あるいはその言語に音韻体系が近い言語であることが好ましい。
 実施の形態1では、再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する入力音声の表記文字列を、再認識用言語のG2P(Grapheme to Phoneme)などを用いて、その表記文字列の読みの音素系列を表す文字列である音素文字列に変換し、変換後の音素文字列と変換前の表記文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書6を生成する。
 音声再認識部7は、入力音声記憶部1に記憶された入力音声に対して、再認識用言語の音響モデルである再認識用音響モデル8と、再認識用辞書作成部5が作成した再認識用音声認識辞書6とを用いて、再度の音声認識を行う。以下、音声再認識部7によって行われる音声認識を「音声再認識」という。なお、再認識用音響モデル8は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちのいずれかと同じものでよい。つまり、多言語音声認識装置10は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nとは別に、再認識用音響モデル8を有する必要はない。
 次に、実施の形態1に係る多言語音声認識装置10の動作を説明する。図2は、その動作を示すフローチャートである。図2のフローは、多言語音声認識装置10に音声が入力されたときに実行される。
 ユーザーが発話した音声が多言語音声認識装置10に入力されると、その入力音声は、入力音声記憶部1に記憶される(ステップS101)。
 続いて、多言語音声認識装置10は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS102,S103を繰り返す。ステップS102では、第iの音声認識部2_iが、第iの音響モデル3_iおよび第iの音声認識辞書4_iを用いて、入力音声記憶部1に記憶されている入力音声に対する第iの言語での音声認識を実行する。ステップS103では、第iの音声認識部2_iによる音声認識の結果である表記文字列を再認識用辞書作成部5に入力する。以下、第iの音声認識部2_iによる音声認識の結果である表記文字列を、「第iの表記文字列」という。
 なお、再認識用辞書作成部5に入力される情報は、第iの表記文字列の文字データそのものである必要はなく、例えば、第iの音声認識辞書4_iにおける第iの表記文字列の識別子(ID)など、第iの表記文字列を一意に特定可能な情報であればよい。
 ステップS102,S103がN回繰り返され、第1から第Nの表記文字列が再認識用辞書作成部5に入力されると、再認識用辞書作成部5は、再認識用音声認識辞書6をクリアする(ステップS104)。つまり、再認識用辞書作成部5は、再認識用音声認識辞書6を語彙が未登録の状態にする。
 その後、再認識用辞書作成部5は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS105,S106を繰り返す。ステップS105では、再認識用辞書作成部5が、予めユーザーが設定した再認識用言語のG2P変換により、第iの表記文字列を、音素文字列へ変換する。以下、第iの表記文字列をG2P変換して得られた音素文字列を「第iの音素文字列」という。ステップS106では、再認識用辞書作成部5が、第iの音素文字列を、再認識用音声認識辞書6の語彙として登録する。すなわち、再認識用辞書作成部5は、第iの音素文字列を、第iの表記文字列の読みとして再認識用音声認識辞書6に登録する。
 ステップS105,S106がN回繰り返され、第1から第Nの音素文字列が再認識用音声認識辞書6に登録されると、音声再認識部7が、再認識用音響モデル8および再認識用音声認識辞書6を用いて、入力音声記憶部1に記憶されている入力音声に対する再認識用言語による音声再認識を実行する(ステップS107)。そして、音声再認識部7は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置10から出力する(ステップS108)。
 なお、図2においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第1から第Nの表記文字列のG2P変換も、並列して行われてもよい。また、再認識用音声認識辞書6のクリア(ステップS104)を最初(例えばステップS101の次など)に行い、1回のループ処理内でステップS102,S103,S105,S106が連続して行われるようにしてもよい。
 また、以上の説明では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの全てから入力音声の音声認識が出力されるものしたが、それらのうち、有効な認識結果を得ることができなかったものからは、音声認識の結果は出力されないため、再認識用音声認識辞書6に登録される語彙数はN個よりも少ない場合もある。
 異なる言語で同じ発音となる単語も存在するが、基本的に、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、入力音声の言語(ユーザが発話した言語)を認識対象とするものからは、入力音声の正しい読み(ユーザーが意図した読み)に相当する表記文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる表記文字列が出力される。また、再認識用辞書作成部5が再認識用音声認識辞書6に登録する語彙は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力した表記文字列をG2P変換した音素文字列であるため、音声再認識部7による音声再認識の結果は、再認識用音声認識辞書6に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態1に係る多言語音声認識装置10は、複数の言語による入力音声を認識することが可能である。
 また、実施の形態1に係る多言語音声認識装置10では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられている。N個の言語に対応する多言語用の音響モデルおよび音声認識辞書は、N個の言語の入力に対して、N個の言語の音響モデルおよび音声認識辞書を備える必要があるため、N×N個の言語の組み合わせ分のデータ量となる。これに対し、実施の形態1に係る多言語音声認識装置10が行う音声認識は、N個の言語の音響モデルおよび音声認識辞書があれば実施可能であるため、多言語用の音響モデルおよび音声認識辞書に比べ、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。
 本実施の形態では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの全てが入力音声の音声認識を行うものとしたが、それらのうちの一部のみが入力音声の音声認識を行ってもよい。例えば、ユーザーが発話する可能性のある1つ以上の言語を多言語音声認識装置10に登録し、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、登録された言語を認識対象とするものだけが入力音声の音声認識を行ってもよい。その場合、多言語音声認識装置10が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、ユーザーが発話する可能性のある言語を判断してもよい。
 また、本実施の形態では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが音声認識結果(表記文字列)を1つずつ出力するものとしたが、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音声認識結果は複数でもよい。例えば、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが、信頼度が高いものから一定個数の音声認識結果を出力してもよい。この場合、再認識用音声認識辞書6に登録される語彙数はN個よりも多くなることもある。
 これらの変形例は、以下の実施の形態2~4でも同様に言える。
 <実施の形態2>
 実施の形態2に係る多言語音声認識装置10の構成は、実施の形態1(図1)と同様である。実施の形態1では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、入力音声の音声認識の結果として、入力音声の表記文字列を出力した。それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声に対応する音素文字列を出力する。
 また、再認識用辞書作成部5は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音素文字列を、Cross-Lingual Mappingなどを用いて、再認識用言語の音素文字列に変換し、変換後の音素文字列と変換前の音素文字列とを結びつける、再認識用言語の音声認識辞書である再認識用音声認識辞書6を生成する。なお、再認識用辞書作成部5が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力する音素文字列を再認識用言語の音素文字列に変換する理由は、言語ごとに使用されない音素または音素系列が存在するため、互いに異なる言語の音素文字列を1つの再認識用音声認識辞書6に登録することは困難だからである。
 次に、実施の形態2に係る多言語音声認識装置10の動作を説明する。図3は、その動作を示すフローチャートである。図3のフローは、多言語音声認識装置10に音声が入力されたときに実行される。
 ユーザーが発話した音声が多言語音声認識装置10に入力されると、その入力音声は、入力音声記憶部1に記憶される(ステップS201)。
 その後、多言語音声認識装置10は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS202,S203を繰り返す。ステップS202では、入力音声記憶部1に記憶されている入力音声に対し、第iの音声認識部2_iが、第iの音響モデル3_iおよび第iの音声認識辞書4_iを用いて、第iの言語での音声認識を実行する。ステップS203では、第iの音声認識部2_iによる音声認識の結果である音素文字列を再認識用辞書作成部5に入力する。以下、第iの音声認識部2_iによる音声認識の結果である音素文字列を、「第iの認識音素文字列」という。
 なお、再認識用辞書作成部5に入力される情報は、第iの認識音素文字列の文字データそのものである必要はなく、例えば、第iの音声認識辞書4_iにおける第iの認識音素文字列の識別子(ID)など、第iの認識音素文字列を一意に特定可能な情報であればよい。
 ステップS202,S203がN回繰り返され、第1から第Nの認識音素文字列が再認識用辞書作成部5に入力されると、再認識用辞書作成部5は、再認識用音声認識辞書6をクリアする(ステップS204)。
 そして、再認識用辞書作成部5は、変数i=1に設定し、iをNまで1ずつインクリメントさせながら、次のステップS205,S206を繰り返す。ステップS205では、再認識用辞書作成部5が、Cross lingual mappingにより、第iの認識音素文字列を再認識用言語の音素文字列へ変換する。以下、第iの認識音素文字列を再認識用言語へ変換して得られた音素文字列を「第iの変換音素文字列」という。ステップS206では、再認識用辞書作成部5が、第iの変換音素文字列を、再認識用音声認識辞書6の語彙として登録する。すなわち、再認識用辞書作成部5は、第iの変換音素文字列を、第iの認識音素文字列の読みとして再認識用音声認識辞書6に登録する。
 ステップS205,S206がN回繰り返され、第1から第Nの変換音素文字列が再認識用音声認識辞書6に登録されると、音声再認識部7が、入力音声記憶部1に記憶されている入力音声に対し、再認識用音響モデル8および再認識用音声認識辞書6を用いて、再認識用言語による音声再認識を実行する(ステップS207)。そして、音声再認識部7は、音声再認識の結果を、入力音声の最終的な認識結果として、多言語音声認識装置10から出力する(ステップS208)。
 なお、図3においては、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、順番に入力音声の音声認識を行うものとしたが、それらの音声認識は並列して行われてもよい。同様に、第1から第Nの表記文字列のG2P変換も、並列して行われてもよい。また、再認識用音声認識辞書6のクリア(ステップS204)を最初(例えばステップS201の次など)に行い、1回のループ処理内でステップS202,S203,S205,S206が連続して行われるようにしてもよい。
 基本的に、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうち、入力音声の言語(ユーザが発話した言語)を認識対象とするものからは、入力音声の正しい読み(ユーザーが意図した読み)に相当する音素文字列が出力され、それ以外のものからは、入力音声の正しい読みとは異なる音素文字列が出力される。また、再認識用辞書作成部5が再認識用音声認識辞書6に登録する語彙は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが出力した音素文字列を再認識用言語に変換した音素文字列であるため、音声再認識部7による音声再認識の結果は、再認識用音声認識辞書6に登録された語彙のうち、入力音声の正しい読みに相当する単語、すなわち、入力音声を当該入力音声の言語で音声認識した結果となる。従って、実施の形態2に係る多言語音声認識装置10は、複数の言語による入力音声を認識することが可能である。
 また、実施の形態2に係る多言語音声認識装置10による音声認識では、多言語用の音響モデルおよび音声認識辞書ではなく、個々の言語の音響モデルおよび音声認識辞書が用いられているため、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済む。
 実施の形態1のように第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの出力を表記文字列とした場合、その表記文字列に複数の読みが存在すると、当該表記文字列を再認識用音声認識辞書6に登録する音素文字列に変換する際に誤変換が生じるおそれがある。例えば英語の表記文字列「St.」には、「Saint」と「Street」に相当する複数の読みが存在し、同様に表記文字列「Dr.」には「Doctor」と「Drive」に相当する複数の読みが存在する。
 それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nの出力は音素文字列であり、当該音素文字列が再認識用言語の音素文字列に変換されて再認識用音声認識辞書6に登録されるため、上記のような誤変換が生じることを防止できる。
 また、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、それぞれの言語での音声認識結果として表記文字列を生成し、その表記文字列に音声認識の言語でのG2P変換を行うことで、出力する音素文字列を生成してもよい。この場合、上記の誤変換の防止効果は得られないが、表記文字列の言語に合ったG2P変換が行われることで、その言語での読みにより近い音素文字列を得ることができる効果が得られる。
 <実施の形態3>
 図4は、実施の形態3に係る多言語音声認識装置10の構成を示す図である。図4の多言語音声認識装置10の構成は、図1の構成に対し、再認識用音響モデル8を再認識用言語選択部9に置き換えたものである。
 再認識用言語選択部9は、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。
 言語の優先順位は、ユーザーが設定したものでもよいし、再認識用言語選択部9が自動的に設定してもよい。例えば、ユーザーが優先順位第1位とする言語を指定し、第2位以下の言語は、第1位の言語に音韻体系が近い言語ほど高い優先順位となるように、再認識用言語選択部9が自動的に設定してもよい。また、再認識用言語選択部9が、ユーザーの現在位置やユーザーの国籍などの情報に基づいて、全ての言語の優先順位を設定してもよい。
 ここで、言語の優先順位が図5のように設定されていると仮定する。このとき、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが音声認識に用いた言語に、英語、ドイツ語、フランス語、イタリア語、スペイン語の全てが含まれていた場合、再認識用言語選択部9は、そのうち優先順位の最も高い英語を、再認識用言語として選択する。また、例えば、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのうちの一部だけで音声認識が行われ、その音声認識に用いられた言語に、ドイツ語、フランス語、イタリア語、スペイン語が含まれているが英語が含まれていない場合、再認識用言語選択部9は、音声認識に用いられた言語のうち優先順位の最も高いドイツ語を、再認識用言語として選択する。
 実施の形態3によれば、再認識用言語を選択する必要がなくなり、多言語音声認識装置10の利便性が向上する。特に、ユーザーの現在位置に応じて音声認識の対象となる言語が自動的に選択される場合には、音声認識の対象となる言語に応じて再認識用言語を自動的に切り替えることができ、効果的である。
 また、再認識用言語が適切に選択されることで、再認識用辞書作成部5におけるG2P変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。再認識用辞書作成部5における処理負担を減らす効果も得られる。
 図6は、実施の形態3に係る多言語音声認識装置の動作を示すフローチャートである。図6のフローは、実施の形態1で説明した図2のフローに対し、ステップS104の前にステップS301を追加したものである。ステップS301では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nにおいて音声認識に用いられた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップS301以外のステップは、実施の形態1と同様であるため、ここでの説明は省略する。
 なお、図6では、実施の形態1(図2)のステップS104の前にステップS301を追加した例を示したが、本実施の形態は、実施の形態2に対しても適用可能である。その場合の多言語音声認識装置10の動作フローは、図3のステップS204の前にステップS301を追加したものとなる。
 <実施の形態4>
 実施の形態4に係る多言語音声認識装置10の構成は、実施の形態3(図4)と同様である。ただし、実施の形態4では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語で、且つ、有効な音声認識結果が得られた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。つまり、実施の形態4の多言語音声認識装置10は、再認識用言語選択部9が、有効な音声認識結果が得られなかった言語を、再認識用言語の選択対象から除外する点で、実施の形態3とは異なる。
 各言語の音声認識結果が有効か否かの判断方法としては次のような方法が考えられる。例えば、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nのそれぞれが音声認識結果を出力したか否かを確認し、音声認識結果を出力しなかったものに対応する言語を、有効な音声認識結果が得られなかった言語と判断してもよい。また例えば、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nそれぞれの音声認識結果の信頼度を確認し、音声認識結果の信頼度が予め定められた閾値よりも低い言語を、有効な音声認識結果が得られなかった言語と判断してもよい。上記の閾値は、一定の値でもよいし、例えば全言語の音声認識結果の信頼度の平均値など、変化する値でもよい。
 実施の形態4では、実施の形態3と同様の効果が得られる。さらに、有効な音声認識結果が得られなかった言語が、再認識用言語の選択対象から除外されることで、実施の形態3よりも、再認識用辞書作成部5におけるG2P変換やCross-Lingual Mappingによる言語変換における誤変換を減らすことができる。また、再認識用辞書作成部5における処理負担を減らす効果も得られる。
 図7は、実施の形態4に係る多言語音声認識装置の動作を示すフローチャートである。図7のフローは、実施の形態1で説明した図2のフローに対し、ステップS104の前にステップS401を追加したものである。ステップS401では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nにおいて音声認識に用いられた言語であり、且つ、有効な音声認識結果が得られた言語のうちから、優先順位が最も高い言語を再認識用言語として選択する。ステップS401以外のステップは、実施の形態1と同様であるため、ここでの説明は省略する。
 なお、図7では、実施の形態1(図2)のステップS104の前にステップS401を追加した例を示したが、本実施の形態は、実施の形態2に対しても適用可能である。その場合の多言語音声認識装置10の動作フローは、図3のステップS204の前にステップS401を追加したものとなる。
 <ハードウェア構成例>
 図8および図9は、それぞれ多言語音声認識装置10のハードウェア構成の例を示す図である。図1または図4に示した多言語音声認識装置10の構成要素の各機能は、例えば図8に示す処理回路50により実現される。すなわち、多言語音声認識装置10は、ユーザーが発話した入力音声を記憶し、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
 処理回路50が専用のハードウェアである場合、処理回路50は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものなどが該当する。多言語音声認識装置10の構成要素の各々の機能が個別の処理回路で実現されてもよいし、それらの機能がまとめて一つの処理回路で実現されてもよい。
 図9は、処理回路50がプログラムを実行するプロセッサ51を用いて構成されている場合における多言語音声認識装置10のハードウェア構成の例を示している。この場合、多言語音声認識装置10の構成要素の機能は、ソフトウェア等(ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせ)により実現される。ソフトウェア等はプログラムとして記述され、メモリ52に格納される。プロセッサ51は、メモリ52に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、多言語音声認識装置10は、プロセッサ51により実行されるときに、ユーザーが発話した入力音声を記憶する処理と、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う処理と、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する処理と、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う処理と、が結果的に実行されることになるプログラムを格納するためのメモリ52を備える。換言すれば、このプログラムは、多言語音声認識装置10の構成要素の動作の手順や方法をコンピュータに実行させるものであるともいえる。
 ここで、メモリ52は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの、不揮発性または揮発性の半導体メモリ、HDD(Hard Disk Drive)、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。
 以上、多言語音声認識装置10の構成要素の機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、多言語音声認識装置10の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現する構成であってもよい。例えば、一部の構成要素については専用のハードウェアとしての処理回路50でその機能を実現し、他の一部の構成要素についてはプロセッサ51としての処理回路50がメモリ52に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
 以上のように、多言語音声認識装置10は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。
 実施の形態1~4に係る多言語音声認識装置10は、音声認識機能を有する電子機器や、通信端末装置に音声認識機能を提供するサーバ等に広く適用可能である。特に、実施の形態1~4に係る多言語音声認識装置10は、音響モデルおよび音声認識辞書に必要なデータ量は小さくて済むことから、ナビゲーション装置や携帯型の電子機器など、ストレージサイズが限られる装置への適用が有効である。
 なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
 本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
 10 多言語音声認識装置、1 入力音声記憶部、2_1 第1の音声認識部、2_2 第2の音声認識部、2_N 第Nの音声認識部、3_1 第1の音響モデル、3_2 第2の音響モデル、3_N 第Nの音響モデル、4_1 第1の音声認識辞書、4_2 第2の音声認識辞書、4_N 第Nの音声認識辞書、5 再認識用辞書作成部、6 再認識用音声認識辞書、7 音声再認識部、8 再認識用音響モデル、9 再認識用言語選択部。

Claims (7)

  1.  ユーザーが発話した入力音声を記憶する入力音声記憶部と、
     前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う複数の音声認識部と、
     複数の前記音声認識部それぞれの音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
     前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
    を備える多言語音声認識装置。
  2.  複数の前記音声認識部のそれぞれは、前記音声認識の結果として前記表記文字列を出力し、
     前記再認識用辞書作成部は、前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、前記再認識用音声認識辞書に登録する、
    請求項1に記載の多言語音声認識装置。
  3.  複数の前記音声認識部のそれぞれは、前記音声認識の結果として前記音素文字列を出力し、
     前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音素文字列を前記再認識用言語に変換した音素文字列を、前記再認識用音声認識辞書に登録する、
    請求項1に記載の多言語音声認識装置。
  4.  前記再認識用言語は、複数の前記音声認識部の認識対象である複数の言語のうちから前記ユーザーが選択した言語である
    請求項1に記載の多言語音声認識装置。
  5.  複数の前記音声認識部の認識対象である複数の言語のそれぞれには、優先順位が設定されており、
     複数の前記音声認識部が前記入力音声の音声認識に用いた言語のうちから、前記優先順位の最も高い言語を、前記再認識用言語として選択する再認識用言語選択部をさらに備える、
    請求項1に記載の多言語音声認識装置。
  6.  前記再認識用言語選択部は、複数の前記音声認識部において有効な音声認識結果が得られなかった言語を、前記再認識用言語の選択対象から除外する、
    請求項5に記載の多言語音声認識装置。
  7.  多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
     前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、
     前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
     前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、
    多言語音声認識方法。
PCT/JP2019/030281 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法 WO2021019775A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021536583A JP7038919B2 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法
PCT/JP2019/030281 WO2021019775A1 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/030281 WO2021019775A1 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法

Publications (1)

Publication Number Publication Date
WO2021019775A1 true WO2021019775A1 (ja) 2021-02-04

Family

ID=74230642

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/030281 WO2021019775A1 (ja) 2019-08-01 2019-08-01 多言語音声認識装置および多言語音声認識方法

Country Status (2)

Country Link
JP (1) JP7038919B2 (ja)
WO (1) WO2021019775A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
WO2014136222A1 (ja) * 2013-03-06 2014-09-12 三菱電機株式会社 音声認識装置および音声認識方法
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154341A (ja) 2009-12-28 2011-08-11 Fujitsu Ltd 音声認識装置、音声認識方法および音声認識プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
WO2014136222A1 (ja) * 2013-03-06 2014-09-12 三菱電機株式会社 音声認識装置および音声認識方法
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法

Also Published As

Publication number Publication date
JP7038919B2 (ja) 2022-03-18
JPWO2021019775A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
US7957969B2 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7949524B2 (en) Speech recognition correction with standby-word dictionary
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
KR102094935B1 (ko) 음성 인식 시스템 및 방법
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
JP5274191B2 (ja) 音声認識装置
US20170270923A1 (en) Voice processing device and voice processing method
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
US20150066472A1 (en) Method and apparatus for generating multiple phoneme strings for foreign noun
JP2006012179A (ja) 自然言語処理装置および自然言語処理方法
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP7038919B2 (ja) 多言語音声認識装置および多言語音声認識方法
Yu et al. Cross-lingual speech recognition under runtime resource constraints
US11361752B2 (en) Voice recognition dictionary data construction apparatus and voice recognition apparatus
US20140372118A1 (en) Method and apparatus for exemplary chip architecture
JP6277659B2 (ja) 音声認識装置および音声認識方法
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
WO2020240647A1 (ja) 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19939083

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021536583

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19939083

Country of ref document: EP

Kind code of ref document: A1