WO2020225999A1 - 認識誤り訂正装置及び訂正モデル - Google Patents

認識誤り訂正装置及び訂正モデル Download PDF

Info

Publication number
WO2020225999A1
WO2020225999A1 PCT/JP2020/014584 JP2020014584W WO2020225999A1 WO 2020225999 A1 WO2020225999 A1 WO 2020225999A1 JP 2020014584 W JP2020014584 W JP 2020014584W WO 2020225999 A1 WO2020225999 A1 WO 2020225999A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
word
error
sentence
correction
Prior art date
Application number
PCT/JP2020/014584
Other languages
English (en)
French (fr)
Inventor
大志 池田
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2021518316A priority Critical patent/JP7222082B2/ja
Priority to US17/608,785 priority patent/US20220318571A1/en
Publication of WO2020225999A1 publication Critical patent/WO2020225999A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • One aspect of the present disclosure relates to a recognition error correction device and a correction model for correcting a recognition error of a recognition result of voice recognition or character recognition.
  • Patent Document 1 discloses an error detection method that automatically detects a recognition error in a voice recognition result and supports efficient manual correction.
  • the corrected part of the voice recognition result is clearly indicated, and the corrector is urged to call for correction.
  • the corrector who is prompted to call for correction manually corrects the corrected part.
  • the corrector is not shown what kind of processing should be performed to correct the corrected part.
  • one aspect of the present disclosure is made in view of such a problem, and it is possible to construct an environment in which a process for correcting a recognition error of a recognition result of voice recognition or character recognition is shown. It is an object of the present invention to provide a correction device and a correction model.
  • the recognition error correction device shows a sentence of the recognition result of voice recognition or character recognition and a process for correcting a recognition error for each word constituting the sentence.
  • Correct the recognition error of the recognition result by performing machine learning using the acquisition unit that acquires the pair data corresponding to the label string composed of the processing label that is the label and the pair data acquired by the acquisition unit. It includes a generation unit that generates a correction model, which is a trained model for the purpose.
  • a sentence of a recognition result of voice recognition or character recognition and a label string composed of a processing label indicating a process for correcting a recognition error for each word constituting the sentence are formed.
  • a detection model is generated by performing machine learning using the paired data. For example, if the recognition result of voice recognition or character recognition is applied to the generated detection model, a processing label indicating a process for correcting the recognition error of the recognition result is output. That is, the recognition error correction device can construct an environment in which a process for correcting a recognition error of the recognition result of voice recognition or character recognition is shown.
  • the recognition error correction device 1 is a computer device that corrects a recognition error as a recognition result of voice recognition or character recognition.
  • Speech recognition is the process of recognizing a voice such as a human voice with a computer and converting it into a corresponding sentence (character string, text). Character recognition is to recognize characters such as printed characters and handwritten characters by a computer and convert them into corresponding sentences (character strings, texts) and the like.
  • the recognition result is, for example, the above-mentioned converted sentence.
  • the recognition result may include a recognition error due to a computer recognition error.
  • a sentence is a unit of linguistic expression that is formally complete and governed by a single statement. The sentence may be read as one consisting of one or more sentences (for example, paragraph, sentence, etc.).
  • FIG. 1 is a functional block diagram of the recognition error correction device 1.
  • the recognition error correction device 1 includes a corpus storage unit 10, a correction model storage unit 11, a restoration model storage unit 12, a pair data creation unit 20 (creation unit), and a pair data acquisition unit 21 (acquisition unit). It is composed of a correction model generation unit 22 (generation unit), a pseudo error word creation unit 23, a restoration model generation unit 24, an error detection unit 25 (detection unit), and an error correction unit 26 (correction unit).
  • Each functional block of the recognition error correction device 1 is assumed to function in the recognition error correction device 1, but is not limited to this.
  • a part of the functional block of the recognition error correction device 1 is a computer device different from the recognition error correction device 1, and in the computer device connected to the recognition error correction device 1 via a network, the recognition error correction device 1 and the recognition error correction device 1 It may function while transmitting and receiving information as appropriate.
  • some functional blocks of the recognition error correction device 1 may be omitted, a plurality of functional blocks may be integrated into one functional block, or one functional block may be decomposed into a plurality of functional blocks. May be good.
  • the corpus storage unit 10 stores the corpus (in advance).
  • a corpus is a part or all of a large-scale collection of data (database) that structures natural language sentences.
  • the corpus (corpus with correction of recognition error) in the present embodiment is composed of corpus data which is data in which a sentence of a recognition result of voice recognition or character recognition and correct answer data of the recognition result are associated with each other.
  • the correct answer data is the data that is the correct answer.
  • the correct answer data in this embodiment is created in advance by a person (or a computer device that performs high-precision recognition) with reference to the voice or character that is the basis of the recognition result of voice recognition or character recognition, or the recognition result. , The voice or the text of the character (transcription).
  • Corpus data is teacher data in the field of machine learning.
  • corpus data there is corpus data in which the recognition result sentence “Login to security grandfather” ("Grandfather and" is the part of the recognition error) and the correct answer data “Login to security software” correspond. Be done.
  • the pair data creation unit 20 creates pair data based on the comparison between the sentence of the recognition result of voice recognition or character recognition and the correct answer data of the recognition result.
  • the pair data corresponds to a sentence of the recognition result of voice recognition or character recognition and a label string composed of a processing label which is a label indicating a process for correcting a recognition error for each word constituting the sentence. It is data.
  • the pair data creation unit 20 may create pair data when instructed by the user (administrator) of the recognition error correction device 1, or may periodically create pair data.
  • the pair data creation unit 20 may output the created pair data to the pair data acquisition unit 21, or may store the created pair data in the recognition error correction device 1 so that the pair data can be referred to in another process.
  • the pair data creation unit 20 acquires the corpus stored by the corpus storage unit 10, and the sentence of the recognition result of voice recognition or character recognition included in the corpus data constituting the acquired corpus and the recognition result.
  • the correct answer data of is extracted, the extracted recognition result sentence and the correct answer data are morphologically analyzed and decomposed into word strings, and the word string of the decomposed recognition result sentence and the decomposed correct answer data word string Is compared word by word (from the first word to the last word), and each word (or some words) in the recognition result sentence is given a processing label according to the comparison result, and the decomposed recognition result is Create pair data in which the word string of the sentence (substantially the same as the sentence of the recognition result) and the label string composed of the assigned processing labels are associated with each other.
  • one word in the word string of the recognition result sentence may correspond to the processing label given to the one word included in the label string.
  • FIG. 2 is a diagram showing an example of pair data creation by the pair data creation unit 20.
  • the pair data creation unit 20 reads the sentence "login to the security grandfather" of the recognition result of voice recognition or character recognition and the correct answer data "login to the security software" of the recognition result word by word. Compare.
  • the pair data creation unit 20 compares the first word “security” of the recognition result sentence with the first word “security” of the correct answer data, and since they match, the word “security” of the recognition result sentence. Is given a “no operation” label as a processing label, indicating that no processing is required to correct a recognition error for the word "security”.
  • the pair data creation unit 20 compares the word "grandfather” next to the sentence of the recognition result with the word "soft” next to the correct answer data, and does not match (mismatch), so that the sentence of the recognition result
  • the word "grandfather” is given a "replacement” label indicating that replacement processing is required to correct a recognition error for the word "grandfather”.
  • the pair data creation unit 20 puts the word "to” in the recognition result sentence into the word "to” in the recognition result sentence because there is no corresponding word in the correct answer data (due to inconsistency) for the next word "to” in the recognition result sentence.
  • a "deletion” label indicating that a deletion process is required to correct a recognition error for the word "to” is given.
  • the pair data creation unit 20 compares and matches the word "ni" next to the sentence of the recognition result with the word "ni” next to the correct answer data, so that the word "ni" of the sentence of the recognition result matches. Is given a "no operation” label as a processing label, indicating that no processing is required to correct the recognition error for the word "ni”.
  • the pair data creation unit 20 compares and matches the next word "login” in the recognition result sentence with the next word "login” in the correct answer data, so that the word “login” in the recognition result sentence is matched. Is given a "no operation” label as a processing label, indicating that no processing is required to correct a recognition error for the word "login”.
  • the pair data creation unit 20 includes a recognition result sentence (word string) "Login with security grandfather” and a label string “[No operation, replace, delete, no operation” composed of the assigned processing labels. , No operation] ”and create pair data.
  • the label column has a format that includes association with words, such as “[security, no operation], [grandfather, replace], [and, delete], [ni, no operation], [login, no operation]. ] ” May be used.
  • the pair data acquisition unit 21 acquires the pair data.
  • the pair data acquisition unit 21 may acquire the pair data created (input) by the pair data creation unit 20.
  • the pair data acquisition unit 21 may acquire pair data from another computer device via a network, may acquire pair data stored in the recognition error correction device 1, or may acquire the pair data stored in the recognition error correction device 1.
  • the pair data input by one user may be acquired.
  • the pair data acquisition unit 21 outputs the acquired pair data to the correction model generation unit 22.
  • the correction model generation unit 22 is a trained model for correcting a recognition error of the recognition result by performing machine learning using the pair data (learning data) acquired (input) by the pair data acquisition unit 21. Generate a correction model.
  • the process of obtaining a trained model by machine learning using pair data is a process according to the prior art.
  • the correction model generation unit 22 stores the generated correction model by the correction model storage unit 11.
  • the trained model is a combination of computer programs and parameters.
  • the trained model is a combination of the structure of the neural network and a parameter (weighting coefficient) which is the strength of the connection between each neuron of the neural network.
  • the trained model is a command to a computer, which is combined so as to obtain one result (perform a predetermined process), that is, a computer program for operating the computer.
  • the correction model is a trained model for operating a computer to output a processing label, which is a label indicating processing for correcting a recognition error of the recognition result based on the recognition result of voice recognition or character recognition. Therefore, the weighting coefficient is learned using paired data in which the sentence of the recognition result and the label string composed of the processing labels indicating the processing for correcting the recognition error for each word constituting the sentence are associated with each other. It is a trained model composed of a neural network.
  • the correction model generation unit 22 may perform machine learning using a sequence labeling method when generating a correction model.
  • Series labeling is to predict the appropriate label string for each element of the input data string (word string).
  • Series labeling aims to label each piece of data that makes up the input data string.
  • FIG. 3 is a diagram showing an example of application to the correction model.
  • a correction model composed of bidirectional LSTM Bidirectional long short-term memory
  • the processing label “no operation” is output for the word “security” that composes the recognition result sentence
  • the processing label “replace” is output for the word “grandfather”
  • the processing label “to” is output.
  • the processing label “delete” is output
  • the processing label “no operation” is output for the word “ni”
  • the processing label “no operation” is output for the word “login”.
  • output means the output of the processing label candidate having the highest likelihood among the one or more processing label candidates calculated by the bidirectional LSTM for each word.
  • the recognition error correction device 1 can determine that "grandfather" and "to" among the words constituting the sentence of the recognition result are recognition errors. That is, the recognition error correction device 1 can determine that a word to which a processing label indicating a processing (replacement, deletion, etc.) for substantial correction is given or output is a recognition error.
  • the processing label is also a label specialized for error detection or error correction.
  • the correction model storage unit 11 stores the correction model generated by the correction model generation unit 22.
  • the pair data creation unit 20 creates pair data (step S1).
  • the pair data acquisition unit 21 acquires the pair data created in S1 (step S2).
  • the correction model generation unit 22 generates a correction model by performing machine learning using the pair data acquired in S2, and the generated correction model is stored in the correction model storage unit 11 (step). S3).
  • the pseudo-error word creation unit 23 creates a pseudo-error word which is a word to which an error is added to the input word which is an input predetermined word.
  • the input word may be one extracted from a word set previously stored in the recognition error correction device 1, or may be input (designated) by the user of the recognition error correction device 1.
  • the pseudo error word creation unit 23 may create a pseudo error word when instructed by the user of the recognition error correction device 1, or may periodically create a pseudo error word.
  • the pseudo-error word creation unit 23 outputs a set of the input word and the created pseudo-error word to the restoration model generation unit 24.
  • FIG. 5 is a diagram showing an example of creating a pseudo error word by the pseudo error word creation unit 23.
  • the pseudo-error word creation unit 23 adds an error to the input word by combining four patterns (error generation patterns).
  • the first pattern is the deletion of characters.
  • the second pattern is the insertion of characters.
  • the third pattern is the mutual conversion of kanji, hiragana, and katakana.
  • the fourth pattern is common vowel conversion.
  • the pseudo-error word creation unit 23 may repeatedly apply each pattern to the input word to load an error. For example, the pseudo-error word creation unit 23 applies the first pattern to the input word "software" to create "soft”, and then applies the third pattern to create "grandfather". However, the created "grandfather” may be used as a pseudo-error word.
  • the restoration model generation unit 24 has an error based on the set (learning data) of the input word input by the pseudo error word creation unit 23 and the pseudo error word (created by the pseudo error word creation unit 23). Generate a restore model, which is a trained model for restoring words to error-free words. That is, the restoration model is a trained model generated by performing machine learning using a predetermined word and a pseudo-error word in which an error is added to the predetermined word.
  • the process of obtaining a trained model by machine learning using set data is a process according to the prior art.
  • the restoration model generation unit 24 repeatedly learns until the pseudo-error words in the learning data can be restored to the words without errors.
  • the restoration model generation unit 24 stores the generated restoration model by the restoration model storage unit 12.
  • the restoration model is a trained model for operating a computer to output (corresponding) error-free words based on error-free words, using a pair of input words and pseudo-error words. It is a trained model composed of a neural network in which the weighting coefficient is trained.
  • FIG. 6 is a diagram showing an example of application to the restoration model. As shown in FIG. 6, by applying the error-free word "grandfather" to the restoration model composed of the encoder-decoder model, the error-free word "software" is output.
  • the encoder / decoder model As the restoration model, it is possible to absorb a huge amount of training data (and processing contents based on it) into one trained model.
  • the pseudo-error word creation unit 23 creates a pseudo-error word for the input word (step S10).
  • the restoration model generation unit 24 generates a restoration model based on the input word and the pseudo-error word created in S10, and the generated restoration model is stored by the restoration model storage unit 12 ( Step S11).
  • the error detection unit 25 detects an error word that is a recognition error word included in the input sentence by applying the input sentence that is the recognition result sentence to the correction model generated by the correction model generation unit 22. More specifically, the error detection unit 25 receives a sentence of the recognition result of voice recognition or character recognition from the recognition error correction device 1, the user of the recognition error correction device 1, or another computer device (of the above-mentioned correction model). By acquiring an input sentence (a sentence different from the sentence of the corpus data used at the time of generation) and applying it to the correction model generated by the correction model generation unit 22 and stored by the correction model storage unit 11, the input sentence is applied. Detects an erroneous word that is a recognition error word contained in. As mentioned in the explanation of FIG.
  • the detection of an erroneous word is performed based on the processing label output when applied to the correction model.
  • the error detection unit 25 detects a word for which the processing label “replace” or “delete” is output as an error word.
  • the error detection unit 25 makes an error in the acquired input sentence, the detected error word (information about), and the processing label string composed of the processing label output for each word when applied to the correction model. Output to the correction unit 26.
  • the error correction unit 26 performs processing on the error word detected (input) by the error detection unit 25 based on the processing label output for the error word when applied to the correction model. Correct the recognition error of the input sentence. More specifically, the error correction unit 26 is input by the error detection unit 25 with respect to the error word input by the error detection unit 25 among the words constituting the input sentence input by the error detection unit 25. By performing processing based on the processing label corresponding to the error word in the processing label string, the recognition error of the input sentence is corrected. The error correction unit 26 outputs (displays) a correction sentence, which is an input sentence for correcting a recognition error, to a user of the recognition error correction device 1, another computer device, or the like.
  • the error correction unit 26 When the error correction unit 26 performs processing based on the processing label on the error word, the error word is generated by the restoration model generation unit 24 (as described with reference to FIG. 6) and the restoration model is stored. It may be applied to the restoration model (stored by part 12).
  • the error correction unit 26 may construct a word lattice based on the input sentence and the output processing label, and correct the recognition error of the input sentence based on the path of the word lattice.
  • the word lattice is a graph listing word candidates.
  • FIG. 8 is a diagram showing an example of construction of a word lattice by the error correction unit 26.
  • the error correction unit 26 creates a word lattice path for the input sentence "Login with the security grandfather” based on the processing label corresponding to each word constituting the input sentence. Specifically, for the processing label “no operation”, the corresponding word is added to the route, for the processing label “delete”, the corresponding word is not added to the route, and for the processing label “replace”, the corresponding word is added. The added word is added to the route, and the correction candidate word is also added to the route (as a branch).
  • error correction Part 26 constructs the word lattice shown in FIG.
  • the correction candidate word may be a word associated with the error word in the dictionary (pair data that this word is likely to be this word) stored in advance in the recognition error correction device 1, or the error word may be used as a restoration model. It may be applied and output as a word. If the word of the correction candidate is not in the dictionary, it may be obtained by applying it to the restoration model. There may be a plurality of correction candidate words, in which case the word lattice branches accordingly.
  • the error correction unit 26 selects an appropriate word string (path) as a sentence for the constructed word lattice, for example, using an discriminative model based on the perceptron model, and corrects the selected word string as a correction sentence (recognition error of the input sentence). Output as a corrected sentence).
  • path a sentence for the constructed word lattice
  • the process of selecting a word string is a process according to the prior art.
  • the error detection unit 25 acquires an input sentence (step S20).
  • the error detection unit 25 applies the input sentence acquired in S20 to the correction model stored in the correction model storage unit 11, the error word is detected, and the processing label is extracted (step S21).
  • the error correction unit 26 applies the error word detected in S21 to the restoration model stored by the restoration model storage unit 12, and the word lattice is constructed (step S22).
  • the error correction unit 26 generates a correction sentence based on the word lattice constructed in S22 (step S23).
  • the pair data acquisition unit 21 shows a sentence of the recognition result of voice recognition or character recognition and a process for correcting a recognition error for each word constituting the sentence.
  • Pair data corresponding to a label string composed of processing labels, which are labels, is acquired, and machine learning is performed using the acquired pair data by the correction model generation unit 22, so that a recognition error in the recognition result is performed.
  • a correction model which is a trained model for correcting the above, is generated. In this way, it is detected by performing machine learning using pair data in which the sentence of the recognition result and the label string composed of the processing labels for correcting the recognition error for each word constituting the sentence are associated with each other.
  • a model is generated.
  • the recognition error correction device 1 can construct an environment in which a process for correcting a recognition error of a recognition result of voice recognition or character recognition is shown.
  • the correction model generation unit 22 performs machine learning using the sequence labeling method. As a result, machine learning using the processing label can be performed more reliably.
  • the pair data creation unit 20 creates pair data based on the comparison between the sentence of the recognition result and the correct answer data of the recognition result, and the pair data acquisition unit 21 Acquires the created pair data.
  • the training data of the correction model can be created more easily and more reliably.
  • the error detection unit 25 applies the input sentence, which is the sentence of the recognition result, to the correction model generated by the correction model generation unit 22, so that the input is the input.
  • An error word that is a recognition error word contained in a sentence is detected. As a result, it is possible to more reliably detect an erroneous word to be corrected.
  • the error correction unit 26 outputs the error word detected by the error detection unit 25 to the error word when applied to the correction model.
  • the recognition error of the input sentence is corrected.
  • the recognition error of the input sentence can be corrected more reliably.
  • the error word becomes a predetermined word and the predetermined word.
  • It is a restoration model that is a learned model generated by machine learning using pseudo-error words with errors added to words, and is applied to the restoration model for restoring error words to error-free words. Will be done. By applying it to the restoration model in this way, it is possible to correct the recognition error more accurately.
  • the error correction unit 26 constructs a word lattice based on the input sentence and the output processing label, and the input sentence is based on the path of the word lattice. Recognition error is corrected. By using the word lattice in this way, recognition errors can be corrected more accurately and more easily.
  • the recognition error correction device 1 of the present embodiment a system for improving the accuracy of voice recognition is realized by correcting the voice recognition error. Specifically, the recognition error correction device 1 detects a voice recognition error portion from the voice recognition result by using a sequence labeling method. Next, the recognition error correction device 1 constructs a word lattice including correction candidates using a dictionary or an Encoder-Decoder model, and corrects the speech recognition result by selecting an optimum word string using a structured perceptron. To do.
  • the recognition error correction device 1 By using the correction model learned from the recognition error corrected corpus by the recognition error correction device 1, it is possible to make corrections based on the recognition error information, which has not been used in the conventional speech recognition engine. Further, the recognition error correction device 1 learns the restoration model using the pseudo error words automatically generated by the pseudo error word creation unit 23. By using the restoration model, it is possible to correct words that do not exist in the dictionary. Further, the recognition error correction device 1 can reduce the correction error by selecting an appropriate word string using the discriminative model.
  • the recognition error correction device 1 can also adopt the following configuration. That is, it is a voice recognition error correction system that inputs a voice recognition result, and is a voice recognition error detection means that detects a voice recognition error from the input voice recognition result, and automatically generates an error word and learns from the pseudo error word.
  • the error word correction means using the model, the word lattice construction means for constructing the word lattice by the error word correction means or the dictionary as a result of the speech recognition error detection means, and the word lattice constructed by the word lattice construction function.
  • the voice recognition error correction system is obtained by the operation label creating means for giving an operation label to each word and the above-mentioned label giving means by comparing the "speech recognition result" and the "transcription" of the corpus that has been corrected for the recognition error.
  • a voice recognition error detection model learning means for learning a voice recognition error detection model from a word string and its label string using a sequence labeling method is provided, and the voice recognition error detection model obtained above is used. You may detect a voice recognition error.
  • the voice recognition error correction system uses a pseudo error word automatic generation function that generates pseudo error words using a plurality of patterns and a voice recognition error detection using the pseudo error word generated by the pseudo error word automatic generation function.
  • An error word correction model learning function for learning a model may be provided, and a speech recognition error word may be corrected using the error word correction model obtained above.
  • the speech recognition error correction system may construct a word lattice by the error word correction means and the dictionary as a result of the speech recognition error detection means.
  • the speech recognition error correction system may select the optimum path of the word lattice constructed by the word lattice construction function.
  • each functional block is realized by any combination of at least one of hardware and software.
  • the method of realizing each functional block is not particularly limited. That is, each functional block may be realized by using one device that is physically or logically connected, or directly or indirectly (for example, by two or more devices that are physically or logically separated). , Wired, wireless, etc.) and may be realized using these plurality of devices.
  • the functional block may be realized by combining the software with the one device or the plurality of devices.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption.
  • broadcasting notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but only these. I can't.
  • a functional block (constituent unit) that functions transmission is called a transmitting unit or a transmitter.
  • the method of realizing each of them is not particularly limited.
  • the recognition error correction device 1 in the embodiment of the present disclosure may function as a computer that performs the recognition error correction processing of the present disclosure.
  • FIG. 10 is a diagram showing an example of the hardware configuration of the recognition error correction device 1 according to the embodiment of the present disclosure.
  • the above-mentioned recognition error correction device 1 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the word “device” can be read as a circuit, device, unit, etc.
  • the hardware configuration of the recognition error correction device 1 may be configured to include one or more of the devices shown in the figure, or may be configured not to include some of the devices.
  • the processor 1001 For each function of the recognition error correction device 1, the processor 1001 performs an operation by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, and controls communication by the communication device 1004. It is realized by controlling at least one of reading and writing of data in the memory 1002 and the storage 1003.
  • predetermined software program
  • the processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with peripheral devices, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • the above-mentioned pair data creation unit 20, pair data acquisition unit 21, correction model generation unit 22, pseudo error word creation unit 23, restoration model generation unit 24, error detection unit 25, error correction unit 26, and the like are performed by the processor 1001. It may be realized.
  • the processor 1001 reads a program (program code), a software module, data, etc. from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
  • a program program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • the pair data creation unit 20, the pair data acquisition unit 21, the correction model generation unit 22, the pseudo error word creation unit 23, the restoration model generation unit 24, the error detection unit 25, and the error correction unit 26 are stored in the memory 1002. It may be realized by a control program operating in the processor 1001, and may be realized for other functional blocks as well.
  • the various processes described above are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
  • Processor 1001 may be implemented by one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, or the like that can be executed to implement the wireless communication method according to the embodiment of the present disclosure.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (for example, a compact disk, a digital versatile disk, or a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, server or other suitable medium containing at least one of memory 1002 and storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the communication device 1004 includes, for example, a high frequency switch, a duplexer, a filter, a frequency synthesizer, and the like in order to realize at least one of frequency division duplex (FDD: Frequency Division Duplex) and time division duplex (TDD: Time Division Duplex). It may be composed of.
  • FDD Frequency Division Duplex
  • TDD Time Division Duplex
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • each device such as the processor 1001 and the memory 1002 is connected by the bus 1007 for communicating information.
  • the bus 1007 may be configured by using a single bus, or may be configured by using a different bus for each device.
  • the recognition error correction device 1 uses hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured to include, and a part or all of each functional block may be realized by the hardware. For example, processor 1001 may be implemented using at least one of these hardware.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • the notification of information is not limited to the mode / embodiment described in the present disclosure, and may be performed by using another method.
  • Each aspect / embodiment described in the present disclosure includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G (4th generation mobile communication system), and 5G (5th generation mobile communication).
  • system FRA (Future Radio Access), NR (new Radio), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi (registered trademark)) )), LTE 802.16 (WiMAX®), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth®, and other systems that utilize suitable systems and have been extended based on these. It may be applied to at least one of the next generation systems. Further, a plurality of systems may be applied in combination (for example, a combination of at least one of LTE and LTE-A and 5G).
  • the input / output information and the like may be saved in a specific location (for example, memory), or may be managed using a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
  • Software is an instruction, instruction set, code, code segment, program code, program, subprogram, software module, whether called software, firmware, middleware, microcode, hardware description language, or another name.
  • Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, functions, etc. should be broadly interpreted to mean.
  • software, instructions, information, etc. may be transmitted and received via a transmission medium.
  • a transmission medium For example, a website that uses at least one of wired technology (coaxial cable, fiber optic cable, twist pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and wireless technology (infrared, microwave, etc.) When transmitted from a server, or other remote source, at least one of these wired and wireless technologies is included within the definition of transmission medium.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. may be voltage, current, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
  • system and “network” used in this disclosure are used interchangeably.
  • information, parameters, etc. described in the present disclosure may be expressed using absolute values, relative values from predetermined values, or using other corresponding information. It may be represented.
  • determining and “determining” used in this disclosure may include a wide variety of actions.
  • “Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). (For example, searching in a table, database or another data structure), confirming (ascertaining) may be regarded as “judgment” or “decision”.
  • judgment and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access.
  • connection means any direct or indirect connection or connection between two or more elements, and each other. It can include the presence of one or more intermediate elements between two “connected” or “combined” elements.
  • the connection or connection between the elements may be physical, logical, or a combination thereof.
  • connection may be read as "access”.
  • the two elements use at least one of one or more wires, cables and printed electrical connections, and, as some non-limiting and non-comprehensive examples, the radio frequency domain. Can be considered to be “connected” or “coupled” to each other using electromagnetic energies having wavelengths in the microwave and light (both visible and invisible) regions.
  • references to elements using designations such as “first”, “second”, etc. as used in this disclosure does not generally limit the quantity or order of those elements. These designations can be used in the present disclosure as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted, or that the first element must somehow precede the second element.
  • the term "A and B are different” may mean “A and B are different from each other”.
  • the term may mean that "A and B are different from C”.
  • Terms such as “separate” and “combined” may be interpreted in the same way as “different”.
  • 1 ... recognition error correction device, 10 ... corpus storage unit, 11 ... correction model storage unit, 12 ... restoration model storage unit, 20 ... pair data creation unit, 21 ... pair data acquisition unit, 22 ... correction model generation unit, 23 ... Pseudo-error word creation unit, 24 ... restoration model generation unit, 25 ... error detection unit, 26 ... error correction unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

音声認識又は文字認識の認識結果の認識誤りを訂正するための処理が示される環境を構築することを課題とする。認識誤り訂正装置1は、音声認識又は文字認識の認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示すラベルである処理ラベルから構成されるラベル列とが対応付いたペアデータを取得するペアデータ取得部21と、ペアデータ取得部21によって取得されたペアデータを用いて機械学習を行うことで、認識結果の認識誤りを訂正するための学習済みモデルである訂正モデルを生成する訂正モデル生成部22と、を備える。認識誤り訂正装置1は、認識結果の文と当該認識結果の正解データとの比較に基づいてペアデータを作成するペアデータ作成部20をさらに備え、ペアデータ取得部21は、ペアデータ作成部20によって作成されたペアデータを取得してもよい。

Description

認識誤り訂正装置及び訂正モデル
 本開示の一側面は、音声認識又は文字認識の認識結果の認識誤りを訂正するための認識誤り訂正装置及び訂正モデルに関する。
 下記特許文献1では、音声認識結果の認識誤りを自動的に検出し、人手による効率的な修正を支援する誤り検出方法が開示されている。
特開2002-268679号公報
 上記誤り検出方法では、音声認識結果の修正箇所が明示され、修正者へ修正喚起が促される。修正喚起を促された修正者は、修正箇所を人手で修正する。しかしながら、修正者には、修正箇所を修正するためにどのような処理を行えばよいか示されない。
 そこで、本開示の一側面は、かかる課題に鑑みて為されたものであり、音声認識又は文字認識の認識結果の認識誤りを訂正するための処理が示される環境を構築することができる認識誤り訂正装置及び訂正モデルを提供することを目的とする。
 上記課題を解決するため、本開示の一側面に係る認識誤り訂正装置は、音声認識又は文字認識の認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示すラベルである処理ラベルから構成されるラベル列とが対応付いたペアデータを取得する取得部と、取得部によって取得されたペアデータを用いて機械学習を行うことで、認識結果の認識誤りを訂正するための学習済みモデルである訂正モデルを生成する生成部と、を備える。
 このような認識誤り訂正装置によれば、音声認識又は文字認識の認識結果の文と当該文を構成する各単語について認識誤りを訂正するための処理を示す処理ラベルから構成されるラベル列とが対応付いたペアデータを用いて機械学習が行われることで検出モデルが生成される。例えば、音声認識又は文字認識の認識結果を、生成された検出モデルに適用すれば、当該認識結果の認識誤りを訂正するための処理を示す処理ラベルが出力される。すなわち、認識誤り訂正装置により、音声認識又は文字認識の認識結果の認識誤りを訂正するための処理が示される環境を構築することができる。
 本開示の一側面によれば、音声認識又は文字認識の認識結果の認識誤りを訂正するための処理が示される環境を構築することができる。
本発明の実施形態に係る認識誤り訂正装置の機能ブロック図である。 ペアデータの作成の一例を示す図である。 訂正モデルへの適用の一例を示す図である。 本発明の実施形態に係る認識誤り訂正装置で実行される訂正モデル生成処理を示すフローチャートである。 疑似誤り単語の作成の一例を示す図である。 復元モデルへの適用の一例を示す図である。 本発明の実施形態に係る認識誤り訂正装置で実行される復元モデル生成処理を示すフローチャートである。 単語ラティスの構築の一例を示す図である。 本発明の実施形態に係る認識誤り訂正装置で実行される認識誤り訂正処理を示すフローチャートである。 本発明の実施形態に係る認識誤り訂正装置のハードウェア構成図である。
 以下、図面とともに認識誤り訂正装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。
 本実施形態に係る認識誤り訂正装置1は、音声認識又は文字認識の認識結果の認識誤りを訂正するコンピュータ装置である。音声認識は、人間の声などの音声をコンピュータで認識し、対応する文(文字列、テキスト)などに変換することである。文字認識は、印刷文字及び手書き文字などの文字をコンピュータで認識し、対応する文(文字列、テキスト)などに変換することである。認識結果は、例えば上述の変換された文である。一般的に、認識結果には、コンピュータの認識ミスによる認識誤りが含まれることがある。文は、形の上で完結した、一つの陳述によって統べられている言語表現の一単位である。文は、一つ以上の文からなるもの(例えば段落、文章など)に読み替えてもよい。
 図1は、認識誤り訂正装置1の機能ブロック図である。図1に示す通り、認識誤り訂正装置1は、コーパス格納部10、訂正モデル格納部11、復元モデル格納部12、ペアデータ作成部20(作成部)、ペアデータ取得部21(取得部)、訂正モデル生成部22(生成部)、疑似誤り単語作成部23、復元モデル生成部24、誤り検出部25(検出部)及び誤り訂正部26(訂正部)を含んで構成される。
 認識誤り訂正装置1の各機能ブロックは、認識誤り訂正装置1内にて機能することを想定しているが、これに限るものではない。例えば、認識誤り訂正装置1の機能ブロックの一部は、認識誤り訂正装置1とは異なるコンピュータ装置であって、認識誤り訂正装置1とネットワーク接続されたコンピュータ装置内において、認識誤り訂正装置1と情報を適宜送受信しつつ機能してもよい。また、認識誤り訂正装置1の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。
 以下、図1に示す認識誤り訂正装置1の各機能ブロックについて説明する。
 コーパス格納部10は、コーパスを(予め)格納する。コーパスは、自然言語の文章を構造化し、大規模に集積したデータ(データベース)の一部又は全部である。本実施形態におけるコーパス(認識誤り訂正済みコーパス)は、音声認識又は文字認識の認識結果の文と、当該認識結果の正解データとが対応付いたデータであるコーパスデータから構成される。正解データは、正解となるデータである。本実施形態における正解データは、人(又は高精度な認識を行うコンピュータ装置)が、音声認識若しくは文字認識の認識結果の基となる音声若しくは文字、又は、当該認識結果を参考にして予め作成した、当該音声又は当該文字をテキスト化した文(書き起こし)である。コーパスデータは、機械学習分野における教師データである。コーパスデータの一例としては、認識結果の文「セキュリティ祖父とにログイン」(「祖父と」が認識誤りの部分である)と、正解データ「セキュリティソフトにログイン」とが対応付いたコーパスデータが挙げられる。
 ペアデータ作成部20は、音声認識又は文字認識の認識結果の文と当該認識結果の正解データとの比較に基づいて、ペアデータを作成する。ペアデータは、音声認識又は文字認識の認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示すラベルである処理ラベルから構成されるラベル列とが対応付いたデータである。ペアデータ作成部20は、認識誤り訂正装置1のユーザ(管理者)から指示があった際にペアデータを作成してもよいし、定期的にペアデータを作成してもよい。ペアデータ作成部20は、作成したペアデータを、ペアデータ取得部21に出力してもよいし、別の処理で参照できるよう、認識誤り訂正装置1内にて格納してもよい。
 具体的には、ペアデータ作成部20は、コーパス格納部10によって格納されたコーパスを取得し、取得したコーパスを構成するコーパスデータに含まれる音声認識又は文字認識の認識結果の文と当該認識結果の正解データとを抽出し、抽出した認識結果の文と正解データとをそれぞれ形態素解析して単語列に分解し、分解された認識結果の文の単語列と分解された正解データの単語列とを単語ごとに(先頭の単語から最後の単語まで順に)比較し、認識結果の文の単語それぞれ(又は一部の単語)に比較結果に応じた処理ラベルを付与し、分解された認識結果の文の単語列(実質的に認識結果の文と同一)と付与された処理ラベルから構成されるラベル列とが対応付いたペアデータを作成する。ペアデータにおいて、認識結果の文の単語列中の一の単語と、ラベル列に含まれる、当該一の単語に付与された処理ラベルとは対応付いていてもよい。
 図2は、ペアデータ作成部20によるペアデータの作成の一例を示す図である。図2に示す通り、まず、ペアデータ作成部20は、音声認識又は文字認識の認識結果の文「セキュリティ祖父とにログイン」と当該認識結果の正解データ「セキュリティソフトにログイン」とを単語ごとに比較する。次に、ペアデータ作成部20は、認識結果の文の先頭の単語「セキュリティ」と、正解データの先頭の単語「セキュリティ」とを比較し、一致するため、認識結果の文の単語「セキュリティ」には処理ラベルとして、単語「セキュリティ」について認識誤りを訂正するための処理は不要であることを示す「操作なし」ラベルを付与する。次に、ペアデータ作成部20は、認識結果の文の次の単語「祖父」と、正解データの次の単語「ソフト」とを比較し、一致しない(不一致の)ため、認識結果の文の単語「祖父」には処理ラベルとして、単語「祖父」について認識誤りを訂正するために置換処理が必要であることを示す「置換」ラベルを付与する。次に、ペアデータ作成部20は、認識結果の文の次の単語「と」について、正解データには対応する単語がないため(不一致のため)、認識結果の文の単語「と」には処理ラベルとして、単語「と」について認識誤りを訂正するために削除処理が必要であることを示す「削除」ラベルを付与する。
 次に、ペアデータ作成部20は、認識結果の文の次の単語「に」と、正解データの次の単語「に」とを比較し、一致するため、認識結果の文の単語「に」には処理ラベルとして、単語「に」について認識誤りを訂正するための処理は不要であることを示す「操作なし」ラベルを付与する。次に、ペアデータ作成部20は、認識結果の文の次の単語「ログイン」と、正解データの次の単語「ログイン」とを比較し、一致するため、認識結果の文の単語「ログイン」には処理ラベルとして、単語「ログイン」について認識誤りを訂正するための処理は不要であることを示す「操作なし」ラベルを付与する。次に、ペアデータ作成部20は、認識結果の文(の単語列)「セキュリティ祖父とにログイン」と、付与された処理ラベルから構成されるラベル列「[操作なし,置換,削除,操作なし,操作なし]」とが対応付いたペアデータを作成する。なお、ラベル列は、単語との対応付けを含む形式、例えば「[[セキュリティ,操作なし],[祖父,置換],[と,削除],[に,操作なし],[ログイン,操作なし]]」としてもよい。
 ペアデータ取得部21は、ペアデータを取得する。ペアデータ取得部21は、ペアデータ作成部20によって作成(入力)されたペアデータを取得してもよい。ペアデータ取得部21は、ネットワークを介して他のコンピュータ装置からペアデータを取得してもよいし、認識誤り訂正装置1内に格納されたペアデータを取得してもよいし、認識誤り訂正装置1のユーザが入力したペアデータを取得してもよい。ペアデータ取得部21は、取得したペアデータを訂正モデル生成部22に出力する。
 訂正モデル生成部22は、ペアデータ取得部21によって取得(入力)されたペアデータ(学習データ)を用いて機械学習を行うことで、認識結果の認識誤りを訂正するための学習済みモデルである訂正モデルを生成する。ペアデータを用いた機械学習により学習済みモデルを得る処理は、従来技術に則った処理である。訂正モデル生成部22は、生成した訂正モデルを訂正モデル格納部11によって格納させる。
 学習済みモデルは、コンピュータプログラムとパラメータとの組み合わせである。また、学習済みモデルは、ニューラルネットワークの構造と当該ニューラルネットワークの各ニューロン間の結びつきの強さであるパラメータ(重み付け係数)との組み合わせである。また、学習済みモデルは、コンピュータに対する指令であって、一の結果を得る(所定の処理を実行する)ことができるように組み合わされたもの、すなわち、コンピュータを機能させるコンピュータプログラムである。
 訂正モデルは、音声認識又は文字認識の認識結果に基づいて、当該認識結果の認識誤りを訂正するための処理を示すラベルである処理ラベルを出力するよう、コンピュータを機能させるための学習済みモデルであって、認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示す処理ラベルから構成されるラベル列とが対応付いたペアデータを用いて重み付け係数が学習されたニューラルネットワークにより構成される学習済みモデルである。
 訂正モデル生成部22は、訂正モデルを生成する際に、系列ラベリング手法を用いた機械学習を行ってもよい。系列ラベリングは、入力されたデータ列(単語列)の各要素に適切なラベル列を予測することである。系列ラベリングは、入力されたデータ列を構成する各データにラベルを付与することを目的とする。
 図3は、訂正モデルへの適用の一例を示す図である。図3に示す通り、音声認識又は文字認識の認識結果の文「セキュリティ祖父とにログイン」を、双方向LSTM(BiLSTM:Bidirectional long short-term memory)で構成された訂正モデルに適用することで、認識結果の文を構成する単語「セキュリティ」に対しては処理ラベル「操作なし」が出力され、単語「祖父」に対しては処理ラベル「置換」が出力され、単語「と」に対しては処理ラベル「削除」が出力され、単語「に」に対しては処理ラベル「操作なし」が出力され、単語「ログイン」に対しては処理ラベル「操作なし」が出力されている。ここで言う「出力」とは、双方向LSTMが各単語に対して算出する一つ以上の処理ラベル候補のうち、最も尤度が高い処理ラベル候補の出力を意味する。なお、認識誤り訂正装置1は、出力された処理ラベルから、認識結果の文を構成する単語のうち「祖父」及び「と」については認識誤りであると判定することができる。すなわち、認識誤り訂正装置1は、実質的な訂正するための処理(置換、削除など)を示す処理ラベルが付与又は出力された単語は認識誤りであると判定することができる。処理ラベルは、誤り検出又は誤り訂正に特化したラベルでもある。訂正モデルとして双方向LSTMを用いることで、前後の文脈も考慮した学習が行われるため、学習データであるペアデータに無いパターンにも対応できる(処理ラベルを出力することができる)。
 訂正モデル格納部11は、訂正モデル生成部22によって生成された訂正モデルを格納する。
 図4に示すフローチャートを用いて、認識誤り訂正装置1で実行される訂正モデル生成方法の処理について説明する。まず、ペアデータ作成部20により、ペアデータが作成される(ステップS1)。次に、ペアデータ取得部21により、S1にて作成されたペアデータが取得される(ステップS2)。次に、訂正モデル生成部22により、S2にて取得されたペアデータを用いて機械学習を行うことで訂正モデルが生成され、生成された訂正モデルが訂正モデル格納部11によって格納される(ステップS3)。
 疑似誤り単語作成部23は、入力された所定の単語である入力単語に対して、誤りを付加した単語である疑似誤り単語を作成する。入力単語は、予め認識誤り訂正装置1内に格納されていた単語集合から抽出されたものであってもよいし、認識誤り訂正装置1のユーザが入力(指定)したものでもよい。疑似誤り単語作成部23は、認識誤り訂正装置1のユーザから指示があった際に疑似誤り単語を作成してもよいし、定期的に疑似誤り単語を作成してもよい。疑似誤り単語作成部23は、入力単語と作成した疑似誤り単語との組を、復元モデル生成部24に出力する。
 図5は、疑似誤り単語作成部23による疑似誤り単語の作成の一例を示す図である。図5に示す通り、疑似誤り単語作成部23は、入力単語に対して4つのパターン(誤り生成パターン)を組み合わせることで誤りを付加する。1つ目のパターンは、文字の削除である。2つ目のパターンは、文字の挿入である。3つ目のパターンは、漢字・ひらがな・カタカナの相互変換である。4つ目のパターンは、共通母音変換である。疑似誤り単語作成部23は、入力単語に対して各パターンを複数繰り返して適用して、誤りを負荷してもよい。例えば、疑似誤り単語作成部23は、入力単語「ソフト」に対して1つ目のパターンを適用して「ソフ」を作成し、続いて3つ目のパターンを適用して「祖父」を作成し、作成した「祖父」を疑似誤り単語としてもよい。
 復元モデル生成部24は、疑似誤り単語作成部23によって入力された入力単語と(当該疑似誤り単語作成部23によって作成された)疑似誤り単語との組(学習データ)に基づいて、誤りのある単語を誤りの無い単語に復元するための学習済みモデルである復元モデルを生成する。すなわち、復元モデルは、所定の単語と当該所定の単語に対して誤りを付加した疑似誤り単語とを用いて機械学習を行って生成した学習済みモデルである。組データを用いた機械学習により学習済みモデルを得る処理は、従来技術に則った処理である。復元モデル生成部24は、学習データの疑似誤り単語を誤りの無い単語に復元できるまで繰り返し学習を行う。復元モデル生成部24は、生成した復元モデルを復元モデル格納部12によって格納させる。
 復元モデルは、誤りのある単語に基づいて、(対応する)誤りの無い単語を出力するよう、コンピュータを機能させるための学習済みモデルであって、入力単語と疑似誤り単語との組を用いて重み付け係数が学習されたニューラルネットワークにより構成される学習済みモデルである。
 図6は、復元モデルへの適用の一例を示す図である。図6に示す通り、誤りのある単語「祖父」を、エンコーダー・デコーダー(Encoder-Decoder)モデルで構成された復元モデルに適用することで、誤りの無い単語「ソフト」が出力される。復元モデルとしてエンコーダー・デコーダーモデルを用いることで、膨大な量の学習データ(及びそれに基づく処理内容)を1つの学習済みモデルに吸収することができる。
 図7に示すフローチャートを用いて、認識誤り訂正装置1で実行される復元モデル生成方法の処理について説明する。まず、疑似誤り単語作成部23によりにより、入力単語に対して疑似誤り単語が作成される(ステップS10)。次に、復元モデル生成部24により、入力単語と、S10にて作成された疑似誤り単語と組に基づいて復元モデルが生成され、生成された復元モデルが復元モデル格納部12によって格納される(ステップS11)。
 誤り検出部25は、認識結果の文である入力文を訂正モデル生成部22によって生成された訂正モデルに適用することで、当該入力文に含まれる認識誤りの単語である誤り単語を検出する。より具体的には、誤り検出部25は、認識誤り訂正装置1、認識誤り訂正装置1のユーザ、又は、他のコンピュータ装置などから音声認識又は文字認識の認識結果の文(上述の訂正モデルの生成時に用いたコーパスデータの文とは異なる文)である入力文を取得し、訂正モデル生成部22によって生成され、訂正モデル格納部11によって格納された訂正モデルに適用することで、当該入力文に含まれる認識誤りの単語である誤り単語を検出する。誤り単語の検出は、図3の説明で言及した通り、訂正モデルに適用した際に出力された処理ラベルに基づいて行われる。例えば、誤り検出部25は、処理ラベル「置換」又は「削除」が出力された単語を誤り単語として検出する。誤り検出部25は、取得した入力文と、検出した誤り単語(に関する情報)と、訂正モデルに適用した際に各単語に対して出力された処理ラベルから構成される処理ラベル列とを、誤り訂正部26に出力する。
 誤り訂正部26は、誤り検出部25によって検出(入力)された誤り単語に対して、訂正モデルに適用した際に当該誤り単語に対して出力される処理ラベルに基づいた処理を行うことで、入力文の認識誤りを訂正する。より具体的には、誤り訂正部26は、誤り検出部25によって入力された入力文を構成する単語のうち、誤り検出部25によって入力された誤り単語に対して、誤り検出部25によって入力された処理ラベル列のうち当該誤り単語に対応付いた処理ラベルに基づいた処理を行うことで、当該入力文の認識誤りを訂正する。誤り訂正部26は、認識誤りを訂正した入力文である訂正文を、認識誤り訂正装置1のユーザ又は他のコンピュータ装置などに出力(表示)する。
 誤り訂正部26は、誤り単語に対して処理ラベルに基づいた処理を行う際に、(図6を用いて説明したように)当該誤り単語を(復元モデル生成部24によって生成され、復元モデル格納部12によって格納された)復元モデルに適用してもよい。誤り訂正部26は、入力文と、出力される処理ラベルとに基づいて単語ラティスを構築し、当該単語ラティスの経路に基づいて入力文の認識誤りを訂正してもよい。単語ラティスは、単語の候補を列挙したグラフである。
 図8は、誤り訂正部26による単語ラティスの構築の一例を示す図である。まず、誤り訂正部26は、入力文「セキュリティ祖父とにログイン」について、当該入力文を構成する各単語に対応付いた処理ラベルに基づいて単語ラティスの経路を作成する。具体的には、処理ラベル「操作なし」については対応付いた単語を経路に追加し、処理ラベル「削除」については対応付いた単語を経路に追加せず、処理ラベル「置換」については対応付いた単語を経路に追加するとともに、訂正候補の単語も経路に(分岐として)追加する。例えば入力文に対する処理ラベル列が「[[セキュリティ,操作なし],[祖父,置換],[と,削除],[に,操作なし],[ログイン,操作なし]]」である場合、誤り訂正部26は図8に示す単語ラティスを構築する。
 図8において、「BOS」(Beginning Of Sentence)は文の先頭を示す。「EOS」(End Of Sentence)は文の最後を示す。単語「セキュリティ」、「に」及び「ログイン」については処理ラベルが「操作なし」であるため、そのまま単語ラティスに追加する。単語「と」については処理ラベルが「削除」であるため、単語ラティスには追加しない。単語「祖父」については処理ラベルが「置換」であるため、そのまま単語ラティスに追加するとともに、訂正候補の単語「ソフト」も、経路を分岐(枝分かれ)する形で経路に追加する。訂正候補の単語は、認識誤り訂正装置1内に予め格納された辞書(この単語はこの単語になりやすいというペアのデータ)において誤り単語に紐付く単語としてもよいし、誤り単語を復元モデルに適用して出力された単語としてもよい。訂正候補の単語は、辞書にない場合は復元モデルに適用することで求めてもよい。訂正候補の単語は複数であってもよく、その場合はそのぶん単語ラティスが分岐する。
 誤り訂正部26は、構築した単語ラティスについて、例えばパーセプトロンモデルに基づく識別モデルを用いて、文として適切な単語列(経路)を選択し、選択した単語列を訂正文(入力文の認識誤りを訂正した文)として出力する。単語列を選択する処理は、従来技術に則った処理である。
 図9に示すフローチャートを用いて、認識誤り訂正装置1で実行される認識誤り訂正方法の処理について説明する。まず、誤り検出部25により、入力文が取得される(ステップS20)。次に、誤り検出部25により、S20にて取得された入力文が訂正モデル格納部11によって格納された訂正モデルに適用され、誤り単語が検出されるとともに処理ラベルが抽出される(ステップS21)。次に、誤り訂正部26により、S21にて検出された誤り単語が復元モデル格納部12によって格納された復元モデルに適用され、単語ラティスが構築される(ステップS22)。次に、誤り訂正部26により、S22にて構築された単語ラティスに基づいて訂正文が生成される(ステップS23)。
 次に、本実施形態のように構成された認識誤り訂正装置1の作用効果について説明する。
 本実施形態の認識誤り訂正装置1によれば、ペアデータ取得部21により、音声認識又は文字認識の認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示すラベルである処理ラベルから構成されるラベル列とが対応付いたペアデータが取得され、訂正モデル生成部22により、取得されたペアデータを用いて機械学習が行われることで、認識結果の認識誤りを訂正するための学習済みモデルである訂正モデルが生成される。このように、認識結果の文と当該文を構成する各単語について認識誤りを訂正するための処理ラベルから構成されるラベル列とが対応付いたペアデータを用いて機械学習が行われることで検出モデルが生成される。例えば、音声認識又は文字認識の認識結果を、生成された検出モデルに適用すれば、当該認識結果の認識誤りを訂正するための処理を示す処理ラベルが出力される。すなわち、認識誤り訂正装置1により、音声認識又は文字認識の認識結果の認識誤りを訂正するための処理が示される環境を構築することができる。
 また、本実施形態の認識誤り訂正装置1によれば、訂正モデル生成部22により、系列ラベリング手法を用いた機械学習が行われる。これにより、より確実に処理ラベルを用いた機械学習を行うことができる。
 また、本実施形態の認識誤り訂正装置1によれば、ペアデータ作成部20により、認識結果の文と当該認識結果の正解データとの比較に基づいてペアデータが作成され、ペアデータ取得部21により、作成されたペアデータが取得される。これにより、訂正モデルの学習データをより容易かつより確実に作成することができる。
 また、本実施形態の認識誤り訂正装置1によれば、誤り検出部25により、認識結果の文である入力文が訂正モデル生成部22によって生成された訂正モデルに適用されることで、当該入力文に含まれる認識誤りの単語である誤り単語が検出される。これにより、訂正する対象となる誤り単語をより確実に検出することができる。
 また、本実施形態の認識誤り訂正装置1によれば、誤り訂正部26により、誤り検出部25によって検出された誤り単語に対して、訂正モデルに適用した際に当該誤り単語に対して出力される処理ラベルに基づいた処理が行われることで、入力文の認識誤りが訂正される。これにより、入力文の認識誤りをより確実に認識誤りを訂正することができる。
 また、本実施形態の認識誤り訂正装置1によれば、誤り訂正部26により、誤り単語に対して処理ラベルに基づいた処理が行われる際に、当該誤り単語が、所定の単語と当該所定の単語に対して誤りを付加した疑似誤り単語とを用いて機械学習を行って生成した学習済みモデルである復元モデルであって誤りのある単語を誤りの無い単語に復元するための復元モデルに適用される。このように復元モデルに適用することで、より正確に認識誤りを訂正することができる。
 また、本実施形態の認識誤り訂正装置1によれば、誤り訂正部26により、入力文と、出力される処理ラベルとに基づいて単語ラティスが構築され、当該単語ラティスの経路に基づいて入力文の認識誤りが訂正される。このように単語ラティスを用いることで、より正確かつより容易に認識誤りを訂正することができる。
 ここで、従来技術の課題として、実世界で音声認識システムを利用する場合、集音マイクの性能や周囲の雑音など、使用環境によって認識精度が低下することが挙げられる。本実施形態の認識誤り訂正装置1では、音声認識誤りを訂正することで音声認識の精度向上を図るシステムを実現する。具体的には、認識誤り訂正装置1は、系列ラべリング手法を用いて音声認識結果から音声認識誤り箇所を検出する。次に、認識誤り訂正装置1は、辞書またはEncoder-Decoderモデルを用いて訂正候補を含む単語ラティスを構築し、構造化パーセプトロンを用いて、最適な単語列を選択することで音声認識結果を訂正する。
 認識誤り訂正装置1により、認識誤り訂正済みコーパスから学習した訂正モデルが用いられることで、従来の音声認識エンジンには利用されていなかった、認識誤りの情報を踏まえた訂正が可能となる。また、認識誤り訂正装置1により、疑似誤り単語作成部23により自動生成した疑似誤り単語を用いて、復元モデルが学習される。当該復元モデルを用いることで辞書に存在しない単語も訂正することが可能となる。また、認識誤り訂正装置1により、識別モデルを用いて適切な単語列が選択されることで、訂正誤りを軽減することが可能となる。
 認識誤り訂正装置1は以下の構成を採ることもできる。すなわち、音声認識結果を入力とする音声認識誤り訂正システムであって、入力となる音声認識結果から音声認識誤りを検出する音声認識誤り検出手段と、誤り単語を自動生成し,疑似誤り単語から学習したモデルを用いた誤り単語訂正手段と、上記音声認識誤り検出手段の結果,誤り単語訂正手段または辞書により単語ラティスを構築する単語ラティス構築手段と、上記単語ラティス構築機能により構築された単語ラティスの最適経路を選択する単語選択手段とを備える音声認識誤り訂正システム。音声認識誤り訂正システムは、認識誤り訂正済みコーパスの「音声認識結果」と「書き起こし」を比較することで,操作ラベルを各単語に付与する操作ラベル作成手段と、上記ラベル付与手段により得られた単語列とそのラベル列から系列ラべリング手法を用いて音声認識誤り検出モデルを学習する音認声識誤り検出モデル学習手段と、を備え、上記で得られた音声認識誤り検出モデルを用いて音声認識誤りを検出してもよい。音声認識誤り訂正システムは、複数のパターンを用いて疑似的に誤り単語を生成する疑似誤り単語自動生成機能と、上記疑似誤り単語自動生成機能により生成された疑似誤り単語を用いて音声認識誤り検出モデルを学習する誤り単語訂正モデル学習機能と、を備え、上記で得られた誤り単語訂正モデルを用いて音声認識誤り単語を訂正してもよい。音声認識誤り訂正システムは、音声認識誤り検出手段の結果、誤り単語訂正手段と辞書により単語ラティスを構築してもよい。音声認識誤り訂正システムは、上記単語ラティス構築機能により構築された単語ラティスの最適経路を選択してもよい。
 なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本開示の一実施の形態における認識誤り訂正装置1などは、本開示の認識誤り訂正の処理を行うコンピュータとして機能してもよい。図10は、本開示の一実施の形態に係る認識誤り訂正装置1のハードウェア構成の一例を示す図である。上述の認識誤り訂正装置1は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。認識誤り訂正装置1のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 認識誤り訂正装置1における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のペアデータ作成部20、ペアデータ取得部21、訂正モデル生成部22、疑似誤り単語作成部23、復元モデル生成部24、誤り検出部25及び誤り訂正部26などは、プロセッサ1001によって実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、ペアデータ作成部20、ペアデータ取得部21、訂正モデル生成部22、疑似誤り単語作成部23、復元モデル生成部24、誤り検出部25及び誤り訂正部26は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述のペアデータ取得部21、誤り検出部25及び誤り訂正部26などは、通信装置1004によって実現されてもよい。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
 また、認識誤り訂正装置1は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
 情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。
 本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
 本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
 本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
 また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
 上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
 本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。
 本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
 本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
 1…認識誤り訂正装置、10…コーパス格納部、11…訂正モデル格納部、12…復元モデル格納部、20…ペアデータ作成部、21…ペアデータ取得部、22…訂正モデル生成部、23…疑似誤り単語作成部、24…復元モデル生成部、25…誤り検出部、26…誤り訂正部。

Claims (8)

  1.  音声認識又は文字認識の認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示すラベルである処理ラベルから構成されるラベル列とが対応付いたペアデータを取得する取得部と、
     前記取得部によって取得された前記ペアデータを用いて機械学習を行うことで、前記認識結果の認識誤りを訂正するための学習済みモデルである訂正モデルを生成する生成部と、
     を備える認識誤り訂正装置。
  2.  前記生成部は、系列ラベリング手法を用いた機械学習を行う、
     請求項1に記載の認識誤り訂正装置。
  3.  前記認識結果の文と当該認識結果の正解データとの比較に基づいて前記ペアデータを作成する作成部をさらに備え、
     前記取得部は、前記作成部によって作成された前記ペアデータを取得する、
     請求項1又は2に記載の認識誤り訂正装置。
  4.  前記認識結果の文である入力文を前記生成部によって生成された前記訂正モデルに適用することで、当該入力文に含まれる認識誤りの単語である誤り単語を検出する検出部をさらに備える、
     請求項1~3の何れか一項に記載の認識誤り訂正装置。
  5.  前記検出部によって検出された前記誤り単語に対して、前記訂正モデルに適用した際に当該誤り単語に対して出力される前記処理ラベルに基づいた処理を行うことで、前記入力文の認識誤りを訂正する訂正部をさらに備える、
     請求項4に記載の認識誤り訂正装置。
  6.  前記訂正部は、前記誤り単語に対して前記処理ラベルに基づいた処理を行う際に、当該誤り単語を、所定の単語と当該所定の単語に対して誤りを付加した疑似誤り単語とを用いて機械学習を行って生成した学習済みモデルである復元モデルであって誤りのある単語を誤りの無い単語に復元するための復元モデルに適用する、
     請求項5に記載の認識誤り訂正装置。
  7.  前記訂正部は、前記入力文と、前記出力される前記処理ラベルとに基づいて単語ラティスを構築し、当該単語ラティスの経路に基づいて前記入力文の認識誤りを訂正する、
     請求項5又は6に記載の認識誤り訂正装置。
  8.  音声認識又は文字認識の認識結果に基づいて、当該認識結果の認識誤りを訂正するための処理を示すラベルである処理ラベルを出力するよう、コンピュータを機能させるための訂正モデルであって、
     前記認識結果の文と、当該文を構成する各単語について認識誤りを訂正するための処理を示す前記処理ラベルから構成されるラベル列とが対応付いたペアデータを用いて重み付け係数が学習されたニューラルネットワークにより構成される学習済みモデルである訂正モデル。
PCT/JP2020/014584 2019-05-08 2020-03-30 認識誤り訂正装置及び訂正モデル WO2020225999A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021518316A JP7222082B2 (ja) 2019-05-08 2020-03-30 認識誤り訂正装置及び訂正モデル
US17/608,785 US20220318571A1 (en) 2019-05-08 2020-03-30 Recognition error correction device and correction model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019088121 2019-05-08
JP2019-088121 2019-05-08

Publications (1)

Publication Number Publication Date
WO2020225999A1 true WO2020225999A1 (ja) 2020-11-12

Family

ID=73051136

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014584 WO2020225999A1 (ja) 2019-05-08 2020-03-30 認識誤り訂正装置及び訂正モデル

Country Status (3)

Country Link
US (1) US20220318571A1 (ja)
JP (1) JP7222082B2 (ja)
WO (1) WO2020225999A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质
WO2023162513A1 (ja) * 2022-02-28 2023-08-31 国立研究開発法人情報通信研究機構 言語モデル学習装置、対話装置及び学習済言語モデル

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189664B (zh) * 2022-12-12 2023-07-28 北京数美时代科技有限公司 Asr文本纠错训练样本集的构造方法、系统和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0214000A (ja) * 1988-07-01 1990-01-18 Hitachi Ltd 音声認識装置
JP2011197410A (ja) * 2010-03-19 2011-10-06 Nippon Hoso Kyokai <Nhk> 音声認識装置、音声認識システム、及び音声認識プログラム
JP2014044363A (ja) * 2012-08-28 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0214000A (ja) * 1988-07-01 1990-01-18 Hitachi Ltd 音声認識装置
JP2011197410A (ja) * 2010-03-19 2011-10-06 Nippon Hoso Kyokai <Nhk> 音声認識装置、音声認識システム、及び音声認識プログラム
JP2014044363A (ja) * 2012-08-28 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IKEDA, TAISHI ET AL.: "Neural Sequence-Labelling Models for ASR Error Correction", THE 33RD ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 4 June 2019 (2019-06-04) *
SAWAI, YUICHIRO ET AL.: "Usage of the unlabeled corpus by pseudo error generation for grammatical error correction", PROCEEDINGS OF THE 23RD ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 6 March 2017 (2017-03-06), pages 714 - 717 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质
WO2023162513A1 (ja) * 2022-02-28 2023-08-31 国立研究開発法人情報通信研究機構 言語モデル学習装置、対話装置及び学習済言語モデル

Also Published As

Publication number Publication date
JPWO2020225999A1 (ja) 2020-11-12
JP7222082B2 (ja) 2023-02-14
US20220318571A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
WO2020225999A1 (ja) 認識誤り訂正装置及び訂正モデル
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
JP7062056B2 (ja) 作成文章評価装置
CN103049458B (zh) 一种修正用户词库的方法和系统
US10120843B2 (en) Generation of parsable data for deep parsing
CN112764784A (zh) 基于神经机器翻译的软件缺陷自动修复方法及装置
JP7049880B2 (ja) 音声認識結果比較システム
CN112861518A (zh) 文本纠错方法、装置和存储介质及电子装置
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
CN111753532B (zh) 西文文本的纠错方法和装置、电子设备及存储介质
Saluja et al. A framework for document specific error detection and corrections in indic ocr
JP6976448B2 (ja) 機械翻訳制御装置
WO2020166125A1 (ja) 翻訳用データ生成システム
Bhaire et al. Spell checker
US20230223017A1 (en) Punctuation mark delete model training device, punctuation mark delete model, and determination device
JP6568968B2 (ja) 文書校閲装置およびプログラム
WO2021186892A1 (ja) 翻訳文章算出装置
JP2020177387A (ja) 文出力装置
WO2020225942A1 (ja) 内部状態変更装置
WO2023135963A1 (ja) 翻訳装置
US20220245363A1 (en) Generation device and normalization model
US20230009949A1 (en) Translation device
WO2022130940A1 (ja) 提示装置
WO2022102364A1 (ja) 文生成モデル生成装置、文生成モデル及び文生成装置
WO2023079911A1 (ja) 文生成モデル生成装置、文生成モデル及び文生成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20802126

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021518316

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20802126

Country of ref document: EP

Kind code of ref document: A1