WO2010125736A1 - 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 - Google Patents

言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2010125736A1
WO2010125736A1 PCT/JP2010/001858 JP2010001858W WO2010125736A1 WO 2010125736 A1 WO2010125736 A1 WO 2010125736A1 JP 2010001858 W JP2010001858 W JP 2010001858W WO 2010125736 A1 WO2010125736 A1 WO 2010125736A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialect
language model
word string
word
standard
Prior art date
Application number
PCT/JP2010/001858
Other languages
English (en)
French (fr)
Inventor
北出祐
越仲孝文
大西祥史
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2011511272A priority Critical patent/JP5413622B2/ja
Priority to US13/138,853 priority patent/US8788266B2/en
Publication of WO2010125736A1 publication Critical patent/WO2010125736A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the present invention relates to a language model creation device, a language model creation method, and a computer-readable recording medium, and in particular, a language model creation device, a language model creation method, and a computer read that enable speech recognition including a dialect.
  • the present invention relates to a possible recording medium.
  • Speech recognition is a process of converting human speech into text, and in recent years, a statistical model is generally used for speech recognition systems. That is, if the input speech is X and the output character string is W, speech recognition is a process of outputting a word sequence W that maximizes the posterior probability P (W
  • X) can be formulated. Specifically, it is expressed by the following (Equation 1) using Bayes rule.
  • Equation 1 the probability models that give P (X
  • a language model an n-gram model that predicts the appearance probability of a subsequent word from the immediately preceding n-1 word is widely used, and a large amount of text is required for robust recognition.
  • acoustic model and a language model for speech recognition using data recorded in the same environment as the input speech environment.
  • data recorded from the same environment as the input speech environment include speech data of the same speaker and data of the same type of sound (noise, etc.) in the acoustic model.
  • input speech and data that are the same in terms of speaking style and topic are listed.
  • dialects are composed of standard language vocabulary and local vocabulary in which the dialect is used.
  • many local vocabularies can be paraphrased using standard language vocabulary. That is, the vocabulary (and wording) of the standard word can be converted into another word (and wording) including a dialect.
  • a language model of a target task cannot be created, a method of creating a language model of the target task using text data related to a general task other than the target task (see Patent Document 1, for example) )).
  • a standard language is regarded as a general task
  • a dialect is regarded as a target task
  • the language model creation method disclosed in Patent Document 1 is implemented, a language model targeted for the dialect can be created. Conceivable.
  • FIG. 17 is a block diagram showing a configuration of a conventional language model learning apparatus.
  • the language model learning apparatus shown in FIG. 17 is a language model learning apparatus disclosed in Patent Document 1.
  • the language model learning device includes a target task language data storage unit 101, a general task language data storage unit 102, a similar word pair extraction unit 103, a similar word string synthesis unit 104, and a language model generation. And means 105.
  • the target task language data storage unit 101 holds text data of the target task.
  • the general task language data storage unit 102 holds text data of general tasks including tasks other than the target task.
  • the conventional language model learning apparatus shown in FIG. 17 having such a configuration operates as follows. First, the similar word pair extracting unit 103, the similar word string synthesizing unit 104, and the language model generating unit 105 are each subjected to language model learning held by the target task language data storage unit 101 and the general task language data storage unit 102. Load data for use.
  • the similar word pair extraction unit 103 calculates the distance between words based on a predefined distance scale for any combination of words included in the data read from each.
  • the distance between words the Euclidean distance of the n-gram appearance probability or cross entropy can be used.
  • the similar word extracting unit 103 sends the similar word pair to the similar word string synthesizing unit 104.
  • the word contained the words included in the text data of the target task w T, text data of the general tasks referred to W G.
  • the similar word string synthesizing unit 104 extracts word strings of arbitrary lengths stored in the target task language data storage unit 101 and the general task language data storage unit 102, respectively. Then, the similar word sequence combining means 104, read from similar word pairs extracting unit 103 similar word pair W (W T, W G) with reference to, for each word string of the target task, the word W G in the general tasks It is determined whether or not it is included.
  • the similar word sequence combining means 104 determines whether the replaced word string exists in the language data of the general task or the target task, and if it does not exist, generates the language model of the replaced word string Send to means 105.
  • the language model generation unit 105 includes the text data included in the target task language data storage unit 101, the text data included in the general task language data storage unit 102, and the word sent from the similar word string synthesis unit 104.
  • a language model is created using the column data.
  • the target task language data storage unit 101 holds dialect text data
  • the general task language data storage unit 102 holds standard language text data. It will be possible to create language models for dialects.
  • the language model learning device disclosed in Patent Document 1 obtains probability distributions for the text data of the general task and the text data of the target task, compares the general task with the target task, Extract word pairs with word chains. At this time, if the text data of the target task corresponding to the dialect is small, the probability distribution learned from the text data in the target task compared with the general task is not robust. In addition, the total number of n-grams and the number of types are limited.
  • an appropriate word pair may not be extracted, and an appropriate appearance probability for an n-gram including a dialect created based on the word pair. Is extremely difficult to apply. As a result, when a dialect is included in the input speech, it is difficult to correctly output the result even if speech recognition is performed using the language model created by this method.
  • An object of the present invention is to solve the above-mentioned problem and to create a language model that enables robust recognition even when a dialect is included in the input speech, a language model creation device, a language model creation method, And providing a computer-readable recording medium.
  • a language model creation device is a language model creation device that creates a new language model using a standard language language model created from standard language text,
  • a conversion rule storage unit for storing a conversion rule for converting a word string including a dialect into a word string of a standard word; Applying the conversion rules to word n-grams in the standard language model to create an n-gram containing the dialect, further adding the created n-gram containing the dialect to the word n-gram,
  • a dialect language model creation section for creating a new language model; It is characterized by having.
  • the language model creation method in the present invention is a method for creating a new language model using a standard language language model created from standard language text, (A) setting a conversion rule for converting a word string including a dialect into a word string of a standard word; (B) Applying the conversion rule to a word n-gram in the standard language model to create an n-gram containing the dialect, and further adding the created n-gram containing the dialect to the word n-gram Creating the new language model, and It is characterized by having.
  • a computer-readable recording medium records a program for causing a computer to create a new language model using a standard language language model created from standard language text.
  • a computer-readable recording medium By the computer, (A) setting a conversion rule for converting a word string including a dialect into a word string of a standard word; (B) Applying the conversion rule to a word n-gram in the standard language model to create an n-gram containing the dialect, and further adding the created n-gram containing the dialect to the word n-gram Creating the new language model, and A program including an instruction for executing is recorded.
  • the language model creation device, language model creation method, and computer-readable recording medium according to the present invention enable robust recognition even when a dialect is included in the input speech. Create language models.
  • FIG. 1 is a block diagram showing a configuration of a language model creation apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a diagram showing an example of the conversion rule used in the embodiment of the present invention.
  • FIG. 3 is a flowchart showing the operation of the language model creation device according to Embodiment 1 of the present invention.
  • FIG. 4 is a block diagram showing the configuration of the language model creation device according to Embodiment 2 of the present invention.
  • FIG. 5 is a flowchart showing the operation of the language model creation device according to Embodiment 2 of the present invention.
  • FIG. 6 is a block diagram showing the configuration of the language model creation device according to Embodiment 3 of the present invention.
  • FIG. 7 is a flowchart showing the operation of the language model creation device according to Embodiment 3 of the present invention.
  • FIG. 8 is a flowchart showing the operation of the language model creation device according to Embodiment 4 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a language model creation device according to Embodiment 5 of the present invention.
  • FIG. 10 is a flowchart showing the operation of the language model creation device according to Embodiment 5 of the present invention.
  • FIG. 11 is a flowchart showing the operation of the language model creation device according to Embodiment 6 of the present invention.
  • FIG. 12 is a block diagram showing the configuration of the language model creation device according to Embodiment 7 of the present invention.
  • FIG. 13 is a flowchart showing the operation of the language model creation device according to Embodiment 7 of the present invention.
  • FIG. 14 is a block diagram showing a configuration of a language model creation device according to Embodiment 8 of the present invention.
  • FIG. 15 is a flowchart showing the operation of the language model creation device according to Embodiment 8 of the present invention.
  • FIG. 16 is a block diagram showing an example of a computer that implements the language model creation apparatus according to Embodiments 1 to 8 of the present invention.
  • FIG. 17 is a block diagram showing a configuration of a conventional language model creation apparatus.
  • FIG. 1 is a block diagram showing a configuration of a language model creation apparatus according to Embodiment 1 of the present invention.
  • a language model creation apparatus 200 creates a new language model (hereinafter referred to as “dialect language model”) using a standard language language model created from standard language text. It is.
  • the language model creation device 200 includes a conversion rule storage unit 201 and a dialect language model creation unit 203.
  • the language model creation apparatus 200 further includes a standard language language model storage unit 202 that stores a standard language language model.
  • the conversion rule storage unit 201 stores a conversion rule for converting a word string including a dialect into a word string of a standard word. Further, the dialect language model creation unit 203 applies the conversion rule to the word n-gram in the standard language model, and creates an n-gram including the dialect. Furthermore, the dialect language model creation unit 203 creates a dialect language model by adding a word n-gram including the created dialect to an existing word n-gram.
  • an n-gram including a dialect is created from an n-gram included in the standard language model based on a conversion rule between the dialect and the standard language.
  • the standard language model is a robust language model created by learning using a large amount of standard language data. That is, in the first embodiment, as will be described later, n-gram probability values including dialects are calculated using the appearance probability of n-grams that are learned from a large amount of text and are reliable. For this reason, according to the first embodiment, a language model that enables robust recognition even when a dialect is included in the input speech is created.
  • FIG. 2 is a diagram showing an example of the conversion rule used in the embodiment of the present invention.
  • the standard language language model stored in the standard language language model storage unit 202 is a language model created by learning with text consisting of only standard words.
  • the conversion rule storage unit 201 stores a set of a word string including a dialect and a word string including only a standard word corresponding to the dialect as a conversion rule.
  • the dialect language model creation unit 203 uses the standard language language model stored in the standard language language model storage unit 202 to allocate appropriate probability values to the dialect words.
  • the dialect language model creation unit 203 uses the conversion rule to create an n-gram that includes a dialect, and then extracts the appearance probability of the word string including the standard word from the standard language language model, Then, the appearance probability of the word string including the same set of dialects is calculated (estimated) from the preset distribution probability. Then, the dialect language model creation unit 203 creates a dialect language model by adding the calculated word string including the same set of dialects and the appearance probability thereof to the standard language language model.
  • the conversion rule storage unit 201 stores a conversion rule describing a rule for converting a word string including a dialect into a word string of a standard word.
  • An example of the conversion rule is shown in FIG. In the table shown in FIG. 2, a word string including a dialect is described in the first column, and a word string of a standard word corresponding to the word string including the first dialect is described in the second column. That is, in the example of the first row, the word string “say / ta” includes the dialect word “say”, and the word string consisting only of the standard words corresponding to the word string containing this dialect is “say / It means "
  • the conversion rule may be given manually or may be obtained from existing data.
  • dialect language model creating unit 203 performs the following processing.
  • dialect language model creating unit 203 refers to the conversion rule retrieves a set of the word sequence (W and D) and a word train consisting of only the standard word (W and G) including dialects.
  • W and G is a word sequence having the same context, the same meaning is paraphrased expression.
  • W D is to belong to a word string class C ( "W G"), its components and ⁇ W G, W D ⁇ .
  • W G word string class C
  • the appearance probabilities P (*, W G ), P of a certain word string ⁇ *, W G ⁇ , ⁇ W G , * ⁇ are already present. It is assumed that (W G , *) has been calculated. In this case, the appearance probabilities P (*, W G ) and P (W G , *) are respectively converted into P (*, C (“W G ”)), P (C ( "W G"), is replaced by a *). Note that “*” represents an arbitrary character string.
  • dialect language model creating unit 203 the elements ⁇ W G, W D ⁇ of the word string class C ( "W G") to, and distributes the appearance probability of the word sequence class C ( "W G"), P '(*, W G ), P' (W G , *), P '(*, W D ), P' (W D , *) are obtained.
  • Each of P ′ (*, W G ), P ′ (W G , *), P ′ (*, W D ), and P ′ (W D , *) represents the appearance probability of a word string including a dialect.
  • the following (Equation 2) to (Equation 5) are obtained.
  • the distribution rate ⁇ used in the above distribution is hereinafter referred to as “in-class distribution probability” or simply “distribution probability”.
  • a predetermined value is used as the intra-class distribution probability ⁇ .
  • P (*, C (“W * ”)), P (C (“W * “), *) are respectively calculated by the standard language model.
  • P ′ (*, C (“W * ”)) and P ′ (C (“W * ”), *) are obtained by recalculation with n-grams containing dialects added.
  • the appearance probabilities of the word strings ⁇ *, C (“W * ”) ⁇ and ⁇ C (“W * ”), * ⁇ are obtained.
  • "W *” in the above indicates that it is a W G or W D.
  • a constant value can be used as the intra-class distribution probability ⁇ .
  • the value of ⁇ may be changed for each conversion rule, or may be changed for each component of the rule, for example, the type of part of speech of a dialect word.
  • W G the number of elements in class C
  • (6) rather than limitations outlined below (Expression 7) The condition must be met.
  • the part of speech information is assumed to be the same, and the description of the part of speech is omitted.
  • n 3
  • the standard language language model stored in the standard language language model storage unit 202 has an appearance probability P (W i , say, etc.) of “W i , say, tat”. ) Is included (or required).
  • the dialect language model creation unit 203 reads the conversion rule stored in the conversion rule storage unit 201. For example, it is assumed that a pair of a standard word word string “say / ta” and a word string “say / ta” including a dialect is included in the conversion rule.
  • the word string “say / ta” including the dialect belongs to the same word string class C (“say / had”) as the standard word word string “say / ha”.
  • the class element of the word string class C (“say / had”) includes the word string “say / ta” of the standard word and the word string “say / ta” including the dialect.
  • the appearance probability of the n-gram including “say / ha” in the standard language language model is not the appearance probability of the word string “say / ha”, but the word string class C (“say” This corresponds to the appearance probability of “/ ta”).
  • the appearance probability of the n-gram including the standard word word string “say / ta” is calculated again, and the appearance probability of the n-gram including the word string “say / ta” including the dialect is obtained.
  • Appearance probabilities of word strings included in the word string class C (“say / ta”) can be obtained using the following (Equation 8) to (Equation 10).
  • P ′ (W j , Say, Ta) and P ′ (Wi, Say, Ta) are respectively the word strings “W j Say” in the recalculated dialect language model. It is the appearance probability of “T”, “W i say”. Further, ⁇ (say / had, W) represents the intra-class distribution probability for converting the word string class C (“say / had”) into the word string W. For n-grams in which none of the constituent component partial word strings are described in the conversion rule, the appearance probability value calculated by the standard language model is used as it is as shown in the following (Equation 11). .
  • FIG. 3 is a flowchart showing the operation of the language model creation device according to Embodiment 1 of the present invention.
  • the language model creating method in the first embodiment is performed by operating the language model creating apparatus 200.
  • the description of the language model creation method in the first embodiment is replaced with the following description of the operation of the language model creation device 200.
  • FIGS. 1 and 2 are referred to as appropriate.
  • the dialect language model creation unit 203 reads a conversion rule from the conversion rule storage unit 201, and extracts a set of a word string including only a standard word and a word string including a dialect according to the conversion rule. (Step S501).
  • the dialect language model creation unit 203 reads the standard language language model from the standard language language model storage unit 202, and regards a word string composed only of the standard words described in the conversion rule as one class (step S502). .
  • the dialect language model creation unit 203 further sets the appearance probability of a word string composed only of standard words as the appearance probability of a word string including a class.
  • the dialect language model creation unit 203 uses a word string composed only of standard words and a word string including a corresponding dialect as components of the class.
  • the dialect language model creation unit 203 uses the distribution probability ⁇ to determine the appearance probability of the word string including the class from only the standard word, which is a constituent element, according to the above (Expression 2) to (Expression 6).
  • a dialect language model is created by assigning to the word string and the word string including the corresponding dialect (step S503).
  • the dialect language model obtained in steps S501 to S503 is output from the language model creation apparatus 200 and used in, for example, a speech recognition apparatus.
  • the program according to the first embodiment may be a program including an instruction that causes a computer to execute steps S501 to S503 shown in FIG.
  • the language model creating apparatus 200 and the language model creating method according to the first embodiment can be realized.
  • a CPU (central processing unit) of the computer functions as the dialect language model creation unit 203 and performs processing.
  • the conversion rule storage unit 201 and the standard language language model storage unit 202 can be realized by storing data files constituting them in a storage device such as a hard disk provided in the computer.
  • the language model creation apparatus 200 creates a dialect language model based on the standard language language model and adds n-grams including dialects based on the conversion rules. .
  • the language model creation apparatus 200 according to the first embodiment can construct a robust language model. That is, in the first embodiment, as described above, an n-gram probability distribution including a dialect is obtained based on a robust probability distribution obtained from standard word data. For this reason, it is possible to obtain a robust probability distribution that could not be estimated by simply adding a small amount of dialect data to standard language data and creating a language model.
  • FIG. 4 is a block diagram showing the configuration of the language model creation device according to Embodiment 2 of the present invention.
  • the language model creation apparatus 210 includes a dialect data storage unit 213 that stores dialect data input from the outside or dialect data prepared in advance.
  • Dialect data is data having speech data including a dialect and text data including a dialect.
  • the dialect language model creation unit 214 differs from the dialect language model creation unit 203 shown in FIG. 1 in the first embodiment, using the dialect data, the value of the intra-class distribution probability ⁇ . Set.
  • the language model creation device 210 is configured in the same manner as the language model creation device 200 shown in FIG. That is, the conversion rule storage unit 211 is configured in the same manner as the conversion rule storage unit 201 shown in FIG. 1 in the first embodiment, and further performs the same operation. Further, the standard language language model storage unit 212 is configured in the same manner as the standard language language model storage unit 202 shown in FIG. 1 in the first embodiment, and further performs the same operation.
  • differences from the first embodiment will be specifically described.
  • Dialect data storage unit 213 sends the stored dialect data to dialect language model creation unit 214 in accordance with the instruction.
  • dialect data includes voice data recorded when the target dialect is spoken, text data transcribed from voice, and web pages such as blogs written in the dialect. This applies to text data including dialects existing above.
  • text data included in dialect data is generally not described only in dialects, but is text data in which dialects and standard words are mixed.
  • the dialect language model creation unit 214 takes out the appearance probability of the word string including the standard word from the standard language language model, as in the first embodiment, From the internal distribution probability ⁇ , the appearance probability of a word string including a dialect developed according to the conversion rule is calculated (estimated).
  • the method of setting the intra-class distribution probability ⁇ is different from the first embodiment.
  • the intra-class distribution probability ⁇ is set using dialect data stored in the dialect data storage unit 213 as described above.
  • correct data is added to dialect data for setting the intra-class distribution probability ⁇ .
  • the correct answer data is text data corresponding to the voice data created manually.
  • the dialect language model creation unit 214 sets the value of the intra-class distribution probability ⁇ , creates an n-gram including the dialect, and creates a dialect language model using the dialect data to which the correct answer data is added. And the dialect language model creation unit 214 acquires the result of speech recognition by the external speech recognition device using the newly created dialect language model and dialect data, and from the obtained speech recognition result and the correct answer data, Sets and updates the value of intra-class distribution probability ⁇ . Moreover, the dialect language model creation unit 214 can update the dialect language model and acquire the speech recognition result by using the updated intra-class distribution probability ⁇ , and recursively update the intra-class distribution probability ⁇ . . In this case, since the speech recognition apparatus performs speech recognition using the updated dialect language model, the dialect language model creation unit 214 acquires the result.
  • the dialect language model creation unit 214 performs initialization for each conversion rule type that is common to all conversion rules, for each conversion rule, or for each type of conversion rule such that the part of speech of a dialect is different. Set the value ⁇ 0 .
  • the dialect language model creation unit 214 uses the initial value ⁇ 0 to obtain appearance probabilities of all n-grams including n-grams including dialects, and creates a dialect language model.
  • the dialect language model is created in accordance with the conventional method described in the following reference.
  • the dialect language model creation unit 214 repeats the creation of the dialect language model until the evaluation function obtained from the speech recognition using the speech data included in the dialect data and the correct text data is converged, or a certain number of times. Run to adjust ⁇ .
  • the evaluation function include Perplexity and a function based on the number of appearances of dialect words during speech recognition.
  • the adjustment of the intra-class distribution probability ⁇ when the latter is used as the evaluation function will be described in more detail.
  • speech recognition using a created dialect language model is executed by using a speech recognition device (not shown in FIG. 4) with speech data including a dialect as an input. Then, the dialect language model creation unit 214 refers to correct data (correct text data) corresponding to the input speech data, and obtains the correctness of the speech recognition result in units of words. Thereafter, dialect language model creating unit 214, the word string W D including dialect included in the conversion rule, updating the distribution probability ⁇ class, for example, based on the following equation (12) and (Equation 13).
  • ⁇ j (W D ) indicates the intra-class distribution probability for the word string W D after being repeatedly executed j times
  • L j ⁇ 1 (W D ) is ⁇ j in the language model it created using the -1 represents the function for correctness number of word string W D in the result of speech recognition.
  • L j ⁇ 1 (W D ) for example, (Equation 14) is used for (Equation 12), and (Equation 15) is used for (Equation 13).
  • the "W number of times that has been substitution error in D" refers to the number of times that a substitution error.
  • ⁇ 1 ⁇ ⁇ 5 is a weight parameter, takes a negative value, which is independent on W D.
  • is a control parameter. In the above (Equation 14), the value is decreased as the value of j is increased, and in the above (Equation 15), the value is increased as the value of j is increased.
  • FIG. 5 is a flowchart showing the operation of the language model creation device according to Embodiment 2 of the present invention.
  • the language model creating method in the second embodiment is performed by operating the language model creating apparatus 210 as in the first embodiment. For this reason, the description of the language model creation method in the second embodiment is replaced with the following description of the operation of the language model creation device 210. In the following description, FIG. 4 is referred to as appropriate.
  • the dialect language model creation unit 214 extracts, from the conversion rule storage unit 211, a set of a word string that includes only standard words and a word string that includes a dialect according to the conversion rule (step S511). ).
  • the dialect language model creation unit 214 reads the standard language language model from the standard language language model storage unit 212 and classifies the word string (step S512). Steps S511 and S512, which are a series of operations, are the same steps as S501 and S502 shown in FIG. 3 in the first embodiment.
  • dialect language model creating unit 214 sets an initial value alpha 0 in the class distribution probability alpha in accordance with the conversion rules, using the initial value alpha 0 set, creating a dialect language model (step S513).
  • the dialect language model creation unit 214 repeatedly executes the creation of the dialect language model until the value of the evaluation function obtained from the result of speech recognition converges, or a predetermined number of times, in accordance with the above-described processing, and distributes within the class.
  • the probability ⁇ is updated (step S514).
  • the dialect language model creation unit 214 obtains the word appearance probability using the intra-class distribution probability ⁇ finally obtained by the update in step S514, and updates the dialect language model (step S515).
  • the dialect language model obtained in steps S511 to S515 is output from the language model creation device 210 and used, for example, in a speech recognition device.
  • the program according to the second embodiment may be a program including instructions that cause a computer to execute steps S511 to S515 shown in FIG.
  • the language model creating apparatus 210 and the language model creating method according to the second embodiment can be realized.
  • a CPU central processing unit
  • the conversion rule storage unit 211, the standard language language model storage unit 212, and the dialect data storage unit 213 store the data files constituting them in a storage device such as a hard disk provided in the computer. It can be realized by storing.
  • the intra-class distribution probability obtained so as to maximize the evaluation function is used, and the appearance probability of the word string including the dialect is used. Is required. For this reason, according to the second embodiment, it is possible to obtain the appearance probability of n-grams including dialects in accordance with actual data including dialects, as compared with the first embodiment. Further, in the second embodiment, when the intra-class distribution probability is obtained, the over-learning caused by learning from a small amount of dialect data is suppressed by limiting the number of repeated executions.
  • FIG. 6 is a block diagram showing the configuration of the language model creation device according to Embodiment 3 of the present invention.
  • the language model creation apparatus 300 includes a dialect data storage unit 302 that stores dialect data input from the outside or dialect data prepared in advance.
  • the dialect data storage unit 302 sends dialect data, which is text data including a dialect, to the conversion rule processing unit 303.
  • the language model creation device 300 includes a conversion rule processing unit 303.
  • the conversion rule processing unit 303 extracts a word string including a dialect from dialect data, and corrects the conversion rule based on the word string including the extracted dialect.
  • the conversion rule storage unit 301 updates the already stored conversion rule using the conversion rule corrected by the conversion rule processing unit 303.
  • the language model creating apparatus 300 is configured in the same manner as the language model creating apparatus 200 shown in FIG. That is, the dialect language model creation unit 305 is configured in the same manner as the dialect language model creation unit 203 shown in FIG. 1 in the first embodiment, and further performs the same operation.
  • the conversion rules stored in advance in the conversion rule storage unit 301 are the same as the conversion rules stored in the conversion rule storage unit 201 shown in FIG. 1 in the first embodiment.
  • the standard language language model storage unit 304 is configured in the same manner as the standard language language model storage unit 202 shown in FIG. 1 in the first embodiment, and further performs the same operation.
  • differences from the first embodiment will be specifically described.
  • the conversion rule storage unit 301 when the conversion rule storage unit 301 receives the corrected conversion rule sent from the conversion rule processing unit 303, the conversion rule storage unit 301 converts the already stored conversion rule into a corrected conversion rule. Replace with rules.
  • dialect data stored in the dialect data storage unit 302 is sent to the conversion rule processing unit 303.
  • the details of dialect data are as described in the second embodiment.
  • the conversion rule processing unit 303 determines the word string including the dialect from the dialect data. Is extracted, and a conversion rule is created based on the extracted word string and sent back to the conversion rule storage unit 301.
  • the conversion rule is composed of partial word strings of the extracted word strings. That is, the conversion rule processing unit 303 extracts word strings including dialects included in dialect data that is actual data from the initial conversion rules, and narrows down conversion rules.
  • word strings for a certain word string length is performed as follows.
  • a word string ⁇ W 1 ,..., W M ⁇ composed of M words is input, and m-th to m + i (m + i ⁇ M) among them are input.
  • The) th word ⁇ W m ,..., W m + i ⁇ is a dialect.
  • ⁇ W m ⁇ n + 1 ,..., W m + i + n ⁇ 1 ⁇ is extracted.
  • m + i> M ⁇ W m ⁇ n + 1 ,..., W M ⁇ is extracted.
  • the initial conversion rule may be given manually or may be acquired from existing data.
  • the conversion rule processing unit 303 selects n-grams not included in the standard language language model stored in the standard language language model storage unit 304 from the input dialect data. Identify. Then, the conversion rule processing unit 303 extracts, from the identified n-gram, a certain condition, for example, that satisfies all n words must have a specific part of speech, and the extracted n-gram is used as a conversion rule. You can also.
  • FIG. 7 is a flowchart showing the operation of the language model creation device according to Embodiment 3 of the present invention.
  • the language model creation method in the third embodiment is implemented by operating the language model creation device 300 as in the first embodiment. For this reason, the description of the language model creation method in the third embodiment is replaced with the following description of the operation of the language model creation device 300. In the following description, FIG. 6 is referred to as appropriate.
  • the conversion rule processing unit 303 converts a word string including a dialect described in the initial conversion rule from a text data including a dialect stored in the dialect data storage unit 302 into a certain word string. Only the length is extracted (step S601). Next, the conversion rule processing unit 303 replaces the existing conversion rule with the extracted word string (step S602). By step S602, the conversion rule is corrected.
  • the dialect language model creation unit 305 extracts a set of a word string composed only of standard words and a word string including a dialect according to the modified conversion rule (step S603). Subsequently, the dialect language model creating unit 305 reads the standard language language model from the standard language language model storage unit 304 and classifies the word string (step S604). Thereafter, the dialect language model creation unit 305 creates a dialect language model (step S605).
  • the dialect language model obtained in steps S601 to S605 is output from the language model creation device 300 and used in, for example, a speech recognition device. Steps S603 to S605 are the same as steps S501 to S503 shown in FIG. 3 in the first embodiment.
  • the program according to the third embodiment may be a program including an instruction that causes a computer to execute steps S601 to S605 shown in FIG.
  • the CPU central processing unit
  • the conversion rule storage unit 301, the standard language language model storage unit 304, and the dialect data storage unit 302 store the data files constituting them in a storage device such as a hard disk provided in the computer. It can be realized by storing.
  • the conversion rule processing unit 303 narrows down conversion rules so that the conversion rules are more in line with actual examples. For this reason, according to the third embodiment, an n-gram including a dialect is created based on an example, and this is added to the dialect language model, so that a language model that is more robust than the first embodiment is constructed.
  • Embodiment 4 Next, a language model creation device, a language model creation method, and a program according to Embodiment 4 of the present invention will be described with reference to FIG.
  • the language model creating apparatus according to the fourth embodiment is configured similarly to the language model creating apparatus 300 shown in FIG. 6 in the third embodiment.
  • the language model creation apparatus includes a conversion rule storage unit 301, a conversion rule processing unit 303, a standard language language model storage unit 304, a dialect language model creation unit 305, and a dialect data storage unit 302. (See FIG. 6).
  • the conversion rule processing unit 303 extracts a word string including a dialect from the input dialect data. Then, the conversion rule processing unit 303 derives a conversion pattern that can be used as a conversion rule by using the word string including the extracted dialect and the word string of the corresponding standard word.
  • the conversion rule storage unit 301 adds the conversion pattern derived by the conversion rule processing unit 303 to the already stored initial conversion rule, and updates the initial conversion rule.
  • the conversion rule processing unit 303 specifically performs the following four processes. First, when a word string including the dialect of the rule described in the conversion rule is included in the text data of the input dialect data, the conversion rule processing unit 303 converts the word string including the dialect into a certain word string. Extract only the length. The extraction of a certain word string length is performed in the same manner as in the third embodiment.
  • the conversion rule processing unit 303 extracts a word string pattern including a dialect from a word string including the extracted dialect. For example, “... / say (verb“ say ”, combined form) / te (verb“ tele ”, combined form) / ...” and “... / say (verb“ say ”, combined form) / te (verb)
  • a word string pattern of “say (verb“ say ”/ continuous form) / * (verb“ teru ”*)” is extracted.
  • “*” represents an arbitrary entry, and in the above-mentioned example, it means that it is applied to any usage word of the verb “teru”.
  • the conversion rule processing unit 303 derives a word string pattern of a standard word consisting only of standard words corresponding to the word string pattern including the extracted dialect, and converts the conversion pattern including the dialect and the word string of the standard word corresponding thereto. Create a conversion pattern that is a set of patterns.
  • “say (verb“ say ”/ continuous form) / * (verb“ teru ”*)”) is derived as the word string pattern of the standard word.
  • this process prepares a conversion table (a conversion table may use an existing conversion rule) in which the correspondence between a word string including a dialect and a word string consisting of only standard words is defined.
  • the conversion rule processing unit 303 refers to this table. This process can also be performed manually, for example.
  • the conversion rule processing unit 303 sends it to the conversion rule storage unit 301 as a conversion rule for adding the derived conversion pattern.
  • the conversion rule storage unit 301 updates the conversion rule.
  • the conversion rule processing unit 303 may perform the above-described series of processes on all input dialect data at once, for example, one file (one voice data, one voice data, It may be repeatedly executed for each (text data) or for each topic. In the case of repeating, the conversion rule processing unit 303 updates the conversion rule by sending the conversion pattern to the conversion rule storage unit 301 every time the above four processes are executed, and in the next process, the updated conversion rule is updated. 4 processes are executed.
  • the initial conversion rule stored in the conversion rule storage unit 301 before the conversion rule is created by the conversion rule processing unit 303 may be given manually or acquired from existing data. There may be.
  • the conversion rule processing unit 303 is an n-gram that is not included in the standard language language model stored in the standard language language model storage unit 304 from dialect data, It is also possible to extract what satisfies a certain condition and use the extracted n-gram as a conversion rule.
  • a certain condition for example, a condition such that all n words must have a specific part of speech can be cited.
  • FIG. 8 is a flowchart showing the operation of the language model creation device according to Embodiment 4 of the present invention.
  • the language model creating method in the fourth embodiment is performed by operating the language model creating apparatus. For this reason, the description of the language model creation method according to the fourth embodiment is replaced with the following description of the operation of the language model creation device. In the following description, FIG. 6 is referred to as appropriate.
  • the conversion rule processing unit 303 extracts a word string including a dialect described in the initial conversion rule from text data including the dialect by a certain word string length (step S611).
  • the conversion rule processing unit 303 extracts a word string pattern including a dialect from the extracted word string (step S612).
  • the conversion rule processing unit 303 creates a word string pattern consisting only of standard words corresponding to the word string pattern including the dialect extracted in step S612 (step S613). Then, the word string pattern including the dialect extracted in step S612 and the word string pattern including only the standard word generated in step S613 form a set of conversion patterns.
  • the conversion rule storage unit 301 updates the conversion rule (step S614).
  • the dialect language model creation unit 305 reads the standard language language model from the standard language language model storage unit 314 and classifies words according to the updated conversion rule (step S615). Thereafter, the dialect language model creation unit 305 creates a dialect language model (step S616).
  • the dialect language model obtained in steps S611 to S616 is output from the language model creation device and used in, for example, a speech recognition device. Steps S615 and S616 are the same as steps S502 and S503 shown in FIG. 3 in the first embodiment, respectively.
  • the program according to the fourth embodiment may be a program including an instruction for causing a computer to execute steps S611 to S616 shown in FIG.
  • a CPU central processing unit
  • the conversion rule storage unit 301, the standard language language model storage unit 304, and the dialect data storage unit 302 store the data files constituting them in a storage device such as a hard disk provided in the computer. It can be realized by storing.
  • a conversion pattern including a dialect derived from dialect data is added to the conversion rule, and thus an n-gram including a dialect is also added.
  • the deficiency of the word chain (n-gram) containing a dialect resulting from the learning from a small amount of dialect data can be eliminated.
  • the effects described in the first embodiment can be obtained.
  • FIG. 9 is a block diagram showing a configuration of a language model creation device according to Embodiment 5 of the present invention.
  • the language model creation apparatus 310 includes a conversion rule storage unit 311, a dialect data storage unit 312, a conversion rule processing unit 313, a standard language language model storage unit 314, and a dialect language model.
  • a creation unit 315 is provided.
  • each unit other than the dialect data storage unit 312 includes the conversion rule storage unit 301, the conversion rule processing unit 303, the standard language language model storage unit 304, and the dialect language model creation unit illustrated in FIG. 6 in the third embodiment. Functions in the same manner as 305.
  • the dialect language model creation unit 315 operates in the same manner as the dialect language model creation unit 214 shown in FIG. 4 in the second embodiment, and updates the intra-class distribution probability ⁇ . Yes (see FIG. 9).
  • the dialect data storage unit 312 sends dialect data to the dialect language model creation unit 315 in addition to the conversion rule processing unit 313.
  • the dialect data storage unit 312 can send the same dialect data or different dialect data to the conversion rule processing unit 313 and the dialect language model creation unit 315.
  • the language model creation apparatus 310 in the fifth embodiment is different from the language model creation apparatus 300 shown in FIG. 6 in the third embodiment in these points.
  • FIG. 10 is a flowchart showing the operation of the language model creation device according to Embodiment 5 of the present invention.
  • the language model creating method in the fifth embodiment is performed by operating the language model creating apparatus 310 as in the first embodiment.
  • the description of the language model creation method according to the fifth embodiment is replaced with the following description of the operation of the language model creation device.
  • FIG. 9 is referred to as appropriate.
  • the conversion rule processing unit 313 extracts a word string including the dialect described in the initial conversion rule from the text data including the dialect by a certain length (step S621).
  • the conversion rule processing unit 313 replaces the existing conversion rule with the extracted word string and corrects the conversion rule (step S622).
  • the dialect language model creation unit 315 reads the standard language language model from the standard language language model storage unit 314 and classifies the word string according to the updated conversion rule (step S623). Note that steps S621 to S623 are the same as steps S601, S602, and S604 shown in FIG. 7 in the third embodiment.
  • the dialect language model creation unit 315 sets the initial value ⁇ 0 of the intra-class distribution probability ⁇ according to the corrected conversion rule, and uses the set initial value ⁇ 0 to A model is created (step S624).
  • the dialect language model creation unit 315 obtains the result of speech recognition using the dialect language model created in step S624, and the dialect language model until the value of the evaluation function obtained from the result converges or a certain number of times. Is repeatedly executed to update the intra-class distribution probability ⁇ (step S625).
  • the dialect language model creating unit 315 obtains the word appearance probability using the intra-class distribution probability ⁇ finally obtained by the update in step S625, and updates the dialect language model (step S626).
  • Steps S624 to S626 are the same as steps S513 to S515 shown in FIG. 5 in the second embodiment.
  • the dialect language model obtained in steps S621 to S626 described above is output from the language model creation device according to the fifth embodiment, and is used in, for example, a speech recognition device.
  • the program according to the fifth embodiment may be a program including instructions that cause a computer to execute steps S621 to S626 shown in FIG.
  • a CPU central processing unit
  • the language model creation apparatus and language model creation method according to the fifth embodiment can be realized.
  • a CPU central processing unit
  • the conversion rule storage unit 311, the standard language language model storage unit 314, and the dialect data storage unit 312 store the data files constituting them in a storage device such as a hard disk provided in the computer. It can be realized by storing.
  • the processing shown in the second embodiment is performed in addition to the processing shown in the third embodiment. That is, in the fifth embodiment, conversion rules are narrowed down and intraclass distribution probability is optimized. According to the fifth embodiment, in addition to the effects described in the third embodiment, the effects described in the second embodiment can also be obtained.
  • the language model creation apparatus is configured similarly to the language model creation apparatus 310 shown in FIG. 9 in the fifth embodiment.
  • the conversion rule processing unit 313 operates in the same manner as the conversion rule processing unit shown in the fourth embodiment, and derives a conversion pattern.
  • the dialect language model creation unit 315 operates in the same manner as the dialect language model creation unit 214 shown in FIG. 4 in the second embodiment, and can update the intra-class distribution probability ⁇ .
  • the language model creation apparatus according to the sixth embodiment is different from the language model creation apparatus according to the fourth embodiment in this respect.
  • FIG. 11 is a flowchart showing the operation of the language model creation device according to Embodiment 6 of the present invention.
  • the language model creating method in the sixth embodiment is performed by operating the language model creating apparatus as in the first embodiment. For this reason, the description of the language model creation method according to the sixth embodiment is replaced with the following description of the operation of the language model creation device. In the following description, FIGS. 4 and 6 are referred to as appropriate.
  • the conversion rule processing unit 313 extracts a word string including a dialect described in an initial conversion rule from text data including a dialect by a certain word string length (step S631).
  • the conversion rule processing unit 313 extracts a word string pattern including a dialect from the extracted word string (step S632).
  • the conversion rule processing unit 313 creates a word string pattern consisting only of standard words corresponding to the word string pattern including the dialect extracted in step S632 (step S633).
  • the word string pattern including the dialect extracted in step S632 and the word string pattern including only the standard word generated in step S633 form a set of conversion patterns.
  • the conversion rule storage unit 311 updates the conversion rule (step S634).
  • the dialect language model creation unit 315 reads the standard language language model from the standard language language model storage unit 314 and classifies the word string according to the updated conversion rule (step S635).
  • Steps S631 to S635 are the same as steps S611 to S615 shown in FIG. 8 in the fourth embodiment.
  • the dialect language model creation unit 315 sets the initial value ⁇ 0 of the intraclass distribution probability ⁇ in accordance with the updated conversion rule, and uses the set initial value ⁇ 0 to A model is created (step S636).
  • the dialect language model creation unit 315 obtains the result of speech recognition using the dialect language model created in step S636, and the dialect language model until the value of the evaluation function obtained from the result converges or a certain number of times. Is repeatedly executed to update the intra-class distribution probability ⁇ (step S637).
  • the dialect language model creation unit 315 obtains the word appearance probability using the intra-class distribution probability ⁇ finally obtained by the update in step S637, and further updates the dialect language model from the obtained appearance probability ( Step S638).
  • Steps S636 to S638 are the same as steps S513 to S515 shown in FIG. 5 in the second embodiment.
  • the dialect language model obtained in steps S631 to S638 described above is output from the language model creation device according to the sixth embodiment, and is used in, for example, a speech recognition device.
  • the program in the sixth embodiment may be a program including an instruction for causing a computer to execute steps S631 to S638 shown in FIG.
  • a central processing unit (CPU) of the computer functions as a dialect language model creation unit 315 and a conversion rule creation unit 313 to perform processing.
  • the conversion rule storage unit 311, the standard language language model storage unit 314, and the dialect data storage unit 312 store the data files constituting them in a storage device such as a hard disk provided in the computer. It can be realized by storing.
  • the processing shown in the second embodiment is performed in addition to the processing shown in the fourth embodiment. That is, in the sixth embodiment, conversion rules are added and intra-class distribution probability is optimized. According to the sixth embodiment, in addition to the effects described in the fourth embodiment, the effects described in the second embodiment can also be obtained.
  • FIG. 12 is a block diagram showing the configuration of the language model creation device according to Embodiment 7 of the present invention.
  • the language model creation device 400 has a standard language language model creation unit 406 instead of the standard language language model storage unit shown in the first to sixth embodiments. It has. Further, the language model creation device 400 includes a conversion data creation unit 403, a conversion data storage unit 404, and a standard word data storage unit 405.
  • the conversion data creation unit 403 extracts a word string including a dialect from text data included in the dialect data, and converts the word string including the extracted dialect into a word string including only the standard word using a conversion rule.
  • the conversion data creation unit 403 is constructed in the conversion rule processing unit 408.
  • the conversion rule processing unit 408 can function in the same manner as the conversion rule processing unit 303 shown in FIG. 6 in the third or fourth embodiment.
  • the conversion data storage unit 404 stores, as conversion data, a word string including only standard words obtained by the conversion by the conversion data creation unit 403.
  • the standard word data storage unit 405 stores standard language text data.
  • the standard language language model creation unit 406 uses the conversion data stored in the conversion data storage unit 404 and the standard language text data stored in the standard word data storage unit 405 to generate a standard language model. create.
  • the language model creation device 400 also includes a dialect data storage unit 402.
  • the dialect data storage unit 402 functions in the same manner as the dialect data storage unit 302 shown in FIG. 6 in the third embodiment.
  • the language model creation device 400 is configured in the same manner as the language model creation device 200 shown in FIG. That is, the dialect language model creation unit 407 is configured in the same manner as the dialect language model creation unit 203 shown in FIG. 1 in the first embodiment, and further performs the same operation.
  • the conversion rule storage unit 401 is configured in the same manner as the conversion rule storage unit 301 shown in FIG. 6 in the third embodiment, and further performs the same operation. The difference from Embodiments 1 to 6 will be specifically described below.
  • the conversion data creation unit 403 (conversion rule processing unit 408) first, like the conversion rule processing unit 303 shown in FIG. 6 in the third embodiment, first includes a word string including a dialect described in the conversion rule. Are included in the input dialect data, a word string including the dialect is extracted by a certain word string length. Then, the conversion data creation unit 403 sends the extracted word string back to the conversion rule storage unit 401.
  • the conversion data creation unit 403 converts dialect data into text data consisting only of standard words according to the rules described in the conversion rules, creates conversion data, and sends this to the conversion data storage unit 404.
  • the conversion data storage unit 404 stores text data of standard words created by the conversion data creation unit 403 as conversion data.
  • the standard language text data stored in the standard language data storage unit 405 is used for learning when the standard language language model creation unit 406 creates the standard language model. Text data.
  • the standard language language model creation unit 406 calculates the appearance probability of the word n-gram from the conversion data stored in the conversion data storage unit 404 and the text data of the standard word stored in the standard word data storage unit 405. And create a standard language model.
  • the creation of the standard language model can also be performed in the seventh embodiment in accordance with the conventional method described in the reference described in the second embodiment. However, in the seventh embodiment, since a plurality of text data is used to create the standard language model, linear interpolation using the following (Equation 18) is performed.
  • is a parameter that takes a value between 0 and 1.
  • P G (W i ⁇ 2 , W i ⁇ 1 , W i ) represents the appearance probability calculated from the standard word data
  • P D (W i ⁇ 2 , W i ⁇ 1 , W i ) represents the converted data. Appearance probability calculated from. P (W i ⁇ 2 , W i ⁇ 1 , W i ) indicates the appearance probability after linear interpolation.
  • FIG. 13 is a flowchart showing the operation of the language model creation device according to Embodiment 7 of the present invention.
  • the language model creation method in the seventh embodiment is implemented by operating the language model creation device 400 as in the first embodiment. For this reason, the description of the language model creation method in the seventh embodiment is replaced with the following description of the operation of the language model creation device 400. In the following description, FIG. 12 is referred to as appropriate.
  • the conversion data creation unit 403 constructed in the conversion data processing 408 reads a conversion rule, converts a dialect into a standard language according to the conversion rule, and creates conversion data (step S701).
  • the created conversion data is stored in the conversion data storage unit 404.
  • the conversion rule processing unit 408 extracts a set of a word string including a dialect and a word string including only a corresponding standard word from the conversion rule (step S702). Further, the conversion rule processing unit 408 corrects the conversion rule by using a set of a word string including the extracted dialect and a word string including only the corresponding standard word (step S703). Thereby, the conversion rule memorize
  • the standard language language model creating unit 406 uses the conversion data stored in the conversion data storage unit 404 and the standard language text data stored in the standard word data storage unit 405 to use the standard language language model. Is created (step S704). Note that step S704 may be performed in parallel with steps S702 and S703.
  • the dialect language model creation unit 407 reads the standard language language model created by the standard language language model creation unit 406 and classifies the word string according to the updated conversion rule (step S705).
  • the dialect language model creation unit 407 creates a dialect language model (step S706).
  • the dialect language model obtained in steps S701 to S706 is output from the language model creation device 400 and used, for example, in a speech recognition device. Note that steps S705 and S706 are the same as steps S502 and S503 shown in FIG. 3 in the first embodiment.
  • the program according to the seventh embodiment may be a program including instructions that cause a computer to execute steps S701 to S706 shown in FIG.
  • a CPU central processing unit
  • the language model creating apparatus 400 and the language model creating method according to the seventh embodiment can be realized.
  • a CPU central processing unit
  • the conversion rule storage unit 401, the conversion data storage unit 404, the standard word data storage unit 405, and the dialect data storage unit 402 are stored in a storage device such as a hard disk provided in the computer. This can be realized by storing the data file to be configured.
  • a standard language language model is created using conversion data obtained by converting dialect data into a standard language. Therefore, the standard language language model can be easily configured to create a dialect language model. Therefore, n-grams of word strings that originally included dialects and could not be used for learning of the standard language language model can be added to the learning data of the standard language language model.
  • the same n-gram as the n-gram actually included in the dialect data can be learned.
  • n-grams of converted data obtained by converting n-grams including dialects into standard words include n-grams that cannot be covered only by the standard word text stored in the standard word data storage unit 405. is there. Therefore, in the seventh embodiment, a language model that is more robust than that in the first embodiment can be constructed.
  • the seventh embodiment when the seventh embodiment is used, the same effect as that of the third embodiment can be obtained.
  • FIG. 14 is a block diagram showing a configuration of a language model creation device according to Embodiment 8 of the present invention.
  • the language model creation apparatus 410 includes a conversion rule storage unit 411, a conversion rule processing unit 418, a conversion data storage unit 414, a standard word data storage unit 415, a standard And a language language model creation unit 416.
  • the language model creation device 410 also includes a dialect language model creation unit 417 and a dialect data storage unit 412.
  • a conversion data creation unit 413 is constructed in the conversion rule processing unit 418.
  • the conversion data creation unit 413 has a function of creating a conversion rule similar to that of the conversion data creation unit 403 shown in FIG.
  • the dialect language model creation unit 417 operates in the same manner as the dialect language model creation unit 315 shown in FIG. 9 in the fifth embodiment, and updates the intra-class distribution probability ⁇ . can do.
  • the language model creation device 410 is configured in the same manner as the language model creation device 400 shown in FIG. 12 in the seventh embodiment. Except for the dialect language model creation unit 417 and the dialect data storage unit 412, each unit of the language model creation device 410 operates in the same manner as each unit of the language model creation device 400.
  • FIG. 15 is a flowchart showing the operation of the language model creation device according to Embodiment 8 of the present invention.
  • the language model creation method in the eighth embodiment is implemented by operating the language model creation device 410 as in the first embodiment. For this reason, the description of the language model creation method in the eighth embodiment is replaced with the following description of the operation of the language model creation device 410. In the following description, FIG. 14 is referred to as appropriate.
  • the conversion data creation unit 413 reads the conversion rule, converts the dialect into text consisting of only standard words according to the conversion rule, and creates conversion data (step S711).
  • Step S711 is the same as step S701 shown in FIG.
  • Step S712 is the same as step S702 shown in FIG.
  • the conversion data creation unit 413 creates a word string pattern composed of only standard words extracted in step S712 (step S713).
  • the word string including the dialect extracted in step S711 and the word string including only the standard word generated in step S713 form a set of conversion patterns.
  • Step S714 when the conversion data creation unit 413 sends the created conversion pattern to the conversion rule storage unit 411 and adds it to the existing conversion rule, the conversion rule storage unit 411 updates the conversion rule (step S714). . Steps S713 and S714 are similar to steps S613 and S614 shown in FIG.
  • the standard language language model creation unit 416 uses the conversion data stored in the conversion data storage unit 414 and the text data of the standard words stored in the standard word data storage unit 415 to use the standard language language model. Is created (step S715). Note that step S715 may be performed in parallel with steps S712 to S714. Step S715 is the same as step S704 shown in FIG.
  • the dialect language model creation unit 417 reads the standard language language model created by the standard language language model creation unit 416 and classifies the word string (step S716).
  • the dialect language model creation unit 417 sets the initial value ⁇ 0 of the intraclass distribution probability ⁇ in accordance with the updated conversion rule, and uses the set initial value ⁇ 0 to A model is created (step S717).
  • the dialect language model creation unit 417 acquires the result of speech recognition using the dialect language model created in step S717, and the dialect language model until the value of the evaluation function obtained from the result converges or a certain number of times. Is repeatedly executed to update the intra-class distribution probability ⁇ (step S718).
  • the dialect language model creation unit 417 obtains the word appearance probability using the intra-class distribution probability ⁇ finally obtained by the update in step S718, and further updates the dialect language model from the obtained appearance probability ( Step S719).
  • the dialect language model obtained in steps S711 to S719 is output from the language model creation device 410 and used in, for example, a speech recognition device. Steps S716 to S719 are the same as steps S635 to S638 shown in FIG. 11 in the sixth embodiment.
  • the program according to the eighth embodiment may be a program including an instruction for causing a computer to execute steps S711 to S719 shown in FIG.
  • a CPU central processing unit
  • the language model creating apparatus 410 and the language model creating method according to the eighth embodiment can be realized.
  • a CPU central processing unit
  • the conversion rule storage unit 411, the conversion data storage unit 414, the standard word data storage unit 415, and the dialect data storage unit 412 are stored in a storage device such as a hard disk provided in the computer. This can be realized by storing the data file to be configured.
  • a standard language model is created using conversion data obtained by converting dialect data into a standard language, as in the seventh embodiment. Therefore, also in the case of the eighth embodiment, when creating a dialect language model, it is possible to perform learning using the same n-gram as the n-gram actually included in the dialect data. Therefore, as described in the seventh embodiment, a language model that is more robust than the first embodiment can also be constructed in the eighth embodiment. Also, when the eighth embodiment is used, the same effects as those of the second, fourth, and sixth embodiments can be obtained.
  • FIG. 16 is a block diagram showing an example of a computer that implements the language model creation apparatus according to Embodiments 1 to 8 of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the CPU 110 performs various operations by developing the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 include a semiconductor storage device such as a flash memory in addition to a hard disk.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash) and SD (Secure Digital), magnetic storage media such as a flexible disk, or CD-ROM (Compact Disk). Optical storage media such as Read Only Memory).
  • general-purpose semiconductor storage devices such as CF (Compact Flash) and SD (Secure Digital)
  • magnetic storage media such as a flexible disk, or CD-ROM (Compact Disk).
  • CD-ROM Compact Disk
  • Optical storage media such as Read Only Memory).
  • the language model creation device, language model creation method, and computer-readable recording medium according to the present invention have the following characteristics.
  • a language model creation device that creates a new language model using a standard language language model created from standard language text
  • a conversion rule storage unit for storing a conversion rule for converting a word string including a dialect into a word string of a standard word; Applying the conversion rules to word n-grams in the standard language model to create an n-gram containing the dialect, further adding the created n-gram containing the dialect to the word n-gram,
  • a dialect language model creation section for creating a new language model;
  • a language model creation device characterized by comprising:
  • the conversion rule storage unit stores, as the conversion rule, a set of a word string including the dialect and a word string including a standard word corresponding to the dialect
  • the dialect language model creation unit extracts an appearance probability of a word string including the standard word from the standard language language model, and uses the extracted appearance probability and a preset distribution probability to generate an n-gram including the dialect.
  • the language model creation device according to (1), wherein the appearance probability is calculated.
  • the dialect language model creation unit sets the distribution probability value, creates an n-gram including the dialect, and creates the new language model, A result of speech recognition by an external speech recognition device using the new language model and the dialect data is acquired, and the value of the distribution probability is obtained from the acquired speech recognition result and correct data of the dialect data.
  • the language model creation device according to (3) which is updated.
  • the data creation unit extracts a word string including a dialect from the dialect data, corrects the conversion rule based on the extracted word string including the dialect,
  • the conversion rule storage unit updates the conversion rule already stored using the conversion rule modified by the conversion rule processing unit;
  • the language model creation device according to (8) above.
  • the conversion data creation unit extracts a word string including a dialect from the dialect data, a word string including the extracted dialect, and a word string of a standard word corresponding to the extracted word string including the dialect
  • the language model creation device according to (8) above, wherein a conversion pattern that can be used as the conversion rule is derived using.
  • a method for creating a new language model using a standard language language model created from a standard language text (A) setting a conversion rule for converting a word string including a dialect into a word string of a standard word; (B) Applying the conversion rule to a word n-gram in the standard language model to create an n-gram containing the dialect, and further adding the created n-gram containing the dialect to the word n-gram Creating the new language model, and
  • a language model creation method characterized by comprising:
  • step (a) a set of a word string including the dialect and a word string including a standard word corresponding to the dialect is set as the conversion rule
  • step (b) After creating the n-gram including the dialect, the appearance probability of the word string including the standard word is extracted from the standard language model, and the addition of the same set is performed from the extracted appearance probability and a preset distribution probability.
  • a word string including the dialect is extracted from dialect data having speech data including the dialect and text data including the dialect, and a word string including the extracted dialect is extracted using the conversion rule. Convert to a word string containing only standard words, steps, (H) further comprising the step of creating the standard language model using the word string including only the standard word converted in the step (g) and the text data of the standard word, The language model creation method according to 12).
  • a computer-readable recording medium on which a program for executing a new language model using a standard language language model created from a standard language text is recorded.
  • the computer setting a conversion rule for converting a word string including a dialect into a word string of a standard word;
  • step (a) a set of a word string including the dialect and a word string including a standard word corresponding to the dialect is set as the conversion rule,
  • step (b) After the n-gram including the dialect is created, the appearance probability of the word string including the standard word is extracted from the standard language model, and the same set of the addition is added from the extracted appearance probability and a preset distribution probability.
  • the program is stored in the computer.
  • (C) extracting a word string including a dialect from the dialect data, and correcting the conversion rule based on the extracted word string including the dialect;
  • (D) updating the conversion rule already set in the step (a) with the conversion rule modified in the step (c), and executing the step.
  • (20) The computer-readable recording medium according to (20).
  • the program is stored in the computer.
  • (E) extracting a word string including a dialect from the dialect data, extracting a word string of a standard word corresponding to the extracted word string including the dialect from the standard language model, and including the extracted dialect
  • the computer-readable computer program product according to (20) further including an instruction that uses a word string and the extracted word string of the standard word to derive a conversion pattern that can be used as the conversion rule, recoding media.
  • the program is stored in the computer.
  • (F) After setting the value of the distribution probability, creating the n-gram including the dialect, and creating the new language model in the step (b), the new language model and the dialect data are Obtaining a result of speech recognition by the used external speech recognition device, and updating the value of the distribution probability used in the step (b) from the obtained speech recognition result and correct data of the dialect data;
  • the program is stored in the computer.
  • G Extracting a word string including the dialect from dialect data having speech data including the dialect and text data including the dialect, and using the conversion rule, extract a word string including the extracted dialect as a standard word Converting to a word string containing only, and
  • H using the word string including only the standard word converted in the step (g) and the text data of the standard word, creating the standard language model, and executing the step.
  • the present invention can be applied to uses such as a language model creation device that creates a language model from a text corpus and a program for realizing the language model by a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成する言語モデル作成装置200を用いる。言語モデル作成装置200は、方言を含む単語列を標準語の単語列に変換するための変換ルールを記憶する変換ルール記憶部201と、標準語言語モデル中の単語nグラムに変換ルールを適用して、方言を含むnグラムを作成し、更に、作成した方言を含むnグラムを単語nグラムに追加して、新たな言語モデル(方言言語モデル)を作成する方言言語モデル作成部203とを備えている。

Description

言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
 本発明は、言語モデル作成装置、言語モデル作成方法、及びコンピュータ読み取り可能な記録媒体に関し、特には、方言を含む音声の音声認識を可能にする言語モデル作成装置、言語モデル作成方法、及びコンピュータ読み取り可能な記録媒体に関する。
 音声認識とは、人間の音声をテキストに変換する処理のことであり、近年では音声認識システムに統計的なモデルを用いるのが一般的である。すなわち、入力の音声をX、出力の文字列をWとすると、音声認識は、入力Xに対する事後確率P(W|X)が最大となる単語列Wを出力する処理となる。事後確率P(W|X)は定式化でき、具体的には、ベイズ則を用いて下記の(数1)によって表される。
Figure JPOXMLDOC01-appb-M000001
 ここで、上記(数1)において、P(X|W)、P(W)を与える確率モデルは、それぞれ音響モデル、言語モデルと呼ばれ、コーパスと呼ばれる大規模な電子的な音声・言語データを用いて学習される。このうち、言語モデルとしては、直前のn-1単語から後続単語の出現確率を予測するnグラムモデルが広く用いられており、頑健に認識するためには大量のテキストが必要となる。
 また、音声認識において高い認識精度を実現するためには、入力音声の環境と同じ環境で録取したデータによって、音声認識用の音響モデル及び言語モデルを学習することが望ましい。入力音声の環境と同じ環境から録取したデータとしては、音響モデルにおいては、同一話者の音声データや、同じ種類の音(雑音等)のデータが挙げられる。また、言語モデルにおいては、入力音声と、話し方のスタイル及び話題の点で同一となるデータが挙げられる。
 話し方に関して、例えば、新聞などの書き言葉と人間が日常に話す言葉(話し言葉)とは異なっている。よって、入力音声がニュースの読み上げである場合には、同種の(書き言葉に比較的近い)読み上げのデータを用いて言語モデルの学習を行うと、高い認識精度を実現できる。また、入力音声が会話文である場合には、話し言葉のコーパスを使用して言語モデルの学習を行うことで、高い認識精度を実現できる。
 話し言葉の研究は様々な企業、研究機関で盛んに行われている。なお、従来では話し言葉のコーパスを収集するのが困難であったため書き言葉がコーパスとして用いられていたが、近年では日本語話し言葉コーパス(CSJ)等に代表される話し言葉を中心とした大規模なコーパスが収集され、これらが言語モデルの学習に広く用いられている。
 ところで、上述の書き言葉、話し言葉のコーパスというのはいずれも標準語で記述されたものであり、現状では整備された方言のコーパスはほとんど存在していない。そのため、これまで、方言を対象とした言語モデルの作成は行われておらず、その作成方法は一般的には知られていなかった。
 但し、方言は、標準語の語彙と、当該方言が使われる地方独自の語彙とから構成されている。また、地方独自の語彙の多くは、標準語の語彙を用いて言い換えることが可能である。つまり、標準語の語彙(及び言い回し)を、別の、方言を含む語彙(及び言い回し)に変換することができる。
 よって、対象となるタスク(対象タスク)の言語モデルを作成できない場合に、対象タスク以外の一般的なタスクに関するテキストデータを用いて、対象タスクの言語モデルを作成する方法(例えば、特許文献1参照。)を利用することが考えられる。具体的には、標準語を一般的なタスクとみなし、方言を対象タスクとみなして、特許文献1に開示の言語モデル作成方法を実施することで、方言を対象とした言語モデルを作成できると考えられる。
 ここで、図17を用いて、特許文献1に開示の言語モデル作成方法を実施する言語モデル学習装置(言語モデル作成装置)について説明する。図17は、従来の言語モデル学習装置の構成を示すブロック図である。図17に示す言語モデル学習装置は、特許文献1に開示されている言語モデル学習装置である。
 図17に示すように、言語モデル学習装置は、対象タスク言語データ記憶部101と、一般タスク言語データ記憶部102と、類似単語対抽出手段103と、類似単語列合成手段104と、言語モデル生成手段105とから構成されている。対象タスク言語データ記憶部101は、対象タスクのテキストデータを保持している。一般タスク言語データ記憶部102は、対象タスク以外のタスクを含む一般タスクのテキストデータを保持している。
 このような構成を有する、図17に示す従来の言語モデル学習装置は、次のように動作する。先ず、類似単語対抽出手段103、類似単語列合成手段104、及び言語モデル生成手段105は、対象タスク言語データ記憶部101と、一般タスク言語データ記憶部102とから、それぞれの保持する言語モデル学習用のデータを読み込む。
 次に、類似単語対抽出手段103は、それぞれから読み込んだデータに含まれる単語の任意の組み合わせについて、予め定義された距離尺度に基づいて単語間距離を計算する。単語間距離としては、n-gram出現確率のユークリッド距離、又はクロスエントロピーを用いることができる。そして、類似単語抽出手段103は、この単語間距離の算出値が予め設定された値よりも小さい場合に、その類似単語対を類似単語列合成手段104に送る。なお、以降において、類似単語対のうち、対象タスクのテキストデータに含まれる単語をw、一般タスクのテキストデータに含まれる単語をWと記す。
 次に、類似単語列合成手段104は、対象タスク言語データ記憶部101及び一般タスク言語データ記憶部102に記憶されている任意の長さの単語列をそれぞれから取り出す。そして、類似単語列合成手段104は、類似単語対抽出手段103から読み込んだ類似単語対W(W、W)を参照し、対象タスクの各単語列について、一般タスク内の単語Wが含まれているか否かを判定する。
 そして、類似単語列合成手段104は、対象タスクの単語列に一般タスク内の単語Wが含まれていた場合は、その単語列において、一般タスク内の単語Wを対象タスク内の単語Wに置き換える。更に、類似単語合成手段104は、置き換えが行われた単語列が一般タスクまたは対象タスクの言語データに存在するかどうかを判定し、存在しない場合に、置き換えが行われた単語列を言語モデル生成手段105に送る。
 最後に、言語モデル生成手段105は、対象タスク言語データ記憶部101に含まれるテキストデータと、一般タスク言語データ記憶部102に含まれるテキストデータと、類似単語列合成手段104より送られてきた単語列のデータとを用いて言語モデルを作成する。
 図17に示す言語モデル学習装置によれば、対象タスク言語データ記憶部101に、方言のテキストデータを保持させ、一般タスク言語データ記憶部102に標準語のテキストデータを保持させておくことで、方言を対象とした言語モデルの作成が可能になると考えられる。
特開2002-342323号公報(第13-14頁、第1図)
 しかしながら、上記特許文献1に開示の言語モデル学習装置では、単語連鎖と確率分布との類似性を元に単語対が抽出されるが、抽出された単語対の関係性は保証されていない。よって、対象タスクの単語(方言)に対して適切な出現確率が与えられず、方言を対象とした言語モデルを適切に作成することは困難である。
 つまり、上記特許文献1に開示の言語モデル学習装置は、一般タスクのテキストデータ及び対象タスクのテキストデータそれぞれに対して確率分布を求め、一般タスクと対象タスクとを比較し、類似する確率分布及び単語連鎖を有する単語対を抽出する。このとき、方言に対応する対象タスクのテキストデータが少量であると、一般タスクと比較される対象タスクにおいて、そのテキストデータから学習された確率分布は、頑健ではなくなる。また、nグラムの総数及び種類数ともに限られてしまう。
 よって、上記特許文献1に開示の言語モデル学習装置では、適切な単語対を抽出することができない場合があり、その単語対を元に作成された方言を含むnグラムに対して適切な出現確率が付与することは極めて困難である。この結果、入力音声に方言が含まれている場合に本方式で作成された言語モデルを用いて音声認識を行っても正しく結果を出力させることは困難となる。
 本発明の目的は、上記問題を解消し、入力音声に方言が含まれている場合であっても頑健な認識を可能にする言語モデルを作成し得る、言語モデル作成装置、言語モデル作成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明における言語モデル作成装置は、標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成する言語モデル作成装置であって、
 方言を含む単語列を標準語の単語列に変換するための変換ルールを記憶する変換ルール記憶部と、
 前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する方言言語モデル作成部と、
を備えていることを特徴とする。
 また、上記目的を達成するため、本発明における言語モデル作成方法は、標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成するための方法であって、
(a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
(b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
を有することを特徴とする。
 上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、標準語のテキストから作成された標準語言語モデルを用いる新たな言語モデルの作成をコンピュータによって実行するためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータによって、
(a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
(b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
 以上の特徴により、本発明における言語モデル作成装置、言語モデル作成方法、及びコンピュータ読み取り可能な記録媒体によれば、入力音声に方言が含まれている場合であっても頑健な認識を可能にする言語モデルを作成できる。
図1は、本発明の実施の形態1における言語モデル作成装置の構成を示すブロック図である。 図2は、本発明の実施の形態で用いられる変換ルールの一例を示す図である。 図3は、本発明の実施の形態1における言語モデル作成装置の動作を示すフロー図である。 図4は、本発明の実施の形態2における言語モデル作成装置の構成を示すブロック図である。 図5は、本発明の実施の形態2における言語モデル作成装置の動作を示すフロー図である。 図6は、本発明の実施の形態3における言語モデル作成装置の構成を示すブロック図である。 図7は、本発明の実施の形態3における言語モデル作成装置の動作を示すフロー図である。 図8は、本発明の実施の形態4における言語モデル作成装置の動作を示すフロー図である。 図9は、本発明の実施の形態5における言語モデル作成装置の構成を示すブロック図である。 図10は、本発明の実施の形態5における言語モデル作成装置の動作を示すフロー図である。 図11は、本発明の実施の形態6における言語モデル作成装置の動作を示すフロー図である。 図12は、本発明の実施の形態7における言語モデル作成装置の構成を示すブロック図である。 図13は、本発明の実施の形態7における言語モデル作成装置の動作を示すフロー図である。 図14は、本発明の実施の形態8における言語モデル作成装置の構成を示すブロック図である。 図15は、本発明の実施の形態8における言語モデル作成装置の動作を示すフロー図である。 図16は、本発明の実施の形態1~8における言語モデル作成装置を実現するコンピュータの一例を示すブロック図である。 図17は、従来の言語モデル作成装置の構成を示すブロック図である。
 (実施の形態1)
 以下、本発明の実施の形態1における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図1、図2、及び図3を参照しながら説明する。最初に、本実施の形態1における言語モデル作成装置について図1及び図2を用いて説明する。図1は、本発明の実施の形態1における言語モデル作成装置の構成を示すブロック図である。
 図1に示す本実施の形態1における言語モデル作成装置200は、標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデル(以下「方言言語モデル」という。)を作成する装置である。図1に示すように、言語モデル作成装置200は、変換ルール記憶部201と、方言言語モデル作成部203とを備えている。本実施の形態1では、言語モデル作成装置200は、更に、標準語言語モデルを記憶する標準語言語モデル記憶部202も備えている。
 変換ルール記憶部201は、方言を含む単語列を標準語の単語列に変換するための変換ルールを記憶している。また、方言言語モデル作成部203は、標準語言語モデル中の単語nグラムに変換ルールを適用して、方言を含むnグラムを作成する。更に、方言言語モデル作成部203は、作成した方言を含む単語nグラムを既存の単語nグラムに追加して、方言言語モデルを作成する。
 このように、本実施の形態1では、方言と標準語との間の変換ルールに基づき、標準語言語モデルに含まれるnグラムから、方言を含むnグラムが作成される。また、標準語言語モデルは、大量の標準語のデータを用いて学習することによって作成された頑健な言語モデルである。つまり、本実施の形態1では、後述するように、膨大なテキストから学習され、且つ、信頼可能なnグラムの出現確率を用いて、方言を含むnグラムの確率値が計算される。このため、本実施の形態1によれば、入力音声に方言が含まれている場合であっても頑健な認識を可能にする言語モデルが作成される。
 次いで、図1に加え、図2を用いて、本実施の形態1における言語モデル作成装置200の構成を更に具体的に説明する。図2は、本発明の実施の形態で用いられる変換ルールの一例を示す図である。
 本実施の形態1では、標準語言語モデル記憶部202によって記憶されている標準語言語モデルは、標準語のみからなるテキストによる学習によって作成された言語モデルである。変換ルール記憶部201は、変換ルールとして、方言を含む単語列と、この方言に対応する標準語のみからなる単語列との組を記憶している。また、本実施の形態1では、方言言語モデル作成部203は、標準語言語モデル記憶部202に記憶された標準語言語モデルを用いて方言の単語に適切な確率値を配分する。
 言い換えると、方言言語モデル作成部203は、変換ルールを用いて、方言を含むnグラムを作成した後に、標準語言語モデルから、標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、同じ組の方言を含む単語列の出現確率を算出(推定)する。そして、方言言語モデル作成部203は、算出した同じ組の方言を含む単語列及びその出現確率を標準語言語モデルに追加して方言言語モデルを作成する。
 ここで、変換ルール記憶部201によって記憶されている変換ルールと、方言言語モデル作成部203の動作とについて以下に説明する。変換ルール記憶部201は、上述したように、方言を含む単語列を標準語の単語列に変換するルールを記述した変換ルールを記憶する。変換ルールの例を図2に示す。図2に示すテーブルでは、1列目に、方言を含む単語列が記述され、2列目に、1列目の方言を含む単語列に対応する標準語の単語列が記述されている。即ち、1行目の例においては、単語列「言う/た」は方言の単語「言う」を含み、且つ、この方言を含む単語列に対応する、標準語のみからなる単語列が「言っ/た」であることを意味している。
 なお、本実施の形態1において、変換ルールは、人手によって与えられていても良いし、既存のデータから取得されたものであっても良い。また、図2は、語数が2の場合(n=2の場合)を例示しているが、語数(n)は特に限定されるものではなく、可変である。
 方言言語モデル作成部203は、具体的には、以下の処理を行う。先ず、方言言語モデル作成部203は、変換ルールを参照し、方言を含む単語列(Wとする)と標準語のみからなる単語列(Wとする)との組を取り出す。このとき、WとWとは同一の文脈、同一の意味を持った単語列であり、言い換え表現である。よって、WをWに置き換えて得られた、方言を含む単語列は、使用可能な言い回しと考えられる。
 そこで、標準語の音声ではWのみで話されていた言い回しが、方言を含む音声においては、一部の標準語が方言を含む言い回しに置き換わっていると仮定し、両者が属する1つの(上位)クラスを設定する。即ち、Wは単語列クラスC(”W”)に属しているとし、その構成要素は{W,W}とする。次いで、標準語のみからなる単語列の出現確率の一部を、方言を含む単語列に割り当てる。
 つまり、標準語言語モデル記憶部202に記憶されている標準語言語モデルにおいて、既に、ある単語列{*,W}、{W,*}の出現確率P(*,W)、P(W,*)が算出されているとする。この場合、上記の出現確率P(*,W)、P(W,*)は、方言言語モデル作成部203によって、それぞれP(*,C(”W”))、P(C(”W”),*)に置き換えられる。なお、「*」は任意の文字列を表している。
 そして、方言言語モデル作成部203は、単語列クラスC(”W”)の要素{W,W}に、単語列クラスC(”W”)の出現確率を分配して、P´(*,W)、P´(W,*)、P´(*,W)、P´(W,*)を求める。このP´(*,W)、P´(W,*)、P´(*,W)、及びP´(W,*)それぞれは、方言を含む単語列の出現確率を表し、下記の(数2)~(数5)から求められる。また、上記の分配の際に用いられる分配率αを、以下「クラス内分配確率」又は単に「分配確率」と呼ぶ。クラス内分配確率αとしては、予め定められた値が用いられる。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ここで、上記(数2)~(数5)において、P(*,C(“W”))、P(C(“W”),*)は、それぞれ標準語言語モデルで計算された単語列{*,C(“W”)}、{C(“W”),*}の出現確率である。よって、P´(*,C(“W”))及びP´(C(”W”),*)」は、方言を含むnグラムが追加された状態で再計算することによって得られた、単語列{*,C(“W”)}及び{C(“W”),*}それぞれの出現確率となる。なお、上記において「W」は、W又はWであることを示している。
 また、上記(数2)~(数6)において、クラス内分配確率αとしては、一定の値を用いることができる。但し、αの値は、変換ルール毎に変化させても良いし、ルールの構成要素、例えば方言の単語の品詞の種類毎に変化させても良い。また、上記では、クラスC(“W”)の要素数が2の例を示したが、要素数が3以上の場合は、(数6)ではなく、以下の(数7)に示す制約条件が満たされている必要がある。
Figure JPOXMLDOC01-appb-M000007
 次に、図2に示した「言う[動詞,連用形]/た[動詞,基本形]」を含むnグラムの出現確率を求める場合について具体的に説明する。なお、以後の説明では、品詞情報は一致しているものとして、品詞についての説明は省略する。また、以下の例では、n=3とし、標準語言語モデル記憶部202に記憶されている標準語言語モデルには、「W,言っ,た」の出現確率P(W,言っ,た)が含まれている(又は求められている)とする。
 まず、方言言語モデル作成部203は、変換ルール記憶部201に記憶されている変換ルールを読み込む。例えば、標準語単語列「言っ/た」と方言を含む単語列「言う/た」との組が変換ルールに含まれていたとする。この場合、方言を含む単語列「言う/た」は、標準語単語列「言っ/た」と同一のある単語列クラスC(”言っ/た“)に属している。そして、単語列クラスC(”言っ/た“)のクラス要素には、標準語の単語列「言っ/た」と方言を含む単語列「言う/た」とが含まれていることとなる。
 よって、方言言語モデル作成部203においては、標準語言語モデルにおける「言っ/た」を含むnグラムの出現確率は、単語列「言っ/た」の出現確率ではなく、単語列クラスC(”言っ/た”)の出現確率に相当する。
 そこで、改めて標準語単語列「言っ/た」を含むnグラムの出現確率を求めるとともに、方言を含む単語列「言う/た」を含むnグラムの出現確率を求める。単語列クラスC(“言っ/た”)に含まれる単語列の出現確率は、下記の(数8)~(数10)を用いて求めることができる。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 上記(数8)及び(数9)において、P´(W,言っ,た)、及びP´(Wi,言う,た)は、それぞれ再計算された方言言語モデルにおける単語列“W 言っ た”、”W 言う た“の出現確率である。また、α(言っ/た,W)は、単語列クラスC(”言っ/た”)の単語列Wへと変換するためのクラス内分配確率を表す。また、その構成要素の部分単語列のいずれもが変換ルールに記載されていないnグラムについては、下記の(数11)に示すように、標準語言語モデルで計算された出現確率値をそのまま用いる。
Figure JPOXMLDOC01-appb-M000011
 次に、本発明の実施の形態1における言語モデル作成装置200の全体の動作について図3を用いて説明する。図3は、本発明の実施の形態1における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態1では、言語モデル作成装置200を動作させることによって、本実施の形態1における言語モデル作成方法が実施される。このため、本実施の形態1における言語モデル作成方法の説明は、以下の言語モデル作成装置200の動作の説明に代える。また、以下の説明においては、適宜、図1及び図2を参酌する。
 図3に示すように、先ず、方言言語モデル作成部203は、変換ルール記憶部201から変換ルールを読み込み、変換ルールに従って、標準語のみからなる単語列と方言を含む単語列との組を抽出する(ステップS501)。
 次に、方言言語モデル作成部203は、標準語言語モデル記憶部202から標準語言語モデルを読み込み、変換ルールに記載されている標準語のみからなる単語列を1つのクラスとみなす(ステップS502)。ステップS502では、方言言語モデル作成部203は、更に、標準語のみからなる単語列の出現確率を、クラスを含む単語列の出現確率とする。また、方言言語モデル作成部203は、標準語のみからなる単語列と、それと対応する方言を含む単語列とをクラスの構成要素とする。
 最後に、方言言語モデル作成部203は、分配確率αを用いて、上記(数2)~(数6)に従い、クラスを含む単語列の出現確率を、その構成要素である、標準語のみからなる単語列とそれと対応する方言を含む単語列とに割り当て、方言言語モデルを作成する(ステップS503)。このステップS501~S503によって得られた方言言語モデルは、言語モデル作成装置200から出力され、例えば、音声認識装置で利用される。
 また、本実施の形態1におけるプログラムは、コンピュータに、図3に示すステップS501~S503を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1における言語モデル作成装置200及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部203として機能し、処理を行なう。更に、本実施の形態1では、変換ルール記憶部201及び標準語言語モデル記憶部202は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態1では、言語モデル作成装置200は、標準語言語モデルをベースとし、そして、変換ルールに基づいて方言を含むnグラムを追加して、方言言語モデルを作成する。このため、本実施の形態1における言語モデル作成装置200は、頑健な言語モデルを構築できる。すなわち、本実施の形態1では、上述したように、標準語のデータより求められた頑健な確率分布を元にして、方言を含むnグラムの確率分布が求められている。このため、単純に標準語のデータに少量の方言データを加えて言語モデルを作成する方法では推定できなかった頑健な確率分布を求めることが可能となる。
 (実施の形態2)
 次に本発明の実施の形態2における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図4及び図5を参照しながら説明する。最初に、本実施の形態2における言語モデル作成装置について図4を用いて説明する。図4は、本発明の実施の形態2における言語モデル作成装置の構成を示すプロック図である。
 図4に示すように、本実施の形態2における言語モデル作成装置210は、外部から入力された方言データ、又は予め用意された方言データを記憶する方言データ記憶部213を備えている。方言データは、方言を含む音声データ及び方言を含むテキストデータを有するデータである。また、本実施の形態2においては、方言言語モデル作成部214は、実施の形態1において図1に示した方言言語モデル作成部203と異なり、方言データを用いて、クラス内分配確率αの値を設定する。
 上記の点以外については、言語モデル作成装置210は、実施の形態1において図1に示した言語モデル作成装置200と同様に構成されている。つまり、変換ルール記憶部211は、実施の形態1において図1に示した変換ルール記憶部201と同様に構成され、更に、それと同じ動作をする。また、標準語言語モデル記憶部212は、実施の形態1において図1に示した標準語言語モデル記憶部202と同様に構成され、更に、それと同じ動作をする。以下に、実施の形態1との相違点について具体的に説明する。
 方言データ記憶部213は、記憶している方言データを、方言言語モデル作成部214に対して、その指示に従って送る。方言データとしては、具体的には、対象とする方言が話されている場面で収録された音声データや、音声から書き起こされたテキストデータ、更には、同方言で記述されたブログ等のウェブ上に存在する方言を含むテキストデータ等が該当する。但し、方言データに含まれるテキストデータは、概して方言のみで記述されているわけではなく、方言と標準語とが混在したテキストデータとなっている。
 また、本実施の形態2においても、方言言語モデル作成部214は、実施の形態1と同様に、標準語言語モデルから標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、クラス内分配確率αとから、変換ルールにしたがって展開された方言を含む単語列の出現確率を算出(推定)する。但し、本実施の形態2においては、クラス内分配確率αの設定の仕方が、実施の形態1と異なっている。
 本実施の形態2においては、クラス内分配確率αは、上述したように、方言データ記憶部213に記憶された方言データを用いて設定される。また、クラス内分配確率αを設定するための方言データには、正解データが付加される。正解データは、人手によって作成された、音声データに対応するテキストデータである。
 方言言語モデル作成部214は、この正解データが付加された方言データを用いて、クラス内分配確率αの値の設定、方言を含むnグラムの作成、及び方言言語モデルの作成を行う。そして、方言言語モデル作成部214は、新たに作成した方言言語モデルと方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した音声認識の結果と正解データとから、クラス内分配確率αの値を設定、更新する。また、方言言語モデル作成部214は、更新したクラス内分配確率αを用いて、方言言語モデルの更新、及び音声認識結果の取得を行い、再帰的にクラス内分配確率αを更新することができる。また、この場合、更新後の方言言語モデルを用いて音声認識装置が音声認識を実施するので、方言言語モデル作成部214は、その結果を取得する。
 具体的には、本実施の形態2では、先ず、方言言語モデル作成部214は、全変換ルール共通、変換ルール毎、又は、例えば方言の単語の品詞が異なるといった変換ルールの種類毎に、初期値αを設定する。次に、方言言語モデル作成部214は、その初期値αを用いて、方言を含むnグラムも含めた全nグラムの出現確率を求めて、方言言語モデルを作成する。なお、この場合の方言言語モデルの作成は、下記の参考文献に記載の従来からの手法に準じて行われる。
(参考文献)
 鹿野 清宏、河原 達也、山本 幹雄、伊藤 克亘、武田 一哉著、「IT Text 音声認識システム」、オーム社、p.53-65、p.80-93、2001年5月15日発行
 次に、方言言語モデル作成部214は、方言データに含まれる音声データ及び正解のテキストデータを入力とした音声認識から得られる評価関数が収束するまで、又は一定回数、方言言語モデルの作成を繰り返し実行して、αを調整する。ここで、評価関数としては、Perplexity、及び音声認識時の方言単語の出現回数に基づく関数等が挙げられる。そして、以下に、評価関数として後者が用いられる場合のクラス内分配確率αの調整について更に詳細に説明する。
 αの調整においては、先ず、音声認識装置(図4において図示せず)によって、方言を含む音声データを入力として、作成された方言言語モデルを用いた音声認識が実行される。そして、方言言語モデル作成部214は、入力となった音声データに対応する正解データ(正解のテキストデータ)を参照し、単語単位で、音声認識結果との正誤を求める。その後、方言言語モデル作成部214は、変換ルールに含まれる方言を含む単語列Wについて、例えば以下の(数12)及び(数13)に基づいてクラス内分配確率αを更新する。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
 上記(数12)及び(数13)において、α(W)はj回繰り返し実行したのちの単語列Wについてのクラス内分配確率を示し、Lj-1(W)はαj-1を用いて作成された言語モデルで音声認識した結果における単語列Wの正誤数に関する関数を表す。Lj-1(W)としては、例えば(数12)に対しては(数14)が用いられ、(数13)に対しては(数15)が用いられる。
Figure JPOXMLDOC01-appb-M000014
Figure JPOXMLDOC01-appb-M000015
 また、上記(数14)及び(数15)において、c(W)、s (W)、s (W)、d(W)、i(W)はそれぞれ、αを用いて作成された言語モデルを用いて音声認識した結果における、単語列Wが正解であった回数、正解単語列Wを置換誤りした回数、Wに置換誤りされた回数、脱落誤りの回数、挿入誤りの回数を表す。なお、「正解単語列Wを置換誤りした回数」とは、正解の単語列Wが別の単語に誤認識され、置換誤りとなった回数をいう。「Wに置換誤りされた回数」とは、別の単語が正解であるにもかかわらずWと誤認識され、置換誤りとなった回数をいう。また、β~βは、重みパラメータであり、正負の値を取り、Wに非依存である。γは、制御パラメータであり、上記(数14)ではjの値が増えるに従って値を小さくし、上記(数15)では逆にjの値が増えるに従って値を大きくする。
 また、本実施の形態2では、上記(数12)及び(数13)の代わりに、下記の(数16)及び(数17)を用いることもできる。下記の(数16)及び(数17)では、認識結果中の単語列Wの正誤数を求めるのではなく、単語列Wの代わりに、単語列Wの部分文字列W´を用いる。なお、下記の(数16)及び(数17)においてiは実行回数を示している。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 次に、本発明の実施の形態2における言語モデル作成装置210の全体の動作について図5を用いて説明する。図5は、本発明の実施の形態2における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態2においても、実施の形態1と同様に、言語モデル作成装置210を動作させることによって、本実施の形態2における言語モデル作成方法が実施される。このため、本実施の形態2における言語モデル作成方法の説明は、以下の言語モデル作成装置210の動作の説明に代える。また、以下の説明においては、適宜、図4を参酌する。
 図5に示すように、先ず、方言言語モデル作成部214は、変換ルール記憶部211から、変換ルールに従って、標準語のみからなる単語列と方言を含む単語列との組を抽出する(ステップS511)。次に、方言言語モデル作成部214は、標準語言語モデル記憶部212から標準語言語モデルを読み込み、単語列のクラス化を実行する(ステップS512)。この一連の動作であるステップS511及びS512は、実施の形態1において図3に示したS501およびS502と同様のステップである。
 次に、方言言語モデル作成部214は、変換ルールに従ってクラス内分配確率αの初期値αを設定し、設定した初期値αを用いて、方言言語モデルを作成する(ステップS513)。
 続いて、方言言語モデル作成部214は、上述した処理に従い、音声認識の結果から得られる評価関数の値が収束するまで、又は一定回数、方言言語モデルの作成を繰り返し実行して、クラス内分配確率αを更新する(ステップS514)。
 その後、方言言語モデル作成部214は、ステップS514による更新によって最終的に得られたクラス内分配確率αを用いて単語の出現確率を求め、方言言語モデルを更新する(ステップS515)。このステップS511~S515によって得られた方言言語モデルは、言語モデル作成装置210から出力され、例えば、音声認識装置で利用される。
 また、本実施の形態2におけるプログラムは、コンピュータに、図5に示すステップS511~S515を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における言語モデル作成装置210及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部214として機能し、処理を行なう。更に、本実施の形態2では、変換ルール記憶部211、標準語言語モデル記憶部212、及び方言データ記憶部213は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態2では、方言を含む方言データに対して、評価関数が最大となるように求められたクラス内分配確率が用いられ、そして、方言を含む単語列の出現確率が求められる。このため、本実施の形態2によれば、実施の形態1よりもいっそう、方言を含んだ実データに即した、方言を含むnグラムの出現確率を求めることが可能となる。また、本実施の形態2では、クラス内分配確率を求める際に、繰り返し実行する回数を制限することで、少量の方言データからの学習によって引き起こされる過学習が抑制される。
 (実施の形態3)
 次に、本発明の実施の形態3における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図6及び図7を参照しながら説明する。最初に、本実施の形態3における言語モデル作成装置について図6を用いて説明する。図6は、本発明の実施の形態3における言語モデル作成装置の構成を示すプロック図である。
 図6に示すように、本実施の形態3における言語モデル作成装置300は、外部から入力された方言データ又は予め用意された方言データを記憶する方言データ記憶部302を備えている。方言データ記憶部302は、方言を含むテキストデータである方言データを、変換ルール処理部303に送る。
 また、図6に示すように、本実施の形態3における言語モデル作成装置300は、変換ルール処理部303を備えている。変換ルール処理部303は、方言データから方言を含む単語列を抽出し、抽出した方言を含む単語列に基づいて変換ルールを修正する。また、本実施の形態3では、変換ルール記憶部301は、既に記憶している変換ルールを、変換ルール処理部303によって修正された変換ルールを用いて更新する。
 上記の点以外については、言語モデル作成装置300は、実施の形態1において図1に示した言語モデル作成装置200と同様に構成されている。つまり、方言言語モデル作成部305は、実施の形態1において図1に示した方言言語モデル作成部203と同様に構成され、更にそれと同じ動作をする。変換ルール記憶部301が予め記憶している変換ルールは、実施の形態1において図1に示した変換ルール記憶部201に記憶されている変換ルールと同様のものである。また、標準語言語モデル記憶部304は、実施の形態1において図1に示した標準語言語モデル記憶部202と同様に構成され、更に、それと同じ動作をする。以下に、実施の形態1との相違点について具体的に説明する。
 本実施の形態3において、変換ルール記憶部301は、上述したように、変換ルール処理部303から送られてきた修正後の変換ルールを受け取ると、既に記憶されている変換ルールを修正後の変換ルールに差し替える。
 また、本実施の形態3では、方言データ記憶部302に記憶されている方言データは、変換ルール処理部303に送られる。方言データの詳細は、実施の形態2で述べた通りである。
 変換ルール処理部303は、変換ルールに記載の方言を含む単語列が、方言データ記憶部302に記憶された方言データに含まれているときに、方言データから、当該方言を含む単語列を一定の単語列長だけ抽出し、抽出された単語列をもとにして変換ルールを作成して変換ルール記憶部301に送り返す。なお、変換ルールは、抽出された単語列の部分単語列から構成されている。即ち、変換ルール処理部303は、初期の変換ルールから、実データである方言データに含まれている方言を含む単語列を抽出し、変換ルールの絞り込みを行っている。
 また、一定の単語列長分の単語列の抽出は次のように行われる。例えば、nグラム言語モデルが採用されている場合に、M個の単語で構成された単語列{W,・・・,W}が入力され、その中のm番目~m+i(m+i≦M)番目の単語{W,・・・,Wm+i}が方言であるとする。この場合、{Wm-n+1,・・・,Wm+i+n-1}が抽出される。但し、上記の場合においてm+i>Mの時は、{Wm-n+1,・・・,W}が抽出される。
 なお、初期の変換ルールは、人手によって与えられていても良いし、既存のデータから取得されたものであっても良い。また、初期の変換ルールが存在しない場合は、変換ルール処理部303は、入力された方言データの中から、標準語言語モデル記憶部304に記憶された標準語言語モデルに含まれないnグラムを特定する。そして、変換ルール処理部303は、特定したnグラムから、ある一定の条件、例えばn単語がすべて特定の品詞でなければならない等を満たしたものを抽出し、抽出したnグラムを変換ルールとすることもできる。
 次に、本発明の実施の形態3における言語モデル作成装置300の全体の動作について図7を用いて説明する。図7は、本発明の実施の形態3における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態3においても、実施の形態1と同様に、言語モデル作成装置300を動作させることによって、本実施の形態3における言語モデル作成方法が実施される。このため、本実施の形態3における言語モデル作成方法の説明は、以下の言語モデル作成装置300の動作の説明に代える。また、以下の説明においては、適宜、図6を参酌する。
 図7に示すように、先ず、変換ルール処理部303は、方言データ記憶部302に記憶された方言を含むテキストデータから、初期の変換ルールに記載の方言を含む単語列を、一定の単語列長だけ抽出する(ステップS601)。次に、変換ルール処理部303は、既存の変換ルールを抽出された単語列と差し替える(ステップS602)。ステップS602により、変換ルールは修正されたこととなる。
 次に、方言言語モデル作成部305は、修正後の変換ルールに従って、標準語のみからなる単語列と方言を含む単語列との組を抽出する(ステップS603)。続いて、方言言語モデル作成部305は、標準語言語モデル記憶部304から標準語言語モデルを読み込み、単語列のクラス化を実行する(ステップS604)。その後、方言言語モデル作成部305は、方言言語モデルを作成する(ステップS605)。このステップS601~S605によって得られた方言言語モデルは、言語モデル作成装置300から出力され、例えば、音声認識装置で利用される。なお、ステップS603~S605は、実施の形態1において図3に示したS501~S503と同様のステップである。
 また、本実施の形態3におけるプログラムは、コンピュータに、図7に示すステップS601~S605を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3における言語モデル作成装置300及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部305及び変換ルール処理部303として機能し、処理を行なう。更に、本実施の形態3では、変換ルール記憶部301、標準語言語モデル記憶部304、及び方言データ記憶部302は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態3では、変換ルール処理部303は、変換ルールがより実例に沿うように、変換ルールの絞り込みを実行する。このため、本実施の形態3によれば、実例に基づいて方言を含むnグラムが作成され、これが、方言言語モデルに追加されるので、実施の形態1よりも更に頑健な言語モデルが構築される。
 (実施の形態4)
 次に、本発明の実施の形態4における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図8を参照しながら説明する。本実施の形態4における言語モデル作成装置は、実施の形態3において図6に示した言語モデル作成装置300と同様に構成されている。
 本実施の形態4における言語モデル作成装置は、変換ルール記憶部301と、変換ルール処理部303と、標準語言語モデル記憶部304と、方言言語モデル作成部305と、方言データ記憶部302とを備えている(図6参照)。
 但し、本実施の形態4においては、変換ルール処理部303は、入力された方言データから方言を含む単語列を抽出する。そして、変換ルール処理部303は、抽出した方言を含む単語列と、それと対応する標準語の単語列とを用いて、変換ルールとして利用可能な変換パターンを導出する。変換ルール記憶部301は、既に記憶している初期の変換ルールに、変換ルール処理部303によって導出された変換パターンを加え、初期の変換ルールを更新する。
 本実施の形態4において、変換ルール処理部303は、具体的には、以下に挙げる4つの処理を行う。先ず、変換ルール処理部303は、変換ルールに記載のルールの方言を含む単語列が、入力された方言データのテキストデータに含まれていたときに、当該方言を含む単語列を一定の単語列長だけ抽出する。なお、一定の単語列長の抽出は、実施の形態3の場合と同様にして行われる。
 次に、変換ルール処理部303は、抽出された方言を含む単語列から、方言を含む単語列パターンを抽出する。例えば、「・・・/言う(動詞「言う」・連用形)/て(動詞「てる」・連用形)/・・・」と「・・・/言う(動詞「言う」・連用形)/てる(動詞「てる」・基本形)/・・・」とが抽出された場合を例として説明する。この場合には、「言う(動詞「言う」・連用形)/*(動詞「てる」・*)」という単語列パターンが抽出される。なお、上記において、“*”は任意のエントリを表し、前述の例では、動詞「てる」のいずれの活用語にも適用されることを意味する。
 更に、変換ルール処理部303は、抽出した方言を含む単語列パターンに対応する、標準語のみからなる標準語の単語列パターンを導出し、方言を含む変換パターンとそれと対応する標準語の単語列パターンの組である変換パターンを作成する。上述の例では、標準語の単語列パターンとしては、「言っ(動詞「言う」・連用形)/*(動詞「てる」・*)」)が導出される。また、この処理は、具体的には、方言を含む単語列と標準語のみからなる単語列との対応関係が規定された変換テーブル(変換テーブルは既存の変換ルールを用いても良い)を用意しておき、変換ルール処理部303がこのテーブルを参照することによって行われる。なお、この処理は、例えば、人手で行うこともできる。
 最後に、変換ルール処理部303は、導出した変換パターンを追加する変換ルールとして、変換ルール記憶部301に送る。これにより変換ルール記憶部301は、変換ルールを更新する。また、本実施の形態4では、変換ルール処理部303は、上記の一連の処理を、入力された方言データ全てに対して一度に行っても良いし、例えば、1ファイル(1音声データ、1テキストデータ)毎、又は1トピック毎に繰り返し実行しても良い。繰り返し行う場合には、変換ルール処理部303は、上記4つの処理を実行する度に変換パターンを変換ルール記憶部301に送って変換ルールを更新し、次のプロセスでは、更新された変換ルールを用いて4つの処理を実行する。
 なお、変換ルール処理部303による変換ルールの作成前に、変換ルール記憶部301が記憶している初期の変換ルールは、人手によって与えられていても良いし、既存のデータから取得されたものであっても良い。また、初期の変換ルールが存在しない場合は、変換ルール処理部303は、方言データの中から、標準語言語モデル記憶部304に記憶された標準語言語モデルに含まれないnグラムであって、ある一定の条件を満たしたものを抽出し、抽出したnグラムを変換ルールとすることもできる。ある一定の条件としては、例えばn単語がすべて特定の品詞でなければならない、等の条件が挙げられる。
 次に、本発明の実施の形態4における言語モデル作成装置の全体の動作について図8を用いて説明する。図8は、本発明の実施の形態4における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態4においても、実施の形態1と同様に、言語モデル作成装置を動作させることによって、本実施の形態4における言語モデル作成方法が実施される。このため、本実施の形態4における言語モデル作成方法の説明は、以下の言語モデル作成装置の動作の説明に代える。また、以下の説明においては、適宜、図6を参酌する。
 図8に示すように、先ず、変換ルール処理部303は、初期の変換ルール記載の方言を含む単語列を、方言を含むテキストデータから、一定の単語列長だけ抽出する(ステップS611)。次に、変換ルール処理部303は、抽出された単語列から方言を含む単語列のパターンを抽出する(ステップS612)。
 次に、変換ルール処理部303は、ステップS612で抽出された方言を含む単語列パターンに対応する、標準語のみからなる単語列のパターンを作成する(ステップS613)。そして、ステップS612で抽出された方言を含む単語列パターンと、ステップS613によって作成された標準語のみからなる単語列のパターンとは、1組の変換パターンとなる。
 次に、変換ルール抽出部303が、作成した変換パターンを変換ルール記憶部301に送り、これを既存の変換ルールに追加させると、変換ルール記憶部301は、変換ルールを更新する(ステップS614)。
 次に、方言言語モデル作成部305は、標準語言語モデル記憶部314から標準語言語モデルを読み込み、更新後の変換ルールに従って単語のクラス化を実行する(ステップS615)。その後、方言言語モデル作成部305は、方言言語モデルを作成する(ステップS616)。このステップS611~S616によって得られた方言言語モデルは、言語モデル作成装置から出力され、例えば、音声認識装置で利用される。なお、ステップS615及びS616は、それぞれ実施の形態1において図3に示したS502及びS503と同様のステップである。
 また、本実施の形態4におけるプログラムは、コンピュータに、図8に示すステップS611~S616を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態4における言語モデル作成装置及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部305及び変換ルール作成部303として機能し、処理を行なう。更に、本実施の形態4では、変換ルール記憶部301、標準語言語モデル記憶部304、及び方言データ記憶部302は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態4では、方言データから導出した方言を含む変換パターンが変換ルールに追加され、これにより、方言を含むnグラムも追加されることとなる。このため、本実施の形態4によれば、少量の方言データからの学習を原因とする、方言を含む単語連鎖(nグラム)の過少性を解消できる。また、本実施の形態4による場合も、実施の形態1で述べた効果を得ることができる。
 (実施の形態5)
 次に、本発明の実施の形態5における言語モデル作成装置、言語モデル作成方法、及びプログラムについて説明する。最初に、本実施の形態5における言語モデル作成装置について図9を用いて説明する。図9は、本発明の実施の形態5における言語モデル作成装置の構成を示すブロック図である。
 図9に示すように、本実施の形態5における言語モデル作成装置310は、変換ルール記憶部311、方言データ記憶部312、変換ルール処理部313、標準語言語モデル記憶部314、及び方言言語モデル作成部315を備えている。このうち、方言データ記憶部312以外の各部は、実施の形態3において図6に示した、変換ルール記憶部301、変換ルール処理部303、標準語言語モデル記憶部304、及び方言言語モデル作成部305と同様に機能する。
 但し、本実施の形態5においては、方言言語モデル作成部315は、実施の形態2において図4に示した方言言語モデル作成部214と同様に動作し、クラス内分配確率αを更新することができる(図9参照)。方言データ記憶部312は、図6に示した方言データ記憶部302と異なり、変換ルール処理部313に加え、方言言語モデル作成部315にも方言データを送る。また、方言データ記憶部312は、変換ルール処理部313と方言言語モデル作成部315とに対して、同一の方言データを送ることも、異なる方言データを送ることもできる。本実施の形態5における言語モデル作成装置310は、これらの点で、実施の形態3において図6に示した言語モデル作成装置300と異なっている。
 次に、本発明の実施の形態5における言語モデル作成装置310の全体の動作について図10を用いて説明する。図10は、本発明の実施の形態5における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態5においても、実施の形態1と同様に、言語モデル作成装置310を動作させることによって、本実施の形態5における言語モデル作成方法が実施される。このため、本実施の形態5における言語モデル作成方法の説明は、以下の言語モデル作成装置の動作の説明に代える。また、以下の説明においては、適宜、図9を参酌する。
 図10に示すように、先ず、変換ルール処理部313は、初期の変換ルールに記載の方言を含む単語列を、方言を含むテキストデータから、一定の単語列長だけ抽出する(ステップS621)。
 次に、変換ルール処理部313は、既存の変換ルールを抽出された単語列と差し替え、変換ルールを修正する(ステップS622)。
 次に、方言言語モデル作成部315は、標準語言語モデル記憶部314から標準語言語モデルを読み込み、更新後の変換ルールに従って単語列のクラス化を実行する(ステップS623)。なお、上記ステップS621~S623は、実施の形態3において図7に示したステップS601、S602、及びS604と同様のステップである。
 次に、方言言語モデル作成部315は、本実施の形態5では、修正後の変換ルールに従ってクラス内分配確率αの初期値αを設定し、設定した初期値αを用いて、方言言語モデルを作成する(ステップS624)。
 続いて、方言言語モデル作成部315は、ステップS624で作成された方言言語モデルを用いた音声認識の結果を取得し、それから得られる評価関数の値が収束するまで、又は一定回数、方言言語モデルの作成を繰り返し実行して、クラス内分配確率αを更新する(ステップS625)。
 その後、方言言語モデル作成部315は、ステップS625による更新によって最終的に得られたクラス内分配確率αを用いて単語の出現確率を求めて、方言言語モデルを更新する(ステップS626)。なお、上記ステップS624~S626は、実施の形態2において図5に示したステップS513~ステップS515とそれぞれ同様のステップである。
 上述のステップS621~S626によって得られた方言言語モデルは、本実施の形態5における言語モデル作成装置から出力され、例えば、音声認識装置で利用される。
 また、本実施の形態5におけるプログラムは、コンピュータに、図10に示すステップS621~S626を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態5における言語モデル作成装置及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部315及び変換ルール処理部313として機能し、処理を行なう。更に、本実施の形態5では、変換ルール記憶部311、標準語言語モデル記憶部314、及び方言データ記憶部312は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態5では、実施の形態3に示した処理に加え、実施の形態2に示した処理も行われる。即ち、本実施の形態5では、変換ルールの絞込みと、クラス内分配確率の最適化とが行われる。本実施の形態5によれば、実施の形態3で述べた効果に加え、実施の形態2で述べた効果を得ることもできる。
 (実施の形態6)
 次に、本発明の実施の形態6における言語モデル作成装置、言語モデル作成方法、及びプログラムについて説明する。本実施の形態6における言語モデル作成装置は、実施の形態5において図9に示した言語モデル作成装置310と同様に構成されている。
 但し、本実施の形態6においては、変換ルール処理部313は、実施の形態4に示した変換ルール処理部と同様に動作し、変換パターンを導出する。また、方言言語モデル作成部315は、実施の形態2において図4に示した方言言語モデル作成部214と同様に動作し、クラス内分配確率αを更新することができる。本実施の形態6における言語モデル作成装置は、この点で、実施の形態4における言語モデル作成装置と異なっている。
 次に、本発明の実施の形態6における言語モデル作成装置の全体の動作について図11を用いて説明する。図11は、本発明の実施の形態6における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態6においても、実施の形態1と同様に、言語モデル作成装置を動作させることによって、本実施の形態6における言語モデル作成方法が実施される。このため、本実施の形態6における言語モデル作成方法の説明は、以下の言語モデル作成装置の動作の説明に代える。また、以下の説明においては、適宜、図4及び図6を参酌する。
 図11に示すように、先ず、変換ルール処理部313は、初期の変換ルール記載の方言を含む単語列を、方言を含むテキストデータから、一定の単語列長だけ抽出する(ステップS631)。次に、変換ルール処理部313は、抽出された単語列から方言を含む単語列のパターンを抽出する(ステップS632)。
 次に、変換ルール処理部313は、ステップS632で抽出された方言を含む単語列パターンに対応する、標準語のみからなる単語列のパターンを作成する(ステップS633)。そして、ステップS632で抽出された方言を含む単語列パターンと、ステップS633によって作成された標準語のみかなる単語列のパターンとは、1組の変換パターンとなる。
 次に、変換ルール処理部313が、作成した変換パターンを変換ルール記憶部311に送り、これを既存の変換ルールに追加させると、変換ルール記憶部311は、変換ルールを更新する(ステップS634)。
 次に、方言言語モデル作成部315は、標準語言語モデル記憶部314から標準語言語モデルを読み込み、更新後の変換ルールに従って単語列のクラス化を実行する(ステップS635)。なお、上記ステップS631~S635は、実施の形態4において図8に示したステップS611~S615とそれぞれ同様のステップである。
 次に、方言言語モデル作成部315は、本実施の形態6では、更新後の変換ルールに従ってクラス内分配確率αの初期値αを設定し、設定した初期値αを用いて、方言言語モデルを作成する(ステップS636)。
 続いて、方言言語モデル作成部315は、ステップS636で作成された方言言語モデルを用いた音声認識の結果を取得し、それから得られる評価関数の値が収束するまで、又は一定回数、方言言語モデルの作成を繰り返し実行して、クラス内分配確率αを更新する(ステップS637)。
 その後、方言言語モデル作成部315は、ステップS637による更新によって最終的に得られたクラス内分配確率αを用いて単語の出現確率を求め、更に得られた出現確率から方言言語モデルを更新する(ステップS638)。なお、上記ステップS636~S638は、実施の形態2において図5に示したステップS513~ステップS515とそれぞれ同様のステップである。
 上述のステップS631~S638によって得られた方言言語モデルは、本実施の形態6における言語モデル作成装置から出力され、例えば、音声認識装置で利用される。
 また、本実施の形態6におけるプログラムは、コンピュータに、図11に示すステップS631~S638を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態6における言語モデル作成装置及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、方言言語モデル作成部315及び変換ルール作成部313として機能し、処理を行なう。更に、本実施の形態6では、変換ルール記憶部311、標準語言語モデル記憶部314、及び方言データ記憶部312は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態6では、実施の形態4に示した処理に加え、実施の形態2に示した処理も行われる。即ち、本実施の形態6では、変換ルールの追加と、クラス内分配確率の最適化とが行われる。本実施の形態6によれば、実施の形態4で述べた効果に加え、実施の形態2で述べた効果を得ることもできる。
 (実施の形態7)
 次に、本発明の実施の形態7における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図12及び図13を参照しながら説明する。最初に、本実施の形態7における言語モデル作成装置について図12を用いて説明する。図12は、本発明の実施の形態7における言語モデル作成装置の構成を示すブロック図である。
 図12に示すように、本実施の形態7における言語モデル作成装置400は、実施の形態1~実施の形態6に示された標準語言語モデル記憶部の代わりに、標準語言語モデル作成部406を備えている。また、言語モデル作成装置400は、変換データ作成部403と、変換データ記憶部404と、標準語データ記憶部405とを備えている。
 変換データ作成部403は、方言データに含まれるテキストデータから方言を含む単語列を抽出し、変換ルールを用いて、抽出した方言を含む単語列を、標準語のみを含む単語列に変換する。本実施の形態7では、変換データ作成部403は、変換ルール処理部408内に構築されている。変換ルール処理部408は、実施の形態3又は4において図6に示した変換ルール処理部303と同様に機能することができる。
 変換データ記憶部404は、変換データ作成部403による変換によって得られた、標準語のみを含む単語列を、変換データとして記憶する。標準語データ記憶部405は、標準語のテキストデータを記憶している。
 また、標準語言語モデル作成部406は、変換データ記憶部404によって記憶されている変換データ、及び標準語データ記憶部405によって記憶されている標準語のテキストデータを用いて、標準語言語モデルを作成する。
 また、図12に示すように、言語モデル作成装置400は、方言データ記憶部402も備えている。方言データ記憶部402は、実施の形態3において図6に示した方言データ記憶部302と同様に機能する。
 なお、上記の点以外については、言語モデル作成装置400は、実施の形態1において図1に示した言語モデル作成装置200と同様に構成されている。つまり、方言言語モデル作成部407は、実施の形態1において図1に示した方言言語モデル作成部203と同様に構成され、更にそれと同じ動作をする。変換ルール記憶部401は、実施の形態3において図6に示した変換ルール記憶部301と同様に構成され、更に、それと同じ動作をする。以下に、実施の形態1~6との相違点について具体的に説明する。
 具体的には、変換データ作成部403(変換ルール処理部408)は、実施の形態3において図6に示した変換ルール処理部303と同様に、先ず、変換ルールに記載の方言を含む単語列が、入力された方言データに含まれていたときに、当該方言を含む単語列を一定の単語列長だけ抽出する。そして、変換データ作成部403は、抽出された単語列を変換ルール記憶部401に送り返す。
 更に、変換データ作成部403は、変換ルールに記載のルールに従って、方言データを標準語のみからなるテキストデータに変換して、変換データを作成し、これを変換データ記憶部404に送る。変換データ記憶部404は、変換データ作成部403によって作成された標準語のテキストデータを変換データとして記憶する。
 また、本実施の形態7において、標準語データ記憶部405が記憶している標準語のテキストデータは、標準語言語モデル作成部406による標準語言語モデルの作成の際に、その学習用に用いられるテキストデータである。
 標準語言語モデル作成部406は、変換データ記憶部404に記憶されている変換データと、標準語データ記憶部405に記憶されている標準語のテキストデータとから、単語nグラムの出現確率を計算し、標準語言語モデルを作成する。この標準語言語モデルの作成は、本実施の形態7においても、実施の形態2において説明した参考文献に記載の従来からの手法に準じて行うことができる。但し、本実施の形態7では、標準語言語モデルの作成には、複数のテキストデータが用いられるため、下記の(数18)を用いた線形補間が行われる。
Figure JPOXMLDOC01-appb-M000018
 上記(数18)において、βは0から1の間の値を取るパラメータである。また、P(Wi-2,Wi-1,W)は標準語データから計算された出現確率を示し、P(Wi-2,Wi-1,W)は変換データから計算された出現確率を示す。P(Wi-2,Wi-1,W)は、線形補間後の出現確率を示す。このように、標準語言語モデルは、標準語に変換された変換データと、標準語のテキストデータとを用いて作成されているため、方言の単語は一切含まない状態となる。
 次に、本発明の実施の形態7における言語モデル作成装置400の全体の動作について図13を用いて説明する。図13は、本発明の実施の形態7における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態7においても、実施の形態1と同様に、言語モデル作成装置400を動作させることによって、本実施の形態7における言語モデル作成方法が実施される。このため、本実施の形態7における言語モデル作成方法の説明は、以下の言語モデル作成装置400の動作の説明に代える。また、以下の説明においては、適宜、図12を参酌する。
 図13に示すように、先ず、変換データ処理408に構築された変換データ作成部403は、変換ルールを読み込み、変換ルールに従って方言を標準語に変換し、変換データを作成する(ステップS701)。作成された変換データは、変換データ記憶部404に記憶される。
 次に、変換ルール処理部408は、変換ルールから、方言を含む単語列とそれと対応する標準語のみからなる単語列との組を抽出する(ステップS702)。更に、変換ルール処理部408は、抽出された方言を含む単語列と、それに対応する標準語のみからなる単語列との組を用いて、変換ルールを修正する(ステップS703)。これにより、変換ルール記憶部401に記憶されている変換ルールが更新される。なお、ステップS702及びS703は、実施の形態3において図7に示したステップS601及びS602と同様のステップである。
 続いて、標準語言語モデル作成部406は、変換データ記憶部404によって記憶されている変換データ、及び標準語データ記憶部405によって記憶されている標準語のテキストデータを用いて、標準語言語モデルを作成する(ステップS704)。なお、ステップS704は、上記のステップS702及びS703と平行して行われていても良い。
 次に、方言言語モデル作成部407は、標準語言語モデル作成部406が作成した標準語言語モデルを読み込み、更新後の変換ルールに従って単語列のクラス化を実行する(ステップS705)。
 その後、方言言語モデル作成部407は、方言言語モデルを作成する(ステップS706)。このステップS701~S706によって得られた方言言語モデルは、言語モデル作成装置400から出力され、例えば、音声認識装置で利用される。なお、ステップS705及びS706は、実施の形態1において図3に示したS502及びS503と同様のステップである。
 また、本実施の形態7におけるプログラムは、コンピュータに、図13に示すステップS701~S706を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態7における言語モデル作成装置400及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、変換データ作成部403(変換ルール処理部408)、標準語言語モデル作成部406、及び方言言語モデル作成部407として機能し、処理を行なう。更に、本実施の形態7では、変換ルール記憶部401、変換データ記憶部404、標準語データ記憶部405、及び方言データ記憶部402は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態7では、方言データを標準語に変換して得られた変換データを用いて、標準語言語モデルが作成される。よって、標準語言語モデルは、それを用いて方言言語モデルを作成することが容易な構成となる。このため、元々方言が含まれていて標準語言語モデルの学習に用いることができなかった単語列のnグラムも、標準語言語モデルの学習データに加えることができるようになる。
 この結果、本実施の形態7によれば、方言言語モデルの作成の際に、実際に方言データに含まれているnグラムと同じnグラムを学習することができる。また、方言を含むnグラムを標準語に変換して得られた変換データのnグラムは、標準語データ記憶部405に記憶された標準語テキストだけでは網羅できないnグラムを含んでいる可能性がある。よって、本実施の形態7では、実施の形態1よりもいっそう頑健な言語モデルを構築できる。また、本実施の形態7を用いた場合も、実施の形態3と同様の効果を得ることができる。
 (実施の形態8)
 次に、本発明の実施の形態8における言語モデル作成装置、言語モデル作成方法、及びプログラムについて、図14及び図15を参照しながら説明する。最初に、本実施の形態8における言語モデル作成装置について図14を用いて説明する。図14は、本発明の実施の形態8における言語モデル作成装置の構成を示すブロック図である。
 図14に示すように、本実施の形態8における言語モデル作成装置410は、変換ルール記憶部411と、変換ルール処理部418と、変換データ記憶部414と、標準語データ記憶部415と、標準語言語モデル作成部416とを備えている。また、言語モデル作成装置410は、方言言語モデル作成部417と、方言データ記憶部412も備えている。変換ルール処理部418内には、変換データ作成部413が構築されている。
 図14に示す言語モデル作成装置410では、変換データ作成部413は、実施の形態7において図12に示した変換データ作成部403と同様の変換ルールを作成する機能を備えている。また、図14に示す言語モデル作成装置410では、方言言語モデル作成部417は、実施の形態5において図9に示した方言言語モデル作成部315と同様に動作し、クラス内分配確率αを更新することができる。
 上記以外の点では、言語モデル作成装置410は、実施の形態7において図12に示した言語モデル作成装置400と同様に構成されている。方言言語モデル作成部417及び方言データ記憶部412を除き、言語モデル作成装置410の各部は、言語モデル作成装置400の各部と同様に動作する。
 次に、本発明の実施の形態8における言語モデル作成装置410の全体の動作について図15を用いて説明する。図15は、本発明の実施の形態8における言語モデル作成装置の動作を示すフロー図である。
 なお、本実施の形態8においても、実施の形態1と同様に、言語モデル作成装置410を動作させることによって、本実施の形態8における言語モデル作成方法が実施される。このため、本実施の形態8における言語モデル作成方法の説明は、以下の言語モデル作成装置410の動作の説明に代える。また、以下の説明においては、適宜、図14を参酌する。
 図15に示すように、先ず、変換データ作成部413は、変換ルールを読み込み、変換ルールに従って方言を、標準語のみからなるテキストに変換し、変換データを作成する(ステップS711)。ステップS711は、図13に示したステップS701と同様のステップである。
 次に、変換データ作成部413は、変換ルールから、方言を含む単語列と、それと対応する標準語のみからなる単語列の組を抽出する(ステップS712)。ステップS712は、図13に示したステップS702と同様のステップである。
 続いて、変換データ作成部413は、ステップS712で抽出された、標準語のみからなる単語列のパターンを作成する(ステップS713)。そして、ステップS711で抽出された方言を含む単語列と、ステップS713によって作成された標準語のみかなる単語列とは、1組の変換パターンとなる。
 次に、変換データ作成部413は、作成した変換パターンを変換ルール記憶部411に送り、これを既存の変換ルールに追加させると、変換ルール記憶部411は、変換ルールを更新する(ステップS714)。なお、ステップS713及びS714は、図8に示したステップS613及びS614と同様のステップである。
 続いて、標準語言語モデル作成部416は、変換データ記憶部414によって記憶されている変換データ、及び標準語データ記憶部415によって記憶されている標準語のテキストデータを用いて、標準語言語モデルを作成する(ステップS715)。なお、ステップS715は、上記のステップS712~S714と平行して行われていても良い。また、ステップS715は、図13に示したステップS704と同様のステップである。
 次に、方言言語モデル作成部417は、標準語言語モデル作成部416が作成した標準語言語モデルを読み込み、単語列のクラス化を実行する(ステップS716)。
 次に、方言言語モデル作成部417は、本実施の形態8では、更新後の変換ルールに従ってクラス内分配確率αの初期値αを設定し、設定した初期値αを用いて、方言言語モデルを作成する(ステップS717)。
 続いて、方言言語モデル作成部417は、ステップS717で作成された方言言語モデルを用いた音声認識の結果を取得し、それから得られる評価関数の値が収束するまで、又は一定回数、方言言語モデルの作成を繰り返し実行して、クラス内分配確率αを更新する(ステップS718)。
 その後、方言言語モデル作成部417は、ステップS718による更新によって最終的に得られたクラス内分配確率αを用いて単語の出現確率を求め、更に得られた出現確率から方言言語モデルを更新する(ステップS719)。このステップS711~S719によって得られた方言言語モデルは、言語モデル作成装置410から出力され、例えば、音声認識装置で利用される。なお、上記ステップS716~S719は、実施の形態6において図11に示したステップS635~ステップS638と同様のステップである。
 また、本実施の形態8におけるプログラムは、コンピュータに、図15に示すステップS711~S719を実行させる命令を含むプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態8における言語モデル作成装置410及び言語モデル作成方法を実現できる。この場合、コンピュータのCPU(central processing unit)が、データ作成部413(変換ルール処理部418)、標準語言語モデル作成部416、及び方言言語モデル作成部417として機能し、処理を行なう。更に、本実施の形態8では、変換ルール記憶部411、変換データ記憶部414、標準語データ記憶部415、及び方言データ記憶部412は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。
 以上のように、本実施の形態8においても、実施の形態7と同様に、方言データを標準語に変換して得られた変換データを用いて、標準語言語モデルが作成される。よって、本実施の形態8による場合も、方言言語モデルの作成の際に、実際に方言データに含まれているnグラムと同じnグラムによる学習を行うことができる。よって、実施の形態7で述べたように、本実施の形態8でも、実施の形態1よりもいっそう頑健な言語モデルを構築できる。また、本実施の形態8を用いた場合も、実施の形態2、4及び6と同様の効果を得ることができる。
 ここで、実施の形態1~8におけるプログラムを実行することによって、言語モデル作成装置を実現するコンピュータについて図16を用いて説明する。図16は、本発明の実施の形態1~8における言語モデル作成装置を実現するコンピュータの一例を示すブロック図である。
 図16に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 CPU110は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk
Read Only Memory)などの光学記憶媒体が挙げられる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2009年4月30日に出願された日本出願特願2009-111075を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本願発明における言語モデル作成装置、言語モデル作成方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。
(1)標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成する言語モデル作成装置であって、
 方言を含む単語列を標準語の単語列に変換するための変換ルールを記憶する変換ルール記憶部と、
 前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する方言言語モデル作成部と、
を備えていることを特徴とする言語モデル作成装置。
(2)前記変換ルール記憶部は、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組を記憶し、
 前記方言言語モデル作成部は、前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、前記方言を含むnグラムの出現確率を算出することを特徴とする上記(1)に記載の言語モデル作成装置。
(3)前記方言言語モデル作成部が、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、上記(2)に記載の言語モデル作成装置。
(4)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、変換ルール処理部を更に備え、
 前記変換ルール記憶部が、既に記憶している前記変換ルールを、前記変換ルール処理部によって修正された変換ルールを用いて更新する、上記(2)に記載の言語モデル作成装置。
(5)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列と、抽出した前記方言を含む単語列に対応する標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、変換ルール処理部を更に備えている、上記(2)に記載の言語モデル作成装置。
(6)前記変換ルール処理部が、前記変換ルール記憶部に前記変換ルールが記憶されていない場合に、前記方言データから、それに含まれる単語列のうち前記標準語言語モデルに含まれていない単語列を抽出し、抽出した前記単語列を用いて前記変換ルールを作成する、上記(4)に記載の言語モデル作成装置。
(7)前記方言言語モデル作成部が、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成を行った後、
前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記分配確率の値を更新する、上記(3)に記載の言語モデル作成装置。
(8)前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、変換データ作成部と、
 前記変換データ作成部による変換によって得られた、前記標準語のみを含む単語列を、変換データとして記憶する、変換データ記憶部と、
 標準語のテキストデータを記憶している標準語データ記憶部と、
 前記変換データ記憶部によって記憶されている前記変換データ、及び前記標準語データ記憶部によって記憶されている前記標準語のテキストデータを用いて、前記標準語言語モデルを作成する、標準語言語モデル作成部と、
を更に備える上記(1)に記載の言語モデル作成装置。
(9)前記データ作成部が、前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正し、
 前記変換ルール記憶部が、既に記憶している前記変換ルールを、前記変換ルール処理部によって修正された変換ルールを用いて更新する、
上記(8)に記載の言語モデル作成装置。
(10)前記変換データ作成部が、前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列と、抽出した前記方言を含む単語列に対応する標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、上記(8)に記載の言語モデル作成装置。
(11)前記変換データ生成部が、前記変換ルール記憶部に前記変換ルールが記憶されていない場合に、前記方言データから、それに含まれる単語列のうち前記標準語言語モデルに含まれていない単語列を抽出し、抽出した前記単語列を用いて前記変換ルールを作成する、上記(9)に記載の言語モデル作成装置。
(12)標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成するための方法であって、
(a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
(b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
を有することを特徴とする言語モデル作成方法。
(13)前記(a)のステップで、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組が設定され、
 前記(b)のステップで、
前記方言を含むnグラムの作成後に、前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、同じ組の前記追加する方言を含む単語列の出現確率を算出する、上記(12)に記載の言語モデル作成方法。
(14)前記(b)のステップで、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、上記(13)に記載の言語モデル作成方法。
(15)(c)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、ステップと、
(d)前記(a)のステップで既に設定されている前記変換ルールを、前記(c)のステップで修正された変換ルールを用いて更新する、ステップと、を更に有する、上記(13)に記載の言語モデル作成方法。
(16)(e)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に対応する標準語の単語列を前記標準語言語モデルから抽出し、そして、抽出した前記方言を含む単語列と、抽出した前記標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、ステップを更に有する、上記(13)に記載の言語モデル作成方法。
(17)(f)前記(b)のステップにおける、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成の後に、前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記(b)のステップで用いる前記分配確率の値を更新する、ステップと、を更に有する、上記(14)に記載の言語モデル作成方法。
(18)(g)前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、ステップと、
(h)前記(g)のステップで変換された前記標準語のみを含む単語列、及び標準語のテキストデータを用いて、前記標準語言語モデルを作成する、ステップと、を更に有する、上記(12)に記載の言語モデル作成方法。
(19)標準語のテキストから作成された標準語言語モデルを用いる新たな言語モデルの作成をコンピュータによって実行するためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータによって、
(a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
(b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(20)前記(a)のステップで、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組が設定され、
 前記(b)のステップで、
前記方言を含むnグラムの作成後に前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、同じ組の前記追加する方言を含む単語列の出現確率を算出する、上記(19)に記載のプログラム。
(21)前記(b)のステップで、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、上記(20)に記載のコンピュータ読み取り可能な記録媒体。
(22)前記プログラムが、前記コンピュータに、
(c)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、ステップと、
(d)前記(a)のステップで既に設定されている前記変換ルールを、前記(c)のステップで修正された変換ルールを用いて更新する、ステップと、を実行させる、命令を更に含む上記(20)に記載のコンピュータ読み取り可能な記録媒体。
(23)前記プログラムが、前記コンピュータに、
(e)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に対応する標準語の単語列を前記標準語言語モデルから抽出し、そして、抽出した前記方言を含む単語列と、抽出した前記標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、ステップを実行させる、命令を更に含む上記(20)に記載のコンピュータ読み取り可能な記録媒体。
(24)前記プログラムが、前記コンピュータに、
(f)前記(b)のステップにおける、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成の後に、前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記(b)のステップで用いる前記分配確率の値を更新する、ステップと、を実行させる、命令を更に含む上記(19)に記載のコンピュータ読み取り可能な記録媒体。
(25)前記プログラムが、前記コンピュータに、
(g)前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、ステップと、
(h)前記(g)のステップで変換された前記標準語のみを含む単語列、及び標準語のテキストデータを用いて、前記標準語言語モデルを作成する、ステップと、を実行させる、命令を更に含む上記(19)に記載のコンピュータ読み取り可能な記録媒体。
 本発明は、テキストコーパスより言語モデルを作成する言語モデル作成装置、及び言語モデルをコンピュータによって実現するためのプログラムといった用途に適用できる。
 200 言語モデル作成装置
 201 変換ルール記憶部
 202 標準語言語モデル記憶部
 203 方言言語モデル作成部
 210 言語モデル作成装置
 211 変換ルール記憶部
 212 標準語言語モデル記憶部
 213 方言データ記憶部
 214 方言言語モデル作成部
 300 言語モデル作成装置
 301 変換ルール記憶部
 302 方言データ記憶部
 303 変換ルール処理部
 304 標準語言語モデル作成部
 305 クラス内確率推定部
 310 言語モデル作成装置
 311 変換ルール記憶部
 312 方言データ記憶部
 313 変換ルール処理部
 314 標準語言語モデル記憶部
 315 クラス内確率推定部
 400 言語モデル作成装置
 401 変換ルール記憶部
 402 方言データ記憶部
 403 変換データ作成部
 404 変換データ記憶部
 405 標準語データ記憶部
 406 標準語言語モデル作成部
 407 方言言語モデル作成部
 408 変換ルール処理部
 410 言語モデル作成装置
 411 変換ルール記憶部
 412 方言データ記憶部
 413 変換データ作成部
 414 変換データ記憶部
 415 標準語データ記憶部
 416 標準語言語モデル作成部
 417 方言言語モデル作成部
 418 変換ルール処理部

Claims (25)

  1.  標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成する言語モデル作成装置であって、
     方言を含む単語列を標準語の単語列に変換するための変換ルールを記憶する変換ルール記憶部と、
     前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する方言言語モデル作成部と、
    を備えていることを特徴とする言語モデル作成装置。
  2.  前記変換ルール記憶部は、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組を記憶し、
     前記方言言語モデル作成部は、前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、前記方言を含むnグラムの出現確率を算出することを特徴とする請求項1に記載の言語モデル作成装置。
  3.  前記方言言語モデル作成部が、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、請求項2に記載の言語モデル作成装置。
  4.  前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、変換ルール処理部を更に備え、
     前記変換ルール記憶部が、既に記憶している前記変換ルールを、前記変換ルール処理部によって修正された変換ルールを用いて更新する、
    請求項2または3に記載の言語モデル作成装置。
  5.  前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列と、抽出した前記方言を含む単語列に対応する標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、変換ルール処理部を更に備えている、請求項2または3に記載の言語モデル作成装置。
  6.  前記変換ルール処理部が、前記変換ルール記憶部に前記変換ルールが記憶されていない場合に、前記方言データから、それに含まれる単語列のうち前記標準語言語モデルに含まれていない単語列を抽出し、抽出した前記単語列を用いて前記変換ルールを作成する、請求項4または5に記載の言語モデル作成装置。
  7.  前記方言言語モデル作成部が、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成を行った後、
    前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記分配確率の値を更新する、請求項3~6のいずれかに記載の言語モデル作成装置。
  8.  前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、変換データ作成部と、
     前記変換データ作成部による変換によって得られた、前記標準語のみを含む単語列を、変換データとして記憶する、変換データ記憶部と、
     標準語のテキストデータを記憶している標準語データ記憶部と、
     前記変換データ記憶部によって記憶されている前記変換データ、及び前記標準語データ記憶部によって記憶されている前記標準語のテキストデータを用いて、前記標準語言語モデルを作成する、標準語言語モデル作成部と、
    を更に備える請求項1~3のいずれかに記載の言語モデル作成装置。
  9.  前記データ作成部が、前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正し、
     前記変換ルール記憶部が、既に記憶している前記変換ルールを、前記変換ルール処理部によって修正された変換ルールを用いて更新する、
    請求項8に記載の言語モデル作成装置。
  10.  前記変換データ作成部が、前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列と、抽出した前記方言を含む単語列に対応する標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、請求項8に記載の言語モデル作成装置。
  11.  前記変換データ生成部が、前記変換ルール記憶部に前記変換ルールが記憶されていない場合に、前記方言データから、それに含まれる単語列のうち前記標準語言語モデルに含まれていない単語列を抽出し、抽出した前記単語列を用いて前記変換ルールを作成する、請求項9または10に記載の言語モデル作成装置。
  12.  標準語のテキストから作成された標準語言語モデルを用いて新たな言語モデルを作成するための方法であって、
    (a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
    (b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
    を有することを特徴とする言語モデル作成方法。
  13.  前記(a)のステップで、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組が設定され、
     前記(b)のステップで、
    前記方言を含むnグラムの作成後に、前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、同じ組の前記追加する方言を含む単語列の出現確率を算出する、請求項12に記載の言語モデル作成方法。
  14.  前記(b)のステップで、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、請求項13に記載の言語モデル作成方法。
  15. (c)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、ステップと、
    (d)前記(a)のステップで既に設定されている前記変換ルールを、前記(c)のステップで修正された変換ルールを用いて更新する、ステップと、を更に有する、請求項13または14に記載の言語モデル作成方法。
  16. (e)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に対応する標準語の単語列を前記標準語言語モデルから抽出し、そして、抽出した前記方言を含む単語列と、抽出した前記標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、ステップを更に有する、請求項13または14に記載の言語モデル作成方法。
  17. (f)前記(b)のステップにおける、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成の後に、前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記(b)のステップで用いる前記分配確率の値を更新する、ステップと、を更に有する、請求項14~16のいずれかに記載の言語モデル作成方法。
  18. (g)前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、ステップと、
    (h)前記(g)のステップで変換された前記標準語のみを含む単語列、及び標準語のテキストデータを用いて、前記標準語言語モデルを作成する、ステップと、を更に有する、請求項12~17のいずれかに記載の言語モデル作成方法。
  19.  標準語のテキストから作成された標準語言語モデルを用いる新たな言語モデルの作成をコンピュータによって実行するためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
    前記コンピュータによって、
    (a)方言を含む単語列を標準語の単語列に変換するための変換ルールを設定する、ステップと、
    (b)前記標準語言語モデル中の単語nグラムに前記変換ルールを適用して、前記方言を含むnグラムを作成し、更に、作成した前記方言を含むnグラムを前記単語nグラムに追加して、前記新たな言語モデルを作成する、ステップと、
    を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
  20.  前記(a)のステップで、前記変換ルールとして、前記方言を含む単語列と、前記方言に対応する標準語を含む単語列との組が設定され、
     前記(b)のステップで、
    前記方言を含むnグラムの作成後に前記標準語言語モデルから、前記標準語を含む単語列の出現確率を取り出し、取り出した出現確率と、予め設定された分配確率とから、同じ組の前記追加する方言を含む単語列の出現確率を算出する、請求項19に記載のプログラム。
  21.  前記(b)のステップで、前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データを用いて、前記分配確率の値を設定する、請求項20に記載のコンピュータ読み取り可能な記録媒体。
  22.  前記プログラムが、前記コンピュータに、
    (c)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に基づいて前記変換ルールを修正する、ステップと、
    (d)前記(a)のステップで既に設定されている前記変換ルールを、前記(c)のステップで修正された変換ルールを用いて更新する、ステップと、を実行させる、命令を更に含む請求項20または21に記載のコンピュータ読み取り可能な記録媒体。
  23.  前記プログラムが、前記コンピュータに、
    (e)前記方言データから方言を含む単語列を抽出し、抽出した前記方言を含む単語列に対応する標準語の単語列を前記標準語言語モデルから抽出し、そして、抽出した前記方言を含む単語列と、抽出した前記標準語の単語列とを用いて、前記変換ルールとして利用可能な変換パターンを導出する、ステップを実行させる、命令を更に含む請求項20または21に記載のコンピュータ読み取り可能な記録媒体。
  24.  前記プログラムが、前記コンピュータに、
    (f)前記(b)のステップにおける、前記分配確率の値の設定、前記方言を含むnグラムの作成、及び前記新たな言語モデルの作成の後に、前記新たな言語モデルと前記方言データとを用いた外部の音声認識装置による音声認識の結果を取得し、取得した前記音声認識の結果と前記方言データの正解データとから、前記(b)のステップで用いる前記分配確率の値を更新する、ステップと、を実行させる、命令を更に含む請求項19~21のいずれかに記載のコンピュータ読み取り可能な記録媒体。
  25.  前記プログラムが、前記コンピュータに、
    (g)前記方言を含む音声データ及び前記方言を含むテキストデータを有する方言データから前記方言を含む単語列を抽出し、前記変換ルールを用いて、抽出した前記方言を含む単語列を、標準語のみを含む単語列に変換する、ステップと、
    (h)前記(g)のステップで変換された前記標準語のみを含む単語列、及び標準語のテキストデータを用いて、前記標準語言語モデルを作成する、ステップと、を実行させる、命令を更に含む請求項19~24のいずれかに記載のコンピュータ読み取り可能な記録媒体。
PCT/JP2010/001858 2009-04-30 2010-03-16 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 WO2010125736A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011511272A JP5413622B2 (ja) 2009-04-30 2010-03-16 言語モデル作成装置、言語モデル作成方法、およびプログラム
US13/138,853 US8788266B2 (en) 2009-04-30 2010-03-16 Language model creation device, language model creation method, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009111075 2009-04-30
JP2009-111075 2009-04-30

Publications (1)

Publication Number Publication Date
WO2010125736A1 true WO2010125736A1 (ja) 2010-11-04

Family

ID=43031896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/001858 WO2010125736A1 (ja) 2009-04-30 2010-03-16 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US8788266B2 (ja)
JP (1) JP5413622B2 (ja)
WO (1) WO2010125736A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
JP2016024325A (ja) * 2014-07-18 2016-02-08 日本放送協会 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置
KR20180114781A (ko) * 2017-04-11 2018-10-19 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US9652452B2 (en) * 2012-01-06 2017-05-16 Yactraq Online Inc. Method and system for constructing a language model
US9519631B2 (en) * 2012-03-30 2016-12-13 Microsoft Technology Licensing, Llc Semantic diff and automerge
JP5653392B2 (ja) * 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9477652B2 (en) * 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9761220B2 (en) * 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9959271B1 (en) 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
JP2006525552A (ja) * 2003-04-30 2006-11-09 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 音声認識における統計的言語モデリング方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
AU1067900A (en) * 1998-11-25 2000-06-13 Entropic Limited Network and language models for use in a speech recognition system
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US7395205B2 (en) * 2001-02-13 2008-07-01 International Business Machines Corporation Dynamic language model mixtures with history-based buckets
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
JP3961780B2 (ja) 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
US7319958B2 (en) * 2003-02-13 2008-01-15 Motorola, Inc. Polyphone network method and apparatus
US7266495B1 (en) * 2003-09-12 2007-09-04 Nuance Communications, Inc. Method and system for learning linguistically valid word pronunciations from acoustic data
US7280963B1 (en) * 2003-09-12 2007-10-09 Nuance Communications, Inc. Method for learning linguistically valid word pronunciations from acoustic data
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
US7840399B2 (en) * 2005-04-07 2010-11-23 Nokia Corporation Method, device, and computer program product for multi-lingual speech recognition
US7565282B2 (en) * 2005-04-14 2009-07-21 Dictaphone Corporation System and method for adaptive automatic error correction
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
JP4466665B2 (ja) * 2007-03-13 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
US8645120B2 (en) * 2007-10-16 2014-02-04 Lockheed Martin Corporation System and method of prioritizing automated translation of communications from a first human language to a second human language
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
JP2006525552A (ja) * 2003-04-30 2006-11-09 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 音声認識における統計的言語モデリング方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164175A (ja) * 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2012078647A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 言語モデル学習装置及びコンピュータプログラム
US9251135B2 (en) 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US9311291B2 (en) 2013-08-13 2016-04-12 International Business Machines Corporation Correcting N-gram probabilities by page view information
JP2016024325A (ja) * 2014-07-18 2016-02-08 日本放送協会 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置
CN105551480A (zh) * 2015-12-18 2016-05-04 百度在线网络技术(北京)有限公司 方言转换方法及装置
KR20180114781A (ko) * 2017-04-11 2018-10-19 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치

Also Published As

Publication number Publication date
JPWO2010125736A1 (ja) 2012-10-25
JP5413622B2 (ja) 2014-02-12
US20120035915A1 (en) 2012-02-09
US8788266B2 (en) 2014-07-22

Similar Documents

Publication Publication Date Title
JP5413622B2 (ja) 言語モデル作成装置、言語モデル作成方法、およびプログラム
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
CN111837178A (zh) 语音处理系统和处理语音信号的方法
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP6051004B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP7072178B2 (ja) 自然言語処理のための装置、方法及びプログラム
Kurimo et al. Modeling under-resourced languages for speech recognition
WO2016167779A1 (en) Speech recognition device and rescoring device
WO2019065263A1 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
WO2020170906A1 (ja) 生成装置、学習装置、生成方法及びプログラム
CN112669845A (zh) 语音识别结果的校正方法及装置、电子设备、存储介质
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
JP4340024B2 (ja) 統計的言語モデル生成装置および統計的言語モデル生成プログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
KR102519618B1 (ko) 단대단 신경망 번역 시스템 및 그 방법
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10769438

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011511272

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13138853

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10769438

Country of ref document: EP

Kind code of ref document: A1