WO2014073206A1 - 情報処理装置、及び、情報処理方法 - Google Patents

情報処理装置、及び、情報処理方法 Download PDF

Info

Publication number
WO2014073206A1
WO2014073206A1 PCT/JP2013/006555 JP2013006555W WO2014073206A1 WO 2014073206 A1 WO2014073206 A1 WO 2014073206A1 JP 2013006555 W JP2013006555 W JP 2013006555W WO 2014073206 A1 WO2014073206 A1 WO 2014073206A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
language model
context
information processing
feature function
Prior art date
Application number
PCT/JP2013/006555
Other languages
English (en)
French (fr)
Inventor
真 寺尾
孝文 越仲
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/440,931 priority Critical patent/US20150278194A1/en
Priority to JP2014545575A priority patent/JPWO2014073206A1/ja
Publication of WO2014073206A1 publication Critical patent/WO2014073206A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the generation probability P (w 1 m ) of the word string w 1 m including m words “w 1 , w 2 ,..., w m ” is expressed as follows using the conditional probability of each word: I can ask for it.
  • w i ⁇ N + 1 i ⁇ 1 ) can be estimated using, for example, training data composed of word strings stored for estimation.
  • C (w i ⁇ N + 1 i ) is the number of times the word string wi ⁇ N + 1 i appears in the learning data
  • C (w is the number of times the word string wi ⁇ N + 1 i ⁇ 1 appears in the learning data.
  • w i ⁇ N + 1 i ⁇ 1 ) can be estimated using maximum likelihood estimation as follows.
  • the information processing apparatus 9 includes a global context extraction unit 910, a trigger feature calculation unit 920, a language model generation unit 930, a language model learning data storage unit 940, and a language model storage unit 950.
  • the language model storage unit 950 stores a language model.
  • Non-Patent Document 1 has a problem that the generation probability of subsequent words cannot be calculated with high accuracy.
  • An object of the present invention is to provide an information processing apparatus and an information processing method capable of solving the above problems and generating a highly accurate language model.
  • the present invention does not particularly limit the language processing unit (the vocabulary unit of the language model).
  • the processing unit of the present invention may be a word, a word string such as an idiom or clause including a plurality of words, or an individual character.
  • words are collectively described as “words”.
  • the global context extraction unit 10 identifies each word included in the received language model learning data as a processing target, and sets a set of words appearing around each identified word (hereinafter also referred to as “specific word”). As a global context, each specific word is extracted.
  • the set of words (global context) extracted by the global context extraction unit 10 of the present embodiment is not particularly limited.
  • the global context extraction unit 10 may extract a sentence including a specific word as a global context as a global context.
  • the global context extraction unit 10 may extract a set of words within a predetermined range (distance) from a word immediately before or after a specific word as a global context.
  • the global context extraction unit 10 extracts a set of words in a predetermined range before a specific word as a global context, the specific word becomes a subsequent word with respect to the global context.
  • the global context extraction unit 10 may extract a set of words in a predetermined range (distance) before and after the specific word as the global context.
  • the front range and the back range may be the same distance or different distances.
  • the “distance” described here is a distance as a word of language data.
  • the distance is the number of words from a specific word or the number of sentences from a sentence including the specific word.
  • the global context extraction unit 10 extracts nouns and verbs as global contexts.
  • the global context extraction unit 10 of the present embodiment is not limited to this.
  • the global context extraction unit 10 may select using other criteria (for example, parts of speech such as adjectives or vocabulary sets), or may extract all words.
  • the global context extraction unit 10 sends the extracted global context data to the global context classification unit 20.
  • emotion 1 “joy”, emotion 2 “sadness”, emotion 3 “anger”, etc. can be considered as classes to be classified.
  • assigning a global context to one class represents being related to one class. For example, if the probability that the global context belongs to the topic “Landing on the Moon” is 1.0, this corresponds to assigning this global context to one topic class “Landing on the Moon”.
  • classifying the global context into one class but including creating information (for example, posterior probabilities of each class) indicating relation states to a plurality of classes, To tell. Therefore, “classify the global context based on a predetermined viewpoint” can be said to “classify the global context based on the predetermined viewpoint or calculate information indicating a state related to the predetermined viewpoint”.
  • the global context classification unit 20 will be described as calculating the posterior probability of each class when the global context is a condition. That is, the global context classification unit 20 calculates a posterior probability of each class when a global context is given using a global context classification model as a result of classification.
  • the global context classification model can be created, for example, by learning a maximum entropy model, a support vector machine, a neural network, etc. using a large amount of text data to which class information is added.
  • FIG. 3 is a diagram illustrating an example of a result obtained by classifying the global context extracted in FIG. 2 from the viewpoint of classification of “topics”.
  • t is a class and d is a global context.
  • the posterior probability P (t moon landing
  • d) of the class of the topic 1 “moon landing” is “0.7”.
  • the posterior probability P (t space station construction
  • d) of the class of topic 2 “space station construction” is “0.1”. Further, the posterior probability of the topic k is “0.0”.
  • the global context classification unit 20 obtains the result of classification of the global context corresponding to the specific word for the word (specific word) specified in the language model learning data by the global context extraction unit 10 (this embodiment). Then calculate the posterior probability of each class.
  • the global context extraction unit 10 sets a plurality of different words in the language model learning data as specific words, repeats the extraction of the global context for each specific word, and sends the obtained global context to the global context classification unit 20.
  • the global context classification unit 20 executes the classification processing described so far for all received global contexts.
  • the global context extraction unit 10 may set all words in the language model learning data as specific words, or only words belonging to a specific part of speech as specific words, and are included in a predetermined vocabulary set.
  • the word may be a specific word.
  • the global context classification unit 20 sends the classification result to the language model generation unit 30.
  • the language model generation unit 30 generates a language model for calculating the generation probability of each specific word using the classification result of the global context classification unit 20. More specifically, it is as follows. It can be said that the generation of the language model using the classification result generates the language model based on learning using the classification result. Therefore, the language model generation unit 30 can also be called a language model learning unit.
  • the language model generation unit 30 can use various methods for learning such a model.
  • the language model generation unit 30 may use the maximum entropy model already described.
  • the language model generation unit 30 of the present embodiment generates a language model using the posterior probabilities of classes calculated based on the global context. Therefore, the language model generation unit 30 can generate a language model based on the global context.
  • the language model generation unit 30 selects “Landing on the Moon”.
  • a language model having a large generation probability of the specific word w “moon” can be generated.
  • FIG. 4 is a flowchart showing an example of the operation of the information processing apparatus 1.
  • the global context extraction unit 10 of the information processing apparatus 1 extracts a set of words around a word (specific word) in the language model learning data as global context as global context data (step S210).
  • the global context classification unit 20 of the information processing apparatus 1 classifies the global context using the context classification model (step S220).
  • the information processing apparatus 1 determines whether or not the processing has been completed for all words in the language model learning data (step S230). Note that the processing target words of the information processing device 1 need not be all the words included in the language model learning data.
  • the information processing apparatus 1 may use a predetermined partial word of the language model learning data as a specific word. In this case, the information processing apparatus 1 determines whether all the words included in the predetermined vocabulary set have been processed as specific words.
  • step S230 If the process has not been completed (NO in step S230), the information processing apparatus 1 returns to step S210 and processes the next specific word.
  • the language model generation unit 30 of the information processing device 1 uses the result of classification of the global context (for example, the posterior probability of the class) to determine the generation probability of each specific word.
  • a language model to be calculated is generated (step S240).
  • the information processing apparatus 1 configured as described above can obtain an effect of generating a language model with high accuracy.
  • the reason is that the information processing apparatus 1 extracts the global context of the language model learning data. Then, the information processing apparatus 1 classifies the extracted global context using the context classification model. Then, the information processing apparatus 1 generates a language model based on the classification result. This is because the information processing apparatus 1 can generate a language model based on the global context.
  • the global context classifying unit 20 performs “moon landing”. A large value is calculated as the posterior probability of the class.
  • the language model generation unit 30 generates a model for calculating the word generation probability using the posterior probability of the class as a feature. Therefore, the language model generated according to the present embodiment can be calculated with a high probability that “moon” appears in the subsequent word of the global context in FIG.
  • the information processing apparatus 1 can obtain the effect of reducing the deterioration of the estimation accuracy of subsequent words even when an error is included in the global context.
  • the information processing apparatus 1 extracts a global context having a predetermined size. Therefore, even if a small number of words included in the global context include an error, the ratio of the error to the global context is small, and the classification result of the global context does not change significantly.
  • the configuration of the information processing apparatus 1 is not limited to the above description.
  • the information processing apparatus 1 may divide each configuration into a plurality of configurations.
  • the information processing apparatus 1 may divide the global context extraction unit 10 into a language model learning data reception unit (not shown), a processing unit that extracts a global context, and a transmission unit that transmits a global context.
  • the information processing apparatus 1 may have one or more configurations as one configuration.
  • the information processing apparatus 1 may include the global context extraction unit 10 and the global context classification unit 20 as one configuration.
  • the information processing apparatus 1 may be configured by another device connected to a network (not shown).
  • FIG. 5 is a block diagram showing an example of the configuration of the information processing apparatus 2 which is another configuration of the present embodiment.
  • the information processing apparatus 2 includes a CPU 610, a ROM 620, a RAM 630, an IO (Input / Output) 640, a storage device 650, an input device 660, and a display device 670, and constitutes a computer.
  • the CPU 610 reads a program from the storage device 650 via the ROM 620 or the IO 640. Then, the CPU 610 realizes each function as the global context extraction unit 10, the global context classification unit 20, and the language model generation unit 30 of the information processing apparatus 1 of FIG. 1 based on the read program.
  • the CPU 610 uses the RAM 630 and the storage device 650 as temporary storage when realizing each function.
  • the CPU 610 receives input data from the input device 660 via the IO 640 and displays the data on the display device 670.
  • the CPU 610 may read a program included in the storage medium 700 that stores the program so as to be readable by a computer using a storage medium reading device (not shown). Alternatively, the CPU 610 may receive a program from an external device via a network (not shown).
  • ROM 620 stores programs executed by CPU 610 and fixed data.
  • the ROM 620 is, for example, a P-ROM (Programmable-ROM) or a flash ROM.
  • the RAM 630 temporarily stores programs executed by the CPU 610 and data.
  • the RAM 630 is, for example, a D-RAM (Dynamic-RAM).
  • the IO 640 mediates data between the CPU 610, the storage device 650, the input device 660, and the display device 670.
  • the IO 640 is, for example, an IO interface card.
  • the storage device 650 stores data and programs stored in the information processing device 2 for a long time. Further, the storage device 650 may operate as a temporary storage device for the CPU 610. Further, the storage device 650 may store part or all of the information of the present embodiment illustrated in FIG. 1 such as language model learning data.
  • the storage device 650 is, for example, a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), or a disk array device.
  • the input device 660 is an input unit that receives an input instruction from an operator of the information processing apparatus 2.
  • the input device 660 is, for example, a keyboard, a mouse, or a touch panel.
  • the display device 670 is a display unit of the information processing apparatus 2.
  • the display device 670 is a liquid crystal display, for example.
  • the information processing apparatus 2 configured in this way can obtain the same effects as the information processing apparatus 1.
  • the global context extraction unit 10, the global context classification unit 20, and the language model generation unit 30 are the same as those in the first embodiment. Therefore, the same description of the first embodiment is omitted as appropriate.
  • the global context extraction unit 10 receives language model learning data from the language model learning data storage unit 110. Since other operations of the global context extraction unit 10 are the same as those in the first embodiment, a detailed description thereof will be omitted.
  • the context classification model generation unit 40 sets the global context to “emotion”.
  • a context classification model that classifies from a viewpoint can be generated. Note that the viewpoint of the class assigned to the learning data as the context classification model learning data is not limited to “topic”, “emotion”, and “time” described so far.
  • the context classification model generation unit 40 may operate as follows.
  • the context classification model generation unit 40 clusters words or documents included in the context classification model learning data and collects them into a plurality of clusters (unsupervised clustering).
  • the clustering technique used by the context classification model generation unit 40 is not particularly limited.
  • the context classification model generation unit 40 may use agglomerative clustering or k-means method as a clustering method. By regarding each cluster classified in this way as a class, the context classification model generation unit 40 can learn the context classification model.
  • FIG. 8 is a schematic diagram illustrating the clustering operation of the context classification model generation unit 40.
  • the context classification model generation unit 40 divides the context classification model learning data having no class information into a plurality of classes (cluster 1, cluster 2,..., Cluster 1) using aggregate clustering.
  • the context classification model generation unit 40 sends the generated context classification model to the context classification model storage unit 130 and stores it.
  • the context classification model storage unit 130 stores the context classification model generated by the context classification model generation unit 40.
  • the global context classification unit 20 classifies the global context based on the context classification model stored in the context classification model storage unit 130 as in the first embodiment.
  • the information processing device 3 does not need to generate a context classification model each time the language model learning data is processed.
  • the global context classification unit 20 of the information processing device 3 may apply the same context classification model to different language model learning data.
  • the information processing apparatus 3 may cause the context classification model generation unit 40 to generate a context classification model as necessary. For example, when the information processing apparatus 3 receives context classification model learning data via a network (not shown), the information processing apparatus 3 may cause the context classification model generation unit 40 to generate a context classification model.
  • the global context classification unit 20 sends the classification result to the language model generation unit 30.
  • the language model generation unit 30 generates a language model based on the classification result. Since the language model generation unit 30 is the same as that of the first embodiment except that the generated language model is stored in the language model storage unit 140, detailed description thereof is omitted.
  • the language model storage unit 140 stores the language model generated by the language model generation unit 30.
  • the information processing apparatus 3 of the present embodiment configured as described above can obtain an effect of generating a more accurate language model in addition to the effect of the first embodiment.
  • the reason is that the context classification model generation unit 40 of the information processing apparatus 3 of this embodiment generates a context classification model based on the context classification model learning data.
  • the global context classification unit 20 uses the generated context classification model. This is because the information processing apparatus 3 can perform processing using an appropriate context classification model.
  • the information processing apparatus 3 of the present embodiment may be realized by a computer including the CPU 610, the ROM 620, and the RAM 630, similarly to the information processing apparatus 2 shown in FIG.
  • the storage device 650 may operate as each storage unit of the present embodiment.
  • FIG. 9 illustrates a case where the storage device 650 operates as the language model learning data storage unit 110, the context classification model learning data storage unit 120, the context classification model storage unit 130, and the language model storage unit 140 of the present embodiment. Indicates information to be stored.
  • the information processing device 4 is different in that it includes a trigger feature calculation unit 50 and a language model generation unit 34 instead of the language model generation unit 30 in addition to the configuration of the information processing device 3 of the second embodiment.
  • the information processing apparatus 4 of the present embodiment may be realized by a computer including the CPU 610, the ROM 620, and the RAM 630, similarly to the information processing apparatus 2 illustrated in FIG.
  • the trigger feature calculation unit 50 calculates the feature function of the extracted trigger pair.
  • the feature function of the trigger pair from the word a to the word b can be obtained by the following equation.
  • the information processing device 4 according to the third embodiment configured as described above can obtain an effect of further improving the accuracy of the word generation probability in addition to the effect of the information processing device 3 of the second embodiment.
  • the feature function of the trigger pair indicates the relationship between the two words of the trigger pair (for example, the strength of co-occurrence).
  • the language model generation unit 34 of the information processing apparatus 4 generates a language model that predicts the word generation probability in consideration of the relationship between specific two words that are likely to co-occur in addition to the classification result of the global context. Because.
  • FIG. 11 is a block diagram illustrating an example of the configuration of the information processing apparatus 5 according to the fourth embodiment.
  • the information processing device 5 is different in that it includes an N-gram feature calculation unit 60 and a language model generation unit 35 instead of the language model generation unit 30 in addition to the configuration of the information processing device 3 of the second embodiment.
  • the information processing apparatus 5 of the present embodiment may be realized by a computer including the CPU 610, the ROM 620, and the RAM 630, similarly to the information processing apparatus 2 illustrated in FIG.
  • the N-gram feature calculation unit 60 calculates a feature function for the extracted word string.
  • the word and w i if the the N-1 word string immediately before was w i-N + 1 i- 1, feature functions of the N-gram can be obtained by the following equation.
  • the N-gram feature calculation unit 60 sends the calculated N-gram feature function to the language model generation unit 35.
  • the language model generation unit 35 generates a language model using the feature function from the N-gram feature calculation unit 60 in addition to the classification result from the global context classification unit 20.
  • the information processing apparatus 5 according to the fourth embodiment configured as described above can obtain the effect of further improving the accuracy of the word generation probability in addition to the effect of the information processing apparatus 3 of the second embodiment.
  • the N-gram feature function is a function that takes into account local word chain restrictions.
  • the language model generation unit 35 of the information processing device 5 generates a language model that predicts the word generation probability in consideration of local word restrictions in addition to the global context classification result.
  • FIG. 12 is a block diagram illustrating an example of the configuration of the information processing apparatus 6 according to the fifth embodiment.
  • the information processing device 6 includes a trigger feature calculation unit 50 similar to the third embodiment and an N-gram feature calculation unit 60 similar to the fourth embodiment.
  • a language model generation unit 36 is included instead of the language model generation unit 34.
  • the configuration other than the language model generation unit 36 of the information processing device 6 is the same as that of the information processing device 4 or the information processing device 5, the configuration and operation unique to the present embodiment will be described, and the third embodiment and Descriptions similar to those in the fourth embodiment are omitted.
  • the information processing apparatus 6 of the present embodiment may be realized by a computer including the CPU 610, the ROM 620, and the RAM 630, similarly to the information processing apparatus 2 illustrated in FIG.
  • the language model generation unit 36 generates a language model using a global context classification, a feature function of a trigger pair, and an N-gram feature function.
  • the information processing apparatus 6 of the fifth embodiment configured as described above can realize the effects of the information processing apparatus 4 of the third embodiment and the information processing apparatus 5 of the fourth embodiment.
  • a global context extraction unit that identifies a word, character, or word string included in the data as a specific word, and extracts a set of words included in at least a predetermined range from the specific word as a global context;
  • a context classification means for classifying the global context based on a predetermined viewpoint and outputting a classification result;
  • An information processing apparatus comprising: a language model generating unit that generates a language model for calculating the generation probability of the specific word using the classification result.
  • Context classification model generation means for generating a context classification model indicating a relationship between the set of words and a class based on the predetermined viewpoint based on predetermined language data;
  • the information processing apparatus according to claim 1, wherein the context classification unit classifies the global context using the context classification model.
  • the context classification model generation means includes: The information processing apparatus according to claim 2, wherein a model for calculating a posterior probability of a class when a set of words is given is generated using a set of a plurality of words given class information as learning data.
  • the language model generation means includes The information processing apparatus according to appendix 2 or 3, wherein a maximum entropy model using the posterior probability of the class as a feature function is used.
  • Trigger feature calculating means for calculating a feature function of a trigger pair between a word included in the global context and the specific word;
  • the information processing apparatus according to any one of claims 1 to 4, wherein the language model generation unit generates a language model using the classification result and the feature function of the trigger pair.
  • Trigger feature calculating means for calculating a feature function of a trigger pair between a word included in the global context and the specific word;
  • a feature function calculating means for calculating a feature function of N-gram immediately before the specific word,
  • Appendix 8 Specifying a word, character or word string included in the data as a specific word, extracting a set of words included in at least a predetermined range from the specific word as a global context, Classifying the global context based on a predetermined viewpoint, and outputting a classification result; An information processing method for generating a language model for calculating a generation probability of the specific word using the classification result.
  • Appendix 11 The information processing method according to appendix 9 or 10, wherein a maximum entropy model using the posterior probability of the class as a feature function is used.
  • Appendix 17 A computer-readable recording of a program according to appendix 16, which causes a computer to execute a process of calculating a posterior probability of a class when a set of words is given using a set of a plurality of words assigned class information as learning data Possible recording media.
  • Appendix 19 Processing to calculate a feature function of a trigger pair between a word included in the global context and the specific word;
  • a computer-readable recording medium recording the program according to any one of appendices 15 to 18, which causes a computer to execute a result of the classification and a process of generating a language model using the feature function of the trigger pair .
  • Appendix 21 Processing to calculate a feature function of a trigger pair between a word included in the global context and the specific word; A process of calculating a feature function of N-gram immediately before the specific word; 21.
  • the program according to any one of appendices 15 to 20, which causes a computer to execute a process of generating a language model using the classification result, the feature function of the trigger pair, and the feature function of the N-gram.
  • the present invention can improve the accuracy of generating a statistical language model used in the fields of speech recognition, character recognition, and spell check.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

 精度良く言語モデルを生成する。 データに含まれる単語、文字又は単語列を特定の単語として特定し、特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、分類の結果を用いて、特定単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む情報処理装置。

Description

情報処理装置、及び、情報処理方法
 本発明は、情報処理に関し、特に、言語データの情報処理に関する。
 統計的言語モデルは、例えば、処理対象の文書に含まれる単語(word)、単語列(word string)又は文字列(character string)の生成確率を計算するモデルである(例えば、特許文献1を参照)。
 このような統計的言語モデルに、Nグラム法(N-gram method)を用いる「Nグラム言語モデル」がある。
 Nグラム言語モデルとは、単語を処理単位とする場合、ある時点での単語の生成確率が、その単語の直前の「N-1個」の単語のみに基づくとするモデルである。
 i番目の単語をw、単語wの直前の「N-1」個、つまり「i-N+1」番目から「i-1」番目までの単語列をwi-N+1 i-1とすると、Nグラム言語モデルによる単語wの生成確率Pは、P(w|wi-N+1 i-1)となる。なお、P(w|wi-N+1 i-1)は、単語列wi-N+1 i-1が発生した場合の単語wが発生する条件付き確率(事後確率)である。
 m個の単語「w、w、・・・、w」を含む単語列w の生成確率P(w )は、各単語の条件付き確率を用いて、次のように求めることできる。
Figure JPOXMLDOC01-appb-I000001
 条件付き確率P(w|wi-N+1 i-1)は、例えば、推定のために保存された単語列から成る学習用のデータ(training data)を用いて推定できる。ここで、単語列wi-N+1 が学習用データ中に出現する回数をC(wi-N+1 )、単語列wi-N+1 i-1が学習用データ中に出現する回数をC(wi-N+1 i-1)とすると、条件付き確率P(w|wi-N+1 i-1)は、最尤推定法(maximum likelihood estimation)を用いて、次のように推定できる。
Figure JPOXMLDOC01-appb-I000002
 なお、Nの値が大きいNグラム言語モデルは、計算量が膨大となる。そのため、一般的なNグラム言語モデルは、Nの値として、2~5を用いる。
 このように、Nグラム言語モデルは、局所的な単語の連鎖のみを考慮するモデルである。そのため、Nグラム言語モデルは、文全体や文書全体の整合性を考慮できない。
 なお、以下では、Nグラム言語モデルが考慮する範囲、すなわち直前の2~5単語より広い範囲の単語の集合(例えば、直前の数十単語)を、「大域的な文脈(大域文脈)」と言う。つまり、Nグラム言語モデルは大域文脈を考慮しない。
 これに対し、大域文脈を考慮するモデルとして、トリガーモデル(trigger model)がある(例えば、非特許文献1を参照)。非特許文献1に記載のトリガーモデルは、大域文脈に現れる単語が、それぞれ独立に、後続の単語の生成確率に影響を与えるとする言語モデルである。そして、トリガーモデルは、単語wが後続の単語wの生成確率に与える影響の度合いを、パラメータとして保持する。このような2単語(単語wと単語w)の対を「トリガー対(trigger pair)」と言う。以下、トリガー対を「w-->w」のように表す。
 例えば、図14に示す文書に、トリガーモデルを適用する場合について説明する。図14に示す文書を用いる場合、トリガーモデルは、大域文書の中の単語(例えば、space、USA、rocketsなど)が後続する単語(moon)の生成確率に与える影響の度合いを、それぞれ独立に単語間の関係としてモデル化し、言語モデルに組み入れる。
 非特許文献1に記載の技術は、2単語間の関係を言語モデルに組み入れるため、最大エントロピーモデルを用いる。
 例えば、大域文脈をd、生成確率を計算する後続単語をwとし、最大エントロピーモデルを用いると、後続単語wの生成確率P(w|d)は、次の式となる。
Figure JPOXMLDOC01-appb-I000003
 ここで、f(d,w)は、i番目のトリガー対に対する素性関数(feature function)である。Mは、用意する素性関数の総数である。例えば、単語「space」と単語「moon」とのトリガー対「space-->moon」に対する素性関数f(d,w)の定義は、次の式である。
Figure JPOXMLDOC01-appb-I000004
 λは、モデルのパラメータである。λは、学習データを基に最尤推定法を用いて決定される。具体的には、例えば、λは、非特許文献1に記載された反復スケーリングアルゴリズム(iterative scaling algorithm)を用いて、算出できる。
 Z(d)は、「Σp(w|d)=1」とするための正規化項であり、次の式となる。
Figure JPOXMLDOC01-appb-I000005
 このような、トリガーモデルを用いて言語を学習する情報処理装置の動作について説明する。
 図13は、このような、トリガーモデルを用いて言語を学習する情報処理装置9の構成の一例を示すブロック図である。
 情報処理装置9は、大域文脈抽出部910と、トリガー素性計算部920と、言語モデル生成部930と、言語モデル学習データ記憶部940と、言語モデル記憶部950と含む。
 言語モデル学習データ記憶部940は、学習対象である言語モデル学習データを記憶する。ここで、対象の単語を単語wとする。
 大域文脈抽出部910は、言語モデル学習データ記憶部940が記憶する言語モデル学習データの中から、単語wの周辺に現れる単語の集合を大域文脈として抽出する。この抽出した大域文脈は、大域文脈dとする。そして、大域文脈抽出部910は、単語wと大域文脈dをトリガー素性計算部920に送る。
 トリガー素性計算部920は、素性関数f(d,w)を計算する。トリガー素性計算部920は、計算した素性関数f(d,w)を言語モデル生成部930に送る。
 言語モデル生成部930は、最大エントロピーモデルを用いて単語wの生成確率P(w|d)を算出する言語モデルを生成する。そして、言語モデル生成部930は、生成した言語モデルを言語モデル記憶部950に送り、記憶させる。
 言語モデル記憶部950は、言語モデルを記憶する。
特開平10-319989
Ronald Rosenfeld, "A maximum entropy approach to adaptive statistical language modeling," Computer Speech and Language, Vol. 10, No. 3, pp. 187-228, 1996.
 非特許文献1に記載のトリガーモデルは、大域文脈の中の単語が、個別に、後続単語(単語w)の生成確率に影響を及ぼすとする。そのため、トリガーモデルは、後続単語の生成確率を精度良く計算できない場合があるという問題点があった。
 例えば、図14に示す文を参照して説明する。
 図14に示す大域文脈dには、「space」、「USA」、「rockets」、「landed」、「humans」が、出現している。そのため、これらの単語の出現を考慮すると、この大域文脈は、「月面着陸(moon landing)」に関連する可能性が高いと推定できる。従って、これら大域文脈中の単語を考慮すると、後続単語として「moon」が出現する確率は非常に高いと推定されるべきである。しかし、「USA」や「humans」は、単独の単語としては、「moon」との関連が強くない。そのため、非特許文献1に記載のトリガーモデルにおいて、「USA」や「humans」は、後続単語としての「moon」の生成確率の向上への影響が弱くなる。また、「space」や「rockets」は、ある程度「月面着陸」に関連する単語であるが、「月面着陸」以外の多くの話題にも関連する単語である。そのため、「space」や「rockets」は、単独では、「moon」の生成確率を大きくは向上できない。結果として、トリガーモデルでは、「moon」の生成確率が低く推定されてしまう。
 このように、非特許文献1に記載のトリガーモデルは、後続単語の生成確率を精度高く計算できないという問題点があった。
 本発明の目的は、上記問題点を解決し、精度の高い言語モデルを生成できる情報処理装置、及び、情報処理方法を提供することにある。
 本発明の一形態における情報処理装置は、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む。
 本発明の一形態における情報処理方法は、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する。
 本発明の一形態におけるプログラムは、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理とをコンピュータに実行させる。
 本発明によれば、精度良く言語モデルを生成できる。
図1は、本発明における第1の実施形態に係る情報処理装置の一例を示すブロック図である。 図2は、第1の実施形態に係る大域文脈抽出部の動作を説明するための図である。 図3は、第1の実施形態に係る事後確率の一例を示す図である。 図4は、第1の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。 図5は、第1の実施形態に係る情報処理装置の別の構成の一例を示すブロック図である。 図6は、第2の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図7は、第2の実施形態に係る文脈分類モデル学習データの一例を示す図である。 図8は、第2の実施形態に係る文脈分類モデル生成部の動作を説明するための図である。 図9は、第2の実施形態に係る記憶装置を説明するための図である。 図10は、第3の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図11は、第4の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図12は、第5の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図13は、一般的なトリガーモデルを用いる情報処理装置の構成の一例を示すブロック図である。 図14は、大域文脈と後続単語の関係の一例を示す図である。
 次に、本発明の実施形態について図面を参照して説明する。
 なお、各図面は、本発明の実施形態を説明するものである。そのため、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明は、省略する場合がある。
 また、本発明は、言語の処理単位(言語モデルの語彙の単位)を特に限らない。例えば、本発明の処理単位は、単語でも良く、複数の単語を含む熟語や節のような単語列でも良く、また、個別の文字でも良い。以下では、これらをまとめて「単語」として説明する。
 また、本発明の処理の対象のデータは、特に制限はない。ただ、言語データを用いた言語モデルの生成は、言語データの学習を用いた言語モデルの生成と言うこともできる。そのため、以下の説明では、本発明の処理の一例として、言語モデルを学習する場合について説明する。そして、本発明の処理対象のデータは、「言語モデル学習データ」と言う場合もある。
 (第1の実施形態)
 図1は、本発明における第1の実施形態に係る情報処理装置1の構成の一例を示すブロック図である。
 情報処理装置1は、大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30とを含む。
 大域文脈抽出部10は、本実施形態の処理対象データである言語モデル学習データを受け取り、言語モデル学習データの大域文脈を抽出する。より具体的に説明すると、次のとおりである。
 大域文脈抽出部10は、受け取った言語モデル学習データに含まれる各単語を処理の対象として特定し、それぞれ特定された単語(以下、「特定単語」とも言う。)の周辺に現れる単語の集合を、大域文脈として、特定単語毎に抽出する。
 図2は、情報処理装置1の大域文脈抽出部10の動作の概要を説明するための図である。
 図2において、破線で囲まれた文が、一例として示す言語モデル学習データである。例えば、大域文脈抽出部10は、言語モデル学習データに含まれる1つの単語(特定単語)w(図2の「moon」)に対しての大域文脈d(図2の「space、USA、rockets、program、landed、humans」)を抽出する。
 なお、本実施形態の大域文脈抽出部10が抽出する単語の集合(大域文脈)は、特に制限はない。例えば、大域文脈抽出部10は、大域文脈として、特定単語が含まれる文を単語の集合として抽出しても良い。あるいは、大域文脈抽出部10は、特定単語の直前の単語又は直後の単語から所定の範囲(距離)の単語の集合を、大域文脈として抽出しても良い。なお、大域文脈抽出部10が、特定単語の前の所定の範囲の単語の集合を大域文脈として抽出した場合、特定単語は、大域文脈に対して、後続単語となる。
 あるいは、大域文脈抽出部10は、特定単語の前後の所定の範囲(距離)の単語の集合を大域文脈として抽出しても良い。この場合、前の範囲と後ろの範囲は、同じ距離でも、異なった距離でも良い。
 なお、ここに記載の「距離」は、言語データの単語としての距離である。例えば、距離は、特定単語からの単語の数、又は、その特定単語を含む文からの文の数である。
 また、図2に示す例では、大域文脈抽出部10は、名詞と動詞を大域文脈として抽出した。しかし、本実施形態の大域文脈抽出部10は、これに限らない。大域文脈抽出部10は、他の基準(例えば、形容詞など品詞や語彙セット)を用いて選択しても良く、全ての単語を抽出しても良い。
 図1の説明に戻る。
 大域文脈抽出部10は、抽出した大域文脈のデータを大域文脈分類部20に送る。
 大域文脈分類部20は、大域文脈抽出部10が抽出した大域文脈を所定の観点に基づいてクラスへと分類する。
 より具体的に説明すると、大域文脈分類部20は、予め作成された文脈分類モデルを用いて、大域文脈をクラスに分類する。文脈分類モデルとは、大域文脈分類部20が分類に用いるモデルである。
 大域文脈分類部20は、様々な観点に基づいて、大域文脈をクラスへ分類することができる。例えば、「話題」という観点に対しては、分類先のクラスとして、例えば、話題1「月面着陸」、話題2「宇宙ステーション建設」、などが考えられる。
 また、「感情」という観点に対しては、分類先のクラスとして、例えば、感情1「喜び」、感情2「悲しみ」、感情3「怒り」、などが考えられる。
 また、「文書が作成された時期」という観点に対しては、分類先のクラスとして「1月」「2月」「3月」や、「19世紀」「20世紀」「21世紀」などが考えられる。なお、分類に用いる観点は、上述の観点に限られるものではない。
 ここで、本実施形態の分類について説明する。
 分類とは、一般的に、事物を所定の観点又は性質に基づいて種類(クラス)に分けることである。そのため、本実施形態の大域文脈分類部20は、大域文脈を、所定の観点を基に設定したクラスのいずれかに割り当てても良い(すなわち、ハードクラスタリング)。例えば、大域文脈を、「月面着陸」という1つの話題クラスに割り当てることができる。
 しかし、大域文脈は、1つのクラスに関連するとは限らない。大域文脈は、複数のクラスに関連する場合もある。そこで、本実施形態の大域文脈分類部20は、大域文脈を、1つのクラスに分類するのではなく、複数のクラスとの関連の度合いを表す情報を作成しても良い。このような情報として、例えば、大域文脈を条件とした場合の各クラスの事後確率が想定できる(すなわち、ソフトクラスタリング)。例えば、大域文脈が「月面着陸」という話題に属する確率が0.7、「宇宙ステーション建設」という話題に属する確率が0.1、などのように推定することも、本実施形態においては分類と呼ぶ。
 なお、大域文脈を1つのクラスに割り当てることは、1つのクラスに関連することを表すと言うこともできる。例えば、大域文脈が「月面着陸」という話題に属する確率が1.0とすれば、これはこの大域文脈を「月面着陸」という1つの話題クラスに割り当てたことに相当する。
 そこで、以下、大域文脈を1つにクラスに分類することに限らず、複数のクラスへの関連状態を示す情報(例えば、各クラスの事後確率)を作成することを含めて、「分類」と言う。そのため、「大域文脈を所定の観点を基に分類する」は、「大域文脈を所定の観点を基に分類又は所定の観点への関連状態を示す情報を算出する」と言うこともできる。
 以下では、分類の一例として、大域文脈分類部20は、大域文脈を条件とした場合の各クラスの事後確率を算出するとして、説明する。つまり、大域文脈分類部20は、分類の結果として、大域文脈分類モデルを用いて、大域文脈が与えられたときの各クラスの事後確率を算出する。
 大域文脈分類モデルは、例えば、クラス情報が付与された大量のテキストデータを用いて、最大エントロピーモデルやサポートベクトルマシンやニューラルネットワークなどを学習することで作成することができる。
 図3は、図2で抽出した大域文脈を、「話題」を分類の観点として分類した結果の一例を示す図である。
 図3において、tはクラス、dは大域文脈である。
 例えば、話題1「月面着陸」のクラスの事後確率P(t=月面着陸|d)は、「0.7」である。話題2「宇宙ステーション建設」のクラスの事後確率P(t=宇宙ステーション建設|d)は、「0.1」である。また、話題kの事後確率は、「0.0」である。
 このように、大域文脈分類部20は、大域文脈抽出部10が言語モデル学習データ内で特定した単語(特定単語)に対して、その特定単語に対応する大域文脈の分類の結果(本実施形態では各クラスの事後確率)を計算する。
 なお、大域文脈抽出部10は、言語モデル学習データ内の異なる複数の単語を特定単語とし、それぞれの特定単語について大域文脈の抽出を繰り返し、得られた大域文脈を大域文脈分類部20に送る。大域文脈分類部20は受け取ったすべての大域文脈に対してこれまでに説明した分類処理を実行する。
 なお、大域文脈抽出部10は、言語モデル学習データ内のすべての単語を特定単語としても良いし、特定の品詞に所属する単語のみを特定単語としても良いし、あらかじめ定めた語彙セットに含まれる単語を特定単語としても良い。
 図1の説明に戻る。
 大域文脈分類部20は、分類の結果を、言語モデル生成部30に送る。
 言語モデル生成部30は、大域文脈分類部20の分類の結果を用いて、各々の特定単語の生成確率を計算する言語モデルを生成する。より具体的に説明すると、次のようになる。なお、分類の結果を用いた言語モデルの生成は、分類の結果を用いた学習を基に言語モデルを生成すると言うこともできる。そのため、言語モデル生成部30は、言語モデル学習部と言うこともできる。
 言語モデル生成部30は、大域文脈分類部20が算出した各クラスの事後確率を素性として用いて、モデルの学習を行い、単語の生成確率を計算する言語モデルを生成する。
 言語モデル生成部30は、このようなモデルの学習として、各種の手法を用いることができる。例えば、言語モデル生成部30は、既に説明した最大エントロピーモデルを用いても良い。
 このように、本実施形態の言語モデル生成部30は、大域文脈を基に算出されたクラスの事後確率を用いて、言語モデルを生成する。そのため、言語モデル生成部30は、大域文脈を基にした言語モデルを生成できる。
 例えば、図3に示すように、クラスの話題1「月面着陸」の事後確率が「0.7」と他のクラスより高い場合、言語モデル生成部30は、「月面着陸」に対して特定単語w「月(moon)」の生成確率が大きな言語モデルを生成できる。
 図4は、情報処理装置1の動作の一例を示すフローチャートである。
 まず、情報処理装置1の大域文脈抽出部10は、大域文脈として、言語モデル学習データ内の単語(特定単語)の周辺の単語の集合を大域文脈のデータとして抽出する(ステップS210)。
 次に、情報処理装置1の大域文脈分類部20は、文脈分類モデルを用いて、大域文脈を分類する(ステップS220)。
 情報処理装置1は、言語モデル学習データの全ての単語について処理が終了したか否かを判定する(ステップS230)。なお、情報処理装置1の処理の対象の単語は、言語モデル学習データに含まれる全ての単語である必要はない。情報処理装置1は、言語モデル学習データの所定の一部の単語を特定単語として用いても良い。この場合、情報処理装置1は、あらかじめ定められた語彙セットに含まれる単語をすべて特定単語として処理したか否かを判定する。
 処理が完了していない場合(ステップS230のNO)、情報処理装置1は、ステップS210に戻り、次の特定単語について処理する。
 処理が完了した場合(ステップS230でYES)、情報処理装置1の言語モデル生成部30は、大域文脈の分類の結果(例えば、クラスの事後確率)を用いて、各々の特定単語の生成確率を計算する言語モデルを生成する(ステップS240)。
 このように構成された情報処理装置1は、精度良く言語モデルを生成する効果を得ることができる。
 その理由は、情報処理装置1は、言語モデル学習データの大域文脈を抽出する。そして、情報処理装置1は、文脈分類モデルを用いて、抽出した大域文脈を分類する。そして、情報処理装置1は、分類の結果を基に、言語モデルを生成する。そのため、情報処理装置1は、大域文脈に基づいた言語モデル生成できるためである。
 本効果について、図2の具体例を用いて説明する。「space」「USA」「rockets」「program」「landed」などが特定単語「moon」の大域文脈中に出現していることから、本実施形態では、大域文脈分類部20は「月面着陸」クラスの事後確率として大きな値を算出する。言語モデル生成部30は、クラスの事後確率を素性として単語の生成確率を計算するモデルを生成する。よって、本実施形態により生成される言語モデルは、図2の大域文脈の後続単語に「moon」が出現する確率が高いと計算することができる。
 なお、トリガーモデルでは、「USA」「humans」は、「moon」の生成確率に影響をほとんど与えない。しかし、本実施形態においては両単語は「月面着陸」クラスの事後確率を高めることを通して、「moon」の生成確率の向上に貢献しているといえる。
 さらに、本実施形態の情報処理装置1は、大域文脈の中に誤りが含まれる場合でも、後続単語の推定精度の劣化を削減できる効果を得ることができる。
 その理由は、本実施形態の情報処理装置1は、所定の大きさの大域文脈を抽出する。そのため、大域文脈に含まれる複数の単語のうち少数に誤りが含まれていても、誤りの大域文脈に対する比率は小さな比率となり、大域文脈の分類結果が大きく変化しないためである。
 (変形例)
 なお、本実施形態に係る情報処理装置1の構成は、これまでの説明に限られるわけでない。情報処理装置1は、各構成を、複数の構成に分けても良い。例えば、情報処理装置1は、大域文脈抽出部10を、図示しない言語モデル学習データの受信部と、大域文脈を抽出する処理部と、大域文脈を送信する送信部とに分けても良い。
 あるいは、情報処理装置1は、1つ又は複数の構成を1つの構成としても良い。例えば、情報処理装置1は、大域文脈抽出部10と大域文脈分類部20とを、1つの構成としても良い。さらに、情報処理装置1は、各構成を、図示しないネットワークに接続した別装置で構成してもよい。
 さらに、本実施形態の情報処理装置1の構成は、これまでの説明に限らない。情報処理装置1は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータとして実現しても良い。
 図5は、本実施形態の別の構成である情報処理装置2の構成の一例を示すブロック図である。
 情報処理装置2は、CPU610と、ROM620と、RAM630と、IO(Input/Output)640と、記憶装置650と、入力機器660と、表示機器670とを含み、コンピュータを構成している。
 CPU610は、ROM620、又は、IO640を介して記憶装置650からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、図1の情報処理装置1の大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30としての各機能を実現する。CPU610は、各機能を実現する際に、RAM630及び記憶装置650を一時記憶として使用する。また、CPU610は、IO640を介して、入力機器660から入力データを受信し、表示機器670にデータを表示する。
 なお、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、CPU610は、図示しないネットワークを介して、外部の装置からプログラムを受け取っても良い。
 ROM620は、CPU610が実行するプログラム、及び、固定的なデータを記憶する。ROM620は、例えば、P-ROM(Programmable-ROM)やフラッシュROMである。
 RAM630は、CPU610が実行するプログラムやデータを一時的に記憶する。RAM630は、例えば、D-RAM(Dynamic-RAM)である。
 IO640は、CPU610と、記憶装置650、入力機器660及び表示機器670とのデータを仲介する。IO640は、例えば、IOインターフェースカードである。
 記憶装置650は、情報処理装置2の長期的に保存するデータやプログラムを保存する。また、記憶装置650は、CPU610の一時記憶装置として動作しても良い。また、記憶装置650は、言語モデル学習データなど、図1に示す本実施形態の情報の一部又は全てを記憶しても良い。記憶装置650は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)、又は、ディスクアレイ装置である。
 入力機器660は、情報処理装置2の操作者からの入力指示を受信する入力部である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
 表示機器670は、情報処理装置2の表示部である。表示機器670は、例えば、液晶ディスプレイである。
 このように構成された情報処理装置2は、情報処理装置1と同様の効果を得ることができる。
 その理由は、情報処理装置2のCPU610が、プログラムに基づいて情報処理装置1と同様の動作を実現できるためである。
 (第2の実施形態)
 図6は、本発明における第2の実施形態に係る情報処理装置3の構成の一例を示すブロック図である。
 情報処理装置3は、大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30と、文脈分類モデル生成部40と、言語モデル学習データ記憶部110と、文脈分類モデル学習データ記憶部120と、文脈分類モデル記憶部130と、言語モデル記憶部140とを含む。
 大域文脈抽出部10、大域文脈分類部20及び言語モデル生成部30は、第1の実施形態と同様である。そのため、第1の実施形態の同様の説明は、適宜省略する。
 言語モデル学習データ記憶部110は、情報処理装置3が言語モデルを生成する処理対象のデータである「言語モデル学習データ」を記憶する。なお、言語モデル学習データは、既に説明したとおり、単語列でもよく、文字列でもよく、特にデータの形式を限る必要はない。
 なお、言語モデル学習データ記憶部110が記憶する言語モデル学習データの内容は、特に制限はない。例えば、言語モデル学習データは、新聞記事、インターネット上の記事や議事録、音声や映像コンテンツ、書き起こしのテキストでも良い。また、言語モデル学習データは、これらの1次データに限らず、1次データの加工データである2次データでも良い。さらに、本実施形態の言語モデル学習データは、これのデータの中から、言語モデルの対象に近いと想定される選択データでも良い。
 大域文脈抽出部10は、言語モデル学習データ記憶部110から、言語モデル学習データを受け取る。大域文脈抽出部10のその他の動作は、第1の実施形態と同様のため、詳細な説明は、省略する。
 文脈分類モデル学習データ記憶部120は、予め、文脈分類モデルを学習するための「文脈分類モデル学習データ」を保持する。文脈分類モデル学習データのデータ形式は、特に限りはない。文脈分類モデル学習データとして、クラスの情報が付与された複数の文書(単語の集合)を用いることが出来る。
 図7は、文脈分類モデル学習データの例である。図7(A)は、「話題」を分類の観点としたときの文脈分類モデル学習データである。話題1「月面着陸」、話題2「宇宙ステーション建設」などの各話題の下に示す四角の枠は文書(単語の集合)を表す。
 このように、文脈分類モデル学習データは、複数の文書に対してその文書が属する話題クラスの情報を付与することで作成される。
 文脈分類モデル生成部40は、文脈分類モデル学習データ記憶部120に記憶された文脈分類モデル学習データを基に、大域文脈分類部20が用いる文脈分類モデルを生成する。なお、文脈分類モデル生成部40は、文脈分類モデル学習データを基に文脈分類モデルを生成するため、文脈分類モデル学習部と言うこともできる。
 文脈分類モデル生成部40は、文脈分類モデルとして、任意の単語集合が与えられたときの各クラスの条件付き事後確率を計算するモデルを生成する。このようなモデルとして、例えば、最大エントロピーモデルやサポートベクトルマシンやニューラルネットワークを用いることができる。また、モデルの素性としては、単語集合に含まれる単語や品詞、Nグラムなどの出現数を用いることが出来る。
 また、文脈分類モデル学習データとして、図7(B)に示すような、「感情」を分類の観点とした学習データを用意すれば、文脈分類モデル生成部40は、大域文脈を「感情」の観点で分類する文脈分類モデルを生成することができる。なお、文脈分類モデル学習データとして、学習データに対して付与するクラスの観点としては、これまでに説明した「話題」「感情」「時期」に限るものではない。
 なお、文脈モデル学習データとして、クラスの情報が付与されていない複数の文書(単語の集合)を用いることも出来る。文脈分類モデル生成部40がクラス情報が与えられていない単語の集合である文脈モデル学習データを受け取った場合、文脈分類モデル生成部40は、次のように動作すれば良い。
 まず、文脈分類モデル生成部40は、文脈分類モデル学習データに含まれる単語又は文書をクラスタリングし、複数のクラスタにまとめる(教師なしクラスタリング)。文脈分類モデル生成部40が使用するクラスタリングの手法には、特に制限はない。例えば、文脈分類モデル生成部40は、クラスタリングの手法として、凝集型クラスタリング(agglomerative clustering)やk-平均法(k-means method)を用いればよい。このようにして分類されたそれぞれのクラスタをクラスとみなすことで、文脈分類モデル生成部40は文脈分類モデルを学習することが出来る。
 図8は、文脈分類モデル生成部40のクラスタリングの動作を示す模式図である。文脈分類モデル生成部40は、例えば、クラス情報がない文脈分類モデル学習データを、凝集集型クラスタリングを用いて、複数のクラス(クラスタ1、クラスタ2、・・・、クラスタl)に分ける。
 このように教師なしクラスタリングによって文脈分類モデル学習データにクラス情報を付与する場合、分類の観点は人手によって与えられることはなく、分類の観点は教師なしクラスタリングによって自動的に生成されたものとなる。
 文脈分類モデル生成部40は、文脈分類モデル学習データとして、言語モデル学習データとは異なるデータを用いて良い。例えば、文脈分類モデル生成部40は、異なるドメインの言語モデルを生成する場合に、言語モデル学習データとしてドメインにあわせた新規のデータを用いて、文脈分類モデル学習データとして既存のデータを用いて良い。文脈分類モデル学習データに文書群にクラス情報を付与する場合には、言語モデルの適用ドメインが変わるたびにそのようなクラス情報を人手で付与することはコストが高い。このような場合、言語モデル学習データのみを新規に用意して本実施形態の手順を実行することができる。なお、文脈分類モデル学習データと言語モデル学習データとが共通であっても構わない。
 図6の説明に戻る。
 文脈分類モデル生成部40は、生成した文脈分類モデルを文脈分類モデル記憶部130に送り、保存する。
 文脈分類モデル記憶部130は、文脈分類モデル生成部40が生成した文脈分類モデルを記憶する。
 大域文脈分類部20は、文脈分類モデル記憶部130に記憶された文脈分類モデルに基づいて、第1の実施形態と同様に大域文脈を分類する。
 なお、情報処理装置3は、言語モデル学習データを処理するたびに、文脈分類モデルを生成する必要はない。情報処理装置3の大域文脈分類部20は、異なる言語モデル学習データに、同じ文脈分類モデルを適用しても良い。
 また、情報処理装置3は、必要に応じて、文脈分類モデル生成部40に、文脈分類モデルを生成させても良い。例えば、情報処理装置3が、図示しないネットワークを経由して、文脈分類モデル学習データを受信した場合、情報処理装置3は、文脈分類モデル生成部40に文脈分類モデルを生成させても良い。
 大域文脈分類部20は、分類の結果を言語モデル生成部30に送る。
 言語モデル生成部30は、分類の結果を基に、言語モデルを生成する。言語モデル生成部30は、生成した言語モデルを言語モデル記憶部140に記憶させる以外、第1の実施形態と同様のため、詳細な説明を省略する。
 言語モデル記憶部140は、言語モデル生成部30が生成した言語モデルを記憶する。
 このように構成された本実施形態の情報処理装置3は、第1の実施形態の効果に加え、より精度の良い言語モデルを生成できる効果を得ることができる。
 その理由は、本実施形態の情報処理装置3の文脈分類モデル生成部40は、文脈分類モデル学習データを基に文脈分類モデルを生成する。そして、大域文脈分類部20は、生成された文脈分類モデルを用いる。そのため、情報処理装置3は、適切な文脈分類モデルを用いて処理できるためである。
 特に、図7に示すように、文脈分類モデル学習データとして、クラス情報が適切に付与された文書(単語の集合)を用いれば、文脈分類モデルの精度が高まるため、分類結果を素性として学習する言語モデルの精度も高くなる。
 なお、本実施形態の情報処理装置3は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 その際、記憶装置650は、本実施形態の各記憶部として動作しても良い。
 図9は、記憶装置650が、本実施形態の言語モデル学習データ記憶部110と、文脈分類モデル学習データ記憶部120と、文脈分類モデル記憶部130と、言語モデル記憶部140として動作する場合に記憶する情報を示す。
 (第3の実施形態)
 図10は、第3の実施形態に係る情報処理装置4の構成の一例を示すブロック図である。
 情報処理装置4は、第2の実施形態の情報処理装置3の構成に加え、トリガー素性計算部50を含み、言語モデル生成部30の換わりに言語モデル生成部34を含む点が異なる。
 情報処理装置4の他の構成は、情報処理装置3と同じため、本実施形態に特有の構成及び動作について説明し、第2の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置4は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 トリガー素性計算部50は、大域文脈抽出部10から大域文脈を受け取り、大域文脈中の単語から特定単語へのトリガー対を抽出する。図2に示す例を用いると、トリガー素性計算部50は、例えば、「space-->moon」や「USA-->moon」のトリガー対を抽出する。
 そして、トリガー素性計算部50は、抽出したトリガー対の素性関数を計算する。
 ここで、単語aから単語bへのトリガー対を「a-->b」とした場合、単語aから単語bのトリガー対の素性関数は、次の式で求めることができる。
Figure JPOXMLDOC01-appb-I000006
 トリガー素性計算部50は、算出したトリガー対の素性関数を言語モデル生成部34に送る。
 言語モデル生成部34は、大域文脈分類部20からの分類の結果に加え、トリガー素性計算部50からの素性関数を用いて言語モデルを生成する。
 このように構成された第3の実施形態に係る情報処理装置4は、第2の実施形態の情報処理装置3の効果に加え、単語の生成確率の精度をさらに高める効果を得ることができる。
 その理由は、次のとおりである。
 トリガー対の素性関数は、トリガー対の2単語間の関係(例えば、共起の強さ)を示す。
 そのため、情報処理装置4の言語モデル生成部34は、大域文脈の分類結果に加えて、共起しやすい特定の2単語間の関係も考慮して単語の生成確率を予測する言語モデルを生成するためである。
 (第4の実施形態)
 図11は、第4の実施形態に係る情報処理装置5の構成の一例を示すブロック図である。
 情報処理装置5は、第2の実施形態の情報処理装置3の構成に加え、Nグラム素性計算部60を含み、言語モデル生成部30の代わりに言語モデル生成部35を含む点が異なる。
 情報処理装置5の他の構成は、情報処理装置3と同じため、本実施形態に特有の構成及び動作について説明し、第2の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置5は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 Nグラム素性計算部60は、大域文脈抽出部10から大域文脈を受け取り、特定単語の直前の数単語をNグラムとして抽出する。
 そして、Nグラム素性計算部60は、抽出した単語列に対する素性関数を計算する。
 ここで、単語をwとし、その直前のN-1個の単語列をwi-N+1 i-1とした場合、Nグラムの素性関数は、次の式で求めることができる。
Figure JPOXMLDOC01-appb-I000007
 Nグラム素性計算部60は、算出したNグラムの素性関数を言語モデル生成部35に送る。
 言語モデル生成部35は、大域文脈分類部20からの分類の結果に加え、Nグラム素性計算部60からの素性関数を用いて言語モデルを生成する。
 このように構成された第4の実施形態に係る情報処理装置5は、第2の実施形態の情報処理装置3の効果に加え、単語の生成確率の精度をさらに高める効果を得ることができる。
 その理由は、次のとおりである。
 Nグラムの素性関数は、局所的な単語の連鎖の制約を考慮した関数である。
 そのため、情報処理装置5の言語モデル生成部35は、大域文脈の分類結果に加えて、局所的な単語の制約を考慮して単語の生成確率を予測する言語モデルを生成するためである。
 (第5の実施形態)
 図12は、第5の実施形態に係る情報処理装置6の構成の一例を示すブロック図である。
 情報処理装置6は、第3の実施形態の情報処理装置4の構成に加え、第3の実施形態と同様のトリガー素性計算部50と第4の実施形態と同様のNグラム素性計算部60とを含み、言語モデル生成部34の代わりに言語モデル生成部36を含む点が異なる。
 情報処理装置6の言語モデル生成部36を除いた他の構成は、情報処理装置4又は情報処理装置5と同じため、本実施形態に特有の構成及び動作について説明し、第3の実施形態及び第4の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置6は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 言語モデル生成部36は、大域文脈の分類と、トリガー対の素性関数と、Nグラムの素性関数を用いて、言語モデルを生成する。
 このように構成された第5の実施形態の情報処理装置6は、第3の実施形態の情報処理装置4と第4の実施形態の情報処理装置5との効果を実現できる。
 その理由は、第5の実施形態の情報処理装置6の言語モデル生成部36は、トリガー対の素性関数と、Nグラムの素性関数とを用いて言語モデルを生成するためである。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2012年11月7日に出願された日本出願特願2012-245003を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、
 前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、
 前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段と
 を含む情報処理装置。
 (付記2)
 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する文脈分類モデル生成手段を含み、
 前記文脈分類手段は、前記文脈分類モデルを用いて前記大域文脈を分類する
 付記1に記載の情報処理装置。
 (付記3)
 前記文脈分類モデル生成手段は、
 クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
 付記2に記載の情報処理装置。
 (付記4)
 前記言語モデル生成手段は、
 前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
 付記2または3に記載の情報処理装置。
 (付記5)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段を含み、
 前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
 付記1乃至4のいずれか1項に記載の情報処理装置。
 (付記6)
 前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段を含み、
 前記言語モデル生成手段は、前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
 付記1乃至5のいずれか1項に記載の情報処理装置。
 (付記7)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段と、
 前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段とを含み、
 前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
 付記1乃至6のいずれか1項に記載の情報処理装置。
 (付記8)
 データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、
 前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、
 前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する
 情報処理方法。
 (付記9)
 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成し、
 前記文脈分類モデルを用いて前記大域文脈を分類する
 付記8に記載の情報処理方法。
 (付記10)
 クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
 付記9に記載の情報処理方法。
 (付記11)
 前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
 付記9または10に記載の情報処理方法。
 (付記12)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
 前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
 付記8乃至11のいずれか1項に記載の情報処理方法。
 (付記13)
 前記特定単語の直前のNグラムの素性関数を計算し、
 前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
 付記8乃至12のいずれか1項に記載の情報処理方法。
 (付記14)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
 前記特定単語の直前のNグラムの素性関数を計算し、
 前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
 付記8乃至13のいずれか1項に記載の情報処理方法。
 (付記15)
 データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、
 前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、
 前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理と
 をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記16)
 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する処理と、
 前記文脈分類モデルを用いて前記大域文脈を分類する処理と
 をコンピュータに実行させる付記15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記17)
 クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算する処理
 をコンピュータに実行させる付記16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記18)
 前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
 付記15または16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記19)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
 前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する処理と
 をコンピュータに実行させる付記15乃至18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記20)
 前記特定単語の直前のNグラムの素性関数を計算する処理と、
 前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
 をコンピュータに実行させる付記15乃至19のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (付記21)
 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
 前記特定単語の直前のNグラムの素性関数を計算する処理と、
 前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
 をコンピュータに実行させる付記15乃至20のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
 本発明は、統計的言語モデルを用いた様々な応用に適用できる。
 例えば、本発明は、音声認識、文字認識、スペルチェックの分野で用いられる統計的言語モデルの生成の精度を向上できる。
1 情報処理装置
2 情報処理装置
3 情報処理装置
4 情報処理装置
5 情報処理装置
6 情報処理装置
9 情報処理装置
10 大域文脈抽出部
20 大域文脈分類部
30 言語モデル生成部
34 言語モデル生成部
35 言語モデル生成部
36 言語モデル生成部
40 文脈分類モデル生成部
50 トリガー素性計算部
60 Nグラム素性計算部
110 言語モデル学習データ記憶部
120 文脈分類モデル学習データ記憶部
130 文脈分類モデル記憶部
140 言語モデル記憶部
610 CPU
620 ROM
630 RAM
640 IO
650 記憶装置
660 入力機器
670 表示機器
700 記憶媒体
910 大域文脈抽出部
920 トリガー素性計算部
930 言語モデル生成部
940 言語モデル学習データ記憶部
950 言語モデル記憶部

Claims (21)

  1.  データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、
     前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、
     前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む情報処理装置。
  2.  所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する文脈分類モデル生成手段を含み、
     前記文脈分類手段は、前記文脈分類モデルを用いて前記大域文脈を分類する請求項1に記載の情報処理装置。
  3.  前記文脈分類モデル生成手段は、
     クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する請求項2に記載の情報処理装置。
  4.  前記言語モデル生成手段は、
     前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる請求項2または3に記載の情報処理装置。
  5.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段を含み、
     前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する請求項1乃至4のいずれか1項に記載の情報処理装置。
  6.  前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段を含み、
     前記言語モデル生成手段は、前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する請求項1乃至5のいずれか1項に記載の情報処理装置。
  7.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段と、
     前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段とを含み、
     前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
     請求項1乃至6のいずれか1項に記載の情報処理装置。
  8.  データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、
     前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、
     前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する情報処理方法。
  9.  所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成し、
     前記文脈分類モデルを用いて前記大域文脈を分類する
     請求項8に記載の情報処理方法。
  10.  クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
     請求項9に記載の情報処理方法。
  11.  前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
     請求項9または10に記載の情報処理方法。
  12.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
     前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
     請求項8乃至11のいずれか1項に記載の情報処理方法。
  13.  前記特定単語の直前のNグラムの素性関数を計算し、
     前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
     請求項8乃至12のいずれか1項に記載の情報処理方法。
  14.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
     前記特定単語の直前のNグラムの素性関数を計算し、
     前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
     請求項8乃至13のいずれか1項に記載の情報処理方法。
  15.  データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、
     前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、
     前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  16.  所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する処理と、
     前記文脈分類モデルを用いて前記大域文脈を分類する処理と
     をコンピュータに実行させる請求項15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  17.  クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算する処理
     をコンピュータに実行させる請求項16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  18.  前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
     請求項15または16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  19.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
     前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する処理と
     をコンピュータに実行させる請求項15乃至18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  20.  前記特定単語の直前のNグラムの素性関数を計算する処理と、
     前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
     をコンピュータに実行させる請求項15乃至19のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
  21.  前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
     前記特定単語の直前のNグラムの素性関数を計算する処理と、
     前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
     をコンピュータに実行させる請求項15乃至20のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2013/006555 2012-11-07 2013-11-07 情報処理装置、及び、情報処理方法 WO2014073206A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/440,931 US20150278194A1 (en) 2012-11-07 2013-11-07 Information processing device, information processing method and medium
JP2014545575A JPWO2014073206A1 (ja) 2012-11-07 2013-11-07 情報処理装置、及び、情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012245003 2012-11-07
JP2012-245003 2012-11-07

Publications (1)

Publication Number Publication Date
WO2014073206A1 true WO2014073206A1 (ja) 2014-05-15

Family

ID=50684331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/006555 WO2014073206A1 (ja) 2012-11-07 2013-11-07 情報処理装置、及び、情報処理方法

Country Status (3)

Country Link
US (1) US20150278194A1 (ja)
JP (1) JPWO2014073206A1 (ja)
WO (1) WO2014073206A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN106506327B (zh) * 2016-10-11 2021-02-19 东软集团股份有限公司 一种垃圾邮件识别方法及装置
CN112673421B (zh) * 2018-11-28 2024-07-16 谷歌有限责任公司 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051654A1 (en) * 2008-11-05 2010-05-14 Google Inc. Custom language models

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model
ATE383640T1 (de) * 1998-10-02 2008-01-15 Ibm Vorrichtung und verfahren zur bereitstellung von netzwerk-koordinierten konversationsdiensten
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US6697793B2 (en) * 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
GB0905457D0 (en) * 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US8566097B2 (en) * 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051654A1 (en) * 2008-11-05 2010-05-14 Google Inc. Custom language models

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASATAKA IZUMI ET AL.: "Blog Chosha Nendai Suitei no Tameno Entropy ni yoru Tokuchogo Chushutsu", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS DAI 19 KAI DATA ENGINEERING WORKSHOP RONBUNSHU, 25 June 2009 (2009-06-25) *
RONALD ROSENFELD: "A Maximum Entropy Approach to Adaptive Statistical Language Modeling", A MAXIMUM ENTROPY APPROACH TO ADAPTIVE STATISTICAL LANGUAGE MODELING, 21 May 1996 (1996-05-21), pages 1 - 37, Retrieved from the Internet <URL:http://www.cs.cmu.edu/afs/cs/Web/People/roni/papers/me-csl-revised.pdf> [retrieved on 20130109] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN108694443B (zh) * 2017-04-05 2021-09-17 富士通株式会社 基于神经网络的语言模型训练方法和装置

Also Published As

Publication number Publication date
JPWO2014073206A1 (ja) 2016-09-08
US20150278194A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US11157693B2 (en) Stylistic text rewriting for a target author
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
US20190354810A1 (en) Active learning to reduce noise in labels
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US20190347571A1 (en) Classifier training
US20150095017A1 (en) System and method for learning word embeddings using neural language models
JP2020520492A (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
KR101715118B1 (ko) 문서 감정 분류용 딥러닝 인코딩 장치 및 방법.
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
US20210035556A1 (en) Fine-tuning language models for supervised learning tasks via dataset preprocessing
US20200175229A1 (en) Summary generation method and summary generation apparatus
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US12073181B2 (en) Systems and methods for natural language processing (NLP) model robustness determination
US9348901B2 (en) System and method for rule based classification of a text fragment
US20210133279A1 (en) Utilizing a neural network to generate label distributions for text emphasis selection
Ranjan et al. A comparative study on code-mixed data of Indian social media vs formal text
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230177251A1 (en) Method, device, and system for analyzing unstructured document
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN115329075A (zh) 基于分布式机器学习的文本分类方法
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
JP2017538226A (ja) スケーラブルなウェブデータの抽出
CN114896404A (zh) 文档分类方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13852500

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014545575

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14440931

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13852500

Country of ref document: EP

Kind code of ref document: A1