JPWO2014073206A1 - 情報処理装置、及び、情報処理方法 - Google Patents
情報処理装置、及び、情報処理方法 Download PDFInfo
- Publication number
- JPWO2014073206A1 JPWO2014073206A1 JP2014545575A JP2014545575A JPWO2014073206A1 JP WO2014073206 A1 JPWO2014073206 A1 JP WO2014073206A1 JP 2014545575 A JP2014545575 A JP 2014545575A JP 2014545575 A JP2014545575 A JP 2014545575A JP WO2014073206 A1 JPWO2014073206 A1 JP WO2014073206A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- context
- information processing
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 136
- 238000003672 processing method Methods 0.000 title claims description 18
- 238000013145 classification model Methods 0.000 claims description 94
- 230000006870 function Effects 0.000 claims description 80
- 238000000605 extraction Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 29
- 238000010586 diagram Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 21
- 238000013500 data storage Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 230000008451 emotion Effects 0.000 description 7
- 235000015842 Hesperis Nutrition 0.000 description 6
- 235000012633 Iberis amara Nutrition 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
精度良く言語モデルを生成する。データに含まれる単語、文字又は単語列を特定の単語として特定し、特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、分類の結果を用いて、特定単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む情報処理装置。
Description
本発明は、情報処理に関し、特に、言語データの情報処理に関する。
統計的言語モデルは、例えば、処理対象の文書に含まれる単語(word)、単語列(word string)又は文字列(character string)の生成確率を計算するモデルである(例えば、特許文献1を参照)。
このような統計的言語モデルに、Nグラム法(N-gram method)を用いる「Nグラム言語モデル」がある。
Nグラム言語モデルとは、単語を処理単位とする場合、ある時点での単語の生成確率が、その単語の直前の「N−1個」の単語のみに基づくとするモデルである。
i番目の単語をwi、単語wiの直前の「N−1」個、つまり「i−N+1」番目から「i−1」番目までの単語列をwi−N+1 i−1とすると、Nグラム言語モデルによる単語wiの生成確率Pは、P(wi|wi−N+1 i−1)となる。なお、P(wi|wi−N+1 i−1)は、単語列wi−N+1 i−1が発生した場合の単語wiが発生する条件付き確率(事後確率)である。
条件付き確率P(wi|wi−N+1 i−1)は、例えば、推定のために保存された単語列から成る学習用のデータ(training data)を用いて推定できる。ここで、単語列wi−N+1 iが学習用データ中に出現する回数をC(wi−N+1 i)、単語列wi−N+1 i−1が学習用データ中に出現する回数をC(wi−N+1 i−1)とすると、条件付き確率P(wi|wi−N+1 i−1)は、最尤推定法(maximum likelihood estimation)を用いて、次のように推定できる。
なお、Nの値が大きいNグラム言語モデルは、計算量が膨大となる。そのため、一般的なNグラム言語モデルは、Nの値として、2〜5を用いる。
このように、Nグラム言語モデルは、局所的な単語の連鎖のみを考慮するモデルである。そのため、Nグラム言語モデルは、文全体や文書全体の整合性を考慮できない。
なお、以下では、Nグラム言語モデルが考慮する範囲、すなわち直前の2〜5単語より広い範囲の単語の集合(例えば、直前の数十単語)を、「大域的な文脈(大域文脈)」と言う。つまり、Nグラム言語モデルは大域文脈を考慮しない。
これに対し、大域文脈を考慮するモデルとして、トリガーモデル(trigger model)がある(例えば、非特許文献1を参照)。非特許文献1に記載のトリガーモデルは、大域文脈に現れる単語が、それぞれ独立に、後続の単語の生成確率に影響を与えるとする言語モデルである。そして、トリガーモデルは、単語waが後続の単語wbの生成確率に与える影響の度合いを、パラメータとして保持する。このような2単語(単語waと単語wb)の対を「トリガー対(trigger pair)」と言う。以下、トリガー対を「wa−−>wb」のように表す。
例えば、図14に示す文書に、トリガーモデルを適用する場合について説明する。図14に示す文書を用いる場合、トリガーモデルは、大域文書の中の単語(例えば、space、USA、rocketsなど)が後続する単語(moon)の生成確率に与える影響の度合いを、それぞれ独立に単語間の関係としてモデル化し、言語モデルに組み入れる。
非特許文献1に記載の技術は、2単語間の関係を言語モデルに組み入れるため、最大エントロピーモデルを用いる。
ここで、fi(d,w)は、i番目のトリガー対に対する素性関数(feature function)である。Mは、用意する素性関数の総数である。例えば、単語「space」と単語「moon」とのトリガー対「space−−>moon」に対する素性関数fi(d,w)の定義は、次の式である。
λiは、モデルのパラメータである。λiは、学習データを基に最尤推定法を用いて決定される。具体的には、例えば、λiは、非特許文献1に記載された反復スケーリングアルゴリズム(iterative scaling algorithm)を用いて、算出できる。
このような、トリガーモデルを用いて言語を学習する情報処理装置の動作について説明する。
図13は、このような、トリガーモデルを用いて言語を学習する情報処理装置9の構成の一例を示すブロック図である。
情報処理装置9は、大域文脈抽出部910と、トリガー素性計算部920と、言語モデル生成部930と、言語モデル学習データ記憶部940と、言語モデル記憶部950と含む。
言語モデル学習データ記憶部940は、学習対象である言語モデル学習データを記憶する。ここで、対象の単語を単語wとする。
大域文脈抽出部910は、言語モデル学習データ記憶部940が記憶する言語モデル学習データの中から、単語wの周辺に現れる単語の集合を大域文脈として抽出する。この抽出した大域文脈は、大域文脈dとする。そして、大域文脈抽出部910は、単語wと大域文脈dをトリガー素性計算部920に送る。
トリガー素性計算部920は、素性関数fi(d,w)を計算する。トリガー素性計算部920は、計算した素性関数fi(d,w)を言語モデル生成部930に送る。
言語モデル生成部930は、最大エントロピーモデルを用いて単語wの生成確率P(w|d)を算出する言語モデルを生成する。そして、言語モデル生成部930は、生成した言語モデルを言語モデル記憶部950に送り、記憶させる。
言語モデル記憶部950は、言語モデルを記憶する。
Ronald Rosenfeld, "A maximum entropy approach to adaptive statistical language modeling," Computer Speech and Language, Vol. 10, No. 3, pp. 187-228, 1996.
非特許文献1に記載のトリガーモデルは、大域文脈の中の単語が、個別に、後続単語(単語w)の生成確率に影響を及ぼすとする。そのため、トリガーモデルは、後続単語の生成確率を精度良く計算できない場合があるという問題点があった。
例えば、図14に示す文を参照して説明する。
図14に示す大域文脈dには、「space」、「USA」、「rockets」、「landed」、「humans」が、出現している。そのため、これらの単語の出現を考慮すると、この大域文脈は、「月面着陸(moon landing)」に関連する可能性が高いと推定できる。従って、これら大域文脈中の単語を考慮すると、後続単語として「moon」が出現する確率は非常に高いと推定されるべきである。しかし、「USA」や「humans」は、単独の単語としては、「moon」との関連が強くない。そのため、非特許文献1に記載のトリガーモデルにおいて、「USA」や「humans」は、後続単語としての「moon」の生成確率の向上への影響が弱くなる。また、「space」や「rockets」は、ある程度「月面着陸」に関連する単語であるが、「月面着陸」以外の多くの話題にも関連する単語である。そのため、「space」や「rockets」は、単独では、「moon」の生成確率を大きくは向上できない。結果として、トリガーモデルでは、「moon」の生成確率が低く推定されてしまう。
このように、非特許文献1に記載のトリガーモデルは、後続単語の生成確率を精度高く計算できないという問題点があった。
本発明の目的は、上記問題点を解決し、精度の高い言語モデルを生成できる情報処理装置、及び、情報処理方法を提供することにある。
本発明の一形態における情報処理装置は、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む。
本発明の一形態における情報処理方法は、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する。
本発明の一形態におけるプログラムは、データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理とをコンピュータに実行させる。
本発明によれば、精度良く言語モデルを生成できる。
次に、本発明の実施形態について図面を参照して説明する。
なお、各図面は、本発明の実施形態を説明するものである。そのため、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明は、省略する場合がある。
また、本発明は、言語の処理単位(言語モデルの語彙の単位)を特に限らない。例えば、本発明の処理単位は、単語でも良く、複数の単語を含む熟語や節のような単語列でも良く、また、個別の文字でも良い。以下では、これらをまとめて「単語」として説明する。
また、本発明の処理の対象のデータは、特に制限はない。ただ、言語データを用いた言語モデルの生成は、言語データの学習を用いた言語モデルの生成と言うこともできる。そのため、以下の説明では、本発明の処理の一例として、言語モデルを学習する場合について説明する。そして、本発明の処理対象のデータは、「言語モデル学習データ」と言う場合もある。
(第1の実施形態)
図1は、本発明における第1の実施形態に係る情報処理装置1の構成の一例を示すブロック図である。
図1は、本発明における第1の実施形態に係る情報処理装置1の構成の一例を示すブロック図である。
情報処理装置1は、大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30とを含む。
大域文脈抽出部10は、本実施形態の処理対象データである言語モデル学習データを受け取り、言語モデル学習データの大域文脈を抽出する。より具体的に説明すると、次のとおりである。
大域文脈抽出部10は、受け取った言語モデル学習データに含まれる各単語を処理の対象として特定し、それぞれ特定された単語(以下、「特定単語」とも言う。)の周辺に現れる単語の集合を、大域文脈として、特定単語毎に抽出する。
図2は、情報処理装置1の大域文脈抽出部10の動作の概要を説明するための図である。
図2において、破線で囲まれた文が、一例として示す言語モデル学習データである。例えば、大域文脈抽出部10は、言語モデル学習データに含まれる1つの単語(特定単語)w(図2の「moon」)に対しての大域文脈d(図2の「space、USA、rockets、program、landed、humans」)を抽出する。
なお、本実施形態の大域文脈抽出部10が抽出する単語の集合(大域文脈)は、特に制限はない。例えば、大域文脈抽出部10は、大域文脈として、特定単語が含まれる文を単語の集合として抽出しても良い。あるいは、大域文脈抽出部10は、特定単語の直前の単語又は直後の単語から所定の範囲(距離)の単語の集合を、大域文脈として抽出しても良い。なお、大域文脈抽出部10が、特定単語の前の所定の範囲の単語の集合を大域文脈として抽出した場合、特定単語は、大域文脈に対して、後続単語となる。
あるいは、大域文脈抽出部10は、特定単語の前後の所定の範囲(距離)の単語の集合を大域文脈として抽出しても良い。この場合、前の範囲と後ろの範囲は、同じ距離でも、異なった距離でも良い。
なお、ここに記載の「距離」は、言語データの単語としての距離である。例えば、距離は、特定単語からの単語の数、又は、その特定単語を含む文からの文の数である。
また、図2に示す例では、大域文脈抽出部10は、名詞と動詞を大域文脈として抽出した。しかし、本実施形態の大域文脈抽出部10は、これに限らない。大域文脈抽出部10は、他の基準(例えば、形容詞など品詞や語彙セット)を用いて選択しても良く、全ての単語を抽出しても良い。
図1の説明に戻る。
大域文脈抽出部10は、抽出した大域文脈のデータを大域文脈分類部20に送る。
大域文脈分類部20は、大域文脈抽出部10が抽出した大域文脈を所定の観点に基づいてクラスへと分類する。
より具体的に説明すると、大域文脈分類部20は、予め作成された文脈分類モデルを用いて、大域文脈をクラスに分類する。文脈分類モデルとは、大域文脈分類部20が分類に用いるモデルである。
大域文脈分類部20は、様々な観点に基づいて、大域文脈をクラスへ分類することができる。例えば、「話題」という観点に対しては、分類先のクラスとして、例えば、話題1「月面着陸」、話題2「宇宙ステーション建設」、などが考えられる。
また、「感情」という観点に対しては、分類先のクラスとして、例えば、感情1「喜び」、感情2「悲しみ」、感情3「怒り」、などが考えられる。
また、「文書が作成された時期」という観点に対しては、分類先のクラスとして「1月」「2月」「3月」や、「19世紀」「20世紀」「21世紀」などが考えられる。なお、分類に用いる観点は、上述の観点に限られるものではない。
ここで、本実施形態の分類について説明する。
分類とは、一般的に、事物を所定の観点又は性質に基づいて種類(クラス)に分けることである。そのため、本実施形態の大域文脈分類部20は、大域文脈を、所定の観点を基に設定したクラスのいずれかに割り当てても良い(すなわち、ハードクラスタリング)。例えば、大域文脈を、「月面着陸」という1つの話題クラスに割り当てることができる。
しかし、大域文脈は、1つのクラスに関連するとは限らない。大域文脈は、複数のクラスに関連する場合もある。そこで、本実施形態の大域文脈分類部20は、大域文脈を、1つのクラスに分類するのではなく、複数のクラスとの関連の度合いを表す情報を作成しても良い。このような情報として、例えば、大域文脈を条件とした場合の各クラスの事後確率が想定できる(すなわち、ソフトクラスタリング)。例えば、大域文脈が「月面着陸」という話題に属する確率が0.7、「宇宙ステーション建設」という話題に属する確率が0.1、などのように推定することも、本実施形態においては分類と呼ぶ。
なお、大域文脈を1つのクラスに割り当てることは、1つのクラスに関連することを表すと言うこともできる。例えば、大域文脈が「月面着陸」という話題に属する確率が1.0とすれば、これはこの大域文脈を「月面着陸」という1つの話題クラスに割り当てたことに相当する。
そこで、以下、大域文脈を1つにクラスに分類することに限らず、複数のクラスへの関連状態を示す情報(例えば、各クラスの事後確率)を作成することを含めて、「分類」と言う。そのため、「大域文脈を所定の観点を基に分類する」は、「大域文脈を所定の観点を基に分類又は所定の観点への関連状態を示す情報を算出する」と言うこともできる。
以下では、分類の一例として、大域文脈分類部20は、大域文脈を条件とした場合の各クラスの事後確率を算出するとして、説明する。つまり、大域文脈分類部20は、分類の結果として、大域文脈分類モデルを用いて、大域文脈が与えられたときの各クラスの事後確率を算出する。
大域文脈分類モデルは、例えば、クラス情報が付与された大量のテキストデータを用いて、最大エントロピーモデルやサポートベクトルマシンやニューラルネットワークなどを学習することで作成することができる。
図3は、図2で抽出した大域文脈を、「話題」を分類の観点として分類した結果の一例を示す図である。
図3において、tはクラス、dは大域文脈である。
例えば、話題1「月面着陸」のクラスの事後確率P(t=月面着陸|d)は、「0.7」である。話題2「宇宙ステーション建設」のクラスの事後確率P(t=宇宙ステーション建設|d)は、「0.1」である。また、話題kの事後確率は、「0.0」である。
このように、大域文脈分類部20は、大域文脈抽出部10が言語モデル学習データ内で特定した単語(特定単語)に対して、その特定単語に対応する大域文脈の分類の結果(本実施形態では各クラスの事後確率)を計算する。
なお、大域文脈抽出部10は、言語モデル学習データ内の異なる複数の単語を特定単語とし、それぞれの特定単語について大域文脈の抽出を繰り返し、得られた大域文脈を大域文脈分類部20に送る。大域文脈分類部20は受け取ったすべての大域文脈に対してこれまでに説明した分類処理を実行する。
なお、大域文脈抽出部10は、言語モデル学習データ内のすべての単語を特定単語としても良いし、特定の品詞に所属する単語のみを特定単語としても良いし、あらかじめ定めた語彙セットに含まれる単語を特定単語としても良い。
図1の説明に戻る。
大域文脈分類部20は、分類の結果を、言語モデル生成部30に送る。
言語モデル生成部30は、大域文脈分類部20の分類の結果を用いて、各々の特定単語の生成確率を計算する言語モデルを生成する。より具体的に説明すると、次のようになる。なお、分類の結果を用いた言語モデルの生成は、分類の結果を用いた学習を基に言語モデルを生成すると言うこともできる。そのため、言語モデル生成部30は、言語モデル学習部と言うこともできる。
言語モデル生成部30は、大域文脈分類部20が算出した各クラスの事後確率を素性として用いて、モデルの学習を行い、単語の生成確率を計算する言語モデルを生成する。
言語モデル生成部30は、このようなモデルの学習として、各種の手法を用いることができる。例えば、言語モデル生成部30は、既に説明した最大エントロピーモデルを用いても良い。
このように、本実施形態の言語モデル生成部30は、大域文脈を基に算出されたクラスの事後確率を用いて、言語モデルを生成する。そのため、言語モデル生成部30は、大域文脈を基にした言語モデルを生成できる。
例えば、図3に示すように、クラスの話題1「月面着陸」の事後確率が「0.7」と他のクラスより高い場合、言語モデル生成部30は、「月面着陸」に対して特定単語w「月(moon)」の生成確率が大きな言語モデルを生成できる。
図4は、情報処理装置1の動作の一例を示すフローチャートである。
まず、情報処理装置1の大域文脈抽出部10は、大域文脈として、言語モデル学習データ内の単語(特定単語)の周辺の単語の集合を大域文脈のデータとして抽出する(ステップS210)。
次に、情報処理装置1の大域文脈分類部20は、文脈分類モデルを用いて、大域文脈を分類する(ステップS220)。
情報処理装置1は、言語モデル学習データの全ての単語について処理が終了したか否かを判定する(ステップS230)。なお、情報処理装置1の処理の対象の単語は、言語モデル学習データに含まれる全ての単語である必要はない。情報処理装置1は、言語モデル学習データの所定の一部の単語を特定単語として用いても良い。この場合、情報処理装置1は、あらかじめ定められた語彙セットに含まれる単語をすべて特定単語として処理したか否かを判定する。
処理が完了していない場合(ステップS230のNO)、情報処理装置1は、ステップS210に戻り、次の特定単語について処理する。
処理が完了した場合(ステップS230でYES)、情報処理装置1の言語モデル生成部30は、大域文脈の分類の結果(例えば、クラスの事後確率)を用いて、各々の特定単語の生成確率を計算する言語モデルを生成する(ステップS240)。
このように構成された情報処理装置1は、精度良く言語モデルを生成する効果を得ることができる。
その理由は、情報処理装置1は、言語モデル学習データの大域文脈を抽出する。そして、情報処理装置1は、文脈分類モデルを用いて、抽出した大域文脈を分類する。そして、情報処理装置1は、分類の結果を基に、言語モデルを生成する。そのため、情報処理装置1は、大域文脈に基づいた言語モデル生成できるためである。
本効果について、図2の具体例を用いて説明する。「space」「USA」「rockets」「program」「landed」などが特定単語「moon」の大域文脈中に出現していることから、本実施形態では、大域文脈分類部20は「月面着陸」クラスの事後確率として大きな値を算出する。言語モデル生成部30は、クラスの事後確率を素性として単語の生成確率を計算するモデルを生成する。よって、本実施形態により生成される言語モデルは、図2の大域文脈の後続単語に「moon」が出現する確率が高いと計算することができる。
なお、トリガーモデルでは、「USA」「humans」は、「moon」の生成確率に影響をほとんど与えない。しかし、本実施形態においては両単語は「月面着陸」クラスの事後確率を高めることを通して、「moon」の生成確率の向上に貢献しているといえる。
さらに、本実施形態の情報処理装置1は、大域文脈の中に誤りが含まれる場合でも、後続単語の推定精度の劣化を削減できる効果を得ることができる。
その理由は、本実施形態の情報処理装置1は、所定の大きさの大域文脈を抽出する。そのため、大域文脈に含まれる複数の単語のうち少数に誤りが含まれていても、誤りの大域文脈に対する比率は小さな比率となり、大域文脈の分類結果が大きく変化しないためである。
(変形例)
なお、本実施形態に係る情報処理装置1の構成は、これまでの説明に限られるわけでない。情報処理装置1は、各構成を、複数の構成に分けても良い。例えば、情報処理装置1は、大域文脈抽出部10を、図示しない言語モデル学習データの受信部と、大域文脈を抽出する処理部と、大域文脈を送信する送信部とに分けても良い。
なお、本実施形態に係る情報処理装置1の構成は、これまでの説明に限られるわけでない。情報処理装置1は、各構成を、複数の構成に分けても良い。例えば、情報処理装置1は、大域文脈抽出部10を、図示しない言語モデル学習データの受信部と、大域文脈を抽出する処理部と、大域文脈を送信する送信部とに分けても良い。
あるいは、情報処理装置1は、1つ又は複数の構成を1つの構成としても良い。例えば、情報処理装置1は、大域文脈抽出部10と大域文脈分類部20とを、1つの構成としても良い。さらに、情報処理装置1は、各構成を、図示しないネットワークに接続した別装置で構成してもよい。
さらに、本実施形態の情報処理装置1の構成は、これまでの説明に限らない。情報処理装置1は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータとして実現しても良い。
図5は、本実施形態の別の構成である情報処理装置2の構成の一例を示すブロック図である。
情報処理装置2は、CPU610と、ROM620と、RAM630と、IO(Input/Output)640と、記憶装置650と、入力機器660と、表示機器670とを含み、コンピュータを構成している。
CPU610は、ROM620、又は、IO640を介して記憶装置650からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、図1の情報処理装置1の大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30としての各機能を実現する。CPU610は、各機能を実現する際に、RAM630及び記憶装置650を一時記憶として使用する。また、CPU610は、IO640を介して、入力機器660から入力データを受信し、表示機器670にデータを表示する。
なお、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、CPU610は、図示しないネットワークを介して、外部の装置からプログラムを受け取っても良い。
ROM620は、CPU610が実行するプログラム、及び、固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programmable-ROM)やフラッシュROMである。
RAM630は、CPU610が実行するプログラムやデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic-RAM)である。
IO640は、CPU610と、記憶装置650、入力機器660及び表示機器670とのデータを仲介する。IO640は、例えば、IOインターフェースカードである。
記憶装置650は、情報処理装置2の長期的に保存するデータやプログラムを保存する。また、記憶装置650は、CPU610の一時記憶装置として動作しても良い。また、記憶装置650は、言語モデル学習データなど、図1に示す本実施形態の情報の一部又は全てを記憶しても良い。記憶装置650は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)、又は、ディスクアレイ装置である。
入力機器660は、情報処理装置2の操作者からの入力指示を受信する入力部である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
表示機器670は、情報処理装置2の表示部である。表示機器670は、例えば、液晶ディスプレイである。
このように構成された情報処理装置2は、情報処理装置1と同様の効果を得ることができる。
その理由は、情報処理装置2のCPU610が、プログラムに基づいて情報処理装置1と同様の動作を実現できるためである。
(第2の実施形態)
図6は、本発明における第2の実施形態に係る情報処理装置3の構成の一例を示すブロック図である。
図6は、本発明における第2の実施形態に係る情報処理装置3の構成の一例を示すブロック図である。
情報処理装置3は、大域文脈抽出部10と、大域文脈分類部20と、言語モデル生成部30と、文脈分類モデル生成部40と、言語モデル学習データ記憶部110と、文脈分類モデル学習データ記憶部120と、文脈分類モデル記憶部130と、言語モデル記憶部140とを含む。
大域文脈抽出部10、大域文脈分類部20及び言語モデル生成部30は、第1の実施形態と同様である。そのため、第1の実施形態の同様の説明は、適宜省略する。
言語モデル学習データ記憶部110は、情報処理装置3が言語モデルを生成する処理対象のデータである「言語モデル学習データ」を記憶する。なお、言語モデル学習データは、既に説明したとおり、単語列でもよく、文字列でもよく、特にデータの形式を限る必要はない。
なお、言語モデル学習データ記憶部110が記憶する言語モデル学習データの内容は、特に制限はない。例えば、言語モデル学習データは、新聞記事、インターネット上の記事や議事録、音声や映像コンテンツ、書き起こしのテキストでも良い。また、言語モデル学習データは、これらの1次データに限らず、1次データの加工データである2次データでも良い。さらに、本実施形態の言語モデル学習データは、これのデータの中から、言語モデルの対象に近いと想定される選択データでも良い。
大域文脈抽出部10は、言語モデル学習データ記憶部110から、言語モデル学習データを受け取る。大域文脈抽出部10のその他の動作は、第1の実施形態と同様のため、詳細な説明は、省略する。
文脈分類モデル学習データ記憶部120は、予め、文脈分類モデルを学習するための「文脈分類モデル学習データ」を保持する。文脈分類モデル学習データのデータ形式は、特に限りはない。文脈分類モデル学習データとして、クラスの情報が付与された複数の文書(単語の集合)を用いることが出来る。
図7は、文脈分類モデル学習データの例である。図7(A)は、「話題」を分類の観点としたときの文脈分類モデル学習データである。話題1「月面着陸」、話題2「宇宙ステーション建設」などの各話題の下に示す四角の枠は文書(単語の集合)を表す。
このように、文脈分類モデル学習データは、複数の文書に対してその文書が属する話題クラスの情報を付与することで作成される。
文脈分類モデル生成部40は、文脈分類モデル学習データ記憶部120に記憶された文脈分類モデル学習データを基に、大域文脈分類部20が用いる文脈分類モデルを生成する。なお、文脈分類モデル生成部40は、文脈分類モデル学習データを基に文脈分類モデルを生成するため、文脈分類モデル学習部と言うこともできる。
文脈分類モデル生成部40は、文脈分類モデルとして、任意の単語集合が与えられたときの各クラスの条件付き事後確率を計算するモデルを生成する。このようなモデルとして、例えば、最大エントロピーモデルやサポートベクトルマシンやニューラルネットワークを用いることができる。また、モデルの素性としては、単語集合に含まれる単語や品詞、Nグラムなどの出現数を用いることが出来る。
また、文脈分類モデル学習データとして、図7(B)に示すような、「感情」を分類の観点とした学習データを用意すれば、文脈分類モデル生成部40は、大域文脈を「感情」の観点で分類する文脈分類モデルを生成することができる。なお、文脈分類モデル学習データとして、学習データに対して付与するクラスの観点としては、これまでに説明した「話題」「感情」「時期」に限るものではない。
なお、文脈モデル学習データとして、クラスの情報が付与されていない複数の文書(単語の集合)を用いることも出来る。文脈分類モデル生成部40がクラス情報が与えられていない単語の集合である文脈モデル学習データを受け取った場合、文脈分類モデル生成部40は、次のように動作すれば良い。
まず、文脈分類モデル生成部40は、文脈分類モデル学習データに含まれる単語又は文書をクラスタリングし、複数のクラスタにまとめる(教師なしクラスタリング)。文脈分類モデル生成部40が使用するクラスタリングの手法には、特に制限はない。例えば、文脈分類モデル生成部40は、クラスタリングの手法として、凝集型クラスタリング(agglomerative clustering)やk−平均法(k-means method)を用いればよい。このようにして分類されたそれぞれのクラスタをクラスとみなすことで、文脈分類モデル生成部40は文脈分類モデルを学習することが出来る。
図8は、文脈分類モデル生成部40のクラスタリングの動作を示す模式図である。文脈分類モデル生成部40は、例えば、クラス情報がない文脈分類モデル学習データを、凝集集型クラスタリングを用いて、複数のクラス(クラスタ1、クラスタ2、・・・、クラスタl)に分ける。
このように教師なしクラスタリングによって文脈分類モデル学習データにクラス情報を付与する場合、分類の観点は人手によって与えられることはなく、分類の観点は教師なしクラスタリングによって自動的に生成されたものとなる。
文脈分類モデル生成部40は、文脈分類モデル学習データとして、言語モデル学習データとは異なるデータを用いて良い。例えば、文脈分類モデル生成部40は、異なるドメインの言語モデルを生成する場合に、言語モデル学習データとしてドメインにあわせた新規のデータを用いて、文脈分類モデル学習データとして既存のデータを用いて良い。文脈分類モデル学習データに文書群にクラス情報を付与する場合には、言語モデルの適用ドメインが変わるたびにそのようなクラス情報を人手で付与することはコストが高い。このような場合、言語モデル学習データのみを新規に用意して本実施形態の手順を実行することができる。なお、文脈分類モデル学習データと言語モデル学習データとが共通であっても構わない。
図6の説明に戻る。
文脈分類モデル生成部40は、生成した文脈分類モデルを文脈分類モデル記憶部130に送り、保存する。
文脈分類モデル記憶部130は、文脈分類モデル生成部40が生成した文脈分類モデルを記憶する。
大域文脈分類部20は、文脈分類モデル記憶部130に記憶された文脈分類モデルに基づいて、第1の実施形態と同様に大域文脈を分類する。
なお、情報処理装置3は、言語モデル学習データを処理するたびに、文脈分類モデルを生成する必要はない。情報処理装置3の大域文脈分類部20は、異なる言語モデル学習データに、同じ文脈分類モデルを適用しても良い。
また、情報処理装置3は、必要に応じて、文脈分類モデル生成部40に、文脈分類モデルを生成させても良い。例えば、情報処理装置3が、図示しないネットワークを経由して、文脈分類モデル学習データを受信した場合、情報処理装置3は、文脈分類モデル生成部40に文脈分類モデルを生成させても良い。
大域文脈分類部20は、分類の結果を言語モデル生成部30に送る。
言語モデル生成部30は、分類の結果を基に、言語モデルを生成する。言語モデル生成部30は、生成した言語モデルを言語モデル記憶部140に記憶させる以外、第1の実施形態と同様のため、詳細な説明を省略する。
言語モデル記憶部140は、言語モデル生成部30が生成した言語モデルを記憶する。
このように構成された本実施形態の情報処理装置3は、第1の実施形態の効果に加え、より精度の良い言語モデルを生成できる効果を得ることができる。
その理由は、本実施形態の情報処理装置3の文脈分類モデル生成部40は、文脈分類モデル学習データを基に文脈分類モデルを生成する。そして、大域文脈分類部20は、生成された文脈分類モデルを用いる。そのため、情報処理装置3は、適切な文脈分類モデルを用いて処理できるためである。
特に、図7に示すように、文脈分類モデル学習データとして、クラス情報が適切に付与された文書(単語の集合)を用いれば、文脈分類モデルの精度が高まるため、分類結果を素性として学習する言語モデルの精度も高くなる。
なお、本実施形態の情報処理装置3は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
その際、記憶装置650は、本実施形態の各記憶部として動作しても良い。
図9は、記憶装置650が、本実施形態の言語モデル学習データ記憶部110と、文脈分類モデル学習データ記憶部120と、文脈分類モデル記憶部130と、言語モデル記憶部140として動作する場合に記憶する情報を示す。
(第3の実施形態)
図10は、第3の実施形態に係る情報処理装置4の構成の一例を示すブロック図である。
図10は、第3の実施形態に係る情報処理装置4の構成の一例を示すブロック図である。
情報処理装置4は、第2の実施形態の情報処理装置3の構成に加え、トリガー素性計算部50を含み、言語モデル生成部30の換わりに言語モデル生成部34を含む点が異なる。
情報処理装置4の他の構成は、情報処理装置3と同じため、本実施形態に特有の構成及び動作について説明し、第2の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置4は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
トリガー素性計算部50は、大域文脈抽出部10から大域文脈を受け取り、大域文脈中の単語から特定単語へのトリガー対を抽出する。図2に示す例を用いると、トリガー素性計算部50は、例えば、「space−−>moon」や「USA−−>moon」のトリガー対を抽出する。
そして、トリガー素性計算部50は、抽出したトリガー対の素性関数を計算する。
トリガー素性計算部50は、算出したトリガー対の素性関数を言語モデル生成部34に送る。
言語モデル生成部34は、大域文脈分類部20からの分類の結果に加え、トリガー素性計算部50からの素性関数を用いて言語モデルを生成する。
このように構成された第3の実施形態に係る情報処理装置4は、第2の実施形態の情報処理装置3の効果に加え、単語の生成確率の精度をさらに高める効果を得ることができる。
その理由は、次のとおりである。
トリガー対の素性関数は、トリガー対の2単語間の関係(例えば、共起の強さ)を示す。
そのため、情報処理装置4の言語モデル生成部34は、大域文脈の分類結果に加えて、共起しやすい特定の2単語間の関係も考慮して単語の生成確率を予測する言語モデルを生成するためである。
(第4の実施形態)
図11は、第4の実施形態に係る情報処理装置5の構成の一例を示すブロック図である。
図11は、第4の実施形態に係る情報処理装置5の構成の一例を示すブロック図である。
情報処理装置5は、第2の実施形態の情報処理装置3の構成に加え、Nグラム素性計算部60を含み、言語モデル生成部30の代わりに言語モデル生成部35を含む点が異なる。
情報処理装置5の他の構成は、情報処理装置3と同じため、本実施形態に特有の構成及び動作について説明し、第2の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置5は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
Nグラム素性計算部60は、大域文脈抽出部10から大域文脈を受け取り、特定単語の直前の数単語をNグラムとして抽出する。
そして、Nグラム素性計算部60は、抽出した単語列に対する素性関数を計算する。
Nグラム素性計算部60は、算出したNグラムの素性関数を言語モデル生成部35に送る。
言語モデル生成部35は、大域文脈分類部20からの分類の結果に加え、Nグラム素性計算部60からの素性関数を用いて言語モデルを生成する。
このように構成された第4の実施形態に係る情報処理装置5は、第2の実施形態の情報処理装置3の効果に加え、単語の生成確率の精度をさらに高める効果を得ることができる。
その理由は、次のとおりである。
Nグラムの素性関数は、局所的な単語の連鎖の制約を考慮した関数である。
そのため、情報処理装置5の言語モデル生成部35は、大域文脈の分類結果に加えて、局所的な単語の制約を考慮して単語の生成確率を予測する言語モデルを生成するためである。
(第5の実施形態)
図12は、第5の実施形態に係る情報処理装置6の構成の一例を示すブロック図である。
図12は、第5の実施形態に係る情報処理装置6の構成の一例を示すブロック図である。
情報処理装置6は、第3の実施形態の情報処理装置4の構成に加え、第3の実施形態と同様のトリガー素性計算部50と第4の実施形態と同様のNグラム素性計算部60とを含み、言語モデル生成部34の代わりに言語モデル生成部36を含む点が異なる。
情報処理装置6の言語モデル生成部36を除いた他の構成は、情報処理装置4又は情報処理装置5と同じため、本実施形態に特有の構成及び動作について説明し、第3の実施形態及び第4の実施形態と同様の説明は、省略する。なお、本実施形態の情報処理装置6は、図5に示す情報処理装置2と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
言語モデル生成部36は、大域文脈の分類と、トリガー対の素性関数と、Nグラムの素性関数を用いて、言語モデルを生成する。
このように構成された第5の実施形態の情報処理装置6は、第3の実施形態の情報処理装置4と第4の実施形態の情報処理装置5との効果を実現できる。
その理由は、第5の実施形態の情報処理装置6の言語モデル生成部36は、トリガー対の素性関数と、Nグラムの素性関数とを用いて言語モデルを生成するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年11月7日に出願された日本出願特願2012−245003を基礎とする優先権を主張し、その開示の全てをここに取り込む。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段と
を含む情報処理装置。
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段と
を含む情報処理装置。
(付記2)
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する文脈分類モデル生成手段を含み、
前記文脈分類手段は、前記文脈分類モデルを用いて前記大域文脈を分類する
付記1に記載の情報処理装置。
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する文脈分類モデル生成手段を含み、
前記文脈分類手段は、前記文脈分類モデルを用いて前記大域文脈を分類する
付記1に記載の情報処理装置。
(付記3)
前記文脈分類モデル生成手段は、
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
付記2に記載の情報処理装置。
前記文脈分類モデル生成手段は、
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
付記2に記載の情報処理装置。
(付記4)
前記言語モデル生成手段は、
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記2または3に記載の情報処理装置。
前記言語モデル生成手段は、
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記2または3に記載の情報処理装置。
(付記5)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
付記1乃至4のいずれか1項に記載の情報処理装置。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
付記1乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記1乃至5のいずれか1項に記載の情報処理装置。
前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記1乃至5のいずれか1項に記載の情報処理装置。
(付記7)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段と、
前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段とを含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記1乃至6のいずれか1項に記載の情報処理装置。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段と、
前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段とを含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記1乃至6のいずれか1項に記載の情報処理装置。
(付記8)
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する
情報処理方法。
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する
情報処理方法。
(付記9)
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成し、
前記文脈分類モデルを用いて前記大域文脈を分類する
付記8に記載の情報処理方法。
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成し、
前記文脈分類モデルを用いて前記大域文脈を分類する
付記8に記載の情報処理方法。
(付記10)
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
付記9に記載の情報処理方法。
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
付記9に記載の情報処理方法。
(付記11)
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記9または10に記載の情報処理方法。
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記9または10に記載の情報処理方法。
(付記12)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
付記8乃至11のいずれか1項に記載の情報処理方法。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
付記8乃至11のいずれか1項に記載の情報処理方法。
(付記13)
前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記8乃至12のいずれか1項に記載の情報処理方法。
前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記8乃至12のいずれか1項に記載の情報処理方法。
(付記14)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記8乃至13のいずれか1項に記載の情報処理方法。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
付記8乃至13のいずれか1項に記載の情報処理方法。
(付記15)
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理と
をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理と
をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記16)
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する処理と、
前記文脈分類モデルを用いて前記大域文脈を分類する処理と
をコンピュータに実行させる付記15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する処理と、
前記文脈分類モデルを用いて前記大域文脈を分類する処理と
をコンピュータに実行させる付記15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記17)
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算する処理
をコンピュータに実行させる付記16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算する処理
をコンピュータに実行させる付記16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記18)
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記15または16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
付記15または16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記19)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記20)
前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至19のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至19のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記21)
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至20のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる付記15乃至20のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
本発明は、統計的言語モデルを用いた様々な応用に適用できる。
例えば、本発明は、音声認識、文字認識、スペルチェックの分野で用いられる統計的言語モデルの生成の精度を向上できる。
1 情報処理装置
2 情報処理装置
3 情報処理装置
4 情報処理装置
5 情報処理装置
6 情報処理装置
9 情報処理装置
10 大域文脈抽出部
20 大域文脈分類部
30 言語モデル生成部
34 言語モデル生成部
35 言語モデル生成部
36 言語モデル生成部
40 文脈分類モデル生成部
50 トリガー素性計算部
60 Nグラム素性計算部
110 言語モデル学習データ記憶部
120 文脈分類モデル学習データ記憶部
130 文脈分類モデル記憶部
140 言語モデル記憶部
610 CPU
620 ROM
630 RAM
640 IO
650 記憶装置
660 入力機器
670 表示機器
700 記憶媒体
910 大域文脈抽出部
920 トリガー素性計算部
930 言語モデル生成部
940 言語モデル学習データ記憶部
950 言語モデル記憶部
2 情報処理装置
3 情報処理装置
4 情報処理装置
5 情報処理装置
6 情報処理装置
9 情報処理装置
10 大域文脈抽出部
20 大域文脈分類部
30 言語モデル生成部
34 言語モデル生成部
35 言語モデル生成部
36 言語モデル生成部
40 文脈分類モデル生成部
50 トリガー素性計算部
60 Nグラム素性計算部
110 言語モデル学習データ記憶部
120 文脈分類モデル学習データ記憶部
130 文脈分類モデル記憶部
140 言語モデル記憶部
610 CPU
620 ROM
630 RAM
640 IO
650 記憶装置
660 入力機器
670 表示機器
700 記憶媒体
910 大域文脈抽出部
920 トリガー素性計算部
930 言語モデル生成部
940 言語モデル学習データ記憶部
950 言語モデル記憶部
Claims (21)
- データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する大域文脈抽出手段と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する文脈分類手段と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する言語モデル生成手段とを含む情報処理装置。 - 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する文脈分類モデル生成手段を含み、
前記文脈分類手段は、前記文脈分類モデルを用いて前記大域文脈を分類する請求項1に記載の情報処理装置。 - 前記文脈分類モデル生成手段は、
クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する請求項2に記載の情報処理装置。 - 前記言語モデル生成手段は、
前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる請求項2または3に記載の情報処理装置。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する請求項1乃至4のいずれか1項に記載の情報処理装置。 - 前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段を含み、
前記言語モデル生成手段は、前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する請求項1乃至5のいずれか1項に記載の情報処理装置。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算するトリガー素性計算手段と、
前記特定単語の直前のNグラムの素性関数を計算する素性関数計算手段とを含み、
前記言語モデル生成手段は、前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
請求項1乃至6のいずれか1項に記載の情報処理装置。 - データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出し、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力し、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する情報処理方法。 - 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成し、
前記文脈分類モデルを用いて前記大域文脈を分類する
請求項8に記載の情報処理方法。 - クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算するモデルを生成する
請求項9に記載の情報処理方法。 - 前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
請求項9または10に記載の情報処理方法。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する
請求項8乃至11のいずれか1項に記載の情報処理方法。 - 前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する
請求項8乃至12のいずれか1項に記載の情報処理方法。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算し、
前記特定単語の直前のNグラムの素性関数を計算し、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する
請求項8乃至13のいずれか1項に記載の情報処理方法。 - データに含まれる単語、文字又は単語列を特定の単語として特定し、前記特定単語から少なくとも所定の範囲に含まれる単語の集合を大域文脈として抽出する処理と、
前記大域文脈を所定の観点を基に分類し、分類の結果を出力する処理と、
前記分類の結果を用いて、前記特定の単語の生成確率を算出する言語モデルを生成する処理とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 所定の言語データを基に前記単語の集合と前記所定の観点に基づくクラスとの関係を示す文脈分類モデルを生成する処理と、
前記文脈分類モデルを用いて前記大域文脈を分類する処理と
をコンピュータに実行させる請求項15に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 - クラスの情報が付与された複数の単語の集合を学習データとして、単語の集合が与えられたときのクラスの事後確率を計算する処理
をコンピュータに実行させる請求項16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記クラスの事後確率を素性関数とした最大エントロピーモデルを用いる
請求項15または16に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる請求項15乃至18のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる請求項15乃至19のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記大域文脈に含まれる単語と前記特定単語との間のトリガー対の素性関数を計算する処理と、
前記特定単語の直前のNグラムの素性関数を計算する処理と、
前記分類の結果と、前記トリガー対の素性関数と、前記Nグラムの素性関数とを用いて言語モデルを生成する処理と
をコンピュータに実行させる請求項15乃至20のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012245003 | 2012-11-07 | ||
JP2012245003 | 2012-11-07 | ||
PCT/JP2013/006555 WO2014073206A1 (ja) | 2012-11-07 | 2013-11-07 | 情報処理装置、及び、情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014073206A1 true JPWO2014073206A1 (ja) | 2016-09-08 |
Family
ID=50684331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014545575A Pending JPWO2014073206A1 (ja) | 2012-11-07 | 2013-11-07 | 情報処理装置、及び、情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20150278194A1 (ja) |
JP (1) | JPWO2014073206A1 (ja) |
WO (1) | WO2014073206A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9812130B1 (en) * | 2014-03-11 | 2017-11-07 | Nvoq Incorporated | Apparatus and methods for dynamically changing a language model based on recognized text |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US10185713B1 (en) * | 2015-09-28 | 2019-01-22 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
US10268684B1 (en) | 2015-09-28 | 2019-04-23 | Amazon Technologies, Inc. | Optimized statistical machine translation system with rapid adaptation capability |
CN106506327B (zh) * | 2016-10-11 | 2021-02-19 | 东软集团股份有限公司 | 一种垃圾邮件识别方法及装置 |
CN108694443B (zh) * | 2017-04-05 | 2021-09-17 | 富士通株式会社 | 基于神经网络的语言模型训练方法和装置 |
CN112673421B (zh) * | 2018-11-28 | 2024-07-16 | 谷歌有限责任公司 | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
WO2000021232A2 (en) * | 1998-10-02 | 2000-04-13 | International Business Machines Corporation | Conversational browser and conversational systems |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US6697793B2 (en) * | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
JP5475795B2 (ja) * | 2008-11-05 | 2014-04-16 | グーグル・インコーポレーテッド | カスタム言語モデル |
GB0905457D0 (en) * | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US8566097B2 (en) * | 2009-06-02 | 2013-10-22 | Honda Motor Co., Ltd. | Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program |
US8874432B2 (en) * | 2010-04-28 | 2014-10-28 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
US8346563B1 (en) * | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
-
2013
- 2013-11-07 WO PCT/JP2013/006555 patent/WO2014073206A1/ja active Application Filing
- 2013-11-07 US US14/440,931 patent/US20150278194A1/en not_active Abandoned
- 2013-11-07 JP JP2014545575A patent/JPWO2014073206A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20150278194A1 (en) | 2015-10-01 |
WO2014073206A1 (ja) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
EP3549069B1 (en) | Neural network data entry system | |
US11157693B2 (en) | Stylistic text rewriting for a target author | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP2020520492A (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
CN111368996A (zh) | 可传递自然语言表示的重新训练投影网络 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
WO2020244065A1 (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
US20210035556A1 (en) | Fine-tuning language models for supervised learning tasks via dataset preprocessing | |
US12073181B2 (en) | Systems and methods for natural language processing (NLP) model robustness determination | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
US20210133279A1 (en) | Utilizing a neural network to generate label distributions for text emphasis selection | |
CN111368130A (zh) | 客服录音的质检方法、装置、设备及存储介质 | |
US20210133390A1 (en) | Conceptual graph processing apparatus and non-transitory computer readable medium | |
Ranjan et al. | A comparative study on code-mixed data of Indian social media vs formal text | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
JP2015169951A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20220122586A1 (en) | Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
JP6436086B2 (ja) | 分類辞書生成装置、分類辞書生成方法及びプログラム | |
CN115035890B (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 |