WO2014020834A1

WO2014020834A1 - 単語潜在トピック推定装置および単語潜在トピック推定方法

Info

Publication number: WO2014020834A1
Application number: PCT/JP2013/004242
Authority: WO
Inventors: 幸貴楠村; 優輔村岡; 弘紀水口; 大久寿居
Original assignee: 日本電気株式会社
Priority date: 2012-07-31
Filing date: 2013-07-09
Publication date: 2014-02-06
Also published as: JPWO2014020834A1; US9519633B2; US20150193425A1

Abstract

　階層的に処理をすることができ、かつ、トピックの混合状態を考慮しつつ単語の潜在トピックを高速に推定することができる単語潜在トピック推定装置および単語潜在トピック推定方法を提供する。一つ以上の単語を含む文書を入力する文書データ追加部１１と、単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定する階層設定部１２と、ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成する上位制約作成部１５と、各単語が各トピックに割り当てられる確率を推定する際に、上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行う上位制約付きトピック推定部１３とを備える。

Description

単語潜在トピック推定装置および単語潜在トピック推定方法

　本発明は、文書データ内の単語についての潜在トピックを推定する単語潜在トピック推定装置および単語潜在トピック推定方法に関する。

　自然言語処理の分野では、テキストデータを単なる記号列として扱うのではなく、言葉の背後にある意味を扱うことが求められている。近年、潜在トピックの推定装置（以下、潜在トピック推定装置という。）が注目を集めている。

　トピックは、各単語の背後にある概念や意味、分野を表現したデータである。潜在トピックは、予め人手で定義したトピックではなく、文書データのみを入力とし、「似たトピックを持つ単語同士は、同じ文書中で共起しやすい」という仮定により自動的に抽出したトピックを意味する。なお、以下では、潜在トピックを単にトピックと記載することがある。

　潜在トピックの推定とは、文書データを入力とし、文書内に含まれる単語について、背後にｋ個の潜在トピックがあることを仮定し、各単語に対して、０番から（ｋ－１）番の各潜在トピックに関係するかどうかを表す値を推定する処理である。

　潜在トピックの推定方法としては、潜在意味解析（ＬＳＡ）や確率的潜在意味解析（ＰＬＳＡ）、潜在的ディリクレ配分法（ＬＤＡ）などが知られている。

　ここでは特に、ＬＤＡに注目する。ＬＤＡは、各文書がｋ個の潜在トピックの混合であることを仮定した潜在トピックの推定方法である。ＬＤＡはこの仮定に基づく文書の生成モデルを前提とし、この生成モデルに合わせて、各単語が各潜在トピックの間の関係を表現した確率分布を推定することができる。

　まず、ＬＤＡにおける単語の生成モデルについて述べる。ＬＤＡにおける文書の生成は、次の二種類のパラメタによって決定される。

α＿｛ｔ｝
β＿｛ｔ，ｖ｝

　α＿｛ｔ｝は、トピックｔを生成するディリクレ分布のパラメタである。β＿｛ｔ，ｖ｝は、トピックｔから単語ｖが選択される確率（単語トピック確率）を表す。なお、＿｛ｔ，ｖ｝は、添え字ｔ，ｖがβの下に付くことを表す。

　ＬＤＡの生成モデルは、これらのパラメタに応じて次の手順で単語を生成するモデルである。この生成モデルは、まず、文書に対してパラメタαのディリクレ分布に応じ潜在トピックの混合比θ＿｛ｊ，ｔ｝（０＜＝ｔ＜ｋ）を決定する。次に、この混合比に応じて単語の生成を文書長回繰り返す。各単語の生成は、トピックの混合比θ＿｛ｊ，ｔ｝に応じて、１つのトピックｔを決定した後、確率β＿｛ｔ，ｖ｝に応じて単語ｖを選択することで行われる。

　ＬＤＡは、このような生成モデルを仮定し、文書データを与えることでα，βを推定することができる。この推定は、最尤推定の原理に基づいており、文書データの集合を再現する可能性の高いα＿｛ｔ｝、β＿｛ｔ，ｖ｝を算出することによって行われる。

　ＬＤＡが他の潜在トピック推定方法と異なる点は、文書の潜在トピックを混合比θ＿｛ｊ，ｔ｝で扱うため、文書が複数のトピックを持つことができる点である。自然言語で記述された文書は、複数のトピックが含まれることが多い。よって、ＬＤＡは他の潜在トピック推定方法に比べ、精度良く、単語トピック確率を推定できる。

　非特許文献１には、α，βを逐次的に（文書を追加する度に）推定する方法が記載されている。非特許文献１に記載された方法を適用した潜在トピック推定装置は、文書ｊが与えられた際に下記のパラメタの計算を繰り返すことで、単語トピック確率βを推定する。図９は、非特許文献１に記載された方法を適用した潜在トピック推定装置の構成の一例を示す説明図である。

　図９に示す潜在トピック推定装置は、βを推定するために、下記のパラメタの計算を繰り返し実施する。

γ＿｛ｊ，ｔ｝＾｛ｋ｝
φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝
ｎ＿｛ｊ，ｔ｝＾｛ｋ｝
ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝

　γ＿｛ｊ，ｔ｝＾｛ｋ｝は、文書ｊ上でのトピックｔの登場確率を表すディリクレ分布上のパラメタ（文書トピックパラメタ）である。なお、＾｛ｋ｝は、添え字ｋがγの上に付くことを表す。φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝は、文書ｊ内ｉ番目の単語がトピックｔに割り当てられる確率（文書単語トピック確率）である。ｎ＿｛ｊ，ｔ｝＾｛ｋ｝は、文書ｊ中でトピックｔに割り当てがあった回数の期待値（文書トピック数）である。ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝は、文書ｊ中で単語ｖがトピックｔに割り当てられる期待値（単語トピック数）である。

　図９は、特に、単語トピック確率βの推定のみに注目した潜在トピック推定装置の構成を示す。

　図９に示す潜在トピック推定装置は、ユーザ操作ないし外部のプログラムにより入力された一つ以上の単語を含む文書データを登録する文書データ追加部５０１と、追加された文書に対してトピックの混合分布を前提とした生成モデルに従い、文書単語トピック確率を繰り返し算出することで潜在トピックを推定するトピック推定部５０２と、トピック推定部５０２が算出した単語トピック数を記憶するトピック分布記憶部５０４と、トピック推定部５０２が算出した単語トピック数を元にトピック分布記憶部５０４内のデータを更新するデータ更新部５０３と、ユーザ操作ないし外部のプログラムによって呼び出されると、トピック分布記憶部５０４内の単語トピック数を元に単語トピック確率を計算し、その結果を出力する単語トピック分布出力部５０５とを含む。

　図９に示す潜在トピック推定装置の処理の流れを以下に示す。図１０は、図９に示す潜在トピック推定装置のトピック推定処理を示すフローチャートである。

　まず、図９に示す潜在トピック推定装置は、一つ以上の単語を含む文書が文書データ追加部５０１に追加されると、処理を開始する。追加された文書は、トピック推定部５０２に入力される。トピック推定部５０２は、文書データ内の単語を順に調べ、文書単語トピック確率、文書トピック数、単語トピック数、文書トピックパラメタを繰り返し更新することで、確率推定を行う。

　図１０に示すトピック推定部５０２の処理を式１～式４、式２’および式４’を用いて説明する。

　トピック推定部５０２は、Ｎ＿｛ｊ｝個の単語で構成される文書ｊが追加されると、まず、以下の値の初期値を算出する（ステップｎ１）。

φ＿｛ｊ，ｉ，ｔ｝＾｛ｏｌｄ｝　（０＜＝ｔ＜ｋ，　０＜＝ｉ＜Ｎ＿｛ｊ｝）
ｎ＿｛ｊ，ｔ｝＾｛ｏｌｄ｝　（０＜＝ｔ＜ｋ）
ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｏｌｄ｝　（０＜＝ｔ＜ｋ）
γ＿｛ｊ，ｔ｝＾｛ｋ｝　（０＜＝ｔ＜ｋ）
β＿｛ｔ，ｖ｝＾｛ｋ｝　（０＜＝ｔ＜ｋ）

　ｎ＿｛ｊ，ｔ｝＾｛ｏｌｄ｝は、文書トピック数の初期値であって、式２’により算出される。ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｏｌｄ｝は、単語トピック数の初期値であって、式２’により算出される。γ＿｛ｊ，ｔ｝＾｛ｋ｝は、文書トピックパラメタの初期値であって、式３により算出される。β＿｛ｔ，ｖ｝＾｛ｋ｝は、単語トピック確率の初期値であって、式４’により算出される。

　なお、φ＿｛ｊ，ｉ，ｔ｝＾｛ｏｌｄ｝は、文書単語トピック確率の初期値であって、ランダムに割り当てられる。

　また、式２、式２’における関数Ｉ（条件）は、条件が満たされる場合に１、そうでない場合に０を返す関数である。ｗ＿｛ｊ，ｉ｝は文書ｊのｉ番目の単語を意味する。

　次に、トピック推定部５０２は、各単語について、トピックｔ（０＜＝ｔ＜ｋ）ごとにφ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝，β＿｛ｔ，ｖ｝＾｛ｋ｝，γ＿｛ｊ，ｔ｝＾｛ｋ｝の値を更新する処理を行う（ステップｎ２）。これらの更新処理は式１、式２、式３、式４を順に計算することで行われる。

　なお、式１におけるΨ（ｘ）はディガンマ関数、ｅｘｐ（ｘ）は指数関数を表す。式４におけるＡ＿｛ｔ，ｖ｝は、トピック分布記憶部５０４に記憶されている。なお、最初の文書追加時など、トピック分布記憶部５０４に該当する値が無い場合、Ａ＿｛ｔ，ｖ｝を０とする。

　全単語に対するパラメタ更新が完了すると、トピック推定部５０２は、次回の更新処理に備え、φ＿｛ｊ，ｉ，ｔ｝＾｛ｏｌｄ｝，ｎ＿｛ｊ，ｔ｝＾｛ｏｌｄ｝，ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｏｌｄ｝を、今回のトピック推定で算出された値φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝に置換する。そして再び、各単語に対して式１～式４の更新を行う。

　次に、トピック推定部５０２は終了判定を行う（ステップｎ３）。ここでは、文書が追加された後、ステップｎ２が実施された回数を覚えておき、一定回数完了すると（ステップｎ３のＹｅｓ）、トピック推定部５０２は処理を終了する。

　データ更新部５０３は、トピック推定部５０２が算出した値のうち、単語トピック数ｎ＿｛ｊ，ｔ，ｖ｝を元に、トピック分布記憶部５０４内の値を更新する。更新は式５によって実施される。

単語トピック分布出力部５０５は、ユーザ操作ないし外部のプログラムによって呼び出される。単語トピック分布出力部５０５はトピック分布記憶部５０４内の値を元に、式６によりβ＿｛ｔ，ｖ｝を出力する。

　この方法は、全文書を蓄積し、全文書に対して推定処理を繰り返さず、文書が追加された際に、追加された文書にのみ繰り返し推定を行う。これにより、効率よく確率推定を行うことができ、一般的なＬＤＡより高速に動作することが知られている。しかし、その速度は十分ではなく、特に、トピック数ｋが大きい場合には、トピック数に比例した処理時間が必要であり、大きな時間がかかってしまう。この問題に対しては、階層的なクラスタリング方法を用いることが考えられる。

　非特許文献２には、階層的クラスタリング方法が記載されている。この方法では、文書データの潜在トピックを推定するために、クラスタ数（＝トピック数）２のクラスタリング（＝トピック推定）を行うことで、データを２分割する処理を再帰的に実施する。これにより、各文書へのトピックの割り当てをｌｏｇ（Ｋ）のオーダーで計算できる。しかし、この方法は、類似した分野の技術ではあるが、あくまで文書へのトピック割り当てを行う技術であり、単語へのトピック割り当て確率を推定することができない。さらに、各データに割り当てられるトピックは単一であり、複数のトピックの混合状態を表現することができない。

佐藤一誠、中川裕志，「Ｌａｔｅｎｔ　Ｄｉｒｉｃｈｌｅｔ　Ａｌｌｏｃａｔｉｏｎにおける決定論的オンラインベイズ学習」，情報処理学会研究報告－自然言語処理，Ｖｏｌ．２００９－ＮＬ－１９３　Ｎｏ．７Ｙｉｎｇ　Ｚｈａｏ　ａｎｄ　Ｇｅｏｒｇｅ　Ｋａｒｙｐｉｓ，"Ｈｉｅｒａｒｃｈｉｃａｌ　Ｃｌｕｓｔｅｒｉｎｇ　Ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　Ｄｏｃｕｍｅｎｔ　Ｄａｔａｓｅｔｓ"，Ｄａｔａ　Ｍｉｎｉｎｇ　ａｎｄ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ，Ｖｏｌ．１０，Ｎｏ．２，ｐｐ．１４１－１６８，２００５

　混合トピックを扱うことができる潜在トピック推定方法は、トピック数に比例して大きな処理時間がかかる。トピック数が大きい場合にも効率よく処理する方法として、階層的な潜在トピックの推定方法がある。ここで、トピック木と、階層的な潜在トピック推定を定義する。

　トピック木とは、トピックをノード、トピック間の意味の包含関係をエッジとした、深さＤのＷ分木のデータである。トピック木中のトピックは、それぞれ各階層でユニークなＩＤ（トピックＩＤ）を持つものとする。

　図１１は、Ｗ＝３，Ｄ＝２のトピック木の一例を示す説明図である。図１１に示す実線の各円はトピックを表し、円内に記載された数がトピックＩＤを表すものとする。このトピックは２つの階層を持つ。具体的には、ｒｏｏｔから見て１段目にある０～２のトピックによる上位の階層と、その下位にある０～８のトピックによる下位の階層を持つ。上位階層と下位階層の間のエッジは包含関係を意味しており、例えば、下位階層のトピック０番～２番が持つ概念は、上位階層のトピック０番が持つ概念に包含されることを意味する。同様に、下位階層のトピック３番～５番が持つ概念は、上位階層のトピック１番の概念に包含されることを意味する。

　階層的な潜在トピック推定とは、このようなトピック木を想定した場合に、トピック間の意味の包含関係に矛盾が無いように、各単語を各階層においてトピック推定することを意味する。

　しかし、階層的な潜在トピックの推定方法は、トピックの混合状態を仮定しつつ、単語の潜在トピックの推定をすることが難しい。

　そこで、本発明は、階層的に処理をすることができ、かつ、トピックの混合状態を考慮しつつ単語の潜在トピックを高速に推定することができる単語潜在トピック推定装置および単語潜在トピック推定方法を提供することを目的とする。

　本発明による単語潜在トピック推定装置は、一つ以上の単語を含む文書を入力する文書データ追加部と、単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定する階層設定部と、ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成する上位制約作成部と、入力された文書内の各単語が各トピックに割り当てられる確率を推定する際に、上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行う上位制約付きトピック推定部とを備えたことを特徴とする。

　本発明による単語潜在トピック推定方法は、一つ以上の単語を含む文書を入力し、単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定し、ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成し、入力された文書内の各単語が各トピックに割り当てられる確率を推定する際に、上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行うことを特徴とする。

　本発明によれば、階層的に処理をすることができ、かつ、トピックの混合状態を考慮しつつ単語の潜在トピックを高速に推定することができる。

本発明による単語潜在トピック推定装置の第１の実施形態における構成の一例を示すブロック図である。第１の実施形態における文書データ追加フローを示すフローチャートである。文書データ追加フロー内の上位制約付きトピック推定処理を示すフローチャートである。本発明による単語潜在トピック推定装置の第２の実施形態における構成の一例を示すブロック図である。第２の実施形態における文書データ追加フローを示すフローチャートである。データ更新部による上位トピックへの単語トピック数の割り当て処理を示すフローチャートである。本発明による単語潜在トピック推定装置の最小構成を示すブロック図である。本発明による単語潜在トピック推定装置の他の最小構成を示すブロック図である非特許文献１に記載された方法を適用した潜在トピック推定装置の構成の一例を示す説明図である。図９に示す潜在トピック推定装置のトピック推定処理を示すフローチャートである。Ｗ＝３，Ｄ＝２のトピック木の一例を示す説明図である。

実施形態１．
　以下、本発明の第１の実施形態を図面を参照して説明する。

　図１は、本発明による単語潜在トピック推定装置の第１の実施形態における構成の一例を示すブロック図である。本発明による単語潜在トピック推定装置は、文書データ追加部１０１と、階層設定部１０２と、上位制約付きトピック推定部１０３と、データ更新部１０４と、上位制約作成部１０５と、トピック分布記憶部１０６と、上位制約バッファ１０７と、単語トピック分布出力部１０８とを含む。

　文書データ追加部１０１は、ユーザ操作ないし外部のプログラムにより入力された一つ以上の単語を含む文書データを登録する。

　階層設定部１０２は、予め設定された幅Ｗと深さＤという設定パラメタを元にトピック数ｋの設定を行い、上位制約付きトピック推定部１０３の処理を呼び出す。

　上位制約付きトピック推定部１０３は、階層設定部１０２に設定されたトピック数ｋと、文書データ追加部１０１から渡された文書データと、上位制約バッファ１０７内の上位制約とを入力として、トピック数ｋのトピック推定を行う。

　データ更新部１０４は、上位制約付きトピック推定部１０３が算出した単語トピック数を元にトピック分布記憶部１０６内のデータを更新する。

　上位制約作成部１０５は、データ更新部１０４の処理後に呼び出され、上位制約付きトピック推定部１０３が算出した文書単語トピック確率を元に、上位制約を作成する。上位制約作成部１０５は、作成した上位制約を上位制約バッファ１０７に登録すると共に、階層設定部１０２を呼び出す。

　トピック分布記憶部１０６は、データ更新部１０４から渡された単語トピック数を記憶する。本実施形態では、トピック分布記憶部１０６は、単語ｖ、トピック数ｋ、トピックｔをキーとして、単語トピック数を保持する。トピック分布記憶部１０６は、以下のようなデータ構造の情報を記憶する。

単語：ｋ：トピックＩＤ→単語トピック数

　トピック分布記憶部１０６に記憶されるデータの例を以下に示す。

ｃｈｉｌｄｒｅｎ：４：０→２．０
ｃｈｉｌｄｒｅｎ：４：１→１．０

　この例は、トピック数４のトピック推定において、単語ｃｈｉｌｄｒｅｎの０番トピックに対する単語トピック数が２．０であること、単語ｃｈｉｌｄｒｅｎの１番トピックに対する単語トピック数が１．０であることを示す。

　上位制約バッファ１０７は、上位制約作成部１０５によって作成された上位制約を記憶するバッファである。本実施形態では、上位制約バッファ１０７は、直前に実施された上位階層のトピック推定において文書中のｉ番目の単語に対して割り当てられる可能性があるトピックＩＤと、そのトピックに対する文書単語トピック確率φを保持する。上位制約バッファ１０７は、以下のようなデータ構造の情報を記憶する。

文書中の位置ｉ→トピックＩＤ：文書単語トピック確率

　上位制約バッファ１０７に記憶されるデータの例を以下に示す。

５→０：０．３，８：０．７

　この例は、５番目にある単語が、トピック０番に割り当てられる確率が０．３、トピック８番に割り当てられる確率が０．７であることを示す。

　単語トピック分布出力部１０８は、ユーザ操作ないし外部のプログラムによって呼び出されると、トピック分布記憶部１０６内の単語トピック数を元に単語トピック確率を計算し、その結果を出力する。

　なお、文書データ追加部１０１、階層設定部１０２、上位制約付きトピック推定部１０３、データ更新部１０４、上位制約作成部１０５および単語トピック分布出力部１０８は、単語潜在トピック推定装置が備えるＣＰＵ等によって実現される。

　また、トピック分布記憶部１０６および上位制約バッファ１０７は、例えば、単語潜在トピック推定装置が備えるメモリ等の記憶装置によって実現される。

　次に、本実施形態の動作を説明する。

　本実施形態の処理は大きく、文書データ追加フローと、出力フローから成る。

　図２は、第１の実施形態における文書データ追加フローを示すフローチャートである。まず、図２を用いて文書データ追加フローを説明する。

　文書データ追加フローは、ユーザ操作ないし外部のプログラムが一つ以上の単語を含む文書データを入力することで開始される。

　文書データが追加されるとまず、階層設定部１０２は、トピック数ｋに初期値１を設定する（ステップｕ０１）。次に、階層設定部１０２は、トピック数ｋをＷ倍する（ステップｕ０２）。次に、階層設定部１０２は処理を終了するかどうかをｋの値によって決定する（ステップｕ０３）。

　ｋの値がＷのＤ乗より大きければ（ステップｕ０３のＹｅｓ）、単語潜在トピック推定装置は、終了処理を行う（ステップｕ０７）。終了処理では、次の文書追加に備え、上位制約バッファ１０７が空にされる。そうでなければ（ステップｕ０３のＮｏ）、単語潜在トピック推定装置は、そのトピック数ｋに対するトピック推定処理を行うステップｕ０４の処理に移行する。ステップｕ０４では、上位制約付きトピック推定部１０３が、トピック数ｋに対する潜在トピック推定処理を行う。

　このとき、上位制約バッファ１０７内が空であれば、上位制約付きトピック推定部１０３は、図９に示すトピック推定部５０２と同じ処理（図１０に示すステップｎ１～ｎ３）を行い、通常のトピック推定を行う。上位制約バッファ１０７内に上位制約がある場合は、上位制約付きトピック推定部１０３は、各単語の潜在トピック推定において上位制約を満たすトピックのみに割り当てを行うよう推定処理を行う。

　あるトピックが上位制約を満たすか否かの判定は、トピック木上において、そのトピックの親トピックが、上位制約に含まれるか否かによって決定される。即ち、トピックＩＤをＷで割った商が上位制約に含まれるかどうかによって決定される。例えば、Ｗ＝４において、トピック数が１６のトピック推定を行うシーンを考える。ある単語に対する上位制約（トピック数４の推定における割当）が０，２である場合、上位制約を満たすトピックは０～１６のうち｛０，１，２，３，８，９，１０，１１｝の８個になる。以下では、上位制約を満たすトピックを許容トピックと呼び、このリストを許容トピックリストと呼ぶ。

　図３は、文書データ追加フロー内の上位制約付きトピック推定処理、つまり、図２におけるステップｕ０４の処理を示すフローチャートである。図３を用いてステップｕ０４の処理の詳細を説明する。

　Ｎ＿｛ｊ｝個の単語で構成される文書ｊが追加されると、上位制約付きトピック推定部１０３はまず、上位制約バッファ１０７を参照し、文書中の全位置に対して上位制約を取得する（ステップｕ０４１）。もし、上位制約バッファ１０７が空であれば（ステップｕ０４２のＹｅｓ）、上位制約付きトピック推定部１０３は、図１０に示すステップｎ１の処理に移行し、ステップｎ３までの処理を実行する。通常のトピック推定処理が完了すると、上位制約付きトピック推定部１０３は、処理を終了する。そうでなければ（ステップｕ０４２のＮｏ）、ステップｕ０４３の処理へ進む。

　ステップｕ０４３において、上位制約付きトピック推定部１０３は、上位制約に含まれる上位の階層のトピックＩＤと、０～ｋ－１のトピックＩＤをＷで割った商を比較し、許容トピックリストを作成する。

　次に、上位制約付きトピック推定部１０３は、確率パラメタの初期値を算出する（ステップｕ０４４）。この処理は、図１０に示すステップｎ１の処理と同様である。また、このうち、φ＿｛ｊ，ｉ，ｔ｝＾｛ｏｌｄ｝の初期値については、すべてのトピックにランダムに確率を割り当てるのではなく、許容トピックに対してのみランダムに確率を割り当て、許容トピック以外のトピックについては０を割り当てても良い。

　次に、上位制約付きトピック推定部１０３は、文書内の各単語に対して、式７、式２、式３、式４の値を更新する（ステップｕ０４５）。

　ただし、この更新処理は、上位制約を満たすトピックに対してのみ実施する。この処理は、式７、式２、式３、式４を用いて、φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝，β_｛ｔ，ｖ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝，γ_｛ｊ，ｔ｝＾｛ｋ｝を順に更新することによって実施される。

　なお、式７中のｃｏｎｓは許容トピックのＩＤの集合を表す。φ＿｛ｊ，ｉ，ｔ／Ｗ｝＾｛ｋ／Ｗ｝は、上位制約内に含まれる親トピックの文書単語トピック確率を表す。また、式１と式７を比較すると、式７は許容トピック以外の確率値を０に固定している点と、親トピックの文書単語トピック確率φ＿｛ｊ，ｉ，ｔ／Ｗ｝＾｛ｋ／Ｗ｝を重みとして乗算している点が異なる。式７によれば、トピック数ｋの確率推定において、トピックｋ／Ｗの確率推定の結果を考慮した確率の割り当てが可能となる。

　文書ｊ内の全単語に対して更新処理が完了すると、上位制約付きトピック推定部１０３は、次回の更新処理に備え、φ＿｛ｊ，ｉ，ｔ｝＾｛ｏｌｄ｝，ｎ＿｛ｊ，ｔ｝＾｛ｏｌｄ｝，ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｏｌｄ｝を、今回のトピック推定で算出された値φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ｝＾｛ｋ｝，ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝に置換する。

　以上の処理が完了すると、上位制約付きトピック推定部１０３は、ステップｕ０４６の終了判定を行う。この処理は、図１０に示すステップｎ３の処理と同様である。上位制約を満たすトピックに対する推定処理が完了すると、単語潜在トピック推定装置はステップｕ０５の処理に移行する。

　ステップｕ０５では、データ更新部１０４が、上位制約付きトピック推定部１０３が算出した値のうち、単語トピック数ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝を元に、トピック分布記憶部１０６内の値を更新する。更新は式５によって実施される。

　データ更新部１０４の処理が終わると、上位制約作成部１０５は、上位制約付きトピック推定部１０３が算出した文書単語トピック確率φに基づき、上位制約を作成する（ステップｕ０６）。この処理は次のように行われる。

　まず、上位制約作成部１０５は、その時点の上位制約バッファ１０７を空にする。

　次に、上位制約作成部１０５は、各単語について次の処理を行う。文書ｊのｉ番目の単語についての文書単語トピック確率φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝をｔ＝０～ｋ－１まで順に調べる。そして、この文書単語トピック確率の値が閾値ＴＯＰＩＣ＿ＭＩＮ（例えば、０．２）より大きいトピックのＩＤを取り出し、許容リストｃｏｎｓ（ｊ，ｉ）に入れる。

　次に、上位制約作成部１０５は、式８によって許容リスト内のｔに対して、φ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝の値を更新する。そして、上位制約作成部１０５は、位置ｉをキーとして、ｃｏｎｓ（ｊ，ｉ）に含まれるトピックのＩＤと、そのトピックに対するφ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝を上位制約バッファ１０７に追加する。

　上位制約作成部１０５が以上の処理を文書ｊ中の全位置に対して完了すると、単語潜在トピック推定装置は、ステップｕ０２の処理に戻り、次の階層の処理を行う。

　次に、出力フローについて述べる。出力フローは、ユーザ操作ないし外部のプログラムによって単語トピック分布出力部１０８が呼び出されることで開始される。単語トピック分布出力部１０８は、トピック分布記憶部１０６内に記憶されているデータを元に、式６を用い、各トピック数ｋにおいて、全単語ｖに対する各トピックｔの単語トピック確率を算出し、出力する。

　次に、具体例を用いて、本実施形態の動作を説明する。ここでは、単語潜在トピック推定装置がＷ＝４，Ｄ＝２の階層的な潜在トピック推定を行う場合を例にする。なお、ユーザにより、下記のパラメタが予め設定されているものとする。

λ＿｛０｝＝１／１００
α＿｛ｔ｝＾｛ｋ｝＝０　（ｔ∈トピック木，ｋ∈｛４，１６｝）
ＴＯＰＩＣ＿ＭＩＮ＝０．２

　さらに、既に１０００件の文書の追加がされ、トピック分布記憶部１０６内に下記のデータが記憶されている状態を想定する。

ｃｈｉｌｄｒｅｎ：４：０→１００
ｃｈｉｌｄｒｅｎ：４：１→５０
ｃｈｉｌｄｒｅｎ：４：２→５
ｃｈｉｌｄｒｅｎ：４：３→５

　このとき、文書データ追加部１０１に、「ｃｈｉｌｄｒｅｎ」と「ｙｅａｒ」の２つの単語のみからなる文書５５５が追加された場合の文書データ追加フローについて説明する。

　文書データが追加されると、階層設定部１０２は、トピック数ｋ＝４を設定する（ステップｕ０１、ステップｕ０２）。階層設定部１０２は、ステップｕ０３において終了判定を行うが、ｋ（＝４）＜Ｗ＾Ｄ（＝１６）であるため、単語潜在トピック推定装置はステップｕ０４の処理に進む。ステップｕ０４では、トピック数４の潜在トピック推定が実施される。このとき、上位制約バッファ１０７は空であるため、ステップｕ０４、ステップｕ０５では、図９に示すトピック推定部５０２と同じ繰り返し処理が行われる。

　ここでは、この計算の説明を省略し、下記の結果が得られたものとする。

位置０にあるｃｈｉｌｄｒｅｎに対する文書単語トピック確率
φ＿｛５５５，０，０｝＾｛４｝＝０．８
φ＿｛５５５，０，１｝＾｛４｝＝０．１
φ＿｛５５５，０，２｝＾｛４｝＝０．０１
φ＿｛５５５，０，３｝＾｛４｝＝０．０９
位置１にあるｙｅａｒに対する文書単語トピック確率
φ＿｛５５５，１，０｝＾｛４｝＝０．０１
φ＿｛５５５，１，１｝＾｛４｝＝０．２２５
φ＿｛５５５，１，２｝＾｛４｝＝０．６７５
φ＿｛５５５，１，３｝＾｛４｝＝０．０９

　ステップｕ０６では、上位制約作成部１０５が、これらのφに基づき、下位階層に対する制約を作成する。この処理について説明する。

　まず、位置０にあるｃｈｉｌｄｒｅｎの文書単語トピック確率φ＿｛５５５，０，ｔ｝＾｛４｝のうち、ＴＯＰＩＣ＿ＭＩＮ（＝０．２）以上の値を持つものは、φ＿｛５５５，０，０｝＾｛４｝＝０．８のみである。よって、許容リストｃｏｎｓ（５５５，０）には０のみが追加される。そして、上位制約作成部１０５は、式８により、φ＿｛５５５，０，０｝＾｛４｝を１に更新する。この結果、上位制約作成部１０５は、次の上位制約を上位制約バッファ１０７に追加する。

０→０：１

　次に、位置１にある“ｙｅａｒ”の文書単語トピック確率φ＿｛５５５，１，ｔ｝＾｛４｝のうち、ＴＯＰＩＣ＿ＭＩＮ（０．２）以上の値を持つものは、以下の２つである。

φ＿｛５５５，１，１｝＾｛４｝＝０．２２５
φ＿｛５５５，１，２｝＾｛４｝＝０．６７５

　よって、許容リストｃｏｎｓ（５５５，１）には｛１，２｝が追加される。上位制約作成部１０５は式８により、φ＿｛５５５，１，１｝＾｛４｝とφ＿｛５５５，１，２｝＾｛４｝の値を次のように更新する。

φ＿｛５５５，１，１｝＾｛４｝＝０．２２５／（０．２２５＋０．６７５）＝０．２５
φ＿｛５５５，２，２｝＾｛４｝＝０．６７５／（０．２２５＋０．６７５）＝０．７５

　この結果、上位制約作成部１０５は、次の上位制約を上位制約バッファ１０７に追加する。

１→１：０．２５，２：０．７５

　上位制約の作成が完了すると、単語潜在トピック推定装置は、ステップｕ０２の処理に戻る。そして、トピック数ｋが１６に更新される（ステップｕ０２）。「ｋ＝１６」はステップｕ０３の終了条件を満たさないため、単語潜在トピック推定装置は、ステップｕ０４の処理、つまり、上位制約付きトピック推定部１０３の処理に移行する。

　上位制約付きトピック推定部１０３は、まず、ステップｕ０４１において上位制約バッファ１０７内から次のデータを読み込む。

０→０：１
１→１：０．２５，２：０．７５

　次に、上位制約付きトピック推定部１０３は、ステップｕ０４３において、各単語に対して、各位置における許容トピックリストを作成する。位置０については、上位制約のトピックが０であるため、０～１５のうち、Ｗの商が０となる｛０，１，２，３｝が、許容トピックリストとして作成される。位置１については、上位制約のトピックが｛１，２｝であるため、０～１５のうち、Ｗの商が１となる｛４，５，６，７｝と、Ｗの商が２となる｛８，９，１０，１１｝から、許容トピックリストとして｛４，５，６，７，８，９，１０，１１｝が作成される。上位制約付きトピック推定部１０３は、φ，γ，β，ｎの初期値を算出する（ステップｕ０４４）。

　次に、上位制約付きトピック推定部１０３は、許容トピックリスト内のトピックに対応するφ，γ，β，ｎの更新処理を行う（ステップｕ０４５）。ここでは、φ＿｛５５５，ｉ，ｔ｝＾｛１６｝の計算に注目する。また、説明を簡単にするため、式７のうち、式９で与えられる項ｂａｓｅ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝が次のように算出されているとする。

ｂａｓｅ＿｛５５５，ｉ，ｔ｝＾｛１６｝＝１／１６　（ｉ＝０，１，　ｔ＝０～１５）

　位置０にある単語“ｃｈｉｌｄｒｅｎ”に対しては、次のように計算が行われる。上位制約０→０：１より、上位階層における文書単語トピック確率φ＿｛５５５，０，ｔ｝＾｛４｝は、次のように見なすことができる。

φ＿｛５５５，０，０｝＾｛４｝＝１
φ＿｛５５５，０，１｝＾｛４｝＝０
φ＿｛５５５，０，２｝＾｛４｝＝０
φ＿｛５５５，０，３｝＾｛４｝＝０

　許容トピックは０～３であり、以降の計算は、トピック０～３についてのみ実施すれば良い。つまり、φ＿｛５５５，０，０｝＾｛１６｝の計算においては、次の計算のみが行われる。

φ＿｛５５５，０，０｝＾｛４｝とｂａｓｅ＿｛５５５，０，０｝＾｛１６｝の積＝１／１６
φ＿｛５５５，０，０｝＾｛４｝とｂａｓｅ＿｛５５５，０，１｝＾｛１６｝の積＝１／１６
φ＿｛５５５，０，０｝＾｛４｝とｂａｓｅ＿｛５５５，０，２｝＾｛１６｝の積＝１／１６
φ＿｛５５５，０，０｝＾｛４｝とｂａｓｅ＿｛５５５，０，３｝＾｛１６｝の積=１／１６

　以降の計算は、φ＿｛５５５，０，１｝＾｛４｝，φ＿｛５５５，０，２｝＾｛４｝，φ＿｛５５５，０，３｝＾｛４｝が０となるため、無視できる。φ＿｛５５５，０，ｔ｝＾｛１６｝は、以下のように算出される。

φ＿｛５５５，０，０｝＾｛１６｝＝１／４
φ＿｛５５５，０，１｝＾｛１６｝＝１／４
φ＿｛５５５，０，２｝＾｛１６｝＝１／４
φ＿｛５５５，０，３｝＾｛１６｝＝１／４
φ＿｛５５５，０，ｔ｝＾｛１６｝＝０　（４＜＝ｔ＜１６）

　このように、トピック数４の推定結果を上位制約として用いることで、本来各トピックに対して必要なφの更新処理を削減することができる。つまり、通常のトピック数１６の潜在トピックの推定を行うためには、１６トピック×繰り返し回数の計算が必要となる。しかし、ｋ＝４の推定結果から作成した上位制約を用いることで、位置０の“ｃｈｉｌｄｒｅｎ”に対しては、（上位階層４トピック＋下位階層４トピック）×繰り返し回数の計算をするだけでよい。

　次に、位置１にある単語“ｙｅａｒ”に対する計算を行う。ここでもφの計算に注目する。位置１に対する上位制約は「１→１：０．２５、２：０．７５」であるため、上位階層における文書単語トピック確率φ＿｛５５５，１，ｔ｝＾｛４｝は次のように見なすことができる。

φ＿｛５５５，０，０｝＾｛４｝＝０
φ＿｛５５５，１，１｝＾｛４｝＝０．２５（＝１／４）
φ＿｛５５５，２，２｝＾｛４｝＝０．７５（＝３／４）
φ＿｛５５５，３，３｝＾｛４｝＝０

　以降の計算は、許容トピック｛４，５，６，７，８，９，１０，１１｝についてのみ実施される。つまり、φ＿｛５５５，１，０｝＾｛１６｝の計算においては、次の計算のみが行われる。

φ＿｛５５５，１，１｝＾｛４｝とｂａｓｅ＿｛５５５，１，４｝＾｛１６｝の積＝１／６４
φ＿｛５５５，１，１｝＾｛４｝とｂａｓｅ＿｛５５５，１，５｝＾｛１６｝の積＝１／６４
φ＿｛５５５，１，１｝＾｛４｝とｂａｓｅ＿｛５５５，１，６｝＾｛１６｝の積＝１／６４
φ＿｛５５５，１，１｝＾｛４｝とｂａｓｅ＿｛５５５，１，７｝＾｛１６｝の積＝１／６４
φ＿｛５５５，１，２｝＾｛４｝とｂａｓｅ＿｛５５５，１，８｝＾｛１６｝の積＝３／６４
φ＿｛５５５，１，２｝＾｛４｝とｂａｓｅ＿｛５５５，１，９｝＾｛１６｝の積＝３／６４
φ＿｛５５５，１，２｝＾｛４｝とｂａｓｅ＿｛５５５，１，１０｝＾｛１６｝の積＝３／６４
φ＿｛５５５，１，２｝＾｛４｝とｂａｓｅ＿｛５５５，１，１１｝＾｛１６｝の積＝３／６４

　φ＿｛５５５，１，ｔ｝＾｛１６｝は，以下のように算出される。

φ＿｛５５５，１，４｝＾｛１６｝＝１／１６
φ＿｛５５５，１，５｝＾｛１６｝＝１／１６
φ＿｛５５５，１，６｝＾｛１６｝＝１／１６
φ＿｛５５５，１，７｝＾｛１６｝＝１／１６
φ＿｛５５５，１，８｝＾｛１６｝＝３／１６
φ＿｛５５５，１，９｝＾｛１６｝＝３／１６
φ＿｛５５５，１，１０｝＾｛１６｝＝３／１６
φ＿｛５５５，１，１１｝＾｛１６｝＝３／１６
φ＿｛５５５，１，ｔ｝＾｛１６｝＝０　（ｔ＜４　ｏｒ　ｔ＞１２）

　この場合の計算も位置０の“ｃｈｉｌｄｒｅｎ”の場合と同様、従来手法では、各更新にあたり、１６個のφの計算が必要であったが、上記の計算方法により、４＋８＝１２個のφの計算で処理を終えることができる。γ，β，ｎの更新処理についても上記の計算方法を適用することにより、同様の効果を得ることができる。

　なお、この処理の後、ステップｕ０５～ｕ０６の処理が実施されると、階層設定部１０２は、ステップｕ０２において、ｋを６４に更新する。この結果、ｋ＞１６となるため、ステップｕ０７の終了処理を行い、本処理フローは終了する。

　以上に説明したように、本実施形態によれば、上位制約によって、複数のトピックの混合確率を考慮しつつ、余分なトピックに対する推定処理を行わず階層的にトピックを推定できる。例えば、トピック数１００の推定を行う際、通常の潜在トピック推定では、各単語に対して１００トピックの推定が必要となる。一方、本発明による潜在トピック推定では、例えば、Ｄ＝２，Ｗ＝１０という設定を行うことで、各単語当たり１０～数十個のトピックについての推定さえ行えば良く、効率よく推定を行うことができる。

　実施形態２．
　以下、本発明の第２の実施形態を図面を参照して説明する。

　図４は、本発明による単語潜在トピック推定装置の第２の実施形態における構成の一例を示すブロック図である。図４に示すように、第２の実施形態の単語潜在トピック推定装置は、第１の実施形態の構成に加え、初期値記憶部２０１と、初期値更新部２０２とを備える。

　初期値記憶部２０１は、階層設定部１０２が設定するトピック数ｋの初期値を記憶する。具体的には、初期値記憶部２０１は、ｋの初期値ｉｎｉｔＫを保持する。なお、ｉｎｉｔＫは、文書が追加される前にＷ＾（Ｄ－１）として設定されているものとする。

　初期値更新部２０２は、階層設定部１０２から呼び出され、上位制約付きトピック推定部１０３が算出した文書単語トピック確率や、それまでに追加された文書数を元に、初期値記憶部２０１内のトピック数ｋの初期値を更新する。

　なお、初期値更新部２０２は、単語潜在トピック推定装置が備えるＣＰＵ等によって実現される。また、初期値記憶部２０１は、例えば、単語潜在トピック推定装置が備えるメモリ等の記憶装置によって実現される。

　また、第２の実施形態におけるその他の構成は、第１の実施形態と同様であるため説明を省略する。

　次に、本実施形態の動作を説明する。

　ここでは、第２の実施形態における文書データ追加フローを説明する。図５は、第２の実施形態における文書データ追加フローを示すフローチャートである。

　第２の実施形態における文書データ追加フローは、ユーザ操作ないし外部のプログラムが一つ以上の単語を含む文書データを入力することで処理を開始する。文書データが追加されるとまず、階層設定部１０２は、初期値記憶部２０１内のｋの初期値ｉｎｉｔＫを読み込み、ｋの初期値として設定する（ステップｕ１０１）。この後の処理（ステップｕ１０２～ｕ１０５）は、第１の実施形態のステップｕ０２～ｕ０５の処理と同様である。

　次に、ステップｕ１０６では、データ更新部１０４が、各単語について、単語トピック数ｎ＿｛ｊ，ｔ，ｖ｝＾｛ｋ｝を上位階層のトピックへ反映させる。なお、この処理は、ｋがＷと等しくなく、かつ、ｋ＝ｉｎｉｔＫ＊Ｗである場合のみ動作する。これは次の理由による。ｋ＝Ｗである場合、上位トピックは存在しないため、処理が不要であるためである。また、ｋがｉｎｉｔＫ＊Ｗと等しくない場合、この文書に対する上位トピックへの割り当ては、ｋ／Ｗのトピック推定で実施されるため、処理が不要であるためである。

　図６は、ステップｕ１０６の処理、つまり、データ更新部１０４による上位トピックへの単語トピック数の割り当て処理を示すフローチャートである。上位トピックへの単語トピック数ｎ＿｛ｊ，ｔ，ｖ｝の割り当ては、図６の処理フローに従って実施される。

　図６に示すように、まず、パラメタｐの初期値が１に設定される（ステップｕ０６２１）。次に、ｐの値がＷ倍に更新される（ステップｕ０６２２）。データ更新部１０４は、現在のｋとｐとを比較し、ｋとｐが等しければ（ステップｕ０６２３のＹｅｓ）、処理を終了する。そうでなければ（ステップｕ０６２３のＮｏ）、データ更新部１０４は、上位階層トピックに対するＡ＿｛ｋ／ｐ，ｔ／ｐ，ｖ｝にｎ＿｛ｊ，ｔ，ｖ｝を足すことにより、トピック分布記憶部１０６内のデータの更新を行う（ステップｕ０６２４）。

　ステップｕ０６２４の処理は各ｔに対して実施される。例えば、Ｗ＝４，Ｄ＝４，ｉｎｉｔＫ＝１６，ｋ＝６４である場合、トピックＩＤ＝１８の値ｎ＿｛ｊ，１８，ｖ｝は、ｋ＝１６（＝６４／４），ｔ＝４（＝１８／４）のＡ＿｛１６，４，ｖ｝と、ｋ＝４（＝６４／１６），ｔ＝１（＝１８／１６）のＡ＿｛４，１，ｖ｝に加算される。

　データ更新部１０４が、ステップｕ１０６の処理を終えると、単語潜在トピック推定装置は、以降のステップｕ１０７の上位制約作成処理を実施し、終了処理（ステップｕ１０８）まで進む。これらの処理は、第１の実施形態の文書データ追加フローと同様である。ただし、本実施形態の文書データ追加フローでは、階層設定部１０２が終了処理を実施した後、初期値更新部２０２を呼び出す。

　初期値更新部２０２は、次回以降の文書追加に備え、初期値記憶部２０１内のトピック数ｋの初期値ｉｎｉｔＫの更新を行う（ステップｕ１０９）。ここでは、下位階層のトピック推定後に、上位階層でフィルタリングを実施することで、どの程度計算量が削減できるかを見積もり、削減効果に従い、ｉｎｉｔＫを小さく設定する。この削減効果Ｅは、次の式により算出される。

Ｅ＝ｎＣｏｓｔ（ｉｎｉｔＫ＊Ｗ）－ｕｐＣｏｓｔ（ｉｎｉｔＫ＊Ｗ）

　関数ｎＣｏｓｔ（ｋ）は、トピック数ｋの潜在トピック推定を通常の計算方式で実施した場合の計算量を表し、式１０によって算出される。

　なお、式１０のｌｅｎ＿｛ｊ｝は文書ｊに含まれる単語数を意味する。ｉｎｉｔＫをそのまま用いた場合、トピック数ｋはｉｎｉｔＫ＊Ｗとなり、このトピック推定は文書ｊに含まれる単語数のｋ倍の計算量が必要となることを意味する。

　関数ｕｐＣｏｓｔ（ｋ）は、一階層上のトピック数ｋ／Ｗ個の潜在トピック推定を実施した上で、その結果得られた上位制約を用いた場合の計算量を表現した関数である。ｕｐＣｏｓｔ（ｋ）は、式１１によって算出される。

　式１１の第１項は、一つ上の階層、すなわち、トピック数ｋ／Ｗ個の潜在トピック推定を実施するために必要な計算量を意味する。第２項のＦ（ｋ）は、トピック数ｋの潜在トピック推定で作成した上位制約を用い、トピック数ｋ＊Ｗの潜在トピック推定を行う際に必要な計算量を意味する。Ｆ（ｋ）は、式１２によって算出される。

　なお、式１１中においてＦ（ｋ／Ｗ）を算出するためには、１階層上のトピック推定におけるφ＿｛ｊ，ｉ，ｔ｝＾｛ｋ／Ｗ｝が必要となる。この値は、上位制約付きトピック推定部１０３が算出したφ＿｛ｊ，ｉ，ｔ｝＾｛ｋ｝の値より、式１３によって見積もられる。なお、式中の関数ｃ（ｐ）は、トピック木においてトピックｐの子にあたるトピックの集合を意味する。

　初期値更新部２０２は、Ｅの計算を行い、Ｅが閾値Ｅ＿ＭＩＮ（例えば、０）より大きい場合に、初期値記憶部２０１内のｉｎｉｔＫをｉｎｉｔＫ／Ｗに更新する。

　なお、ここでは、初期値ｉｎｉｔＫを更新するために、削減効果を見積もったが、どの程度の文書数を追加すればどの程度の削減効果が得られるかが、経験的に設定可能である場合、それまでに追加された文書数に応じてｉｎｉｔＫを更新しても良い。例えば、追加された文書が１００００件以上になった時点でｉｎｉｔＫをｉｎｉｔＫ／Ｗに更新する、といった方法である。そのような方法によれば、階層的なトピック推定を実施するか、通常のトピック推定、つまり、全トピックに対するトピック推定を行うかを、文書数のみにもとづいて切り替えることができる。

　また、ここでは、文書の追加が行われる度に削減効果Ｅを見積もっているが、削減効果Ｅを見積もる処理時間を削減するために、毎回ではなく、文書がＸ個追加される度に一回実施する、という方法を用いても良い。

　また、ここでは、１文書に対する削減効果Ｅを元にｉｎｉｔＫを更新するか否かを決定したが、複数個の文書、例えば、Ｙ個の文書に対する削減効果Ｅの平均値ｍｅａｎ（Ｅ）を取り、この平均値が閾値Ｅ＿ＭＩＮより大きくなった時点でｉｎｉｔＫを更新する、といった方法を取っても良い。

　次に、具体例を用いて本実施形態の動作を説明する。ここでは、Ｗ＝４，Ｄ＝２において、初期値記憶部２０１内にｉｎｉｔＫが設定されていない状況で、「ｓｃｈｏｏｌ」と「ｃｈｉｌｄｒｅｎ」のみから成る文書３００が追加された場合を例にする。文書データが追加されると、階層設定部１０２はまず、初期値記憶部２０１を参照し、ｉｎｉｔＫ（＝Ｗ＾（Ｄ－１））＝４を読み込む（ステップｕ１０１）。これにより、ステップｕ１０２においてトピック数ｋ＝１６として設定され、ステップｕ１０４においてトピック数１６の推定処理が行われる。ここでは、この結果、次のφ，ｎが得られたものとする。

φ＿｛３００，ｉ，ｔ｝＾｛１６｝＝１／１６　（ｉ＝０，１，０＜＝ｔ＜１６）
ｎ＿｛３００，ｔ，“ｓｃｈｏｏｌ”｝＾｛１６｝＝１／１６　（０＜＝ｔ＜１６）
ｎ＿｛３００，ｔ，“ｃｈｉｌｄｒｅｎ”｝＾｛１６｝＝１／１６　（０＜＝ｔ＜１６）

　ステップｕ１０５の処理が実施された後、データ更新部１０４は、ステップｕ１０６の処理を行う。

　まず、“ｓｃｈｏｏｌ”についての処理を説明する。ステップｕ０６２１、ステップｕ０６２２の処理によって、ｐ＝４が設定される。ｋ（＝１６）はｐと等しくないため、データ更新部１０４はステップｕ０６２４の処理に移る。ステップｕ０６２４では、データ更新部１０４が、０＜＝ｔ＜１６に対して、次の計算を行う。

Ａ＿｛４，０，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，０，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，０，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，１，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，０，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，２，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，０，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，３，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，１，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，４，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，１，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，５，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
Ａ＿｛４，１，“ｓｃｈｏｏｌ”｝にｎ＿｛３００，６，“ｓｃｈｏｏｌ”｝＾｛１６｝を加算
…

　次に、データ更新部１０４は、ステップｕ０６２２の処理に戻り、ｐ＝１６が設定される。この値は、ｋ（＝１６）と等しいため、処理を終了する。

　第２の実施形態においては、学習初期状態において、上位階層のトピック推定を実施しない。しかし、この処理により、親トピックにおける単語トピック数を算出することができる。そのため、上位階層のトピック推定を開始する際に、精度を落とさずに単語トピック確率を算出可能である。データ更新部１０４がステップｕ１０６の処理を終えると、以降のステップｕ１０７を実施し、終了処理（ステップｕ１０８）まで進む。この後、初期値更新部２０２が、ｉｎｉｔＫの更新を行うか否かの判断を行う。

　ここで、ステップｕ１０９の処理を説明する。ステップｕ１０９では、φ＿｛３００，ｉ，ｔ｝＾｛１６｝＝１／１６　（ｉ＝０，１，　０＜＝ｔ＜１６）を元に、削減効果ＥはｎＣｏｓｔ（１６）－ｕｐＣｏｓｔ（１６）として算出される。初期値更新部２０２は、この値を計算するため、まず式１３により、φ＿｛３００，ｉ，ｔ｝＾｛１６｝から、φ＿｛３００，ｉ，ｔ｝＾｛４｝を算出する。

　すると、次の結果が得られる。

　φ＿｛３００，ｉ，ｔ｝＾｛４｝＝１／４　（ｉ＝０，１，　０＜＝ｔ＜４）

　これらの値はいずれもＴＯＰＩＣ＿ＭＩＮ（０．２）以上であるため、式１２内の関数Ｉはいずれも１となる。よって、上位制約を用いた場合の計算量Ｆ（４）は３２として算出される。

　この結果、ｎＣｏｓｔ（１６）は、式１０より、ｋｘｌｅｎ＿｛３００｝＝１６×２＝３２となる。ｕｐＣｏｓｔ（１６）は、式１１により、８＋３２＝４０となる。削減効果Ｅは３２－４０＝－８であり、負の値となる。これは、トピック数４の上位制約を用いたトピック数１６のトピック推定は、単純なトピック数１６のトピック推定と比較し、８回多くφを更新しなければならず、削減効果が得られないことを意味する。よって、この場合、初期値更新部２０２はｉｎｉｔＫを更新しない。

　また、上位制約付きトピック推定部１０３において推定されたφ＿｛３００，ｉ，ｔ｝＾｛１６｝が次の値を持つことを仮定する。

φ＿｛３００，０，０｝＾｛１６｝＝７／２８
φ＿｛３００，０，１５｝＾｛１６｝＝７／２８
φ＿｛３００，０，ｔ｝＾｛１６｝＝１／２８　（１＜＝ｔ＜１５）
φ＿｛３００，１，０｝＾｛１６｝＝７／２８
φ＿｛３００，１，１｝＾｛１６｝＝７／２８
φ＿｛３００，１，ｔ｝＾｛１６｝＝１／２８　（２＜＝ｔ）

　この場合のステップｕ１０９の処理を説明する。初期値更新部２０２はまず、式１３により、φ＿｛３００，ｉ，ｔ｝＾｛４｝を算出する。すると、次の結果が得られる。

φ＿｛３００，０，０｝＾｛４｝＝１０／２８
φ＿｛３００，０，１｝＾｛４｝＝４／２８
φ＿｛３００，０，２｝＾｛４｝＝４／２８
φ＿｛３００，０，３｝＾｛４｝＝１０／２８
φ＿｛３００，１，０｝＾｛４｝＝１６／２８
φ＿｛３００，１，１｝＾｛４｝＝４／２８
φ＿｛３００，１，２｝＾｛４｝＝４／２８
φ＿｛３００，１，３｝＾｛４｝＝４／２８

　このうち、４／２８の値を持つものはＴＯＰＩＣ＿ＭＩＮ（０．２）以下であるため、上位制約を用いた場合の計算量Ｆ（４）は３×４＝１２として算出される。

　ｎＣｏｓｔ（１６）は、式１０より、ｋｘｌｅｎ＿｛３００｝＝１６×２＝３２となる。ｕｐＣｏｓｔ（１６）は、式１１により、８＋１２＝２０となる。削減効果Ｅは３２－２０＝１２となる。これはトピック数４の上位制約により、φの更新を１２回削減できることを意味する。

　このとき、初期値更新部２０２はｉｎｉｔＫを４／４＝１に更新する。これにより、次回以降の推定では、トピック数４の潜在トピック推定を行うことで、新しい文書に対する処理速度を向上させることが可能である。

　以上に説明したように、本実施形態では、削減効果Ｅを見積もり、削減効果Ｅに従い、トピック数ｋの初期値ｉｎｉｔＫを設定する。それにより、削減効果Ｅに応じて、通常のトピック推定を行うか、階層的な潜在トピック推定を行うかを切り替えることができる。

　第１の実施形態では、階層的な潜在トピック推定において、上位のトピック推定で得られた結果を基に上位制約を作成し、下位層のトピック推定における推定量を削減している。しかし、文書データが少ない場合においては、上位のトピック推定の結果の偏りが小さくなる。そのため、上位階層の推定にかかるコストに対して、削減効果が得られず、処理時間が増加するか、あるいは、精度が下がる可能性が高い。

　しかし、本実施形態によれば、文書データが少ない学習初期においては通常のトピック推定を行い、全トピックに対しての確率計算を実施し、削減効果を確認した後に階層的な潜在トピック推定に切り換えることができる。従って、学習初期における精度低下や処理時間の増加を避けることが可能である。

　また、本発明によれば、テキスト情報を管理する情報管理システムなどにおいて、潜在トピックを扱い、辞書を用いずに特徴的な単語情報を高速に自動抽出することができる。従って、本発明は、効率の良い文書要約や文書検索を可能にする。

　図７は、本発明による単語潜在トピック推定装置の最小構成を示すブロック図である。図８は、本発明による単語潜在トピック推定装置の他の最小構成を示すブロック図である。

　図７に示すように、本発明による単語潜在トピック推定装置は、一つ以上の単語を含む文書を入力する文書データ追加部１１（図１に示す文書データ追加部１０１に相当。）と、単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定する階層設定部１２（図１に示す階層設定部１０２に相当。）と、ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成する上位制約作成部１５（図１に示す上位制約作成部１０５に相当。）と、入力された文書内の各単語が各トピックに割り当てられる確率を推定する際に、上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行う上位制約付きトピック推定部１３（図１に示す上位制約付きトピック推定部１３に相当。）とを備える。

　上記の実施形態には、以下のような単語潜在トピック推定装置も開示されている。

（１）上位制約作成部１５は、ある階層において推定された、文書内の各単語が各トピックに割り当てられる確率を元に、各単語が各トピックへ割り当てられる確率が予め設定された閾値より小さい値を持つ場合に、その確率を０として確率値を補正するとともに、確率が０より大きいトピックの識別子と補正された確率値とを含む上位制約を作成する単語潜在トピック推定装置。

　そのような構成によれば、各文書でのトピック生成がディリクレ分布に基づくトピックの混合であることを考慮しつつ、各単語がどのトピックに割り当てられるかを推定する際にすべてのトピックへの割り当てを考慮しないで済む。そのため、余分なトピックに対する推定処理を行わず階層的にトピックを推定することができるので、効率の良い計算が可能となる。

（２）図８に示すように、上位制約付きトピック推定部１３が階層的なトピック推定を実施した後に、現在のトピック数の初期値をそのまま用いる場合の計算量と、トピック数の初期値を小さくした場合の計算量とを算出し、その差が予め定められた閾値よりも大きい場合に、トピック数の初期値を小さくする初期値更新部２２（図４に示す初期値更新部２０２に相当。）を備えた単語潜在トピック推定装置。

　そのような構成によれば、どの程度計算量が削減できるかを見積もることができ、削減効果Ｅに応じて、通常のトピック推定を行うか、階層的な潜在トピック推定を行うかを切り替えることができる。それにより、文書データが少ない学習初期における精度低下や処理時間の増加を避けることが可能である。

（３）図８に示すように、追加された文書数をカウントし、カウントした文書数が予め定められた閾値より小さい場合には、階層的なトピック推定ではなく、全トピックに対するトピック推定が実施されるようにトピック数の初期値を設定する初期値更新部２２を備えた単語潜在トピック推定装置。

　そのような構成によれば、文書数のみにもとづいて、階層的なトピック推定を実施するか、通常のトピック推定、つまり、全トピックに対するトピック推定を行うかを切り替えることができる。それにより、削減効果を見積もる必要がなく、処理負荷を低減することができる。

　この出願は、２０１２年７月３１日に出願された日本特許出願２０１２－１６９９８６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１１、１０１、５０１　文書データ追加部
　１２、１０２　階層設定部
　１３、１０３　上位制約付きトピック推定部
　１５、１０５　上位制約作成部
　２２、２０２　初期値更新部
　１０４、５０３　データ更新部
　１０６、５０４　トピック分布記憶部
　１０７　上位制約バッファ
　１０８、５０５　単語トピック分布出力部
　２０１　初期値記憶部
　５０２　トピック推定部

Claims

　一つ以上の単語を含む文書を入力する文書データ追加部と、
　単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定する階層設定部と、
　ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成する上位制約作成部と、
　入力された文書内の各単語が各トピックに割り当てられる確率を推定する際に、前記上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行う上位制約付きトピック推定部とを備えた
　ことを特徴とする単語潜在トピック推定装置。
　上位制約作成部は、
　ある階層において推定された、文書内の各単語が各トピックに割り当てられる確率を元に、各単語が各トピックへ割り当てられる確率が予め設定された閾値より小さい値を持つ場合に、その確率を０として確率値を補正するとともに、確率が０より大きいトピックの識別子と補正された確率値とを含む上位制約を作成する
　請求項１に記載の単語潜在トピック推定装置。
　上位制約付きトピック推定部が階層的なトピック推定を実施した後に、現在のトピック数の初期値をそのまま用いる場合の計算量と、トピック数の初期値を小さくした場合の計算量とを算出し、その差が予め定められた閾値よりも大きい場合に、トピック数の初期値を小さくする初期値更新部を備えた
　請求項１または請求項２に記載の単語潜在トピック推定装置。
　追加された文書数をカウントし、カウントした前記文書数が予め定められた閾値より小さい場合には、階層的なトピック推定ではなく、全トピックに対するトピック推定が実施されるようにトピック数の初期値を設定する初期値更新部を備えた
　請求項１または請求項２に記載の単語潜在トピック推定装置。
　一つ以上の単語を含む文書を入力し、
　単語の潜在トピックを階層的に推定するためにトピックの階層構造に応じて、各階層におけるトピック数を設定し、
　ある階層でのトピック推定の結果をもとに文書内の単語について、当該単語に割り当てられる可能性があるトピックの識別子とそのトピックに割り当てられる確率とを示す上位制約を作成し、
　入力された文書内の各単語が各トピックに割り当てられる確率を推定する際に、前記上位制約を参照し、上位階層における親トピックへ割り当てられる確率を重みとして使用し、下位トピックへの推定処理を行う
　ことを特徴とする単語潜在トピック推定方法。
　ある階層において推定された、文書内の各単語が各トピックに割り当てられる確率を元に、各単語が各トピックへ割り当てられる確率が予め設定された閾値より小さい値を持つ場合に、その確率を０として確率値を補正するとともに、確率が０より大きいトピックの識別子と補正された確率値とを含む上位制約を作成する
　請求項５に記載の単語潜在トピック推定方法。
　階層的なトピック推定を実施した後に、現在のトピック数の初期値をそのまま用いる場合の計算量と、トピック数の初期値を小さくした場合の計算量とを算出し、その差が予め定められた閾値よりも大きい場合に、トピック数の初期値を小さくする
　請求項５または請求項６に記載の単語潜在トピック推定方法。
　追加された文書数をカウントし、カウントした前記文書数が予め定められた閾値より小さい場合には、階層的なトピック推定ではなく、全トピックに対するトピック推定が実施されるようにトピック数の初期値を設定する
　請求項５または請求項６に記載の単語潜在トピック推定方法。