WO2005069158A2

WO2005069158A2 - テキスト処理方法／プログラム／プログラム記録媒体／装置

Info

Publication number: WO2005069158A2
Application number: PCT/JP2005/000461
Authority: WO
Inventors: Takafumi Koshinaka
Original assignee: Nec Corp; Takafumi Koshinaka
Priority date: 2004-01-16
Filing date: 2005-01-17
Publication date: 2005-07-28
Also published as: JP4860265B2; US20070162272A1; JPWO2005069158A1

Description

明細書

テキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置

技術分野

[0001] 本発明は、文字列や単語列といったテキスト文書を、意味的にまとまった部分ごとに、すなわち話題ごとに分割するテキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置に関する。

背景技術

[0002] この種のテキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置は、長大かつ多数のテキスト文書を意味内容ごとに、すなわち話題ごとに分割、分類等することによって、人がテキスト文書力所望の情報を得やすいように加工することを目的として用いられている。ここでテキスト文書とは、例えば、磁気ディスク等の記録媒体に記録された任意の文字や単語などの並びである。あるいは、紙に印刷されたり、タブレットに手書きされたりした文字列を光学的文字読取り装置 (OCR)で読み取った結果や、人の発話で生じる音声波形信号を音声認識装置で認識した結果等も、テキスト文書である。さらに一般的には、毎日の天候の記録、店舗における商品の販売記録、コンピュータを操作した際のコマンドの記録、等々、時系列的に生成される記号の並びのほとんどは、テキスト文書の範疇に入る。

[0003] この種のテキスト処理方法 Zプログラム Zプログラム記録媒体 Z装置に関して、大別して 2種類の従来技術が挙げられる。これら 2種類の従来技術について、図面を参照して詳細に説明する。

[0004] 第 1の従来技術は、入力テキストを単語の系列。， 0 , · · · , 0として、系列中の各区

1 2 T

間で単語の出現傾向に関する統計量を算出し、この統計量に急激な変化がみられる位置を話題の変化点として検出する。例えば図 5に示すように、入力テキストの各部分に対して一定幅の窓を設定し、窓内における単語の出現回数を計数し、単語の出現頻度を多項分布の形式で算出する。そして、近接する 2つの窓 (図 5における窓 1および窓 2)の間の差異が所定のしきい値より大きければ、これら 2つの窓の境界で話題の変化が起こったと判定する。 2窓間の差異には、例えば式（1)で表されるような、窓ごとに計算された多項分布間の KLダイパージエンスを用いることができる。

[0005] [数 1] , a;

;=ι

[0006] ここで、 a , b (i=l, · · ·, L)はそれぞれ窓 1、窓 2に対応する単語の出現頻度を表す多項分布で、 a +a +〜+a =1, b +b +•••+b =1を満たす。 Lは入力テキストの語彙数であ

1 2 し 1 2 し

る。

[0007] 上では特に、窓内の統計量を個々の単語の出現頻度から計算する、いわゆるュニグラム（unigram)としている力隣接 2つ組、 3つ組、さらには任意個の組の単語出現頻度 (それぞれバイグラム bigram、トライグラム trigram、 n- gram)を考えてもよい。あるいは、「2001年 11月、情報処理学会論文誌、第 42卷、第 11号、第 2650— 2662頁、別所克人、単語の概念ベクトルを用いたテキストセグメンテーション」（文献 1)に記載されているように、隣接しない単語同士の共起 (すなわち、隣接しない複数の単語が同一の窓内に同時に出現すること）を考慮することにより、入力テキスト中の各単語を実べタトルに置き換えて、このベクトルの移動量の多さで話題の変化点を検出することもできる。

[0008] 第 2の従来技術は、種々の話題に関する統計的モデルをあら力じめ準備しておき、それらのモデルと入力単語列の最適なマッチングを計算することにより、話題の推移を求める。第 2の従来技術の例は、「2000年、プロシーデイング'ォブ'フォース'ユー口ビアン 'カンファレンス ·オン ·リサーチ ·アンド ·アドバンスト ·テクノロジ ·フォ一'ディジタル'ライブラリ、アマラル他、トピック 'ディテクシヨン'イン ·レッド'ドキュメント、 maral et al" 1'opic Detection in Read Documents, Proceedings or 4th European Conference on Research and Advanced Technology for Digital Libraries, 2000)」 (文献 2)に記載されている。この第 2の従来技術の例は、図 6に示すように、「政治」、「スポーッ」、「経済」などといった話題ごとに、話題ごとの統計モデル、つまり話題モデルを作成して準備しておく。話題モデルは、あらかじめ話題ごとに大量収集されたテキスト文書力も求めた単語出現頻度 (ュ-グラム、バイグラム等)である。このように話題モデルを準備し、これら話題間の遷移の起こりやすさ (遷移確率)を適宜決めておけば、入力単語系列ともっともよく整合する話題モデル系列を機械的に算出することができる。仮に、入力単語系列を入力音声波形と置き換えて、話題モデルを音素モデルに置き換えてみれば容易にわ力るように、音声認識に関して多数ある従来技術と同様に、 DPマッチングの要領で、フレーム同期ビームサーチなどの計算法を利用して話題の遷移系列を計算することができる。

[0009] 上で述べた第 2の従来技術の例は、「政治」、「スポーツ」、「経済」など、人間が直感的に理解しやすい話題を設定して、話題の統計モデルを作成しているが、「1998年、プロシーデイング ·ォブ ·インターナショナノレ 'カンフアレンス'オン ·アクースティック ·スピーチ.アンド.シグナル.プロセッシング 98、第 1卷、 333— 336頁、ャムロン他、ヒドウン ·マルコフ ·モデル ·アプローチ ·トウ.テキスト ·セグメンテーション'アンド ·イベント ·トフッ³ rング (Yamron et al., Hidden Markov model approach to text segmentation and event tracking, Proceedings of International Conference on Acoustic, Speech and Signal Processing 98, Vol.1, pp.333- 336, 1998)」（文献 3)に記載があるように、テキスト文書に対して何らかの自動クラスタリング手法を適用して、人間の直感とは無関係な話題モデルを作る例もある。この場合、話題モデルを作るために大量のテキスト文書を話題ごとに分類しておく必要がないので、手間は幾分少なくてすむ。ただし、大規模なテキスト文書集合を用意して、そこから話題モデルを作成するという点は同様である。

発明の開示

発明が解決しょうとする課題

[0010] し力しながら、上述した第 1の従来技術および第 2の従来技術は、それぞれいくつかの問題を有する。

[0011] 第 1の従来技術では、窓間の差異に関するしきい値や、単語出現回数の計数範囲を規定する窓幅と、つたパラメータを最適に調整することが難し、と、う問題がある。あるテキスト文書に対して所望の分割がなされるようにパラメータ値を調整することは、可能な場合もある。しかし、そのために試行錯誤的にパラメータ値を調整する手間が必要である。カロえて、仮にあるテキスト文書に対して所望の動作が実現できたとしても、同じパラメータ値を別のテキスト文書に適用した場合、期待通りに動作しないことが多い。なぜなら、例えば窓幅というパラメータは、大きくすればするほど窓内の単語出現頻度を正確に見積もることができるから、テキストの分割処理も正確に実行できるが、窓幅は入力テキスト中の話題の長さよりも長いと、明らかに話題分割という当初の目的を達せられなくなる。すなわち、入力テキストの性質によって、窓幅の最適値は異なる。窓間の差異に関するしきい値も同様で、入力テキストに応じてその最適値が異なるのが普通である。これは、入力テキスト文書の性質によっては期待通りの動作をしないということであるから、実際応用上深刻な問題となる。

[0012] 第 2の従来技術では、話題のモデルを作成するために、事前に大規模なテキストコ一パスを準備しなければならないという問題がある。し力もそのテキストコ一パスは、話題ごとに分割済みであることが必須であり、しばしば話題のラベル (例えば「政治」、「スポーツ」、「経済」等)が付与されていることが要求される。このようなテキストコーパスを事前に準備するのには、当然時間と費用がかかる。し力も、第 2の従来技術では、話題のモデルを作成するのに使用したテキストコ一パス力入力テキスト中の話題と同じ話題を含んでいること、すなわちドメイン (分野）がー致していることが必要となる。したがって、この従来技術の例の場合、入力テキストのドメインが未知の場合、またはドメインが頻繁に変化し得る場合、所望のテキスト分割結果を得ることは困難である。

[0013] 本発明の目的は、従来よりも低コストかつ短時間にテキスト文書を話題ごとに分割でさるよう〖こすること〖こある。

また、他の目的は、テキスト文書のドメインに依存することなぐ文書の性質によって、文書を話題ごとに分割できるようにすることにある。

課題を解決するための手段

[0014] 上記目的を達成するために、本発明のテキスト処理方法は、テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数（Latent variable)に、各々の単語を観測変数（Observable variable)にそれぞれ対応付けた確率モデルを生成するステツプと、生成された確率モデルを規定するモデルパラメータの初期値を出力するステツプと、出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたモデルパラメータを推定するステップと、推定されたモデルパラメータにもとづ、て、処理対象のテキスト文書を話題ごとに分割するステップとを備えることを特徴とする。

[0015] また、本発明のテキスト処理装置は、テキスト文書を構成する各々の単語がどの話題に属するカゝを隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モデルを生成する仮モデル生成手段と、前記仮モデル生成手段によって生成された確率モデルを規定するモデルパラメータの初期値を出力するモデルパラメータ初期化手段と、前記モデルパラメータ初期化手段力出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたモデルパラメータを推定するモデルパラメータ推定手段と、前記モデルパラメータ推定手段によつて推定されたモデルパラメータにもとづヽて、処理対象のテキスト文書を話題ごとに分割するテキスト分割結果出力手段とを備えることを特徴とする。

発明の効果

[0016] 本発明によれば、処理対象のテキスト文書の性質に応じてパラメータを調整する手間が少なぐ事前に時間と費用を力 4ナて大規模なテキストコ一パスを準備する必要もなぐなおかつ処理対象のテキスト文書がどのような内容を含んでいる力、すなわちドメインに依存せずに、文書を精度よく話題ごとに分割することが可能となる。

図面の簡単な説明

[0017] [図 1]図 1は、本発明の一実施例に係るテキスト処理装置の構成を示すブロック図である。

[図 2]図 2は、本発明の一実施例に係るテキスト処理装置の動作を説明するためのフローチャートである。

[図 3]図 3は、隠れマルコフモデルを説明するための概念図である。

[図 4]図 4は、本発明の他の実施例に係るテキスト処理装置の構成を示すブロック図である。

[図 5]図 5は、第 1の従来技術を説明するための概念図である。

[図 6]図 6は、第 2の従来技術を説明するための概念図である。

発明を実施するための最良の形態

[0018] 第 1の実施例次に、本発明の第 1の実施例について、図面を参照して詳細に説明する。

[0019] 本実施例のテキスト処理装置は、図 1に示すように、テキスト文書を入力するテキスト入力部 101と、入力されたテキスト文書を格納するテキスト記憶部 102と、テキスト文書の話題 (意味的にまとまった部分)の推移を記述するモデルであって、テキスト文書の各々の単語がどの話題に属する力を隠れ変数 (観測不可能な変数）に、テキスト文書の各々の単語を観測変数 (観測可能な変数)にそれぞれ対応付けた、単一もしくは複数のモデルを生成する仮モデル生成部 103と、仮モデル生成部 103が生成した各モデルを規定する各モデルパラメータの値を初期化するモデルパラメータ初期化部 104と、モデルパラメータ初期化部 104によって初期化されたモデルとテキスト記憶部 102に格納されたテキスト文書を使って、そのモデルのモデルパラメータを推定するモデルパラメータ推定部 105と、モデルパラメータ推定部 105が行ったパラメータ推定の結果を格納する推定結果記憶部 106と、推定結果記憶部 106に複数のモデルのパラメータ推定結果が格納されて、る場合にその中から 1つのモデルのパラメータ推定結果を選択するモデル選択部 107と、モデル選択部 107が選択したモデルのパラメ一タ推定結果力入力テキスト文書の分割を行って結果を出力するテキスト分割結果出力部 108を備える。各々の部は、それぞれ計算機上に記憶されたプログラムによつて、またはこのプログラムが記録された記録媒体を読み取ることによって動作させることにより実現可能である。

[0020] ここでテキスト文書とは、上述したように、例えば、磁気ディスク等の記録媒体に記録された任意の文字や単語などの並びである。あるいは、紙に印刷されたりタブレットに手書きされたりした文字列を光学的文字読取り装置 (OCR)で読み取った結果や、人の発話で生じる音声波形信号を音声認識装置で認識した結果等も、テキスト文書である。さらに一般的には、毎日の天候の記録、店舗における商品の販売記録、コンピュータを操作した際のコマンドの記録、等々、時系列的に生成される記号の並びのほとんどは、テキスト文書の範疇に入る。

[0021] 次に、本実施例のテキスト処理装置の動作を、図 2を参照して詳細に説明する。

[0022] テキスト入力部 101から入力されたテキスト文書は、テキスト記憶部 102に格納される

(ステップ 201)。ここでテキスト文書は、多数、例えば T個の単語が一列に並んだ単語系列とし、以下では 0 , 0 , · · · , 0 と表すことにする。単語間にスペースのない日本

1 2 T

語の場合は、テキスト文書に対して公知の形態素解析法を適用することにより、単語に分割すればよい。また、この単語列から、テキスト文書の話題とは直接関係のない助詞や助動詞などをあら力じめ取り除いて、名詞や動詞などの重要語のみの単語列としてもよい。これには、公知の形態素解析法によって各単語の品詞を求め、名詞、動詞、形容詞などを重要語として取り出すようにすればよい。さらには、入力テキスト文書が、音声信号を音声認識して得られた音声認識結果であり、かつ音声信号に一定時間以上継続する無音 (発話休止)区間が存在する場合は、テキスト文書の対応する位置にくポーズ〉のような単語を含めてよい。同様に、入力テキスト文書が、紙文書を OCRにかけることによって得られた文字認識結果である場合には、く改行〉のような単語をテキスト文書中の対応する位置に含めてょ、。

[0023] なお、通常の意味での単語系列 (ュ-グラム， unigram)の代わりに、隣接する単語の 2つ組 (バイグラム， bigram)、 3つ組 (トライグラム， trigram)、さらに一般的な n個組 (n-gram)を一種の単語と考えて、その系列をテキスト記憶部 102に格納してもよい。例えば 2つ組での単語列の格納形式は (0 , 0 ), (0 , 0 ), · · · , (0 , 0 )となり、系列の長

1 2 2 3 T-1 T

さは T-1である。

[0024] 仮モデル生成部 103は、入力されたテキスト文書を生成したと推測される単一もしくは複数の確率モデルを生成する。ここで確率モデルまたはモデルとは、一般にはグラフィカルモデルと呼ばれる、複数のノードとそれらを結ぶアークとで表現されるモデル全般を指す。グラフィカルモデルには、マルコフモデルや-ユーラルネットワーク、ベイジアンネットなどが含まれる。本実施例においては、ノードがテキスト中に含まれる話題に対応する。また、モデルから生成されて観測される観測変数には、テキスト文書の構成要素であるところの単語が対応する。

[0025] 本実施例では、モデルを隠れマルコフモデル (Hidden Markov Modeほたは HMM)とし、なおかつその構造は一方向型 (left-to-right型)で、出力は上述の入力単語列に含まれる単語の系列 (離散値)とする。 Left-to-right型 HMMでは、ノードの数を指定すればモデルの構造が一意に決定される。このモデルの概念図を図 3に示す。 HMMの場合特に、ノードのことを状態と呼ぶのが一般的である。図 3の場合、ノード数、すなわち状態数は 4である。

[0026] 仮モデル生成部 103は、入力テキスト文書にいくつの話題が含まれているかに応じて、モデルの状態数を決定し、その状態数に応じてモデルすなわち HMMを生成する。例えば、入力テキスト文書に 4個の話題が含まれているとわ力つていれば、仮モデル生成部 103は 4状態の HMMを 1つだけ生成する。また、入力テキスト文書に含まれる話題の数が未知の場合は、十分小さい状態数 N の HMMから、十分大きい状態数

min

N の HMMまでのすベての状態数の HMMを、各々 1つずつ生成する（ステップ 202、 max

206、 207)。ここでモデルを生成するとは、モデルを規定するパラメータの値を記憶するための記憶領域を記憶媒体上に確保する、という意味である。モデルを規定するパラメータにつ、ては後述する。

[0027] 入力テキスト文書に含まれる各々の話題と入力テキスト文書の各々の単語との対応関係を隠れ変数とする。隠れ変数は単語毎に設定される。話題の数が Nの場合には、隠れ変数は各々の単語がどの話題に属するかによつて、 1から Nまでの値をとり得る。この隠れ変数がモデルの状態を表す。

[0028] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成したすべてのモデルについて、モデルを規定するパラメータの値を初期化する (ステップ 203)。モデルを規定するパラメータは、上述の left-to-right型離散 HMMの場合、状態遷移確率 a , a , · ··, a 、および記号出力確率 b , b , · ··, b とする。ここに Nは状態数である。また

2 N l,j 2,j N,j

j=l, 2, · ··, Lで、 Lは入力テキスト文書に含まれる単語の種類数、すなわち語彙数である。

状態遷移確率 aは、状態 iから状態 i+1に遷移する確率であり、 0< a≤lでなければならない。よって、状態 iから再度状態 iに戻る確率は 1-aとなる。また、記号出力確率 b ，は、ある一度の状態遷移の後に、状態 iに至ったとして、インデクス jで指定される単語が出力される確率である。すべての状態 i=l, 2, · ··, Nにおいて、記号出力確率の総和 b +b +〜+b は 1でなければならない。

i,l i,2

[0029] モデルパラメータ初期化部 104は、状態数 Nのモデルに対して、例えば上述の各パラメータの値を a=N/T、 b =1/Lのように設定する。この初期値の与え方に決まったやり方はなぐ上述の確率の条件さえ満たしていれば、いろいろな方法があり得る。ここで述べた方法はほんの一例である。

モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化された単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。， 0 , · · · ,

1 2

0を生成する確率、すなわち尤度がなるべく高くなるように、モデルパラメータを推定

T

する (ステップ 204)。これには公知の最尤推定法、特に、反復計算を基本とする期待値最大化法 (EM(expectation- maxiamization)法)を用いることができる。すなわち、例えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、古井他訳、音声認識の基礎 (下)、第 129— 134頁」（文献 4)に記載されているように、その時点で得られているパラメータ値 a、 bを用いて、式（2)のような漸ィ匕式によって前向き変数 α

i i,j t

(0および後向き変数 j8 G)¾ =l, 2, · · ·, T、 i=l, 2, · · ·, Νにわたつて計算し、さらに式（

t

3)に従ってパラメータ値を再計算する。再計算されたパラメータ値を用いて再度式（ 2)および式 (3)を計算する。以下、収束するまで十分な回数これをくり返す。ただしここに δ はクロネッカーのデルタ、すなわち、 i=jなら 1、そうでなければ 0をとる。

[0031] [数 2]

"1 (0 = Ko, ,， ^at (0 ( ， (2) β_τ (ΐ) = α_Νδ_{Ν>ί }} β₍ (i {i

+ 1).

[0032] [数 3]

[0033] モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定を行うには、尤度の上昇量をみればよい。すなわち、上述の反復計算によって尤度の上昇がみられなくなれば、その時点で反復計算を終了すればよい。ここで、尤度は α (1)

1 β (1)として得られる。モデルパラメータ推定部 105は、反復計算を終了した時点で、モデルパラメータ a、 bと、前向きおよび後向き変数 α (0

t 、 β (0を、モデル (ΗΜΜ)の i i,j t

状態数と対にして、推定結果記憶部 106に格納する (ステップ 205)。

[0034] モデル選択部 107は、モデルパラメータ推定部 105で状態数ごとに得られたパラメ一タ推定結果を推定結果記憶部 106から受け取り、各モデルの確力しさを計算し、もつとも確からしいモデルを 1つ選択する（ステップ 208)。モデルの確からしさは、公知の赤池情報量基準 (AIC(Akaike's Information Criterion))や最小記述長基準

(MDL(Minimum Description Length)基準)などに基づいて計算することができる。赤池情報量基準、最小記述長基準については、例えば「1994年 12月、岩波書店、岩波講座応用数学 [対象 11]、韓太舜他著、情報と符号化の数理、第 249— 275頁」（文献 5 )に記載がある。例えば AICによれば、パラメータ推定収束後の対数尤度 log( a (1)

1 β (1》とモデルパラメータ数 NLの差が最大となるモデルが選択される。また、 MDLに

1

よれば、近似的に、対数尤度を符号反転した- log( a (1) β (1》と、モデルパラメータ数と入力テキスト文書の単語系列長の平方根との積 NL X log(T)/2の和が最小となるモデルが選択される。なお、 AICでも MDLでも、モデルパラメータ数 NLに関わる項に、経験的に決まる定数係数をかけて、選択されるモデルを意図的に調整する操作が一般的に行われて、るが、本実施例でもそのような操作は行って差し支えな、。

[0035] テキスト分割結果出力部 108は、モデル選択部 107によって選択された状態数 Nのモデルに対応するモデルパラメータ推定結果を推定結果記憶部 106から受け取り、この推定結果における入力テキスト文書に対する話題ごとの分割結果を算出する (ステップ 209)。

状態数 Nのモデルによる分割は、入力テキスト文書。， 0 , · · · , 0を N個の区間に分割

1 2 T

する。分割結果は、まず式 (4)に従って、確率的に計算される。式 (4)は、入力テキスト文書中の単語 0が第潘目の話題区間に割り当てられる確率を示す。最終的な分割

t

結果は、 P( z =i I 0 , 0 , · · · , 0 )が最大となる i =1, 2, · · ·, Tにわたつて求めること

t 1 2 T

で得られる。

[0036] [数 4] 。 ₂，" ',。r ) = 一）

ゾ =1

[0037] なお、ここではモデルパラメータ推定部 105は、最尤推定法を用いて、すなわち式（ 3)を用いて、パラメータを逐次更新したが、最尤推定法の他に、最大事後確率推定 (MAP(Maximum A Posteriori)推定)を用いることもできる。最大事後確率推定については、例えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、古井他訳、音声認識の基礎 (下)、第 166— 169頁」（文献 6)に記載がある。最大事後確率推定の場合、例えばモデルパラメータの事前分布に共役事前分布を用いると、 aの事前分布はベータ分布 log p( a U , κ ) = ( κ — 1) X log ( κ -1) X log (a)

i 0 1 0 (ト a) +

i 1 i

+ constゝ bの分布はディレクレ分布 log p( b ， b ， …， b \ λ , λ ， …， λ ) = ( λ

ij i，l i,2 i,L 1 2 L 1

— l) X log (b ) + ( λ — l) X log (b ) + · · · + ( λ — l) X log (b ) + constと表される。ただ

i，l 2 i,2 し i，し

し/ c ， /c ， λ ，え，…， λ および constは定数である。このとき、最尤推定の式（3)

0 1 1 2 し

に相当する最大事後確率推定のパラメータ更新式は、式（5)のように表される。

[0038] [数 5]

[0039] なお、ここまでで述べた本実施例にぉ、ては、記号出力確率 bが状態と対応付けられている。すなわち、単語力 ¾MMの各状態 (ノード)力も発生するとするモデルを用いている。しかし、単語が状態遷移 (アーク)から発生するとするモデルを用いることも可能である。例えば入力テキストが紙文書の OCR結果であったり、音声信号の音声認識結果であったりする場合、単語が状態遷移カゝら発生するようなモデルは便利である。なぜなら、音声信号における発話休止や、紙文書における改行などを意味する単語、すなわちくポーズ〉やく改行〉などが含まれたテキスト文書の場合は、状態 iから i+1 への状態遷移力発生する単語が必ずくポーズ〉やく改行〉であるように、記号出力確率を固定しておけば、本実施例によって入力テキスト文書力検出される話題境界には、必ずくポーズ〉やく改行〉が当てはまるようにできる。また、仮に入力テキスト文書力 SOCR結果や音声認識結果ではなくとも、単語が状態遷移力も発生するモデルで、状態 iから i+1への状態遷移から、「では」、「次に」、「さて」などといった、話題の切り替わりと関連の深い単語が発生するように記号出力確率を設定しておけば、検出される話題境界には「では」、「次に」、「さて」などの単語が現れやすくできる。

[0040] 第 2の実施例

次に、本発明の第 2の実施例について、図面を参照して詳細に説明する。

[0041] 本実施例は、第 1の実施例と同じぐ図 1のブロック図で示される。すなわち、本実施例は、テキスト文書を入力するテキスト入力部 101と、入力されたテキスト文書を格納するテキスト記憶部 102と、テキスト文書の話題の推移を記述するモデルであって、テキスト文書の各々の単語がどの話題に属するかを隠れ変数に、テキスト文書の各々の単語を観測変数にそれぞれ対応付けた、単一もしくは複数のモデルを生成する仮モデル生成部 103と、仮モデル生成部 103が生成した各モデルを規定する各モデルノラメータの値を初期化するモデルパラメータ初期化部 104と、モデルパラメータ初期化部 104によって初期化されたモデルとテキスト記憶部 102に格納されたテキスト文書を使ってモデルパラメータを推定するモデルパラメータ推定部 105と、モデルパラメ一タ推定部 105が行ったパラメータ推定の結果を格納する推定結果記憶部 106と、推定結果記憶部 106に複数のモデルのパラメータ推定結果が格納されている場合にその中から 1つのモデルのパラメータ推定結果を選択するモデル選択部 107と、モデル選択部 107が選択したモデルのノメータ推定結果力入力テキスト文書の分割を行つて結果を出力するテキスト分割結果出力部 108を備える。各々の部は、それぞれ計算機上に記憶されたプログラムによって、またはこのプログラムが記録された記録媒体を読み取ることによって動作させることにより実現可能である。

[0042] 次に、本実施例の動作について、順を追って説明する。

[0043] テキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103は、それぞれ先に述べた第 1の実施例におけるテキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103と同一の動作をする。テキスト記憶部 102が入力テキスト文書を、単語の列、あるいは隣接する単語の 2つ組、 3つ組、もしくは一般の n個組の列として格納することや、入力テキスト文書に単語間スペースのない日本語の場合、公知の形態素解析法を適用することで、単語列として扱うことができることなども、第 1の実施例と同様である。

[0044] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成したすべてのモデルについて、モデルを規定するパラメータの値を初期化する。モデルは、第 1の実施例と同様、 left- to- right型離散 HMMである力さらにタイドミタスチヤ (tied- mixture)HMM であるとする。すなわち、状態 iからの記号出力が、 M個の記号出力確率 b , b , · ··,

l,j 2,j b の線形結合 c b + c b +〜c b であり、 bの値は全状態にわたって共通とする

M,j i,l 1,J i,2 2,j ι, ,j i,J

。 Mは一般には状態数 Nよりも小さい、任意の自然数である。タイドミタスチヤ HMMについては、例えば「1995年 11月、 NTTアドバンステクノロジ株式会社、ラビナー他著、古井他訳、音声認識の基礎 (下)、第 280— 281頁」（文献 7)に記載がある。タイドミタスチヤ (tied-mixture)HMMのモデルパラメータは、状態遷移確率 a.、全状態で共通の記号出力確率 b 、および記号出力確率に対する重み係数 cである。ここで、 i=l,2,〜

J,k i,J

,Νで、 Νは状態数である。』·=1,2,· ··,Μで、 Μは話題の種類数。また k=l, 2, · ··, Lで、 L は入力テキスト文書に含まれる単語の種類数、すなわち語彙数である。状態遷移確率 aは、第 1の実施例と同様、状態 iから状態 i+1に遷移する確率である。記号出力確率 b は、話題 jにおいて、インデクス kで指定される単語が出力される確率である。ま j,k

た重み係数 cは、状態 iにおいて話衝が発生する確率である。第 1の実施例と同様、

i,J

記号出力確率の総和 b +b +〜+b は 1でなければならない。また、重み係数の総和

J，l J,2 j,L

c +c + '+c も 1でなければならない。

ι,Ι i,2 i,L

[0045] モデルパラメータ初期化部 104は、状態数 Nのモデルに対して、例えば上述の各パラメータの値を a=N/T、 b =1/L、 c =1/Mのように設定する。この初期値の与え方に決

1 j, 1,J

まったやり方はなく、上述の確率の条件さえ満たしていれば、いろいろな方法があり得る。ここで述べた方法はほんの一例である。

[0046] モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化された単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。， 0 ,…，

1 2

T

する。これには、第 1の実施例と同様、期待値最大化法 (EM法)を用いることができる。すなわち、その時点で得られているパラメータ値 a、b 、cを用いて、式（6)のような

i j,k i,j

漸ィ匕式によって前向き変数 α

t (0および後向き変数 j8

t (0を t=l , 2， · · · , T、 i=l , 2, · · · ,

Nにわたつて計算し、さらに式 (7)に従ってパラメータ値を再計算する。再計算されたパラメータ値を用いて再度式 (6)および式 (7)を計算する。以下、収束するまで十分な回数これをくり返す。ただしここ〖こ δ はクロネッカーのデルタ、すなわち、 i=jなら 1、 ij

そうでなければ 0をとる。

[0047] [数 6]

[0048] [数 7]

∑ (な' (0(1 - ^bj,o, Λ₊ι (0 + a_t (り。, ₊₁ゾ ,。, β_Μ {i + 1)}

∑∑ (1― ", ,fb ,_0t β (!·) + a_t (i c_MJ.b_f,_0i β₁₊ (i + 1)}

ゾ' =1 ί=1 モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定を行うには、尤度の上昇量をみればよい。すなわち、上述の反復計算によって尤度の上昇がみられなくなれば、その時点で反復計算を終了すればよい。ここに、尤度は α (1)

1 β (1)として得られる。モデルパラメータ推定部 105は、反復計算を終了した時点で、モデルパラメータ a、 b 、 cと、前向きおよび後向き変数 α (0、 β (0を、モデル (ΗΜΜ) の状態数と対にして、推定結果記憶部 106に格納する。

[0050] モデル選択部 107は、第 1の実施例と同様、モデルパラメータ推定部 105で状態数ごとに得られたパラメータ推定結果を推定結果記憶部 106から受け取り、各モデルの確からしさを計算し、もっとも確からしいモデルを 1つ選択する。モデルの確からしさは、公知の赤池情報量基準 (AIC)や最小記述長基準 (MDL基準)などに基づ、て計算することができる。

また、第 1の実施例と同様、 AICでも MDLでも、モデルパラメータ数 NLに関わる項に、経験的に決まる定数係数をカゝけて、選択されるモデルを意図的に調整する操作も行つて差し支えない。

[0051] テキスト分割結果出力部 108は、第 1の実施例におけるテキスト分割結果出力部 108 と同様、モデル選択部 107によって選択された状態数すなわち話題数 Nのモデルに対応するモデルパラメータ推定結果を推定結果記憶部 106から受け取り、この推定結果における入力テキスト文書に対する話題ごとの分割結果を算出する。最終的な分割結果は、式 (4)に従って、 P( z =i I )が最大となる iを t=l, 2, · ··, Tにわたって求めることで得られる。

[0052] なお、モデルパラメータ推定部 105は、第 1の実施例と同様、最尤推定法の代わりに最大事後確率推定 (MAP推定)法によってモデルパラメータを推定してもよい。

[0053] 第 3の実施例

次に、本発明の第 3の実施例について、図面を参照して説明する。

[0054] 本実施例は、第 1および第 2の実施例の例と同じぐ図 1のブロック図で示される。すなわち、本実施例は、テキスト文書を入力するテキスト入力部 101と、入力されたテキスト文書を格納するテキスト記憶部 102と、テキスト文書の話題の推移を記述するモデルであって、テキスト文書の各々の単語がどの話題に属するかを隠れ変数に、テキスト文書の各々の単語を観測変数にそれぞれ対応付けた、単一もしくは複数のモデルを生成する仮モデル生成部 103と、仮モデル生成部 103が生成した各モデルを規定する各モデルパラメータの値を初期化するモデルパラメータ初期化部 104と、モデルパラメータ初期化部 104によって初期化されたモデルとテキスト記憶部 102に格納されたテキスト文書を使ってモデルパラメータを推定するモデルパラメータ推定部 105と、モデルパラメータ推定部 105が行ったパラメータ推定の結果を格納する推定結果記憶部 106と、推定結果記憶部 106に複数のモデルのパラメータ推定結果が格納されて V、る場合にその中から 1つのモデルのパラメータ推定結果を選択するモデル選択部 107と、モデル選択部 107が選択したモデルのパラメータ推定結果力入力テキスト文書の分割を行って結果を出力するテキスト分割結果出力部 108を備える。各々の部は、それぞれ計算機上に記憶されたプログラムによって、またはこのプログラムが記録された記録媒体を読み取ることによって動作させることにより実現可能である。

[0055] 次に、本実施例の動作について、順を追って説明する。

[0056] テキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103は、それぞれ先に述べた第 1および第 2の実施例におけるテキスト入力部 101、テキスト記憶部 102および仮モデル生成部 103と同一の動作をする。テキスト記憶部 102が入力テキスト文書を、単語の列、あるいは隣接する単語の 2つ組、 3つ組、もしくは一般の n個組の列として格納することや、入力テキスト文書に単語間スペースのない日本語の場合、公知の形態素解析法を適用することで、単語列として扱うことができることなども、本発明の第 1および第 2の実施例と同様である。

[0057] モデルパラメータ初期化部 104は、仮モデル生成部 103が生成した単一または複数のモデル各々について、モデルパラメータ、すなわち状態遷移確率 aおよび記号出力確率 bを確率変数として、ある種の分布を仮定し、それらの分布を規定するパラメ一タの値を初期化する。以下では、モデルパラメータの分布を規定するパラメータを、元のパラメータに対してメタパラメータと呼ぶことにする。つまり、モデルパラメータ初期化部 104はメタパラメータの初期化を行う。本実施例では、状態遷移確率 aおよび記号出力確率 bの分布として、それぞれベータ分布 log p( a

i U 0，i , κ ) = (κ -1)

1 0，i

Xlog (1- a) + (κ — l)Xlog (a) + const、ディレクレ分布 log p( b , b , ···, b | λ

i l，i i i，l i,2 i,L i，l

, λ , ···, λ ) = (λ -l)Xlog(b ) + (λ -l)Xlog(b )+ ··· + (λ -l)Xlog(b ) i,2 i,L i，l i，l i,2 i,2 i,L i,L

+ constを使用する。メタパラメータは K , κ , λ である。ここで、 ί=1,2,···,Ν、 j=l,2,

0，i l，i i,j

•••，Lである。モデルパラメータ初期化部 104は、例えば K =κ , κ =κ , λ =λ ,†

0,i 0 l,i 1 ij 0 だし = ε (1-Ν/Τ) +1, κ =ε Ν/Τ+1, λ = ε /L+l、というようにメタパラメータを初期化する。 εとしては、 0.01などのように適当な正数を当てる。なお、初期値の与え方に決まったやり方はなく、 V、ろ、ろな方法があり得る。

この初期化方法はほんの一例である。

[0058] モデルパラメータ推定部 105は、モデルパラメータ初期化部 104によって初期化された単一もしくは複数のモデルを順次受け取り、モデルが入力テキスト文書。， 0 , · · · ,

1 2

0を生成する確率、すなわち尤度がなるべく高くなるように、メタパラメータを推定する

Τ

。これにはベイズ推定法力導出される公知の変分ベイズ法を用いることができる。すなわち、例えば「2002年 7月、電子情報通信学会誌、第 85卷、第 7号、第 504— 509 頁、上田、ベイズ学習〔III〕一変分ベイズ学習の基礎一」（文献 8)に記載があるように、その時点で得られているメタパラメータ値 κ , κ , λ を用いて、式 (8)のような漸

0,i l,i i,J

化式によって前向き変数 α

t (0および後向き変数 j8

t (0を t=l, 2, · ··, T、 i=l, 2, · ··, N にわたつて計算し、さらに式 (9)に従ってメタパラメータ値を再計算する。再計算されたパラメータ値を用いて、再度式 (8)および式 (9)を計算する。以下、収束するまで十分な回数これをくり返す。ただしここに、 δ はクロネッカーのデルタ、すなわち、 i=j なら 1、そうでなければ 0をとる。また、 ¥(x)=d( log r(x) )/dxで、 Γ(χ)はガンマ関数である。

[0059] [数 8]

ただし

- ΟΆ,.

A【' = )-

( L \

B_ik ^( _ik ) - W ∑Λ,

=i ノ

[0060] [数 9] r-i Ύ-\ r-1

+ ₊₁,; , ^_Μ ^ ^ +∑¾¾,Μ + ^, ' Λ'Α ) + Σ¾ ,。,· '·'（⁹) ただし

― Α (補 a_t (i)exp{A_0)i + J?

∑∑"ズ p + - _{+1 +1}ひ +

=1 J={0,1}

) exp ( + B_{i+ 0i+i} )β_Μ (i + 1)―

∑ ∑"_t C )exp ^_θΜ )Λ₊₁ひ + s)

[0061] モデルパラメータ推定部 105におけるパラメータ推定の反復計算の収束判定は、近似的尤度の上昇量をみればよい。すなわち、上述の反復計算によって近似的尤度の上昇がみられなくなれば、その時点で反復計算を終了すればよい。ここで、近似的尤度とは、前向き変数と後向き変数の積 α (1) β (1)として得られる。モデルパラメ

1 1 一タ推定部 105は、反復計算を終了した時点で、メタパラメータ κ , κ , λ と、前向き

0,i l,i i,J

および後向き変数 α

t (0、 j8

t (0を、モデル (HMM)の状態数 Nと対にして、推定結果記憶部 106に格納する。

[0062] なお、モデルパラメータ推定部 105におけるメタパラメータのベイズ推定法としては、上述の変分ベイズ法以外にも、公知のマルコフ連鎖モンテカルロ法やラプラス近似法など、任意の方法を使うことができる。本実施例は、変分ベイズ法に限定されるものではない。

[0063] モデル選択部 107は、モデルパラメータ推定部 105で状態数ごとに得られたパラメ一タ推定結果を推定結果記憶部 106から受け取り、各モデルの確力しさを計算し、もつとも確からしいモデルを 1つ選択する。モデルの確力もしさは、例えば上述した変分ベイズ法の枠組みでは、公知のベイズ的基準 (ベイズ事後確率)を使用することができる。ベイズ的基準は式（10)で計算可能である。式（10)において P(N)は状態数すなわち話題数 Nの事前確率で、あら力じめ何らかの方法で定めておく。取り立てて理由がなければ、 P(N)は一定値でよい。逆に、特定の状態数が起こりやすい、あるいは起こりにく、と、うことが事前にわ力つて、る場合は、特定の状態数に対応する P(N)を大きぐあるいは小さく設定する。また、式（10)に現れるメタパラメータ κ , κ

0,i

, X と、前向きおよび後向き変数 a (0、 β (0としては、状態数 Nに対応するものを l,i i,j t t

推定結果記憶部 106から取得して用いる。

[数 10]

[0065] テキスト分割結果出力部 108は、上述の第 1および第 2の実施例におけるテキスト分割結果出力部 108と同様、モデル選択部 107によって選択された状態数すなわち話題数 Nのモデルに対応するモデルパラメータ推定結果を推定結果記憶部 106から受け取り、この推定結果における入力テキスト文書に対する話題ごとの分割結果を算出する。最終的な分割結果は、式 (4)に従って、 P( z =i | o , o , · · · , 0 )が最大となる i

t 1 2 T

を t=l , 2, · · · , Tにわたつて求めることで得られる。

[0066] なお、本実施例でも、上述した第 2の実施例と同様、通常の left-to-right型 ΗΜΜの代わりに、タイドミタスチヤ (tied- mixture)型の left- to- right型 HMMを生成、初期化、パラメータ推定するように、仮モデル生成部 103、モデルパラメータ初期化部 104、モデルパラメータ推定部 105をそれぞれ構成することが可能である。

[0067] 第 4の実施例

次に、本発明の第 4の実施例について、図面を参照して詳細に説明する。

[0068] 図 4を参照すると、本発明の第 4の実施例は、テキスト処理プログラム 605を記録した記録媒体 601を備える。この記録媒体 601は CD-ROM、磁気ディスク、半導体メモリその他の記録媒体であってよぐネットワークを介して流通する場合も含む。テキスト処理プログラム 605は記録媒体 601からデータ処理装置 (コンピュータ） 602に読み込まれ、データ処理装置 602の動作を制御する。

本実施例としては、データ処理装置 602はテキスト処理プログラム 605の制御により、第 1、第 2、もしくは第 3の実施例におけるテキスト入力部 101、仮モデル生成部 103、モデルパラメータ初期化部 104、モデルパラメータ推定部 105、モデル選択部 107、テキスト分割結果出力部 108による処理と同一の処理を実行して、第 1、第 2、もしくは第 3の実施例におけるテキスト記憶部 102、推定結果記憶部 106とそれぞれ同等の情報を有するテキスト記録媒体 603、モデルパラメータ推定結果記録媒体 604を参照すること〖こよって、入力されたテキスト文書に対する話題ごとの分割結果を出力する。

Claims

請求の範囲

[1] テキスト文書を構成する各々の単語がどの話題に属する力を隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、

生成された確率モデルを規定するモデルパラメータの初期値を出力するステップと出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたモデルパラメータを推定するステップと、

推定されたモデルパラメータにもとづいて、処理対象のテキスト文書を話題ごとに分割するステップと

を備えることを特徴とするテキスト処理方法。

[2] 請求項 1に記載のテキスト処理方法にぉ、て、

確率モデルを生成する前記ステップは、複数の確率モデルを生成するステップを備え、

モデルパラメータの初期値を出力する前記ステップは、複数の確率モデルのそれぞれのモデルパラメータの初期値を出力するステップを備え、

モデルパラメータを推定する前記ステップは、複数の確率モデルのそれぞれのモデルパラメータを推定するステップを備え、

さらに、推定された複数のモデルパラメータにもとづいて、複数の確率モデルの中から、テキスト文書を分割する前記ステップで処理を行う確率モデルを選択するステップを備えることを特徴とするテキスト処理方法。

[3] 請求項 1に記載のテキスト処理方法にぉ、て、

確率モデルは、隠れマルコフモデルであることを特徴とするテキスト処理方法。

[4] 請求項 3に記載のテキスト処理方法において、

隠れマルコフモデルは、一方向型の構造を有することを特徴とするテキスト処理方法。

[5] 請求項 3に記載のテキスト処理方法において、

隠れマルコフモデルは、離散出力型であることを特徴とするテキスト処理方法。

[6] 請求項 1に記載のテキスト処理方法にぉ、て、モデルパラメータを推定する前記ステップは、最尤推定および最大事後確率推定の!、ずれかを用いてモデルパラメータを推定するステップを備えることを特徴とするテキスト処理方法。

[7] 請求項 1に記載のテキスト処理方法にぉ、て、

モデルパラメータの初期値を出力する前記ステップは、モデルパラメータを確率変数とする分布を仮定し、この分布を規定するメタパラメータの初期値を出力するステツプを備え、

モデルパラメータを推定する前記ステップは、出力されたメタパラメータの初期値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたメタパラメータを推定するステップを備えることを特徴とするテキスト処理方法。

[8] 請求項 7に記載のテキスト処理方法において、

メタパラメータを推定する前記ステップは、ベイズ推定を用いてメタパラメータを推定するステップを備えることを特徴とするテキスト処理方法。

[9] 請求項 2に記載のテキスト処理方法において、

確率モデルを選択する前記ステップは、赤池情報量基準、最小記述長基準およびベイズ事後確率の、ずれかを用いて確率モデルを選択するステップを備えることを特徴とするテキスト処理方法。

[10] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、

をコンピュータに実行させるためのプログラム。

[11] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モデルを生成するステップと、生成された確率モデルを規定するモデルパラメータの初期値を出力するステップと出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづいて、このテキスト文書に応じたモデルパラメータを推定するステップと、

をコンピュータに実行させるためのプログラムを記録した記録媒体。

[12] テキスト文書を構成する各々の単語がどの話題に属するかを隠れ変数に、各々の単語を観測変数にそれぞれ対応付けた確率モデルを生成する仮モデル生成手段と前記仮モデル生成手段によって生成された確率モデルを規定するモデルパラメ一タの初期値を出力するモデルパラメータ初期化手段と、

前記モデルパラメータ初期化手段力出力されたモデルパラメータの初期値と、処理対象のテキスト文書とにもとづヽて、このテキスト文書に応じたモデルパラメータを推定するモデルパラメータ推定手段と、

前記モデルパラメータ推定手段によって推定されたモデルパラメータにもとづいて、処理対象のテキスト文書を話題ごとに分割するテキスト分割結果出力手段とを備えることを特徴とするテキスト処理装置。

[13] 請求項 12に記載のテキスト処理装置において、

前記仮モデル生成手段は、複数の確率モデルを生成する手段を備え、前記モデルパラメータ初期化手段は、複数の確率モデルのそれぞれのモデルパラメータの初期値を出力する手段を備え、

前記モデルパラメータ推定手段は、複数の確率モデルのそれぞれのモデルパラメータを推定する手段を備え、

さらに、前記モデルパラメータ推定手段によって推定された複数のモデルパラメ一タにもとづいて、複数の確率モデルから 1つの確率モデルを選択し、前記テキスト分割結果出力手段に対して、当該確率モデルにつ!/、て処理を行わせるモデル選択手段を備えることを特徴とするテキスト処理装置。

[14] 請求項 12に記載のテキスト処理装置において、

確率モデルは、隠れマルコフモデルであることを特徴とするテキスト処理装置。

[15] 請求項 14に記載のテキスト処理装置において、

隠れマルコフモデルは、一方向型の構造を有することを特徴とするテキスト処理装置。

[16] 請求項 14に記載のテキスト処理装置において、

隠れマルコフモデルは、離散出力型であることを特徴とするテキスト処理装置。

[17] 請求項 12に記載のテキスト処理装置において、

前記モデルパラメータ推定手段は、最尤推定および最大事後確率推定の!/、ずれかを用いてモデルパラメータを推定する手段を備えることを特徴とするテキスト処理装置。

[18] 請求項 12に記載のテキスト処理装置において、

前記モデルパラメータ初期化手段は、モデルパラメータを確率変数とする分布を仮定し、この分布を規定するメタパラメータの初期値を出力する手段を備え、

前記モデルパラメータ推定手段は、出力されたメタパラメータの初期値と、処理対象のテキスト文書とにもとづ、て、このテキスト文書に応じたメタパラメータを推定する手段を備えることを特徴とするテキスト処理装置。

[19] 請求項 18に記載のテキスト処理装置において、

前記モデルパラメータ推定手段は、ベイズ推定を用いてメタパラメータを推定する手段を備えることを特徴とするテキスト処理装置。

[20] 請求項 13に記載のテキスト処理装置にお!/、て、

前記モデル選択手段は、赤池情報量基準、最小記述長基準およびベイズ事後確率の、ずれかを用いて確率モデルを選択する手段を備えることを特徴とするテキスト処理装置。