JPWO2012147428A1

JPWO2012147428A1 - テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム

Info

Publication number: JPWO2012147428A1
Application number: JP2013511972A
Authority: JP
Inventors: 聡中澤; 剛巨河合; 穣岡嶋
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-04-27
Filing date: 2012-03-15
Publication date: 2014-07-28
Anticipated expiration: 2032-03-15
Also published as: US20140052728A1; JP5534280B2; WO2012147428A1

Abstract

テキストクラスタリング装置１００は、クラスタリング対象のテキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部４０と、テキスト集合を構成するテキストを、グループ分け実行部４０によるグループ分けの結果に基づいて、クラス分類する、クラス分類部６０と、を備えている。

Description

本発明は、テキストクラスタリング装置、テキストクラスタリング方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特には、クラスタリングの対象とするテキスト集合に含まれる共通の出来事を抽出し、抽出した出来事に応じてテキストをクラスタリングする方式に関する。

近年、Twitterなどの比較的短いテキスト（短文）で構成されたマイクロブログが普及している。こうしたマイクロブログ等の中には、通常、多数の発言者が、ある特定のニュース、イベント、事件等に関して、各人の意見、感想、及び関連事実等を記述したテキストが、多く含まれている。

ここで、本明細書では、上述のニュース、イベント、事件等をまとめて「出来事」と称する。「出来事」とは、特定の誰か（個人、グループ、または組織)が何かを行ったという事柄、何かが起きた又は発生したという事柄等を指す。

また、マイクロブログ等の中に存在している多数のテキストの中には、記述の対象となった出来事が共通しているテキストが含まれている場合がある。このような場合は、読者の可読性を高めるという観点から、出来事毎にテキストをまとめて、他のテキストと区別することが要望されている。

このように出来事毎にテキストをまとめることができれば、多数のマクロブログ等の中から、読者が興味を抱いたある特定の出来事に関して発言されているテキストのみを特定することが容易となる。

また、インターネット上のマイクロブログ及びブログ等のＣＧＭ（Consumer Generated Media）では、従来からのマスコミではニュースとして取り扱われにくい出来事、未だニュースとして取り上げられていない出来事が、口コミ的に広がって話題となることがある。従って、そうしたインターネット上の多数のテキストを、そこに書かれている共通の出来事毎にまとめることができれば、新たに話題となっている出来事を発見することが容易となる。

一方、従来から、複数のテキストが与えられたときに、各テキストに書かれている記述の類似性に基づいて、これら複数のテキストを、類似するテキスト群毎に１つの集合(クラスタ)にまとめ上げる「テキストクラスタリング技術」が、存在する。非特許文献１は、こうしたテキストクラスタリング技術の一例を開示している。

従って、多数のマイクロブログ等に対して、非特許文献１に開示されているテキストクラスタリング技術を適用すれば、マイクロブログ等を出来事毎に区別することが実現できると考えられる。結果、読者は、興味のないクラスタに属するマイクロブログ等を読み飛ばすことができ、便利である。

菊池匡晃、岡本昌之、山崎智弘著「階層型クラスタリングを用いた時系列テキスト集合からの話題推移抽出」データ工学ワークショップ(DEWS2008)、Ｂ３−３、２００８年

しかしながら、非特許文献１に開示されたテキストクラスタリング技術では、マイクロブログのような、多数の異なる発言者によって書かれた比較的短いテキストの集合を処理対象とした場合に、共通の出来事に関して記述されたテキストが１つのクラスタにまとまらないことがあり、この点が問題となっている。

これは、マイクロブログ等は、従来からのＷｅｂ文書及びブログ等と異なり、短い文で構成されており、ある出来事に関して感想等を述べているテキストがあっても、そのテキスト中に、元の出来事に関して十分な記述がなされていることは稀であるためである。つまり、マイクロブログ等では、多くの場合、各テキストの発言者は、元の出来事を表現する記述の中では、おのおのが重要だと判断した点のみを短く取りあげるに過ぎず、あとの記述では、各発言者の意見又は感想などを主に取りあげるからである。

以下に、具体例を挙げて、上記問題について説明する。例えば、元の出来事として、次のような報道発表（出来事例１）があったものとする。
［出来事例１］
「野外ライブイベント何某が、今年、北海道で開催されることが決定。」
「さらにライブイベント何某の第２段出演者が発表された。」
「第２段出演者として、ロックバンド○○、ポップスグループＸＸ、△△等、計３９組が北海道にやってくる。」

上記の出来事例１に関しての発言として、以下に示すように、発言者Ａによるテキスト例１と、発言者Ｂによるテキスト例２があったものとする。
発言者Ａテキスト例１：「やべえ、ライブイベント何某が北海道で開催決定！」
発言者Ｂテキスト例２：「ロックバンド○○が北海道にやってくるなんて、嬉しい。バイトして旅費を貯めなければ。」

出来事例１の全ての情報を知っている人間であれば、このテキスト例１とテキスト例２とを読んで、ともに共通の出来事例１について書かれたテキストであると判断することができる。

しかしながら、非特許文献１に開示されたテキストクラスタリング技術では、テキスト間の記述内容の一致度及び類似度に基づいたクラスタリングが実行され、出来事例１の知識に基づいたクラスタリングが行なわれることはない。よって、テキスト例１とテキスト例２とに共通に出現する表現は「北海道」のみと判断される。また、各テキストにおいて、それぞれの発言者の感想及び意見は別々の表現で記述されているため、非特許文献１に開示されたテキストクラスタリング技術では、両テキストの一致している割合は低いと判断される。従って、非特許文献１に開示されたテキストクラスタリング技術では、テキスト例１とテキスト例２とを同じクラスタにクラスタリングすることは困難となる。

以上のように、マイクロブログ等の短いテキスト間では、元となった出来事が共通していても、当該出来事についての記述は必ずしも一致していない。更に、各テキスト中に含まれる、分量の多い感想及び意見に関する記述は、テキストクラスタリングのノイズとなりやすい。従って、上述したように、非特許文献１に開示されたテキストクラスタリング技術では、マイクロブログ等の短いテキストを対象とした場合に、適切にクラスタリングを行なうことは困難である。

本発明の目的は、上記問題を解消し、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行し得る、テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するため、本発明の一側面におけるテキストクラスタリング装置は、テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
を備えていることを特徴とする。

また、上記目的を達成するため、本発明の一側面におけるテキストクラスタリング方法は、テキスト集合を対象としたクラスタリングを行なうための方法であって、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。

以上のように、本発明によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。

図１は、本発明の実施の形態におけるテキストクラスタリング装置の構成を示すブロック図である。図２は、本実施の形態においてテキストクラスタリング処理の対象となるテキスト集合の一例を示す図である。図３は、図２に示した行動・事態記述を判定対象とした親和性の判定結果の一例を示す図である。図４は、図２に示した入力テキスト集合を対象としたクラス分類の最終結果の一例を示す図である。図５は、本発明の実施の形態におけるテキストクラスタリング装置の動作を示すフロー図である。図６は、本発明の実施の形態におけるテキストクラスタリング装置を実現するコンピュータの一例を示すブロック図である。

（実施の形態）
以下、本発明の実施の形態における、テキストクラスタリング装置、テキストクラスタリング方法、及びプログラムについて、図１〜図５を参照しながら説明する。

［装置構成］
最初に、図１を用いて、本実施の形態におけるテキストクラスタリング装置１００の構成について説明する。図１は、本発明の実施の形態におけるテキストクラスタリング装置の構成を示すブロック図である。

図１に示すテキストクラスタリング装置１００は、テキスト集合を対象としてクラスタリングを行なう装置である。図１に示すように、テキストクラスタリング装置１００は、主に、グループ分け実行部４０と、クラス分類部６０とを備えている。

グループ分け実行部４０は、まず、テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定する。そして、グループ分け実行部４０は、特定した組合せを用いて、設定された用言及び主語を含む記述それぞれを、出来事毎のグループに分ける。

クラス分類部６０は、テキスト集合を構成するテキストを、グループ分け実行部４０によるグループ分けの結果に基づいて、クラス分類する。得られたクラス分類の結果が、テキスト集合のクラスタリング結果となる。

このように、本実施の形態におけるテキストクラスタリング装置１００では、テキスト集合から、ある出来事について特定の関係にある記述の組み合わせが特定され、各組み合わせを用いてクラスタリングが行われている。しかも、組み合わせに用いられる記述は、設定された用言及び主語を含むものであり、ノイズとなる記述は除外されている。このため、本実施の形態におけるテキストクラスタリング装置１００によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。

ここで、図１に加えて、図２〜４を用いて、本実施の形態におけるテキストクラスタリング装置１００の構成を更に具体的に説明する。図１に示すに、テキストクラスタリング装置１００は、グループ分け実行部４０及びクラス分類部６０に加えて、テキスト集合受付部１０と、記述抽出部２０と、行動・事態表現辞書３０と、行動・事態表現親和性知識ベース５０と、クラスタ出力部７０とを備えている。

テキスト集合受付部１０は、クラスタリング対象とするテキスト集合を入力として受け付ける。テキスト集合受付部１０は、テキストクラスタリング処理の対象となるテキスト集合を、入力装置８０から受け付け、これを記述抽出部２０に入力する。入力装置８０の具体例としては、キーボード等の入力機器、ネットワークを介して接続されたコンピュータ、テキスト集合が記録されている記録媒体の読取装置等が挙げられる。入力装置８０は、テキスト集合を入力可能な装置であれば良い。なお、図１においては、入力装置８０がコンピュータである場合が例示されている。

また、入力が受け付けられたテキスト集合（以下「入力テキスト集合」と表記する。）を構成する各テキストに、テキストの発信日時及び作成日時といった時間情報が付与されている場合、テキスト集合受付部１０は、入力テキスト集合を、各テキストに付与されている時間情報を基準にして、複数の部分集合に分割するのが好ましい。この場合は、後段のクラスタリング処理の精度の更なる向上が期待できる。

このとき、テキスト集合受付部１０は、各部分集合に属するテキストの時間情報が近接するよう、元の入力テキスト集合を分割する。これは、共通する出来事に関して書かれているテキストの発信日時及び作成日時は、近接しやすいという理由によるものである。分割した後は、各部分集合が独立の入力テキスト集合であるかのように、以後の処理が実行される。

なお、本実施の形態においては、入力テキスト集合が１つの場合と、複数の部分集合の場合とで、クラスタリング処理自体は変わらないため、以後は、１つの入力テキスト集合に対する説明を行う。

記述抽出部２０は、入力テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する。また、本実施の形態では、記述抽出部２０は、各記述を元のテキストに対応付けた形式で抽出する。

ここで、本実施の形態でいう「記述」には、任意のテキストのうち、個人、グループ、組織、動物等の主体が何かを行った(又は行う)という記述（以下「行動記述」と表記する。）と、事件、事象、災害、イベント等の事柄が起きた（又は発生した）という記述（以下「事態記述」と表記する。）と、が含まれる。

例えば、「内閣が総辞職した」、「アイドルグループＡがコンサートを行った」等が行動記述の一例として挙げられる。また、「マグニチュード７の地震が発生した」、「公定歩合が引き下げられた」、「バンドＢの解散コンサート開催が発表された」等が事態記述の一例として挙げられる。一方、「水は０度で凍結する」のような物事の性質を表す表現、「この緊急事態に内閣総辞職などすべきでない」、「○○店のカレー、がっかりでした」、「映画ＸＸは今年最高の面白さでした」のような意見又は感想を述べる表現は、行動記述及び事態記述のいずれにも含まれない。なお、以降の説明では、「記述」は「行動・事態記述」と表記することとする。

本実施の形態において、どのような表現を「行動・事態記述」とするかの判定基準は、クラスタリングを実施する際の、用途及び目的等に応じて異なる。具体的には、記述抽出部２０は、入力テキスト集合の各テキストに「行動・事態記述」が含まれているかどうかを判定するため、まず、各テキストに対し、公知の自然言語処理技術を用いて、形態素解析及び構文解析処理を行い、テキスト中の用言の部分を検出する。

次いで、記述抽出部２０は、行動・事態表現辞書３０を参照し、検出した用言を用いて、必要なら周囲のテキストの解析結果を用いて、行動・事態記述と見なす用言であるかどうか判定する。なお、後述するように、行動・事態表現辞書３０には、行動・事態記述と見なされる用言が、事前に登録されている。

判定の結果、検出した用言が、行動・事態記述と見なす用言であり、更に、行動記述に該当するならば、記述抽出部２０は、その行動を行う主体を、用言とペアにして抽出する。また、検出した用言が、行動・事態記述と見なす用言であり、更に、事態記述に該当するならば、記述抽出部２０は、その事態を表す主体を、用言とペアにして抽出する。言い換えると、検出した用言が、行動・事態記述と見なす用言である場合は、記述抽出部２０は、行動・事態記述と見なす用言の主語を抽出する。また、抽出される主語は、１単語に限定されず、複数の単語で構成されたフレーズであっても良いし、それ自体が文であっても良い。

更に、記述抽出部２０は、テキストクラスタリング装置１００の用途及び目的に応じて、行動・事態記述と見なす用言の主語に加え、目的語、修飾語をあわせて抽出しても良い。また、記述抽出部２０は、用言が否定形及び肯定形のいずれであるか、時制、モダリティ（伝聞、推定等）等を、公知の自然言語処理技術、例えば構文解析技術及び意味解析術を用いて解析し、解析結果に対応するテキスト中の記述を更に抽出することもできる。

また、入力テキスト集合に含まれるテキストの中には、主語、目的語、又は両方が省略されたテキストも存在する。記述抽出部２０は、そうしたテキストに対しては、例えば、公知技術のゼロ代名詞補完技術を用いて、主語、目的語、又は両方を推定することができる。

加えて、記述抽出部２０は、行動・事態記述のうち、各テキストの発言者または作者が主語となるものは、行動・事態記述として抽出しない。例えば「私は昨晩カレーを食べた」というテキストは、「私は」が主語となる行動記述であるが、発言者を主語とするため、記述抽出部２０は、このテキストを抽出対象としない。更に、記述抽出部２０は、「昨日学校に遅刻した」のように、明示的な主語が省略されている場合であっても、同様に主語が発言者（又は作者)であると推定される表現を、行動・事態記述として抽出しない。

これは、記述抽出部２０における処理は、複数の入力テキストに共通して書かれている出来事に着目し、その出来事毎にテキストのクラスタリングを行うことを目的としているためである。

例えば３つのテキスト、「内閣総辞職した」、「内閣が解散したんだって」、「今日、内閣が解散したニュースが流れた」は、全て主語「内閣」が「解散した」又は「総辞職した」という共通の出来事を取り扱っている。

一方、発言者が異なる３つのテキスト、「カレー食べた」、「カツカレーを食べたけど」、「カレーを食べたよ」それぞれから、単純に行動・事態記述を抽出した場合、「私がカレーを食べた」となる。これらは、共通の出来事と見えるが、実態は、異なる３人の発言者がそれぞれ「カレーを食べた」という３つの異なる出来事が発生しているのであり、そこに共通の出来事はない。

従って、実際は異なる各出来事が共通の出来事と判断されないようにするため、記述抽出部２０は、行動・事態記述のうち、各テキストの発言者または作者が主語となるものは、抽出対象から除外する。

図２は、本実施の形態においてテキストクラスタリング処理の対象となるテキスト集合の一例を示す図である。また、図２には、テキスト集合受付部１０が入力を受け付けた入力テキスト集合に加え、各テキストに含まれる主語及び用言、各テキストから抽出された行動・事態記述も示されている。

具体的には、図２の例に示された各テキストは、ある一定期間に発言されたマイクロブログであり、「北海道」を含んでいる。更に、図２の例では、表形式によって、テキスト集合が示されており、行毎に、入力テキスト集合に属する各テキストが示されている。

また、図２において、１列目の「テキストＩＤ」は、各テキストを区別するための便宜上のＩＤであり、入力テキスト集合の各テキストに必ずしも付与されている必要はない。例えば、テキスト集合受付部１０が、管理のために、各テキストにテキストＩＤを付与することができる。

２列目の「入力テキスト」は、各テキストの内容を示している。３列目の「行動・事態記述の主語−用言ペア」は、各テキストに含まれている主語と用言との組合せを示している。なお、そのテキストに、行動・事態記述が存在しない場合は、＜なし＞と設定される。

４列目の「行動・事態記述」は、各テキストから抽出された行動・事態記述を示している。図２の例では、行動・事態記述の主語及び用言に加え、目的語及びそれらに係る修飾語もまとめて抽出されている。なお、５列目の「グループ」については、後述のグループ分け実行部４０の説明の際に説明する。

また、本実施の形態では、記述抽出部２０は、１つのテキストに複数の行動・事態記述が含まれている場合は、このテキストから、複数の行動・事態記述を抽出することもできる。例えば、記述抽出部２０は、図２においてテキストＩＤ＝１０のテキストからは、２つの行動・事態記述、「ライブイベント何某が出演者を発表した」と、「ロックバンド○○やポップスグループＸＸも出る」とを抽出している。

行動・事態表現辞書３０は、テキストクラスタリング装置１００の用途及び目的に応じて、行動・事態記述と見なされる用言を登録している。記述抽出部２０は、上述したように、行動・事態表現辞書３０を参照して、入力テキスト集合の各テキストに行動・事態記述と見なされる記述が含まれているかどうかを判定する。

また、行動・事態表現辞書３０において、各辞書レコードには、例えば、「辞書事例１：解散サ変動詞」のように、用言に該当する単語に加えて、その品詞の種類、及び活用形等、公知の自然言語処理技術の辞書に記述されている文法情報も登録されているのが良い。

本実施の形態では、用言が行動・事態記述であると見なすための条件として、単純に、当該用言が行動・事態表現辞書３０に登録されていることに加えて、その用言の活用形、モダリティ、周辺テキスト等に関する条件が加えられていても良い。こうした条件が加えられている場合には、記述抽出部２０は、入力テキスト集合の各テキストから、行動・事態記述と見なされる記述を判定及び抽出する際に、当該条件も合わせて確認する。

グループ分け実行部４０は、上述したように、テキストから抽出された行動・事態記述を、出来事毎のグループにグループ分けする。このとき、本実施の形態では、グループ分けによって、「出来事記述の仮説」が生成される。グループ分け実行部４０は、「出来事記述仮説生成部」と言うこともできる。

ここで、まず「出来事記述」について説明する。本明細書において、「出来事記述」とは、上述の「背景技術」の欄にて定義した「出来事」の内容を説明する記述を指す。例えば、ある強盗事件が出来事として発生したとき、その強盗事件のニュースとして流れた下記の記述が、その強盗事件の出来事記述となる。

ある強盗事件の出来事記述：
「渋谷センター街のＡ宝石店にて強盗事件が発生」
「犯人は、レジにあった現金を黒い鞄に入れて店から出た」
「店から出た後、犯人は白いワゴン車で原宿方面へ逃走中」

また、別の出来事記述の例としては、上述の「発明が解決しようとする課題」の欄で述べた出来事例１を説明する以下の３つの記述が、そのまま出来事例１の出来事記述として挙げられる。

出来事例１の出来事記述：
「野外ライブイベント何某が、今年、北海道で開催されることが決定」
「さらにライブイベント何某の第２段出演者が発表された」
「第２段出演者として、ロックバンド○○、ポップスグループＸＸ、△△等、計３９組が北海道にやってくる」

更に、あるＴＶ雑誌Ｂが、人気ゲームとのタイアップ企画で、地方版毎にその人気ゲームのヒロインを１人ずつ表紙に登場させるというニュース（出来事例２)がインターネット上で報道されたとする。この場合、出来事記述の他の例として、以下の出来事例２を説明する出来事記述が挙げられる。

出来事例２の出来事記述：
「今度のＴＶ雑誌Ｂでは、北海道版、関西版、信州版の表紙をそれぞれ御当地版に変更」
「各御当地版では、人気ゲームＬＰのヒロインがそれぞれ１人ずつ表紙を飾ることに」
「出演キャラクターは、北海道版がＬちゃん、関西版がＮちゃん、信州版がＰちゃんの予定」

続いて、以下に、「出来事記述の仮説」について説明する。ある共通の出来事に対して、複数の発言者及びテキストの作者が、それぞれ、その出来事に関して述べているテキストを作成することがある。テキストクラスタリング装置１００は、多数のテキストの中から、そうした共通の出来事に関するテキストを出来事毎に抽出し、まとめあげ、クラスタとすることを目的としている。

仮に、複数の発言者及び作者が共通の話題として取りあげる出来事の出来事記述を得ることができれば、その出来事記述に類似する記述、又はその出来事記述と共通する記述を、入力テキスト集合から選別してまとめ上げることで、上記の目的は達成できる。しかし、一般にはクラスタリング処理の前に、クラスタリング対象とする入力テキスト集合の中から、共通の話題になっている出来事の出来事記述を得ることは、極めて困難である。

一方で、入力テキスト集合を構成しているテキストの中には、その元となった出来事記述の一部と内容的に一致する記述が含まれていることが期待できる。例えば、図２に示したテキストＩＤ＝１のテキストは、「ライブイベント何某が北海道で開催決定」という行動・事態記述を含んでいるが、この行動・事態記述は、出来事例１の出来事記述の最初の記述と内容的にほぼ一致する。

つまり、記述抽出部２０によって抽出された行動・事態記述が、出来事記述の一部と一致する可能性は高く、結果、グループ分け実行部４０が作成した各グループに属する行動・事態記述群が、対応する出来事の「出来事記述」全体であると仮定できる。このようにして仮定された出来事記述が、「出来事記述の仮説」であり、上述したように、グループ分けによって「出来事記述の仮説」が生成される。

また、本実施の形態では、図１に示すように、グループ分け実行部４０は、入力テキスト集合から抽出した行動・事態記述から「出来事記述の仮説」を生成するために、親和性判定部４１と、組合せ生成部４２とを備えている。

親和性判定部４１は、２つの行動・事態記述の組合せ毎に、予め設定された規則に基づいて、２つの行動・事態記述の間の親和性を判定し、判定の結果、親和性が設定基準を満たす場合に、当該組合せを、設定要件を満たす組合せとして特定する。また、組合せ生成部４２は、各グループにおいて、当該グループに属する行動・事態記述が、互いに矛盾せず、且つ、共通の出来事に関するように（即ち、共通の出来事を説明する一連の記述となるように）、特定した組合せをまとめることによって、グループ分けを実行する。以下に、親和性判定部４１及び組合せ生成部４２それぞれについて具体的に説明する。まず、親和性判定部４１について説明する。

例えば、図２の例では、２５個のテキスト（テキストＩＤ＝１〜２５）のうち、「行動・事態記述」の列が空でない１６個のテキストから、行動・事態記述が抽出されている。よって、親和性判定部４１は、この１６個の行動・事態記述を対象として、テキストＩＤ＝１の行動・事態記述とテキストＩＤが２の行動・事態記述との親和性、といった任意の２つの行動・事態記述間における親和性を判定する。

なお、テキストＩＤ＝１０の場合のように、１つのテキストから複数の行動・事態記述が抽出されている場合があるが、このような場合は、親和性判定部４１は、同じテキストから抽出された行動・事態記述間は全て「親和性が高い」と判定する。

また、親和性判定部４１は、１つのテキストから抽出されている複数の行動・事態記述と、他のテキストから抽出された行動・事態記述との親和性を判定する場合は、この複数の行動・事態記述それぞれ毎に親和性を判定する。つまり、親和性判定部４１は、例えば、テキストＩＤ＝１の行動・事態記述と、テキストＩＤ＝１０の１番目の行動・事態記述との親和性を判定し、更に、テキストＩＤ＝１の行動・事態記述と、テキストＩＤ＝１０の２番目の行動・事態記述との親和性を判定する。

また、上述したように、組合せ生成部４２が、相互に矛盾せず、且つ、両方が１つの出来事について説明する一連の記述となり得るように、グループ分けを行うことから、親和性判定部４１は、以下に述べる親和性判定規則を、親和性の判定の基準として用いて、判定を行う。

更に、本実施の形態において、親和性判定部４１は、親和性が「高い」又は「ない」といった２値判定を行なうことができる。また、親和性判定部４１は、親和性判定規則に基づき、２つの行動・事態記述間の親和度を表す得点を付与し、閾値を超える親和度を持つ２つの行動・事態記述を最終的に「親和性が高い」と判定することもできる。なお、どちらの手法によって判定を行なうのか、親和度の計算をする場合の親和性判定の閾値をどのような値に設定するのかは、テキストクラスタリング装置１００目的及び用途等に応じて事前に定めておくのが良い。

＜親和性判定規則＞
以下に親和性判定規則の例として、規則１〜規則６を挙げる。

（規則１．主語の一致）
２つの行動・事態記述の主語が相互に一致する記述は、親和性が高いと判定される。主語に複数の主体が含まれている場合（例えば「ＡさんとＢさん」など）は、主語の一部が、他方の主語の一部と一致することを条件に、親和性が高いと判定される。２値ではなく、親和度が計算される場合は、主語の部分一致は、全体一致よりも、低い親和度が与えられる。

また、主語が一致するだけでなく、用言、修飾語、及び目的語の一致を調べ、いずれかにおいて一致する場合は、親和度が加点されてもよい。例えば、相互に異なる用言が１つの出来事を説明する一連の記述中に共起して出現する度合いが、事前に求められているのであれば、共起して出現する度合いが高い用言（例えば「記者会見」と「発表」等)に対しては、親和度が加点される。逆に、１つの出来事を説明する記述中に共起して出現する度合いが低い用言に対しては、親和度が減点される。

なお、本実施の形態では、どのような用言の組合せによれば、１つの出来事を説明する一連の記述中に共起して出現する度合いが高くなるかが、後述する行動・事態表現親和性知識ベース５０に記録されている。

（規則２．主語と目的語との一致）
一般の言語表現において、同じ主体Ａの行動・事態を記述する上で、能動的にＡを主語として表現する手法と、受動的にＡを目的語として表現する手法とがある。よって、規則１と同様に、規則２では、主語と目的語とが一致した場合も、２つの行動・事態記述は、親和性が高い、と判定される。また、規則２でも、規則１と同様に、親和度等が計算されても良い。

（規則３．主語省略または不明の場合の用言一致）
２つの行動・事態記述のうち、どちらか一方又は両方の主語が、省略等の理由により、不明である場合は、用言の一致に応じて、「親和性が高い」かどうかが判定される。また、用言が一致するだけでなく、修飾語、及び目的語の一致を調べて、いずれかにおいて一致する場合は、親和度が加点されてもよい。

（規則４．異なる主語間で用言一致する場合の排他）
２つの行動・事態記述の用言が一致するが、主語が一致しない場合は、同じ事を行なう別の主体が存在するため、親和性がない、と判定される。

（規則５．主語、目的語の一致条件の拡張）
入力テキスト集合中のテキストにおいて、「ＡとＢとＣ」、「Ａ、Ｂ、Ｃなど３グループが参加」、「ＡやＢ、Ｃ」、「ＡもＢ」など、並列に列挙されている主体や事物は、その入力テキスト集合のクラスタリング時に限り、同一視され、そして、他の規則における一致が判定される。

例えば、「Ａが開会を宣言」、「Ｂが開会を宣言」のような２つの行動・事態記述は、規則４により、排他関係にあり、親和性はない、と判断される。しかし、「ＡとＢが協力するとは…」のようなテキストが、入力テキスト集合中に存在するならば、規則５により、ＡとＢとは同一視される。これにより、「Ａが開会を宣言」と「Ｂが開会を宣言」との２つの行動・事態記述は、主語及び用言共に一致するため、規則１により、「親和性が高い」と判断される。

（規則６．修飾語中の時間条件、場所条件、手段条件の一致）
２つの行動・事態記述に共に修飾語が含まれている場合に、各修飾語から、公知の情報抽出技術を用いて、時間条件（例：「３月１５日に」）、場所条件（例：「北海道で」）、手段条件（例：「代理店側に交渉して」）が抽出されるとする。そして、各修飾語に、時間条件、場所条件、手段条件が含まれている場合は、これらの一致点に基づいて、親和性が高いかどうかが判定され、又は親和度の加点が行なわれる。

なお、上述した親和性判定規則は、本実施の形態で使用可能な親和性判定規則の一例に過ぎず、必ずしも上述した全ての親和性判定規則が適用される必要はない。本実施の形態では、テキストクラスタリング装置１００の用途及び目的等に応じて、上述した親和性判定規則の一部又は全部が組み合わされて使用される。

また、同じ主体及び事物を指す複数の表現が存在する問題（表記揺れの問題）、表現バリエーションの問題に対応するため、親和性判定部４１は、親和性の判定前又は判定時に、公知の同義語処理技術及び類義語処理技術を適用して、行動・事態記述の表現の正規化を行っても良い。

ここで、図３を用いて、親和性判定規則に基づく親和性の判定結果について説明する。図３は、図２に示した行動・事態記述を判定対象とした親和性の判定結果の一例を示す図である。図３においては、図２に示した行動・事態記述の各組合せに対して、上述の親和性判定規則が適用されている。

具体的には、図３において、４番目の列「親和性の高い行動・事態記述のテキストＩＤ」には、各行の行動・事態記述と親和性の高い行動・事態記述の抽出元のテキストＩＤが格納されている。また、列「親和性の高い行動・事態記述のテキストＩＤ」において、「＜なし＞」とある欄は、その行の行動・事態記述と親和性の高い行動・事態記述が存在しなかったことを示している。列「親和性の理由」には、各判定の理由（親和性が高くなる理由）が格納されている。

また、組合せ生成部４２は、親和性判定部４１による親和性の判定の結果を受け取り、親和性が高いと判定された行動・事態記述を推移的に繋げて、出来事記述仮説となるグループを生成する。組合せ生成部４２は、生成した出来事記述仮説のグループを、そのまま、グループ分け実行部４０の出力として出力する。

ここで、各行の行動・事態記述を抽出元のテキストＩＤによって表記するとする。図３の例では、親和性判定結果から、ＩＤ＝１は、ＩＤ＝９、ＩＤ＝１０、及びＩＤ＝２０と繋がり、更に、ＩＤ＝１０は、ＩＤ＝２及びＩＤ＝２１と繋がり、順に繋がっていく。図３の例では、最終的には、ＩＤ＝１、２、９、１０、２０、２１で構成された出来事記述仮説のグループ１と、ＩＤ＝４、５、６、１１で構成された出来事記述仮説のグループ２とが生成される。

一方、ＩＤ＝８、１２、１４、１５、１６、２４は、それぞれ単独の行動・事態記述のみで構成され、他の行動・事態記述とグループを構成しない。単独の行動・事態記述は、そのまま１つずつ取り扱われても良いし、これらによって、「その他」等の単独の行動・事態記述をまとめる特別のグループが生成されても良い。

行動・事態表現親和性知識ベース５０は、グループ分け実行部４０（又は親和性判定部４１）が、２つの行動・事態記述の間の親和性を判定する際に利用する情報を記録している。具体的には、情報としては、予め条件毎に設定された親和度の加点の大きさ、親和性判定規則、等が挙げられる。

クラス分類部６０は、本実施の形態では、記述含有テキスト分類部６１と、残余テキスト分類部６２とを備えている。このうち、記述含有テキスト分類部６１は、グループ分け実行部４０によって生成されたグループ毎にクラスを設定する。そして、記述含有テキスト分類部６１は、入力テキスト集合に含まれているテキストのうち、行動・事態記述の抽出元のテキストを、この行動・事態記述が属するグループに設定されたクラスにクラス分類する。

具体的には、記述含有テキスト分類部６１は、グループ分け実行部４０が生成するグループそれぞれを、１つのクラスと見なすことによって、クラス分類を行なうことができる。この場合、記述含有テキスト分類部６１は、各グループに属する行動・事態記述を特定し、特定された行動・事態記述の抽出元のテキストを、各グループに１対1で対応するクラスにクラス分類する。

図２及び図３に示した入力テキスト集合を用いて具体例を説明する。まず、グループ分け実行部４０が、図３に示す、出来事記述仮説のグループ１と、グループ２と、その他のグループとの３つのグループを生成しているとする。この場合、記述含有テキスト分類部６１は、各グループにそれぞれ対応する３つのクラスを生成し、抽出元の各テキストを、各クラスに分類する。

図２に示したテキストＩＤ＝１のテキストを例にとると、このテキストは、「ライブイベント何某が北海道で開催決定」という行動・事態記述を含み、この行動・事態記述は、出来事記述仮説となるグループ１に属する。よって、記述含有テキスト分類部６１は、テキストＩＤ＝１のテキストをグループ１に対応するクラス（クラスタＩＤ＝１：図４参照）に分類する。なお、各入力テキストの分類結果は、図４において、表の６列目「クラスタＩＤ」に示されている。

また、残余テキスト分類部６２は、記述抽出部２０によって行動・事態記述が抽出されなかったテキストを特定し、特定した各テキストを、記述含有テキスト分類部６１が設定したいずれかのクラス、又は新たなクラスにクラス分類する。残余テキスト分類部６２も、記述含有テキスト分類部６１と同様に、グループ分け実行部４０が生成したグループそれぞれを、１つのクラスと見なすことによって、クラス分類を行うことができる。

図２及び図３に示した入力テキスト集合を用いて具体例を説明する。図２の例において、３番目の列「行動・事態記述の主語−用言ペア」の欄が「＜なし＞」となっている行のテキストが、記述抽出部２０によって行動・事態記述を含んでいると判定されなかったテキストに相当する。以下、こうした行動・事態記述を含んでいないテキストを「残余テキスト」と表記する。

まず、残余テキスト分類部６２は、各残余テキストを対象として、記述含有テキスト分類部６１によって既にクラス分類されているテキストとの類似度を計算する。そして、残余テキスト分類部６２は、一番類似度の高いテキストが分類されているクラスに、対象となった残余テキストをクラス分類する。

例えば、図２に示したテキストＩＤ＝１９のテキストは、グループ１に対応するクラス（クラスタＩＤ＝１）に分類された、テキストＩＤ＝１０、２０、２１と一致する表現を含んでいる。このため、残余テキスト分類部６２は、テキストＩＤ＝１９のテキストを、グループ１に対応するクラス（クラスタＩＤ＝１）に分類する。

また、残余テキストと既にクラス分類されているテキストとの類似度判定は、例えば、既存の自然言語処理技術であるクラスタリング技術等で使用されているテキスト間の類似度判定技術を用いることによって、行なうことができる。具体的にどのような類似度判定を用いるかは、本実施の形態におけるテキストクラスタリング装置１００の用途及び目的に応じて、事前に定めておくのが好ましい。

更に、上記では、残余テキスト分類部６２は、対象となった残余テキストを、一番類似度の高いテキストが分類されているクラスに分類しているが、本実施の形態は、これに限定されない。また、残余テキスト分類部６２は、対象となった残余テキストと既にクラス分類されているテキストとの類似度が、どのクラスにおいても、事前に設定された閾値よりも低い場合は、その残余テキストだけで、新たな１つのクラスを生成することもできる。

図４を用いて、残余テキストのクラス分類について説明する。図４は、図２に示した入力テキスト集合を対象としたクラス分類の最終結果の一例を示す図である。上述したように、行動・事態記述を含む各テキストは、記述含有テキスト分類部６１によって既にクラス分類されているため、残余テキスト分類部６２による処理により、入力テキスト集合を構成する全テキストがクラス分類されたこととなる。図４において、最終のクラス分類の結果は、右端の列「クラスタＩＤ」に格納されている。

なお、本明細書においては、記述含有テキスト分類部６１と残余テキスト分類部６２との処理として、「クラス分類」という表現が用いられている。これは、グループ分け実行部４０によってグループが生成された後は、入力テキスト集合のテキストは、各グループに分類されることになるため、既存の自然言語処理技術における用語の使い方に則り、「クラス分類」を用いるのが適切であるためである。

また、本実施の形態では、出来事記述仮説となるグループは予め規定されている訳ではなく、入力テキスト集合に応じて動的に生成される。このため、本実施の形態で実行される処理は「クラスタリング」に該当する。

クラスタ出力部７０は、クラス分類結果を入力テキスト集合のクラスタリング結果として出力する。本実施の形態では、クラスタ出力部７０は、残余テキスト分類部６２が出力するクラス分類の最終結果（図５参照）を受け取り、それを入力テキスト集合に対するクラスタリング結果として出力する。

［装置動作］
次に、本発明の実施の形態におけるテキストクラスタリング装置１００の動作について、図５を用いて説明する。図５は、本発明の実施の形態におけるテキストクラスタリング装置の動作を示すフロー図である。以下の説明においては、適宜図１〜図４を参酌する。また、本実施の形態では、テキストクラスタリング装置１００を動作させることによって、テキストクラスタリング方法が実施される。よって、本実施の形態におけるテキストクラスタリング方法の説明は、以下のテキストクラスタリング装置１００の動作説明に代える。

図５に示すように、まず、テキスト集合受付部１０が、入力装置８０から、クラスタリング対象とするテキスト集合の入力を受け付ける(ステップＡ１)。また、ステップＡ１において、テキスト集合受付部１０は、受け付けた入力テキスト集合を記述抽出部２０に入力する。

次に、記述抽出部２０は、入力テキスト集合を構成する各テキストから、行動・事態記述を抽出する(ステップＡ２)。ステップＡ２では、記述抽出部２０は、図２で示したように、行動・事態記述を元のテキストと関連づけた状態で抽出する。また、記述抽出部２０は、各テキストから、用言と主語とのペアも抽出する。

次に、親和性判定部４１が、ステップＡ２で抽出された行動・事態記述を対象として、２つの行動・事態記述の組合せ毎に、両者間の親和性を判定し、判定結果から、相互に親和性の高い組合せを特定する(ステップＡ３)。具体的には、ステップＡ３では、親和性判定部４１は、行動・事態表現親和性知識ベース５０に記録されている親和性判定規則に基づいて、親和性を判定する。

次に、組合せ生成部４２が、相互に親和性の高い行動・事態記述の組み合わせを用いて、出来事記述の仮説となるグループを生成する(ステップＡ４)。ステップＡ４では、組合せ生成部４２は、生成したグループを特定する情報を、クラス分類部６０に入力する。

次に、記述含有テキスト分類部６１が、ステップＡ４で作成したグループ毎にクラスを設定し、入力テキスト集合のうち、行動・事態記述の抽出元のテキストを、この行動・事態記述が属するグループに設定されたクラスにクラス分類する（ステップＡ５）。

次に、残余テキスト分類部６２が、入力テキスト集合に含まれるテキストのうち、行動・事態記述が抽出されなかったテキスト、即ち、残余テキストを特定し、特定した残余テキストを、ステップＡ５で設定されたクラス、または新たなクラスにクラス分類する(ステップＡ６)。具体的には、ステップＡ５では、残余テキスト分類部６２は、各残余テキストを対象として、ステップＡ５でクラス分類されているテキストとの類似度を計算し、計算した類似度に基づいて、残余テキストをクラス分類する。

最後に、クラスタ出力部７０が、ステップＡ５及びステップＡ６によってクラス分類されたテキストを、入力テキスト集合に対するクラスタリング結果として出力する（ステップＡ７）。ステップＡ７の実行により、テキストクラスタリング装置１００における処理は終了する。

以上のように、本実施の形態におけるテキストクラスタリング装置１００は、テキスト集合から、親和性の高い行動・事態記述の組み合わせを特定し、各組み合わせを共通の行動・事態記述で繋げていき、その結果を用いてクラスタリングを実行する。また、テキストクラスタリング装置１００は、テキストの記述のうち、特定の出来事を示していない、ノイズとなる記述を除外する。このため、本実施の形態におけるテキストクラスタリング装置１００によれば、クラスタリング対象となるテキストがミニブログ等の短文であったとしても、出来事毎のクラスタリングは適切に実行される。

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図５に示すステップＡ１〜Ａ７を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるテキストクラスタリング装置１００とテキストクラスタリング方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、テキスト集合受付部１０、記述抽出部２０、グループ分け実行部４０、クラス分類部６０、及びクラスタ出力部７０として機能し、処理を行なう。

また、本実施の形態では、行動・事態表現辞書３０、行動・事態表現親和性知識ベース５０は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、実現できる。

ここで、実施の形態におけるプログラムを実行することによって、テキストクラスタリング装置１００を実現するコンピュータ１１０について図６を用いて説明する。図６は、本発明の実施の形態におけるテキストクラスタリング装置を実現するコンピュータの一例を示すブロック図である。

図６に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
を備えていることを特徴とするテキストクラスタリング装置。

（付記２）
前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、記述抽出部を更に備えている、付記１に記載のテキストクラスタリング装置。

（付記３）
前記グループ分け実行部が、
２つの前記記述の組合せ毎に、予め設定された規則に基づいて、２つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記１または２に記載のテキストクラスタリング装置。

（付記４）
前記クラス分類部が、
前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、第１のクラス分類部と、
前記記述抽出部によって前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記第１のクラス分類部が設定したいずれかのクラス、又は新たなクラスにクラス分類する、第２のクラス分類部と、
を備えている、付記２に記載のテキストクラスタリング装置。

（付記５）
前記第２のクラス分類部が、特定したテキスト毎に、当該特定したテキストと、前記第１のクラス分類部が設定した、前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記４に記載のテキストクラスタリング装置。

（付記６）
テキスト集合を対象としたクラスタリングを行なうための方法であって、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を有することを特徴とするテキストクラスタリング方法。

（付記７）
（ｃ）前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に備えている、付記６に記載のテキストクラスタリング方法。

（付記８）
前記（ａ）のステップにおいて、
２つの前記記述の組合せ毎に、予め設定された規則に基づいて、２つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記６または７に記載のテキストクラスタリング方法。

（付記９）
前記（ｂ）のステップとして、
（ｂ１）前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
（ｂ２）前記（ｃ）のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記（ｂ１）のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を有する、付記７に記載のテキストクラスタリング方法。

（付記１０）
前記（ｂ２）のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記（ｂ１）のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記９に記載のテキストクラスタリング方法。

（付記１１）
コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１２）
（ｃ）前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に前記コンピュータに実行させる、付記１１に記載のコンピュータ読み取り可能な記録媒体。

（付記１３）
前記（ａ）のステップにおいて、
２つの前記記述の組合せ毎に、予め設定された規則に基づいて、２つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記１１または１２に記載のコンピュータ読み取り可能な記録媒体。

（付記１４）
前記コンピュータに、前記（ｂ）のステップとして、
（ｂ１）前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
（ｂ２）前記（ｃ）のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記（ｂ１）のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を実行させる、付記１２に記載のコンピュータ読み取り可能な記録媒体。

（付記１５）
前記（ｂ２）のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記（ｂ１）のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記１４に記載のコンピュータ読み取り可能な記録媒体。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１１年４月２７日に出願された日本出願特願２０１１−９８９１２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上のように、本発明によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。よって、本発明は、マイクロブログ等のインターネット上のテキストをクラスタリングし、可読性を向上する目的に有用である。また、本発明は、大量のテキストの中から、複数のテキストで話題として取りあげられる共通の出来事を発見する、目的にも応用可能である。

１０テキスト集合入力部
２０記述抽出部
３０行動・事態記述表現辞書
４０グループ分け実行部
４１親和性判定部
４２グループ生成部
５０行動・事態表現親和性知識ベース
６０クラス分類部
６１記述含有テキスト分類部
６２残余テキスト分類部
７０クラスタ出力部
１００テキストクラスタリング装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

本発明は、テキストクラスタリング装置、テキストクラスタリング方法、及びこれらを実現するためのプログラムに関し、特には、クラスタリングの対象とするテキスト集合に含まれる共通の出来事を抽出し、抽出した出来事に応じてテキストをクラスタリングする方式に関する。

このように出来事毎にテキストをまとめることができれば、多数のマイクロブログ等の中から、読者が興味を抱いたある特定の出来事に関して発言されているテキストのみを特定することが容易となる。

本発明の目的は、上記問題を解消し、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行し得る、テキストクラスタリング装置、テキストクラスタリング方法、およびプログラムを提供することにある。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムであって、
前記コンピュータに、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、ことを特徴とする。

また、本実施の形態では、記述抽出部２０は、１つのテキストに複数の行動・事態記述が含まれている場合は、このテキストから、複数の行動・事態記述を抽出することもできる。例えば、記述抽出部２０は、図２においてテキストＩＤ＝１０のテキストからは、２つの行動・事態記述、「ライブイベント何某が出演者を発表した」と、「ロックバンド○○やポップスグループＸＸも北海道に初上陸する」とを抽出している。

具体的には、図３において、４番目の列「親和性の高い行動・事態記述のテキストＩＤ」には、各行の行動・事態記述と親和性の高い行動・事態記述の抽出元のテキストＩＤが格納されている。また、列「親和性の高い行動・事態記述のテキストＩＤ」において、「＜なし＞」とある欄は、その行の行動・事態記述と親和性の高い行動・事態記述が存在しなかったことを示している。列「親和性が高い理由」には、各判定の理由（親和性が高くなる理由）が格納されている。

クラスタ出力部７０は、クラス分類結果を入力テキスト集合のクラスタリング結果として出力する。本実施の形態では、クラスタ出力部７０は、残余テキスト分類部６２が出力するクラス分類の最終結果（図４参照）を受け取り、それを入力テキスト集合に対するクラスタリング結果として出力する。

（付記１１）
コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムであって、
前記コンピュータに、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、プログラム。

（付記１２）
（ｃ）前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に前記コンピュータに実行させる、付記１１に記載のプログラム。

（付記１３）
前記（ａ）のステップにおいて、
２つの前記記述の組合せ毎に、予め設定された規則に基づいて、２つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記１１または１２に記載のプログラム。

（付記１４）
前記コンピュータに、前記（ｂ）のステップとして、
（ｂ１）前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
（ｂ２）前記（ｃ）のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記（ｂ１）のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を実行させる、付記１２に記載のプログラム。

（付記１５）
前記（ｂ２）のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記（ｂ１）のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記１４に記載のプログラム。

１０テキスト集合受付部
２０記述抽出部
３０行動・事態記述表現辞書
４０グループ分け実行部
４１親和性判定部
４２組合せ生成部
５０行動・事態表現親和性知識ベース
６０クラス分類部
６１記述含有テキスト分類部
６２残余テキスト分類部
７０クラスタ出力部
１００テキストクラスタリング装置
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
を備えていることを特徴とするテキストクラスタリング装置。
前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、記述抽出部を更に備えている、請求項１に記載のテキストクラスタリング装置。
前記グループ分け実行部が、
２つの前記記述の組合せ毎に、予め設定された規則に基づいて、２つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
請求項１または２に記載のテキストクラスタリング装置。
前記クラス分類部が、
前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、第１のクラス分類部と、
前記記述抽出部によって前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記第１のクラス分類部が設定したいずれかのクラス、又は新たなクラスにクラス分類する、第２のクラス分類部と、
を備えている、請求項２に記載のテキストクラスタリング装置。
前記第２のクラス分類部が、特定したテキスト毎に、当該特定したテキストと、前記第１のクラス分類部が設定した、前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、請求項４に記載のテキストクラスタリング装置。
テキスト集合を対象としたクラスタリングを行なうための方法であって、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を有することを特徴とするテキストクラスタリング方法。
コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
（ｂ）前記テキスト集合を構成するテキストを、前記（ａ）のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。