JPWO2011004524A1

JPWO2011004524A1 - テキストマイニング装置

Info

Publication number: JPWO2011004524A1
Application number: JP2011521777A
Authority: JP
Inventors: 貴士大西; 安藤　真一; 真一安藤; 聡中澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-07-07
Filing date: 2010-04-08
Publication date: 2012-12-13
Also published as: WO2011004524A1; US20120117068A1

Abstract

このテキストマイニング装置３００は、クラスタリング部３０１を備える。クラスタリング部３０１は、文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする。この結果、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。

Description

本発明は、文書集合に基づいてテキストマイニング処理を行うテキストマイニング装置に関する。

文書集合から、文書集合の特徴を表す表現である特徴表現を抽出するテキストマイニング装置が知られている。なお、本明細書においては、テキストマイニング技術を用いて、少なくとも１つの文書を含む文書集合から、その文書集合に特徴的に出現する表現を抽出した結果を、「特徴表現」と表記する。

各特徴表現は、１つ、又は、複数の単語からなる。例えば、近年の特許潮流について記述している文書をテキストマイニングした結果、「特許」、「ビジネス／モデル」及び「補正」等の特徴表現が抽出された場合を想定する。ここで、「／」は、単語の区切りを表しているものとする。

「特許」及び「補正」のそれぞれが、１つの単語からなる特徴表現の例であり、「ビジネス／モデル」が２つの単語からなる特徴表現の例である（実際にどのような文字列で単語が区切られるかは、テキストマイニング処理の際に使用される辞書に依存する）。

また、特徴表現は、連続する複数の単語を表す表現だけでなく、複数の単語とその単語間の係り受け関係及び／又は構文関係とを表す表現も含む。例えば、特徴表現は、「請求項」及び「補正」と、「請求項」及び「補正」の間に係り受け関係が存在することと、を表す表現も含む。

更に、テキストマイニング技術を用いることにより、文書集合から特徴表現を抽出する際に、同じ意味を有する単語及び表現の揺れを吸収するための同義語処理、及び／又は、言い換え処理を行った結果を使用して、特徴表現が求められても良い。

なお、特徴表現を抽出する技術は、自然言語処理技術、又は、テキストマイニング技術において周知の技術である。例えば、この技術は、非特許文献１における「３．１テキストからの情報抽出」において開示されている。

ところで、上記テキストマイニング装置は、文書に含まれる特徴表現の数を計数するとともに、各特徴表現に対して、情報量基準等に基づいた特徴度を算出することにより、特徴表現を抽出する。

ところで、特徴表現は、比較的少ない数の単語からなることが多い。従って、ユーザが特徴表現を閲覧しても、各特徴表現が、テキストマイニング対象とする文章集合のどのような特徴を表しているものなのか、把握することは困難である。このため、この種のテキストマイニング装置は、原文参照機能を備える。原文参照機能は、文書集合中の特徴表現が出現している箇所の文を原文として出力する機能である。これによりユーザは、原文として、特徴表現だけでなく特徴表現が出現する周囲の文脈も閲覧することが可能となり、その結果、各特徴表現が表す内容を把握することができる。

しかしながら、テキストマイニング装置が、抽出された特徴表現毎に原文を出力するように構成されていると、テキストマイニング装置は、複数の互いに異なる特徴表現に対して同一の原文を出力することがある。即ち、複数の互いに異なる特徴表現が同一の文書から抽出されていることがある。例えば、特徴表現が複数の単語からなる場合において、単語の組み合わせが異なる特徴表現が複数存在するとき、同一の単語を含む複数の特徴表現が同一の文書から抽出されることがある。

このような場合、ユーザは、同一の原文を繰り返し閲覧する確率が比較的高い。即ち、ユーザが、効率良く文書集合の概要を把握することができない。

そこで、特許文献１に記載のテキストマイニング装置は、抽出された特徴表現間の包含関係や重複関係を用いて特徴表現のまとめあげを行う。これにより、ユーザが同一の原文を繰り返し閲覧する確率を低減することができる。

特開２００６−３１１９８号公報

林田英雄、脇森浩志、"テキストマイニング技術とその応用"、[online]、２００５年２月、日本ユニシス株式会社、[平成２１年６月３０日検索]、インターネット＜http://www.unisys.co.jp/tec_info/tr84/8403.pdf＞

しかしながら、同一の文書から抽出された複数の互いに異なる特徴表現は、必ずしも包含関係、又は、重複関係を有しているわけではない。そのため、特許文献１に記載のテキストマイニング装置によっては、包含関係、又は、重複関係を有しない特徴表現同士を同一視して、一つの特徴表現にまとめあげることができない。従って、ユーザが同一の原文を繰り返し閲覧する確率を低減することができない場合が生じるという問題があった。

このため、本発明の目的は、上述した課題である「ユーザが同一の原文を繰り返し閲覧する確率を低減することができない場合が生じること」を解決することが可能なテキストマイニング装置を提供することにある。

かかる目的を達成するため本発明の一形態であるテキストマイニング装置は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備える。

また、本発明の他の形態であるテキストマイニング方法は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする方法である。

また、本発明の他の形態であるテキストマイニング用プログラムは、
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのプログラムである。

本発明は、以上のように構成されることにより、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。

本発明の第１実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。本発明の第１実施形態に係るテキストマイニング装置のＣＰＵが実行するテキストマイニング用プログラムを示したフローチャートである。本発明の第１実施形態に係るテキストマイニング装置により抽出された特徴表現を示した図である。本発明の第１実施形態に係るテキストマイニング装置により取得された特徴表現含有情報を示したテーブルである。本発明の第１実施形態に係るテキストマイニング装置によりクラスタリングされた特徴表現を示したテーブルである。本発明の第２実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。本発明の第２実施形態に係るテキストマイニング装置のＣＰＵが実行するテキストマイニング用プログラムを示したフローチャートである。本発明の第２実施形態に係るテキストマイニング装置により抽出された特徴文を示したテーブルである。本発明の第３実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。本発明の第３実施形態に係るテキストマイニング装置のＣＰＵが実行するテキストマイニング用プログラムを示したフローチャートである。本発明の第３実施形態に係るテキストマイニング装置のＣＰＵが特徴文を生成する際の処理を概念的に示した説明図である。本発明の第４実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。

以下、本発明に係る、テキストマイニング装置、テキストマイニング方法、及び、テキストマイニング用プログラム、の各実施形態について図１〜図１２を参照しながら説明する。

＜第１実施形態＞
先ず、図１〜図５を参照しながら、第１実施形態に係るテキストマイニング装置１００について説明する。テキストマイニング装置１００は、図示しない中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶装置（メモリ及びハードディスク駆動装置（ＨＤＤ；ＨａｒｄＤｉｓｋＤｒｉｖｅ））、入力装置及び出力装置を備える情報処理装置である。

出力装置は、ディスプレイを有する。出力装置は、ＣＰＵから出力された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示させる。入力装置は、キーボード及びマウスを有する。テキストマイニング装置１００は、キーボード及びマウスを介して、ユーザの操作に基づく情報が入力されるように構成されている。

テキストマイニング装置１００は、記憶装置に記憶されているプログラムをＣＰＵが実行することにより、後述する機能を実現するように構成されている。

図１は、上記のように構成されたテキストマイニング装置１００の機能を表すブロック図である。この機能は、テキストマイニング装置１００のＣＰＵが図２に示したフローチャートにより表されるプログラム等を実行することにより実現される。

このテキストマイニング装置１００の機能は、文書集合入力部１と、特徴表現抽出部２と、クラスタリング部３と、クラスタリング結果出力部（特徴表現出力手段、原文出力手段）４と、を含む。

文書集合入力部１は、テキストマイニング装置１００と通信可能に接続された外部装置２００が備える文書集合記憶部５に記憶されている文書集合を、外部装置２００から受信することにより、文書集合を入力する（受け付ける）。文書集合は、少なくとも１つの文書を含む。文書は、文を構成する文字列を表す情報である。なお、テキストマイニング装置１００は、文書集合記憶部５を備えていてもよい。

特徴表現抽出部２は、文書集合入力部１により入力された文書集合に対して、形態素解析、あるいは、構文解析を行うことにより、文書集合に含まれる文を、１つ又は複数の単語からなる解析単位に分割する。更に、特徴表現抽出部２は、解析単位毎に、その解析単位が、文書集合において出現する頻度、及び／又は、情報量基準等の基準、を求める。

そして、特徴表現抽出部２は、解析単位毎に求めた頻度及び／又は基準に基づいて、上記文書集合の特徴を表す表現である特徴表現を、当該文書集合から抽出する。特徴表現は、文書集合に特徴的に出現する解析単位をそのまま特徴表現として使用しても良い。また特徴的に出現する解析単位を組み合わせて一つの特徴表現としてもよい。本例では、特徴表現は、少なくとも１つの単語を含む。更に、特徴表現は、複数の単語間の係り受け関係及び／又は構文関係を表す情報も含む。

特徴表現抽出部２が文書集合から特徴表現を抽出する方法は、テキストマイニング技術において用いられる方法と同じ方法である。なお、特徴表現抽出部２は、文書集合から特徴表現を抽出する方法として、公知のいずれの方法を用いてもよい。

クラスタリング部３は、特徴表現抽出部２により抽出された複数の特徴表現を、文書集合入力部１により入力された文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする。即ち、クラスタリング部３は、上記複数の特徴表現を、上記文書集合のうち、各特徴表現が抽出される基となった文である原文を含む文書の集合が類似している程度に基づいて、異なる特徴表現から原文として同一の文を出力することが可能となる特徴表現同士が同一のクラスタ（集合）を構成するようにクラスタリングを行う。

具体的には、クラスタリング部３は、出現文書ベクトル作成部３１と、特徴表現クラスタリング部３２と、を含む。

出現文書ベクトル作成部３１は、特徴表現抽出部２により抽出された特徴表現、及び、上記文書集合を構成する文書、の組のそれぞれに対して、当該文書が当該特徴表現を含む（即ち、当該文書において当該特徴表現が出現する）か否かを表す特徴表現含有情報を取得する。本例では、特徴表現含有情報は、文書に特徴表現が含まれる場合に「１」に設定され、一方、文書に特徴表現が含まれない場合に「０」に設定される。

そして、出現文書ベクトル作成部３１は、特徴表現毎に、その特徴表現に対して取得された特徴表現含有情報を要素とする出現文書ベクトルを生成する。

なお、本例では、出現文書ベクトルの要素は、各文書にその特徴表現が含まれているかどうかを示す２値の値(「０」か「１」)を特徴表現含有情報として用いたが、文書において特徴表現が出現する頻度に基づく値（例えば、ｔｆ−ｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）値）を用いるなど、多値の値を出現文書ベクトルの要素として用いても良い。

特徴表現クラスタリング部３２は、出現文書ベクトル作成部３１により生成された出現文書ベクトル（即ち、特徴表現含有情報）に基づいて、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度を算出する。

例えば、特徴表現クラスタリング部３２は、第１の特徴表現に対して生成された出現文書ベクトルと、第２の特徴表現に対して生成された出現文書ベクトルと、の差（即ち、各要素の差を要素とするベクトル）の大きさ（即ち、各要素を２乗した値の和の平方根）の逆数を類似度として算出する。

そして、特徴表現クラスタリング部３２は、算出された類似度が予め設定された基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるようにクラスタリングする。本例では、特徴表現クラスタリング部３２は、特徴表現と、クラスタを識別するための識別情報と、を対応付けて記憶装置に記憶させる。

クラスタリング結果出力部４は、特徴表現クラスタリング部３２によりクラスタリングされた特徴表現を、クラスタ毎に出力する。即ち、クラスタリング結果出力部４は、クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する。

また、クラスタリング結果出力部４は、クラスタ毎に、ユーザにより入力された出力指示を受け付ける。クラスタリング結果出力部４は、出力指示を受け付けると、上記文書集合のうちの、出力指示の対象となったクラスタにまとめられた特徴表現を含む文（原文）を出力する。

次に、上述したテキストマイニング装置１００の作動について説明する。
テキストマイニング装置１００のＣＰＵは、図２にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。

具体的に述べると、ＣＰＵは、テキストマイニング用プログラムの処理を開始すると、ステップＡ１にて、テキスト情報を受け付ける。本例では、ＣＰＵが、２００７年６月の「温暖化対策」に関する文書集合を受け付けた場合を想定して説明を続ける。

そして、ＣＰＵは、受け付けた文書集合から特徴表現を抽出する（ステップＡ２）。具体的には、ＣＰＵは、受け付けた文書集合を構文解析によって木構造に変換する。そして、ＣＰＵは、各木構造に含まれる、すべての部分木のそれぞれに対して頻度を計数する(この例では、解析単位は構文解析結果得られた構文木の部分木となる)。更に、ＣＰＵは、頻度と部分木の大きさとに基づいて算出される特徴度に基づいて、特徴表現を抽出する。

いま、図３に示したように、ＣＰＵが１２個の特徴表現を抽出した場合を想定して説明を続ける。ここで、特徴表現内のハイフン「−」は係り受け関係を表す。

次いで、ＣＰＵは、抽出された特徴表現のそれぞれに対して、出現文書ベクトルを生成する（ステップＡ３）。本例では、図４に示したように、ＣＰＵが出現文書ベクトルを生成した場合を想定して説明を続ける。

次に、ＣＰＵは、作成された出現文書ベクトルに基づいて特徴表現をクラスタリングする（ステップＡ４）。具体的には、ＣＰＵは、複数の特徴表現の任意の組のそれぞれに対して、出現文書ベクトルに基づいて類似度を算出する。そして、ＣＰＵは、算出された類似度が基準類似度よりも大きくなる組を構成する特徴表現を同一のクラスタにまとめるようにクラスタリングする。

本例では、図５に示したように、ＣＰＵが、複数の特徴表現を２つのクラスタ（クラスタ＃１及びクラスタ＃２）にクラスタリングした場合を想定して説明を続ける。即ち、「ハイリゲンダム」及び「Ｇ８−サミット」の組に対して算出される類似度、並びに、「キャンドル」及び「ライト−ダウン」の組に対して算出される類似度等が基準類似度よりも大きい場合が想定されている。

そして、ＣＰＵは、クラスタ毎に、そのクラスタにまとめられた特徴表現を出力する（ステップＡ５）。本例では、ＣＰＵは、クラスタ毎に設定した領域内に当該クラスタにまとめられた特徴表現を配置した画像を出力する（ディスプレイに表示させる）。

その後、ＣＰＵは、クラスタを識別するための情報を含む出力指示を受け付けた場合、上記文書集合のうちの、出力指示により識別される（即ち、その出力指示の対象となった）クラスタにまとめられた特徴表現を含む文である原文を出力する。

従って、本例では、ユーザは、クラスタの数（即ち、２回）だけ出力指示を入力することにより、すべての特徴表現に対応する原文を閲覧することができる。その結果、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。

ところで、テキストマイニング装置が特徴表現毎にその特徴表現を含む原文を出力するように構成されている場合、ユーザは、特徴表現毎に出力指示を入力する必要がある。従って、上述した例の場合、ユーザは、１２回、出力指示を入力しなければならない。また、この場合、ユーザが、同一の原文を繰り返し閲覧する確率も比較的高くなる。

また、特許文献１に記載のテキストマイニング装置は、「ハイリゲンダム」及び「ドイツ−ハイリゲンダム」が包含関係を有しているため、「ハイリゲンダム」及び「ドイツ−ハイリゲンダム」を同一のクラスタにクラスタリングすることができる。しかしながら、このテキストマイニング装置は、「ハイリゲンダム」及び「半減−検討」が包含関係及び重複関係のいずれの関係も有していないため、「ハイリゲンダム」及び「半減−検討」を同一のクラスタにクラスタリングすることができない。

従って、特許文献１に記載のテキストマイニング装置が原文を出力する回数は、上記第１実施形態に係るテキストマイニング装置１００よりも多くなる。即ち、ユーザが特許文献１に記載のテキストマイニング装置を用いた場合に、ユーザが同一の原文を繰り返し閲覧する確率は、上記第１実施形態に係るテキストマイニング装置１００よりも高い。

以上、説明したように、本発明によるテキストマイニング装置の第１実施形態によれば、テキストマイニング装置１００は、クラスタ毎に、そのクラスタにまとめられた特徴表現を含む文である原文を出力する。従って、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。更に、ユーザが原文を閲覧する回数（例えば、ユーザが出力指示を入力する回数）を減らすこともできる。

また、上記第１実施形態によれば、テキストマイニング装置１００は、クラスタ毎に、当該クラスタにまとめられた特徴表現を出力するように構成されている。これによれば、ユーザは、原文を閲覧することなく、クラスタにまとめられた複数の特徴表現を閲覧することにより、文書集合の概要を把握することもできる。

＜第２実施形態＞
次に、本発明の第２実施形態に係るテキストマイニング装置について説明する。第２実施形態に係るテキストマイニング装置は、上記第１実施形態に係るテキストマイニング装置に対して、特徴表現に加えて、または代えて、特徴表現を含む特徴文を出力する点において相違している。従って、以下、かかる相違点を中心として説明する。

図６に示したように、第２実施形態に係るテキストマイニング装置１００Ａの機能は、第１実施形態に係るテキストマイニング装置１００が含むクラスタリング結果出力部４に代えて、クラスタリング結果出力部６を含む。また、テキストマイニング装置１００Ａの機能は、テキストマイニング装置１００と同様に、文書集合入力部１、特徴表現抽出部２及びクラスタリング部３を含む。

更に、クラスタリング結果出力部６は、特徴文抽出部７を含む。特徴文抽出部７は、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を抽出する。本例では、特徴文抽出部７は、テキストマイニング対象とする文書集合中の文書に含まれる文の一つを特徴文として抽出する。このとき、特徴文抽出部７は、クラスタにまとめられた特徴表現を最も多く含む文を特徴文として抽出する。

なお、本例では、特徴文抽出部７は、文に含まれる特徴表現の数に基づいて特徴文を抽出するように構成されているが、文に含まれる当該クラスタの特徴表現の数に加えて、文を構成する文字数、及び、特徴表現が文書集合の特徴を表す程度である特徴度、のうちの少なくとも１つの値を特徴文抽出の際に基準として用いるよう構成されていてもよい。ここで特徴文を構成する文字数を特徴文抽出のパラメータとして使用するのは、単に特徴表現の数だけを基準として特徴文を選別した場合、長すぎる文が選別されやすくなるため、それを抑制するためや、出力する特徴文の長さを本発明を使用する際の用途や状況に応じて読みやすい長さに調整するため、などの効果を得るためである。特徴文は、特徴文に含まれる特徴表現から見た場合、原文の一つであるが、当該クラスタの複数の特徴表現に共通の原文である、という点にその特徴がある。一つのクラスタに属する特徴表現を全て含む特徴文が存在しない場合は、クラスタの特徴文として複数の文を抽出しても良い。

クラスタリング結果出力部６は、クラスタ毎に、特徴文抽出部７により抽出された特徴文を出力する。この際、各クラスタの特徴表現を合わせて出力しても良い。

次に、第２実施形態に係るテキストマイニング装置１００Ａの作動について説明する。
テキストマイニング装置１００ＡのＣＰＵは、図７にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図２に示したプログラムのステップＡ５を、ステップＢ１及びステップＢ２に置換したプログラムである。

即ち、ＣＰＵは、上記第１実施形態と同様に、ステップＡ１〜ステップＡ４の処理を実行する。そして、ＣＰＵは、ステップＢ１にて、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を抽出する。例えば、ＣＰＵは、図８に示したように、クラスタ毎に特徴文を抽出する。

次いで、ＣＰＵは、ステップＢ２にて、抽出された特徴文を出力する（ディスプレイに表示させる、ネットワークを通して他の計算機に送信する等）。

このように、上記第２実施形態に係るテキストマイニング装置によれば、ユーザは、特徴表現と同数の原文を閲覧することなく、クラスタ毎に複数の特徴表現に共通の原文である特徴文を閲覧することにより、テキスト情報の概要を把握することができる。また、上記第２実施形態によれば、特徴表現毎に原文を抽出するようにテキストマイニング装置が構成されている場合と比較して、テキスト情報の概要をよりよく表す特徴文を抽出することができる。なぜならば、まず各特徴表現の出現文書ベクトルに基づき特徴表現をクラスタリングすることで関係性の高い特徴表現どうしをまとめているからである。まとめられたクラスタ毎に、そのクラスタに含まれる特徴表現を多く含む原文を特徴文として抽出することで、単に特徴表現毎に原文を出力する手法や、クラスタに制限されない任意の特徴表現を多く含む原文を選択する手法に比べて、本実施の形態では、関係性の高い特徴表現を集めたクラスタを代表する特徴文が出力される。

なお、上記第２実施形態の変形例において、テキストマイニング装置１００Ａは、特徴表現に加えて特徴文を出力するように構成されていてもよい。

＜第３実施形態＞
次に、本発明の第３実施形態に係るテキストマイニング装置について説明する。第３実施形態に係るテキストマイニング装置は、上記第２実施形態に係るテキストマイニング装置に対して、特徴文を新たに生成する点において相違している。従って、以下、かかる相違点を中心として説明する。

図９に示したように、第３実施形態に係るテキストマイニング装置１００Ｂの機能は、第２実施形態に係るテキストマイニング装置１００Ａが含むクラスタリング結果出力部６に代えて、クラスタリング結果出力部６Ａを含む。また、テキストマイニング装置１００Ｂの機能は、テキストマイニング装置１００Ａと同様に、文書集合入力部１、特徴表現抽出部２及びクラスタリング部３を含む。

更に、クラスタリング結果出力部６Ａは、特徴文生成部８を含む。特徴文生成部８は、クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて特徴文を生成する。本例では、特徴文生成部８は、クラスタにまとめられた特徴表現を連結することにより特徴文を生成する。なお、特徴文生成部８は、クラスタにまとめられた特徴表現に、特徴表現を含む原文において特徴表現の直前又は直後に位置する単語（助詞を含む）を加えることにより特徴文を生成するように構成されていてもよい。

なお、特徴表現から特徴文を生成する技術の一例は、特開２００６−９２４６８号公報等に開示されている。従って、本明細書では詳細な説明を省略する。

クラスタリング結果出力部６Ａは、クラスタ毎に、特徴文生成部８により生成された特徴文を出力する。

次に、第３実施形態に係るテキストマイニング装置１００Ｂの作動について説明する。
テキストマイニング装置１００ＢのＣＰＵは、図１０にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図７に示したプログラムのステップＢ１を、ステップＣ１に置換したプログラムである。

即ち、ＣＰＵは、上記第２実施形態と同様に、ステップＡ１〜ステップＡ４の処理を実行する。そして、ＣＰＵは、ステップＣ１にて、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を生成する。

具体的には、ＣＰＵは、特徴表現を含む原文（文書に含まれる文）から、特徴表現の直前の単語から直後の単語までの部分文字列を抽出する。そして、ＣＰＵは、抽出した部分文字列が同一の単語を含む場合、その単語を連結部とするように、抽出した部分文字列を連結する。同一の単語を含まない場合は、そのまま抽出した部分文字列を連結する。連結にあたっては、単語の接続に関する文法的な制約を満たすよう各部分文字列に含まれる単語の活用形や、語尾を変化させても良い。なお、文生成技術自体は、
を例とする公知の技術であり、ここではその詳細はふれない。

例えば、ＣＰＵは、図１１に示したように、特徴表現の直前の単語から直後の単語までの部分文字列として、「ドイツ・ハイリゲンダムのＧ８サミット」と「Ｇ８サミットで排出量半減を検討」とを抽出する。そして、ＣＰＵは、抽出した部分文字列のうちの同一の文字列である「Ｇ８サミット」を連結部とするように、「ドイツ・ハイリゲンダムのＧ８サミット」及び「Ｇ８サミットで排出量半減を検討」を連結する。これにより、ＣＰＵは、特徴文として「ドイツ・ハイリゲンダムのＧ８サミットで排出量半減を検討」を生成する。

次いで、ＣＰＵは、ステップＢ２にて、生成された特徴文を出力する（ディスプレイに表示させる、あるいは、ネットワークで接続された他の機器に送信する等）。

このように、上記第３実施形態に係るテキストマイニング装置によれば、ユーザは、原文を閲覧することなく、特徴文を閲覧することにより、テキスト情報の概要を把握することができる。

ところで、文書集合が表す文の中に、複数の特徴表現を含む文が存在しない場合、上記第２実施形態に係るテキストマイニング装置１００Ａが抽出する特徴文は、文書集合の概要をよく表していないことがある。これに対し、上記第３実施形態に係るテキストマイニング装置１００Ｂによれば、このような場合であっても、複数の特徴表現を含む特徴文を出力することができる。従って、ユーザは、特徴文を閲覧することにより文書集合の概要を適切に把握することができる。

＜第４実施形態＞
次に、本発明の第４実施形態に係るテキストマイニング装置について図１２を参照しながら説明する。

第４実施形態に係るテキストマイニング装置３００は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング部（クラスタリング手段）３０１を備える。

これによれば、例えば、クラスタ毎に、そのクラスタにまとめられた特徴表現を含む文である原文を出力するように、テキストマイニング装置３００を構成することができる。従って、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。更に、ユーザが原文を閲覧する回数を減らすこともできる。

この場合、上記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されることが好適である。

この場合、上記クラスタリング手段は、上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出するように構成されることが好適である。

この場合、上記テキストマイニング装置は、
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えることが好適である。

これによれば、ユーザは、原文を閲覧することなく、クラスタにまとめられた複数の特徴表現を閲覧することにより、文書集合の概要を把握することができる。

この場合、上記テキストマイニング装置は、
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む上記原文を出力する原文出力手段を備えることが好適である。

これによれば、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。更に、ユーザが原文を閲覧する回数を減らすこともできる。

この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現を複数個含む原文を特徴文として抽出し、抽出した特徴文を上記クラスタ毎に出力するように構成されることが好適である。

これによれば、ユーザは、特徴文を閲覧することにより、文書集合の概要を把握することができる。

この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタに属する特徴表現が文に含まれている数、文を構成する文字の数、及び、上記特徴表現が上記文書集合の特徴を表す程度を示す特徴度、のうちの少なくとも１つに基づいて上記特徴文を抽出するように構成されることが好適である。

クラスタに属する特徴表現をより多く含む文ほど、そのクラスタをよく表す。従って、文に含まれる特徴表現の数に基づいて特徴文を抽出することが好適である。

また、文を構成する文字の数が過度に少ない（即ち、文が過度に短い）と、ユーザがその文を閲覧しても、そのユーザが所望する情報を得ることができない可能性が高くなる。一方、文を構成する文字の数が過度に多い（即ち、文が過度に長い）と、ユーザがその文を閲覧するために要する時間が過度に長くなる。従って、文を構成する文字の数に基づいて特徴文を抽出することが好適である。

また、特徴表現が文書集合の特徴を表す程度を示す特徴度が高くなる文ほど、その特徴表現を含むクラスタをよく表す。従って、特徴度に基づいて特徴文を抽出することが好適である。

また、上記テキストマイニング装置の他の態様において、
上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて上記特徴表現を含む特徴文を生成するように構成されることが好適である。

この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現を連結することにより上記特徴文を生成するように構成されることが好適である。

この場合、上記テキストマイニング方法は、
各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめることが好適である。

この場合、上記テキストマイニング方法は、
上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出することが好適である。

上述した構成を有する、テキストマイニング方法、又は、テキストマイニング用プログラム、の発明であっても、上記テキストマイニング装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

例えば、上記各実施形態においてテキストマイニング装置１００，１００Ａ，１００Ｂ，３００は、出力指示を受け付けた場合に、原文を出力するように構成されていたが、所定の時間が経過する毎に、順に原文を出力するように構成されていてもよい。

なお、上記各実施形態においてテキストマイニング装置１００，１００Ａ，１００Ｂ，３００の各機能は、ＣＰＵがプログラム（ソフトウェア）を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。

また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。

なお、本発明は、日本国にて２００９年７月７日に出願された特願２００９−１６０８１１の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

本発明は、文書集合から、当該文書集合の概要を表す情報を抽出するテキストマイニング装置等に適用可能である。

１文書集合入力部
２特徴表現抽出部
３クラスタリング部
４クラスタリング結果出力部
５文書集合記憶部
６クラスタリング結果出力部
６Ａクラスタリング結果出力部
７特徴文抽出部
８特徴文生成部
３１出現文書ベクトル作成部
３２特徴表現クラスタリング部
１００テキストマイニング装置
１００Ａテキストマイニング装置
１００Ｂテキストマイニング装置
２００外部装置
３００テキストマイニング装置
３０１クラスタリング部

Claims

文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備えるテキストマイニング装置。
請求項１に記載のテキストマイニング装置であって、
前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング装置。
請求項１又は請求項２に記載のテキストマイニング装置であって、
前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング装置。
請求項１乃至請求項３のいずれか一項に記載のテキストマイニング装置であって、
前記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えるテキストマイニング装置。
請求項１乃至請求項４のいずれか一項に記載のテキストマイニング装置であって、
前記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む前記原文を出力する原文出力手段を備えるテキストマイニング装置。
請求項４又は請求項５に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を複数個含む原文を特徴文として抽出し、抽出した特徴文を前記クラスタ毎に出力するように構成されたテキストマイニング装置。
請求項６に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタに属する特徴表現が文に含まれている数、文を構成する文字の数、及び、前記特徴表現が前記文書集合の特徴を表す程度を示す特徴度、のうちの少なくとも１つに基づいて前記特徴文を抽出するように構成されたテキストマイニング装置。
請求項４又は請求項５に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて前記特徴表現を含む特徴文を生成するように構成されたテキストマイニング装置。
請求項８に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を連結することにより前記特徴文を生成するように構成されたテキストマイニング装置。
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする、テキストマイニング方法。
請求項１０に記載のテキストマイニング方法であって、
各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめる、テキストマイニング方法。
請求項１０又は請求項１１に記載のテキストマイニング方法であって、
前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出する、テキストマイニング方法。
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのテキストマイニング用プログラム。
請求項１３に記載のテキストマイニング用プログラムであって、
前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング用プログラム。
請求項１３又は請求項１４に記載のテキストマイニング用プログラムであって、
前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング用プログラム。