WO2013038774A1

WO2013038774A1 - 文書分類装置、方法およびプログラム

Info

Publication number: WO2013038774A1
Application number: PCT/JP2012/066184
Authority: WO
Inventors: 真純稲葉; 真鍋　俊彦; 國分　智晴; 亘仲野
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2011-09-15
Filing date: 2012-06-25
Publication date: 2013-03-21
Also published as: JP5389130B2; JP2013065097A; CN103119596A; US9507857B2; US20130268535A1; CN103119596B

Abstract

　特徴語抽出手段（２０１）は、文書集合に含まれる文書から特徴語を抽出する。特徴語クラスタリング手段（２０２）は、抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする。文書分類手段（２０３）は、前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する。分類ラベル付与手段（２０４）は、前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する。提示手段（３０２）は、前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する。

Description

文書分類装置、方法およびプログラム

　本発明の実施形態は、文書分類装置、方法およびプログラムに関する。

　文書を分析する技術のひとつとして、文書中の意図表現に基づいて事物の評判を分析する評判分析が知られている。評判分析は、単純な事物の良し悪しだけではなく、事物を評価する観点ごとに良し悪しを判定する。このため、従来の評判分析では、意図表現の辞書に加えて、意図表現の対象となる観点の辞書が必要となる。前者の意図表現の辞書は、特定の分野に依存しないため汎用性があり、様々な分野での利用が可能である。一方、後者の観点の辞書は、特定の分野に強く依存するため汎用性に乏しく、分野ごとに作成しなくてはならない。

　一方、文書集合を分類する方法として文書クラスタリングが知られている。文書クラスタリングでは、文書集合を個々の文書の内容に応じて分類できるため、意図表現の対象となる観点を基準とした分類を行えるようにすれば、観点の辞書を用いない評判分析が可能になる。

　また、文書クラスタリングにシソーラスを用いる技術も知られている。例えば、シソーラス上のある階層を選択し、同一階層上の登録語を用いて文書クラスタを分類、統合する技術がある。これによれば、文書クラスタの分類の粒度を統一することができ、また、分類された文書クラスタに対して、分類に用いたシソーラスの登録語を分類ラベルとして付与することもできる。

　しかし、シソーラスの同一階層上の登録語を用いて文書クラスタを分類、統合する技術では、シソーラス中の登録語は広く分布するため、文書クラスタの数は多くなる。また、分類ラベルはシソーラス中の下位概念に属する狭義語になる。このため、文書の分類結果を分かり易く提示することが困難になる。

特開２００９－２５１８２５号公報

Hearst,　M.　A.:　Clustering　versus　faceted　categories　for　information　exploration,　Communications　of　the　ACM,　Volume　49　Issue　4,　April　2006.

　本発明が解決しようとする課題は、文書の分類結果を分かり易く提示することができる文書分類装置、方法およびプログラムを提供することである。

　実施形態の文書分類装置は、特徴語抽出手段と、特徴語クラスタリング手段と、文書分類手段と、分類ラベル付与手段と、提示手段と、を備える。特徴語抽出手段は、文書集合に含まれる文書から特徴語を抽出する。特徴語クラスタリング手段は、抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする。文書分類手段は、前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する。分類ラベル付与手段は、前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する。提示手段は、前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する。

図１は、第１実施形態の文書分類装置を示すブロック図である。図２は、文書記憶部に格納された文書集合の一例を示す図である。図３－１は、意図辞書記憶部に格納された意図表現の一例を示す図である。図３－２は、意図辞書記憶部に格納された意図表現の一例を示す図である。図４は、シソーラス記憶部に格納されたシソーラスの一例を示す図である。図５－１は、分類対象の各文書から抽出した特徴語の一例を示す図である。図５－２は、分類対象の各文書から抽出した特徴語の一例を示す図である。図６は、特徴語をクラスタリングした結果の一例を示す図である。図７－１は、分類対象の各文書を分類した結果の一例を示す図である。図７－２は、分類対象の各文書を分類した結果の一例を示す図である。図８－１は、文書クラスタに付与された分類ラベルの一例を示す図である。図８－２は、文書クラスタに付与された分類ラベルの一例を示す図である。図９－１は、提示手段による情報の提示例を示す図である。図９－２は、提示手段による情報の提示例を示す図である。図９－３は、提示手段による情報の提示例を示す図である。図１０は、特徴語抽出手段による処理の流れを示すフローチャートである。図１１は、特徴語クラスタリング手段による処理の流れを示すフローチャートである。図１２は、文書分類手段による処理の流れを示すフローチャートである。図１３は、分類ラベル付与手段による処理の流れを示すフローチャートである。図１４は、第２実施形態の文書分類装置を示すブロック図である。図１５は、指定文書記憶部に格納された指定文書の一例を示す図である。図１６は、分類対象の各文書と指定文書から抽出した特徴語の一例を示す図である。図１７は、文書クラスタに付与された分類ラベルの一例を示す図である。図１８－１は、提示手段による情報の提示例を示す図である。図１８－２は、提示手段による情報の提示例を示す図である。図１９は、第３実施形態の文書分類装置を示すブロック図である。図２０は、観点辞書記憶部に格納された観点の辞書の一例を示す図である。図２１は、分類対象の各文書から抽出した特徴語の一例を示す図である。図２２は、文書クラスタに付与された分類ラベルの一例を示す図である。図２３－１は、提示手段による情報の提示例を示す図である。図２３－２は、提示手段による情報の提示例を示す図である。図２３－３は、提示手段による情報の提示例を示す図である。図２４は、第４実施形態の文書分類装置を示すブロック図である。図２５は、文書記憶部に格納された文書集合の一例を示す図である。図２６は、データ処理装置のハードウェア構成例を示す説明図である。

　以下、実施形態の文書分類装置、方法およびプログラムを、図面を参照して説明する。なお、以下で示す実施形態は、評判分析に利用する文書分類装置への適用例であるが、適用可能な文書分類装置はこの例に限定されるものではなく、様々な形態の文書分類装置への適用が可能である。

＜第１実施形態＞
　図１は、第１実施形態の文書分類装置を示すブロック図である。第１実施形態の文書分類装置は、図１に示すように、記憶装置１と、データ処理装置２と、入出力装置３と、を備える。記憶装置１、データ処理装置２、および入出力装置３は、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置１、データ処理装置２、および入出力装置３は、単一の情報処理装置により実現されていてもよい。

　記憶装置１は、文書記憶部１０１と、意図辞書記憶部１０２と、シソーラス記憶部１０３とを、備える。

　文書記憶部１０１は、分類の対象となる文書集合を格納する。

　図２は、文書記憶部１０１に格納された文書集合の一例を示す図である。文書集合に含まれる文書は、ある特定の形態に限定されるものではなく、例えば自然言語で記述された文書である。例えば、Ｗｅｂページ文書、業務上作成された文書、特許公報などの文書を含む文書集合が、文書記憶部１０１に格納される。文書記憶部１０１は、文書そのものだけでなく、文書ＩＤを組にして格納してもよい。図２では、文書ＩＤがＤ１の文書から文書ＩＤがＤ１０の文書までを含む文書集合が文書記憶部１０１に格納された例を示している。

　文書記憶部１０１には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　意図辞書記憶部１０２は、一般的に使用される意図表現を格納する。ここで、意図表現とは、事象に対する評価や賛否、成否など、人が思いや意図を持って表現する言葉である。

　図３－１および図３－２は、意図辞書記憶部１０２に格納された意図表現の一例を示す図である。意図辞書記憶部１０２は、意図表現そのものだけでなく、意図表現の種類を組にして格納してもよい。図３－１では、意図辞書記憶部１０２に、「良い」、「いい」、「広い」、「悪い」、「残念」、「高い」の意図表現が格納された例を示している。図３－２では、「評価」が「好評」である意図表現の種類に対して、「良い」、「いい」、「広い」の意図表現が格納され、「評価」が「不評」である意図表現の種類に対して、「悪い」、「残念」、「高い」の意図表現が格納された例を示している。

　意図辞書記憶部１０２には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　シソーラス記憶部１０３は、１つまたは複数のシソーラスを格納する。シソーラスとは、語句の上位／下位関係、部分／全体関係、同義関係、類義関係などによって語句を分類し、体系づけた辞書である。シソーラス記憶部１０３が格納するシソーラスは、登録語をノードとし、上位ノードと下位ノードをリンクで結んだ木構造を有する。

　図４は、シソーラス記憶部１０３に格納されたシソーラスの一例を示す図である。図４では、（ａ）と（ｂ）の２つのシソーラスがシソーラス記憶部１０３に格納された例を示している。シソーラス記憶部１０３が格納するシソーラスとしては、既存のものを用いることができる。例えば、ＥＤＲ概念体系辞書、ＪＳＴ科学技術用語シソーラス、ＷｏｒｄＮｅｔなどを用いることができる。また、シソーラス記憶部１０３は、シソーラスの登録語や登録語間の関係だけではなく、登録語間の共起頻度や、共起の尺度を表す共起度を組にして格納してもよい。例えば、共起度には、自己相互情報量（Ｐｏｉｎｔｗｉｓｅ　Ｍｕｔｕａｌ　Ｉｎｆｏｒｍａｔｉｏｎ）を用いることができる。

　シソーラス記憶部１０３には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　データ処理装置２は、特徴語抽出手段２０１と、特徴語クラスタリング手段２０２と、文書分類手段２０３と、分類ラベル付与手段２０４と、を備える。

　特徴語抽出手段２０１は、文書記憶部１０１に格納された文書集合に含まれる分類対象の各文書から特徴語を抽出する。具体的には、特徴語抽出手段２０１は、まず、意図辞書記憶部１０２に格納された意図表現を用いて、文書集合に含まれる分類対象の各文書から、意図表現の対象となる語句を抽出する。次に、特徴語抽出手段２０１は、抽出された意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出する。

　ここで、意図表現の対象となる語句の抽出には、例えば、形態素解析や意味情報抽出、複合語抽出、係り受け解析などの手法を用いることができる。例えば、複合語抽出の具体的な手法としては、Ｃ－ｖａｌｕｅを用いることができる。また、形態素解析や意味情報抽出、複合語抽出、係り受け解析の結果から、ある特定の種類を選択するようにしてもよい。

　また、意図表現の対象となる語句の中から特徴語を抽出する方法としては、例えば、出現頻度に基づいて計算される重みが所定値以上となる語句を特徴語として抽出するといった方法を用いることができる。ここでの所定値は、絞り込む特徴語の数などに応じて任意に選択できる。出現頻度に基づく重みとしては、例えば、ｔｆ－ｉｄｆを用いることができる。また、文書記憶部１０１が保持する文書集合に含まれる文書数に応じて、文書数が多い場合はｔｆ－ｉｄｆを用い、文書数が少ない場合はｔｆ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙ：語句の出現頻度）を用いるといった切り替えを行うようにしてもよい。

　図５－１および図５－２は、図２に示した文書集合に含まれる分類対象の各文書から抽出した特徴語の一例を示す図である。なお、ここでは図２に示したすべての文書が分類対象であるものとする。図５－１は、図３－１に示した意図表現を用いて抽出した特徴語の例であり、図５－２は、図３－２に示した意図表現を用いて抽出した特徴語の例である。

　特徴語抽出手段２０１が抽出した特徴語は、例えば、図５－１および図５－２に示すように、抽出元の文書を表す文書ＩＤと関連付けて保持される。また、特徴語抽出手段２０１が抽出した特徴語は、図５－２に示すように、抽出元の文書を表す文書ＩＤに加え、さらに抽出に用いた意図表現やその種類と関連付けて保持するようにしてもよい。図５－２の例では、意図表現の種類の二階層（好評、不評）を用いて特徴語がさらに分類されている。

　特徴語クラスタリング手段２０２は、特徴語抽出手段２０１が抽出した特徴語を、シソーラス記憶部１０３に格納されたシソーラスを用いてクラスタリングする。具体的には、特徴語クラスタリング手段２０２は、特徴語抽出手段２０１が抽出した特徴語を、各クラスタがシソーラスの部分木を構成するような複数の特徴語クラスタにクラスタリングする。ここで生成される複数の特徴語クラスタは、一の特徴語クラスタに属する特徴語が出現する文書数と、他の特徴語クラスタに属する特徴語が出現する文書数との差が、予め定めた基準値以下となるようにする。つまり、複数の特徴語クラスタ間で、各特徴語クラスタに属する特徴語が出現する文書数が同数に近くなるようにする。ここで、各特徴語クラスタに属する特徴語が出現する文書数の差として許容される基準値は、例えば、文書集合に含まれる文書の総数に対する割合に基づいて定めることができる。

　特徴語クラスタリング手段２０２によるクラスタリングの手法としては、例えば、シソーラス上の距離に基づく階層型クラスタリングの手法を用いることができる。具体的には、意味的に近い特徴語が１つの特徴語クラスタに属するようにシソーラスの部分木を下位の語句から上位の語句へと成長させていき、１つの特徴語クラスタに属する特徴語が出現する文書数が、例えば、文書集合に含まれる文書の総数に対する割合から定めた所定値に達したら、部分木の成長をとめるといった手法を用いることができる。このとき、１つの特徴語クラスタを構成する特徴語間のシソーラス上の距離は、決められた定数が許容される。また、１つの特徴語が複数のシソーラスに登録されている場合は、複数のシソーラスにまたがるように部分木を成長させていくようにしてもよい。

　図６は、特徴語クラスタリング手段２０２が特徴語をクラスタリングした結果の一例を示す図である。図６の例では、Ｔ１からＴ４までの４つの部分木を構成する特徴語クラスタがそれぞれ生成されている。部分木Ｔ１を構成する特徴語クラスタには、「予約」、「サービス」、「接客」、「スタッフ」、「従業員」の各特徴語が属している。部分木Ｔ２を構成する特徴語クラスタには、「値段」、「金額」、「料金」の各特徴語が属している。部分木Ｔ３を構成する特徴語クラスタには、「料理」、「和食」、「中華」、「洋食」、「バイキング」、「品数」の各特徴語が属している。部分木Ｔ４を構成する特徴語クラスタには、「喫煙」、「禁煙」の各特徴語が属している。なお、部分木Ｔ１は、（ａ）のシソーラス中の「スタッフ」と、（ｂ）のシソーラス中の「スタッフ」とを同一とみなすことで、（ａ）と（ｂ）の二つのシソーラスをまたがる部分木となっている。

　特徴語クラスタリング手段２０２は、上記のようにシソーラスの部分木を構成する特徴語クラスタに特徴語をクラスタリングするという手法を用いることで、特徴語抽出手段２０１が特徴語として抽出できなかった語句を、特徴語クラスタに属する特徴語として補うことができる。例えば、図６に示した部分木Ｔ３を構成する特徴語クラスタに属する特徴語のうち、「料理」、「中華」、「洋食」、「バイキング」は、図５－１および図５－２に示した特徴語抽出手段２０１による特徴語の抽出結果に含まれていない語句であるが、特徴語抽出手段２０１により特徴語として抽出された「和食」、「品数」が１つの特徴語クラスタに属するようにシソーラスの部分木を成長させることにより、このシソーラスの部分木を構成する特徴語クラスタに属する特徴語として、「料理」、「中華」、「洋食」、「バイキング」を補うことができる。

　また、特徴語クラスタリング手段２０２は、上記のようにシソーラスの部分木を構成する特徴語クラスタに特徴語をクラスタリングするという手法を用いることで、特徴語抽出手段２０１が特徴語として抽出した語句のうち、シソーラスの登録語として登録されていない語句を、特徴語クラスタに属する特徴語から除外することができる。例えば、図５－１および図５－２に示した特徴語抽出手段２０１による特徴語の抽出結果には、特徴語として「席」、「設定」、「駐車」、「希望」の語句が含まれているが、図６に示したシソーラスの登録語として登録されていないこれらの語句を、特徴語クラスタに属する特徴語から除外することができる。

　以上のように、特徴語クラスタリング手段２０２は、特徴語抽出手段２０１により抽出された特徴語の集合を単にクラスタリングするだけでなく、特徴語抽出手段２０１により抽出された特徴語とシソーラスの登録語との間のシソーラス上の距離に基づいて、特徴語の集合を補正しつつクラスタリングする機能を持つ。

　特徴語クラスタリング手段２０２が上記のように特徴語をクラスタリングする場合、一の特徴語クラスタに属する特徴語とシソーラス上の距離が大きい他の特徴語クラスタに属する特徴語については、シソーラスの部分木が成長せず、単独の部分木では上述した基準を満たす特徴語クラスタを構成できないことがある。このような場合、特徴語クラスタリング手段２０２は、単独では上述した基準を満たす１つの特徴語クラスタを構成できない部分木を複数集めて１つの特徴語クラスタとする。つまり、この特徴語クラスタは、意味的に離れた（シソーラス上で離散的な）特徴語を寄せ集めた特徴語クラスタとなる。図６に示した例では、破線で囲まれた部分木の集合が１つの特徴語クラスタとなり、例えば図５－１および図５－２に例示した特徴語のうち、「駅前」、「眺め」、「雰囲気」、「温度」の各特徴語が、この特徴語クラスタに属する特徴語となる。なお、この特徴語クラスタにおいても、特徴語抽出手段２０１が特徴語として抽出できなかった語句、「印象」、「エアコン」が、特徴語として補われている。

　文書分類手段２０３は、文書記憶部１０１に記憶された文書集合に含まれる分類対象の各文書を、特徴語クラスタリング手段２０２による特徴語クラスタリングの結果に基づいて分類し、文書クラスタを生成する。具体的には、文書分類手段２０３は、１つの特徴語クラスタに属する特徴語が出現する文書を１つの文書クラスタに分類し、特徴語クラスタリング手段２０２により生成された特徴語クラスタごとに、文書クラスタを生成する。なお、特徴語クラスタリング手段２０２により生成された特徴語クラスタに含まれる特徴語を１つも含まない文書については、未分類のクラスタに分類されるものとする。

　図７－１および図７－２は、図２に示した文書集合に含まれる分類対象の各文書を分類した結果の一例を示す図である。なお、ここでは図２に示したすべての文書が分類対象であるものとする。これら図７－１および図７－２は、図６に示した特徴語クラスタリング手段２０２による特徴語クラスタリングの結果に基づいて分類された文書の分類結果の例である。

　文書分類手段２０３による分類結果は、例えば、図７－１および図７－２に示すように、文書クラスタを表す文書クラスタＩＤごとに、各文書クラスタに属する文書の文書ＩＤを関連付けた情報として保持される。また、各文書クラスタＩＤごとに、文書ＩＤに加えてさらに各クラスタに属する特徴語を関連付けた情報として保持するようにしてもよい。図７－１および図７－２では、分類対象の各文書が、文書クラスタＩＤがＣ１の文書クラスタから文書クラスタＩＤがＣ５の文書クラスタまでの５つの文書クラスタに分類された例を示している。文書クラスタＩＤがＣ１の文書クラスタは、図６に示したシソーラスの部分木Ｔ１を構成する特徴語クラスタに対応する。また、文書クラスタＩＤがＣ２の文書クラスタは、図６に示したシソーラスの部分木Ｔ２を構成する特徴語クラスタに対応する。また、文書クラスタＩＤがＣ３の文書クラスタは、図６に示したシソーラスの部分木Ｔ３を構成する特徴語クラスタに対応する。また、文書クラスタＩＤがＣ４の文書クラスタは、図６に示したシソーラスの部分木Ｔ４を構成する特徴語クラスタに対応する。なお、文書クラスタＩＤがＣ５の文書クラスタは、図６に示した破線で囲まれたシソーラスの部分木を複数集めて生成した特徴語クラスタに対応する。図７－１および図７－２に示す例から分かるように、１つの文書が複数の文書クラスタに分類されることもある。

　分類ラベル付与手段２０４は、文書クラスタ（つまり、特徴語をクラスタリングしたクラスタ）のそれぞれに対して、各クラスタに属する特徴語を代表する語句である分類ラベルを付与する。分類ラベルは、例えば、各クラスタに属する特徴語の中から１つまたは複数選択される。分類ラベルの選択には、例えば、特徴語が出現する文書の範囲を基準として選択する方法や、特徴語のシソーラス中での位置を基準として選択する方法などを用いることができる。特徴語が出現する文書の範囲を基準にする場合は、例えば、特徴語の出現頻度が高いもの、あるいは特徴語が出現する文書の数が多いものを優先して、分類ラベルを選択する。また、特徴語のシソーラス中での位置を基準にする場合は、例えば、上位概念を優先する、あるいは同義語や異表記が多い語句を優先する、あるいは特徴語の分布の中心にあるものを優先して、分類ラベルを選択する。なお、特徴語に関連する意図表現の種類（好評、不評など）ごとに特徴語が分類されている場合には、意図表現の種類ごとに分類ラベルを選択するようにしてもよい。

　また、分類ラベル付与手段２０４は、シソーラスの部分木を複数集めて生成した特徴語クラスタに対応する文書クラスタに対しては、該クラスタがシソーラスの１つの部分木を構成しない複数の特徴語の集合であることを表す分類ラベル、つまり、この文書クラスタに属する文書は意味的に分類されたものではないことを表す分類ラベルを付与する。この場合の分類ラベルとしては、例えば、「その他」や「未分類」を用いることができる。また、「その他」や「未分類」とともに、代表的な特徴語を選択して分類ラベルとして付与してもよい。

　図８－１および図８－２は、分類ラベル付与手段２０４により付与された分類ラベルの一例を示す図である。図８－１は、図７－１に示した分類結果の各文書クラスタに対して付与された分類ラベルの例であり、図８－２は、図７－２に示した分類結果の各文書クラスタに対して付与された分類ラベルの例である。

　図８－１および図８－２の例では、文書クラスタＩＤがＣ１の文書クラスタに対して、「予約」、「サービス」が分類ラベルとして付与されている。また、文書クラスタＩＤがＣ２の文書クラスタに対して、「料金」、「値段」が分類ラベルとして付与されている。また、文書クラスタＩＤがＣ３の文書クラスタに対して、「バイキング」、「料理」が分類ラベルとして付与されている。また、文書クラスタＩＤがＣ４の文書クラスタに対して、「禁煙」が分類ラベルとして付与されている。また、文書クラスタＩＤがＣ５の文書クラスタに対して、「その他」、「立地」、「印象」、「空調」が分類ラベルとして付与されている。

　入出力装置３は、分類方法選択手段３０１と、提示手段３０２と、を備える。

　分類方法選択手段３０１は、文書記憶部１０１に格納された文書集合に含まれる文書のうち、分類対象の文書の選択を受け付ける。分類方法選択手段３０１は、ユーザによる分類対象の文書の選択を受け付けて、どの文書が選択されたかを明示的にデータ処理装置２に送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部１０１に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択し、選択した文書を明示する情報をデータ処理装置２に送信するといった方法を用いることができる。この分類方法選択手段３０１からの情報がデータ処理装置２に送信されると、データ処理装置２の特徴語抽出手段２０１が処理を開始する。なお、データ処理装置２の特徴語抽出手段２０１が処理を開始するタイミング（文書を分類するタイミング）は、分類方法選択手段３０１から情報が送信されたときに限らない。例えば、新たな文書が文書記憶部１０１に格納されたときに、データ処理装置２の特徴語抽出手段２０１が処理を開始するようにしてもよい。

　提示手段３０２は、文書分類手段２０３による文書の分類結果を、分類ラベル付与手段２０４により付与された分類ラベルと対応付けた情報として、ユーザに提示する。具体的には、提示手段３０２は、例えば、文書クラスタに分類された文書数を付したアイコンと、文書クラスタに付与された分類ラベルとの組合せを表示情報として生成し、この表示情報を入出力装置３のディスプレイ（図示せず）などに表示させる。また、提示手段３０２は、文書数を付したアイコンと分類ラベルとの組み合わせに、各クラスタに属する特徴語を対応付けた表示情報を生成し、この表示情報を入出力装置３のディスプレイなどに表示させるようにしてもよい。このとき、特徴語がその特徴語の抽出に用いた意図表現の種類ごとに分類されている場合には、文書数を付したアイコンと分類ラベルとの組み合わせに対応付けて表示する特徴語を、意図表現の種類ごとに区別できる形式で表示させるようにすることが望ましい。

　図９－１乃至図９－３は、提示手段３０２による情報の提示例を示す図である。図９－１乃至図９－３に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。これら図９－１乃至図９－３に示す例では、各クラスタに属する特徴語が、特徴語の抽出に用いた意図表現の種類ごとに区別できる形式で表示される。

　意図表現の種類ごとに区別できる形式の例としては、例えば、語句や語句の背景を色分けする、語句を異なる字体にする、意図表現の種類を表すアイコンを併記するといった例が挙げられる。例えば図９－１に示す例では、意図表現の種類が好評の特徴語は通常の字体で表示され、意図表現の種類が不評の特徴語はアンダーラインを付した斜体で表示されている。また、図９－２に示す例では、意図表現の種類が好評の特徴語に対しては笑い顔のアイコンが付され、意図表現の種類が不評の特徴語に対しては困り顔のアイコンが付されている。また、図９－３に示す例では、各クラスタに属する特徴語が意図表現の種類ごとに分離され、意図表現の種類が好評の特徴語に対しては笑い顔のアイコンが付され、意図表現の種類が不評の特徴語に対しては困り顔のアイコンが付されている。この図９－３のように、好評の評価と、不評の評価とを分けて提示することもできる。

　次に、第１実施形態の文書分類装置の動作について、図１０乃至図１３のフローチャートを参照しながら説明する。なお、以下では、初期状態として、文書記憶部１０１には図２に示した文書集合が格納され、意図辞書記憶部１０２には図３－２に示した意図表現が格納され、シソーラス記憶部１０３には図４に示したシソーラスが格納され、図２に示した文書集合に含まれるすべての文書が分類対象として選択されているものとして説明する。

　図１０は、特徴語抽出手段２０１による処理の流れを示すフローチャートである。

　特徴語抽出手段２０１は、まず、文書記憶部１０１に格納された文書集合を取得する（ステップＳ１０１）。ここで取得される文書集合は、図２に示した文書集合であるものとする。

　次に、特徴語抽出手段２０１は、意図辞書記憶部１０２に格納された意図表現を取得する（ステップＳ１０２）。ここで取得される意図表現は、図３－２に示した意図表現であるものとする。

　次に、特徴語抽出手段２０１は、ステップＳ１０１で取得した文書集合に含まれる各文書から、意図辞書記憶部１０２に格納された意図表現に一致する意図表現を特定し、この意図表現の対象となる語句を抽出する（ステップＳ１０３）。

　次に、特徴語抽出手段２０１は、ステップＳ１０３で抽出した意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出し（ステップＳ１０４）、図１０のフローチャートで示す一連の処理を終了する。

　図１１は、特徴語クラスタリング手段２０２による処理の流れを示すフローチャートである。

　特徴語クラスタリング手段２０２は、まず、特徴語抽出手段２０１が抽出した特徴語を取得する（ステップＳ２０１）。ここで取得される特徴語は、図５－２に示した特徴語であるものとする。

　次に、特徴語クラスタリング手段２０２は、シソーラス記憶部１０３に格納されたシソーラスを取得する（ステップＳ２０２）。ここで取得されるシソーラスは、図４に示したシソーラスであるものとする。

　次に、特徴語クラスタリング手段２０２は、ステップＳ２０１で取得した特徴語のうち、ステップＳ２０２で取得したシソーラス中に存在する特徴語を抽出する（ステップＳ２０３）。

　次に、特徴語クラスタリング手段２０２は、ステップＳ２０３で抽出した特徴語間のシソーラス上の距離と、特徴語が出現する文書数を取得する（ステップＳ２０４）。特徴語間のシソーラス上の距離は、隣接する概念間の距離を単位距離で表す、概念間の距離を用いることができる。また、特徴語間のシソーラス上の距離として、シソーラス記憶部１０３に格納された概念間の共起頻度や、共起の尺度を表す共起度を用いてもよい。

　次に、特徴語クラスタリング手段２０２は、ステップＳ２０４で取得した特徴語間のシソーラス上の距離と、特徴語が出現する文書数とを用い、ステップＳ２０３で抽出した特徴語を、それぞれがシソーラスの部分木を構成する複数の特徴語クラスタにクラスタリングする（ステップＳ２０５）。このとき、特徴語クラスタリング手段２０２は、複数の特徴語クラスタ間で、各クラスタに属する特徴語が出現する文書数が同数に近くなるようにする。つまり、一の特徴語クラスタに属する特徴語が出現する文書数と、他の特徴語クラスタに属する特徴語が出現する文書数との差が、予め定めた基準値以下となるように、特徴語のクラスタリングを行う。ここで、特徴語が出現する文書数は、特徴語クラスタに属するすべての特徴語が出現する文書の総数を用いてもよいし、特徴語クラスタに属する特徴語の中から特定の特徴語が出現する文書数を用いるようにしてもよい。また、予め定めたある特定の数値を文書数として用いてもよい。この特徴語クラスタリング手段２０２による特徴語クラスタリングにより、特徴語抽出手段２０１が特徴語として抽出できなかった語句のうち、シソーラスの登録語として登録されている語句を特徴語クラスタに属する特徴語として補うことや、特徴語抽出手段２０１が特徴語として抽出した語句のうち、シソーラスの登録語として登録されていない語句を特徴語クラスタに属する特徴語から除外することができる。

　図１２は、文書分類手段２０３による処理の流れを示すフローチャートである。

　文書分類手段２０３は、まず、特徴語クラスタリング手段２０２が生成した各特徴語クラスタに属する語句を特徴語として取得する（ステップＳ３０１）。

　次に、文書分類手段２０３は、文書記憶部１０１に格納された分類対象の文書集合の中から文書を１つ取得する（ステップＳ３０２）。

　次に、文書分類手段２０３は、ステップＳ３０２で取得した分類対象の文書中に、ステップＳ３０１で取得した特徴語が存在するか否かを判定する（ステップＳ３０３）。そして、文書分類手段２０３は、分類対象の文書中に特徴語が存在する場合は（ステップＳ３０３：Ｙｅｓ）、その特徴語が属する特徴語クラスタに、分類対象の文書を分類する（ステップＳ３０４）。一方、分類対象の文書中に特徴語が存在しない場合は（ステップＳ３０３：Ｎｏ）、文書分類手段２０３は、分類対象の文書を、未分類のクラスタに分類する（ステップＳ３０５）。

　次に、文書分類手段２０３は、分類対象の文書をすべて分類したか否かを判定する（ステップＳ３０６）。そして、文書分類手段２０３は、分類していない文書が残っていれば（ステップＳ３０６：Ｎｏ）、ステップＳ３０２に戻って以降の処理を繰り返し、分類対象のすべての文書の分類が終わったら（ステップＳ３０６：Ｙｅｓ）、図１２のフローチャートで示す一連の処理を終了する。

　図１３は、分類ラベル付与手段２０４による処理の流れを示すフローチャートである。

　分類ラベル付与手段２０４は、まず、文書分類手段２０３による文書の分類結果である文書クラスタを取得する（ステップＳ４０１）。

　次に、分類ラベル付与手段２０４は、ステップＳ４０１で取得した文書クラスタのそれぞれに対応するシソーラスの部分木を取得する（ステップＳ４０２）。

　次に、分類ラベル付与手段２０４は、各文書クラスタに対応するシソーラスの部分木の構造を用いて、各文書クラスタに属する特徴語を代表する語句を選択する（ステップＳ４０３）。なお、各文書クラスタに属する特徴語が意図表現の種類ごとに分類されている場合は、意図表現の種類ごとに特徴語を代表する語句を選択するようにしてもよい。

　次に、分類ラベル付与手段２０４は、ステップＳ４０３で選択した語句を分類ラベルとして各文書クラスタに付与し（ステップＳ４０４）、図１３のフローチャートで示す一連の処理を終了する。

　以上、具体的な例を挙げながら詳細に説明したように、第１実施形態の文書分類装置によれば、分類対象の文書から抽出した特徴語を、個々のクラスタがシソーラスの部分木を構成し、各クラスタに属する特徴語が出現する文書数がほぼ等しくなるような複数の特徴語クラスタにクラスタリングする。そして、分類対象の文書を、特徴語クラスタに基づいて分類して文書クラスタを生成するとともに、各文書クラスタに分類ラベルを付与し、文書の分類結果を分類ラベルと対応付けてユーザに提示する。したがって、分類されたクラスタの数が多くなりすぎたり、クラスタごとに分類される文書数に大きな偏りがあったりといった弊害を有効に抑制し、文書の分類結果を、ユーザに対して分かり易く提示することができる。

　また、第１実施形態の文書分類装置によれば、意図表現の対象となる語句から選択された語句を特徴語として抽出し、シソーラスを用いて特徴語をクラスタリングするようにしているので、特定の分野に強く依存する観点の辞書を用いることなく、評判分析を行うことが可能となる。

　また、第１実施形態の文書分類装置によれば、文書の分類結果を分類ラベルと特徴語とに対応付けてユーザに提示するようにしているので、文書の分類結果を、ユーザに対してより分かり易く提示することができる。さらに、特徴語については、意図表現の種類ごとに区別できる形式で提示することで、文書の分類結果をさらに分かり易く提示することができる。

＜第２実施形態＞
　図１４は、第２実施形態の文書分類装置を示すブロック図である。なお、第１実施形態と共通の構成については同一の符号を付している。第２実施形態の文書分類装置は、図１４に示すように、記憶装置１ａと、データ処理装置２ａと、入出力装置３ａと、を備える。記憶装置１ａ、データ処理装置２ａ、および入出力装置３ａは、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置１ａ、データ処理装置２ａ、および入出力装置３ａは、単一の情報処理装置により実現されていてもよい。

　記憶装置１ａは、文書記憶部１０１、意図辞書記憶部１０２、およびシソーラス記憶部１０３に加えて、指定文書記憶部１０４を備える。

　指定文書記憶部１０４は、分類対象の文書以外の文書、例えば、文書を分類するための背景知識を含む文書を格納する。この指定文書記憶部１０４に格納される文書は、分類対象の文書を分類する際に指定される文書である。以下、指定文書記憶部１０４に格納された文書を指定文書という。

　図１５は、指定文書記憶部１０４に格納された指定文書の一例を示す図である。指定文書は、ある特定の形態に限定されるものではなく、例えば自然言語で記述された文書である。例えば、ニュースリリース、新聞記事、技術文書などが、指定文書として指定文書記憶部１０４に格納される。指定文書記憶部１０４は、指定文書そのものだけでなく、指定文書ＩＤを組にして格納してもよい。図１５では、指定文書ＩＤがＮ１の指定文書と、指定文書ＩＤがＮ２の指定文書とが指定文書記憶部１０４に格納された例を示している。

　指定文書記憶部１０４には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　データ処理装置２ａは、特徴語抽出手段２０１ａと、特徴語クラスタリング手段２０２ａと、文書分類手段２０３ａと、分類ラベル付与手段２０４ａと、を備える。

　特徴語抽出手段２０１ａは、第１実施形態の特徴語抽出手段２０１と同様に、意図表現の対象となる語句のうち選択された語句を特徴語として抽出する。ただし、特徴語抽出手段２０１ａは、意図表現の対象となる語句のうち選択された語句だけでなく、指定文書記憶部１０４が格納する指定文書に含まれる語句も特徴語として抽出する。すなわち、特徴語抽出手段２０１ａは、分類対象の文書に含まれる語句のうち、指定文書にも含まれている語句を、特徴語として抽出する。

　図１６は、図２に示した文書集合に含まれる分類対象の各文書と、図１５に示した指定文書とから抽出した特徴語の一例を示す図である。なお、ここでは図２に示したすべての文書が分類対象であるものとする。

　特徴語抽出手段２０１ａが抽出した特徴語は、例えば、図１６に示すように、抽出元の文書を表す文書ＩＤと関連付けて保持される。また、指定文書に含まれる語句であるとして抽出された特徴語は、指定文書に含まれる語句であることを示す情報と関連付けて保持するようにしてもよい。図１６に示す例では、文書ＩＤがＤ１の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」および「禁煙エリア」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書ＩＤがＤ３の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書ＩＤがＤ５の文書から抽出された特徴語のうち、「南国ビュッフェ」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書ＩＤがＤ６の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。また、文書ＩＤがＤ８の文書から抽出された特徴語のうち、「パイレーツ・ダイニング」が、指定文書に含まれる語句として抽出されたものであることが示されている。

　特徴語クラスタリング手段２０２ａは、第１実施形態の特徴語クラスタリング手段２０２と同様に、分類対象の文書から抽出された特徴語をクラスタリングする。ただし、特徴語クラスタリング手段２０２ａは、指定文書に含まれる語句として抽出された特徴語については、１つのクラスタにクラスタリングする。図１６に示した例では、指定文書に含まれる語句として抽出された特徴語である「パイレーツ・ダイニング」、「南国ビュッフェ」が、それぞれ１つのクラスタにクラスタリングされる。なお、指定文書に含まれる語句として抽出された特徴語であっても、「禁煙エリア」のように、分類対象の文書のみから抽出された特徴語と一致するものについては、第１実施形態で説明した方法でクラスタリングする。

　文書分類手段２０３ａは、第１実施形態の文書分類手段２０３と同様に、特徴語クラスタリング手段２０２ａによるクラスタリングの結果である特徴語クラスタに基づいて、分類対象の文書を分類する。ただし、文書分類手段２０３ａは、分類対象の文書に指定文書から抽出された特徴語が出現する場合、その文書を指定文書から抽出された特徴語が属するクラスタに分類する。図１６に示した例では、文書ＩＤがＤ１の文書、文書ＩＤがＤ３の文書、文書ＩＤがＤ６の文書、文書ＩＤがＤ８の文書が、それぞれ「パイレーツ・ダイニング」が属するクラスタに分類される。また、文書ＩＤがＤ５の文書は、「南国ビュッフェ」が属するクラスタに分類される。

　分類ラベル付与手段２０４ａは、第１実施形態の分類ラベル付与手段２０４と同様に、文書が分類されたクラスタである文書クラスタに対して、そのクラスタに属する特徴語を代表する語句を分類ラベルとして付与する。ただし、分類ラベル付与手段２０４ａは、指定文書から抽出された特徴語が属するクラスタについては、指定文書から抽出された特徴語そのものを、分類ラベルとして付与する。

　図１７は、分類ラベル付与手段２０４ａにより付与された分類ラベルの一例を示す図である。図１７の例では、指定文書から抽出された特徴語である「パイレーツ・ダイニング」が属するクラスタ（文書クラスタＩＤがＣ６のクラスタ）に対しては、「パイレーツ・ダイニング」そのものが分類ラベルとして付与されており、指定文書から抽出された特徴語である「南国ビュッフェ」が属するクラスタ（文書クラスタＩＤがＣ７のクラスタ）に対しては、「南国ビュッフェ」そのものが分類ラベルとして付与されている。

　入出力装置３ａは、分類方法選択手段３０１ａと、提示手段３０２ａと、を備える。

　分類方法選択手段３０１ａは、第１実施形態の分類方法選択手段３０１と同様に、分類対象の文書の選択を受け付ける。ただし、分類方法選択手段３０１ａは、分類対象の文書の選択だけでなく、文書の分類に用いる指定文書の指定も受け付ける。分類方法選択手段３０１ａは、ユーザによる分類対象の文書の選択と指定文書の指定を受け付けて、どの文書が分類対象として選択され、どの指定文書が指定されたかを明示的にデータ処理装置２ａに送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部１０１に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択するとともに、指定文書記憶部１０４に格納された指定文書のうち、入力されたクエリに対応する指定文書を選択して、分類対象として選択した文書や指定文書を明示する情報をデータ処理装置２ａに送信するといった方法を用いることができる。この分類方法選択手段３０１ａからの情報がデータ処理装置２ａに送信されると、データ処理装置２ａの特徴語抽出手段２０１ａが処理を開始する。

　提示手段３０２ａは、第１実施形態の提示手段３０２と同様に、文書分類手段２０３ａによる文書の分類結果を、分類ラベル付与手段２０４ａにより付与された分類ラベルと対応付けた情報として、ユーザに提示する。ただし、提示手段３０２ａは、指定文書から抽出された特徴語が属するクラスタについては、そのクラスタが、指定文書から抽出された特徴語が属するクラスタであることを判別できる形式で提示する。指定文書から抽出された特徴語が属するクラスタを判別できる形式で提示する例としては、例えば、分類ラベルに所定のアイコンを併記するといった例が挙げられる。

　図１８－１および図１８－２は、提示手段３０２ａによる情報の提示例を示す図である。図１８－１および図１８－２に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。図９－１に示した第１実施形態の提示手段３０２による情報の提示例と比較すると、「禁煙」、「パイレーツ・ダイニング」、「南国ビュッフェ」の各分類ラベルに対して、これらの分類ラベルが付与されたクラスタが、指定文書から抽出された特徴語が属するクラスタであることを示す旗のアイコンが併記されている。また、図１８－２に示す例は、旗のアイコンが併記された分類ラベルが上位に並ぶように、分類結果の並び順を入れ替えた例である。この図１８－２に示す例のように、指定文書から抽出された特徴語が属するクラスタを繰り上げたかたちで、分類結果の情報を提示することもできる。

　以上、具体的な例を挙げながら詳細に説明したように、第２実施形態の文書分類装置によれば、分類対象の文書だけでなく指定文書からも特徴語を抽出し、指定文書から抽出した特徴語は１つのクラスタにクラスタリングする。そして、指定文書から抽出した特徴語が属するクラスタに対しては、指定文書から抽出した特徴語そのものを分類ラベルとして付与し、その分類ラベルが付与されたクラスタが、指定文書から抽出した特徴語が属するクラスタであることを判別できる形式で、文書の分類結果を提示する。したがって、ユーザの意図を反映させたかたちで文書の分類を行うことができるとともに、文書の分類結果を、ユーザに対して分かり易く提示することができる。

＜第３の実施の形態＞
　図１９は、第３実施形態の文書分類装置を示すブロック図である。なお、第１実施形態と共通の構成については同一の符号を付している。第３実施形態の文書分類装置は、図１９に示すように、記憶装置１ｂと、データ処理装置２ｂと、入出力装置３ｂと、を備える。記憶装置１ｂ、データ処理装置２ｂ、および入出力装置３ｂは、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置１ｂ、データ処理装置２ｂ、および入出力装置３ｂは、単一の情報処理装置により実現されていてもよい。

　記憶装置１ｂは、文書記憶部１０１、意図辞書記憶部１０２、およびシソーラス記憶部１０３に加えて、観点辞書記憶部１０５を備える。

　観点辞書記憶部１０５は、意図表現の対象となる観点の辞書を格納する。観点の辞書は、文書の分類のための観点表現を記述している。観点表現とは、文書分析の視点を表す表現である。

　図２０は、観点辞書記憶部１０５に格納された観点の辞書の一例を示す図である。観点辞書記憶部１０５は、観点表現そのものだけでなく、観点表現の種類を組にした観点の辞書を格納してもよい。図２０では、「料金」の観点表現の種類に対して「料金」、「値段」、「価格」の観点表現、「サービス」の観点表現の種類に対して「サービス」、「従業員」、「接客」の観点表現、「立地」の観点表現の種類に対して「立地」、「駅前」、「駅近」の観点表現が、観点の辞書として観点辞書記憶部１０５に格納された例を示している。

　観点辞書記憶部１０５には、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　データ処理装置２ｂは、第１実施形態の特徴語抽出手段２０１に代えて特徴語抽出手段２０１ｂを備えるとともに、第１実施形態の分類ラベル付与手段２０４に代えて分類ラベル付与手段２０４ｂを備える。

　特徴語抽出手段２０１ｂは、第１実施形態の特徴語抽出手段２０１と同様に、意図表現の対象となる語句のうち選択された語句を特徴語として抽出する。ただし、特徴語抽出手段２０１ｂは、意図表現の対象となる語句のうち、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現を、特徴語として優先的に抽出する。

　図２１は、図２０に示した観点表現を用いて、図２に示した文書集合に含まれる分類対象の各文書から抽出した特徴語の一例を示す図である。なお、ここでは図２に示したすべての文書が分類対象であり、図２０に示した観点表現のすべてを用いて文書を分類するものとする。

　特徴語抽出手段２０１ｂが抽出した特徴語は、例えば、図２１に示すように、抽出元の文書を表す文書ＩＤと関連付けて保持される。また、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語は、観点表現の種類と関連付けて保持される。図２１に示す例では、文書ＩＤがＤ１の文書から抽出された特徴語のうち、「サービス」という種類に含まれる「接客」が、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書ＩＤがＤ２の文書から抽出された特徴語のうち、「サービス」という種類に含まれる「従業員」および「接客」が、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書ＩＤがＤ６の文書から抽出された特徴語のうち、「料金」という種類に含まれる「料金」と、「立地」という種類に含まれる「駅前」とが、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。また、文書ＩＤがＤ７の文書や文書ＩＤがＤ８の文書から抽出された特徴語のうち、「料金」という種類に含まれる「料金」が、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語であることが示されている。

　分類ラベル付与手段２０４ｂは、第１実施形態の分類ラベル付与手段２０４と同様に、文書が分類されたクラスタである文書クラスタに対して、そのクラスタに属する特徴語を代表する語句を分類ラベルとして付与する。ただし、分類ラベル付与手段２０４ｂは、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタについては、その観点表現の種類を表す語句を分類ラベルとして優先的に選択する。

　図２２は、分類ラベル付与手段２０４ｂにより付与された分類ラベルの一例を示す図である。図２２の例では、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現である「接客」や「従業員」が属するクラスタ（文書クラスタＩＤがＣ１のクラスタ）に対しては、「接客」や「従業員」の種類を表す「サービス」という語句が、分類ラベルとして付与されている。また、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現である「料金」が属するクラスタ（文書クラスタＩＤがＣ２のクラスタ）に対しては、「料金」の種類を表す「料金」という語句が、分類ラベルとして付与されている。また、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現である「駅前」が属するクラスタ（文書クラスタＩＤがＣ５のクラスタ）に対しては、「駅前」の種類を表す「立地」という語句が、分類ラベルとして付与されている。

　入出力装置３ｂは、分類方法選択手段３０１ｂと、提示手段３０２ｂと、を備える。

　分類方法選択手段３０１ｂは、第１実施形態の分類方法選択手段３０１と同様に、分類対象の文書の選択を受け付ける。ただし、分類方法選択手段３０１ｂは、分類対象の文書の選択だけでなく、観点辞書記憶部１０５が保持する観点表現の種類のうち、文書の分類に用いる観点表現の種類の選択も受け付ける。分類方法選択手段３０１ｂは、ユーザによる分類対象の文書の選択と観点表現の種類の選択を受け付けて、どの文書が分類対象として選択され、文書の分類に用いる観点表現の種類としてどの種類が選択されたかを明示的にデータ処理装置２ｂに送信するための機能、例えば送信用のボタンなどを持つ。例えば、ユーザが任意のクエリを入力すると、文書記憶部１０１に格納された文書集合に含まれる文書のうち、入力されたクエリに対応する文書の集合を分類対象として選択するとともに、観点辞書記憶部１０５が保持する観点表現の種類のうち、入力されたクエリに対応する観点表現の種類を選択して、分類対象として選択した文書や文書の分類に用いる観点表現の種類を明示する情報をデータ処理装置２ｂに送信するといった方法を用いることができる。この分類方法選択手段３０１ｂからの情報がデータ処理装置２ｂに送信されると、データ処理装置２ｂの特徴語抽出手段２０１ｂが処理を開始する。

　提示手段３０２ｂは、第１実施形態の提示手段３０２と同様に、文書分類手段２０３による文書の分類結果を、分類ラベル付与手段２０４ｂにより付与された分類ラベルと対応付けた情報として、ユーザに提示する。ただし、提示手段３０２ｂは、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタについては、そのクラスタが、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを判別できる形式で提示する。観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタを判別できる形式で提示する例としては、例えば、分類ラベルに所定のアイコンを併記するといった例が挙げられる。

　図２３－１乃至図２３－３は、提示手段３０２ｂによる情報の提示例を示す図である。図２３－１乃至図２３－３に示す例は、文書数を付したアイコンと分類ラベルとの組み合わせと、各クラスタに属する特徴語とを対応付けた表示情報を表示するようにした例である。図９－１に示した第１実施形態の提示手段３０２による情報の提示例と比較すると、「予約、サービス」、「料金、値段」、「その他、立地、印象、空調」の各分類ラベルに対して、これらの分類ラベルが付与されたクラスタが、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを示す眼鏡のアイコンが併記されている。また、図２３－２に示す例は、眼鏡のアイコンが併記された分類ラベルが上位に並ぶように、分類結果の並び順を入れ替えた例である。この図２３－２に示す例のように、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタを繰り上げたかたちで、分類結果の情報を提示することもできる。また、図２３－３に示す例は、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタのみを表した提示例である。特徴語抽出手段２０１ｂが、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語のみを抽出する場合は、図２３－３に示す例のように分類結果の情報が提示される。

　以上、具体的な例を挙げながら詳細に説明したように、第３実施形態の文書分類装置によれば、分類対象の文書に含まれる意図表現の対象となる語句のうち、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する語句を、特徴語として優先的に抽出する。そして、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタに対しては、その観点表現の種類を表す語句を分類ラベルとして付与し、その分類ラベルが付与されたクラスタが、観点辞書記憶部１０５が格納する観点の辞書に含まれる観点表現と一致する特徴語が属するクラスタであることを判別できる形式で、文書の分類結果を提示する。したがって、ユーザの意図を反映させたかたちで文書の分類を行うことができるとともに、文書の分類結果を、ユーザに対して分かり易く提示することができる。

＜第４実施形態＞
　図２４は、第４実施形態の文書分類装置を示すブロック図である。なお、第１実施形態と共通の構成については同一の符号を付している。第４実施形態の文書分類装置は、図２４に示すように、記憶装置１ｃと、データ処理装置２と、入出力装置３と、を備える。データ処理装置２および入出力装置３は、第１実施形態のものと同様である。記憶装置１ｃ、データ処理装置２、および入出力装置３は、有線または無線により相互に情報の授受が可能に接続されている。なお、記憶装置１ｃ、データ処理装置２、および入出力装置３は、単一の情報処理装置により実現されていてもよい。

　記憶装置１ｃは、第１実施形態の文書記憶部１０１に代えて、文書記憶部１０１ｃを備える。

　文書記憶部１０１ｃは、意図表現ごとに文書要素に分離されている構造化文書の文書集合を、分類の対象となる文書集合として格納する。

　図２５は、文書記憶部１０１ｃに格納された文書集合の一例を示す図である。文書集合に含まれる構造化文書は、例えば、Ｗｅｂページ文書、業務上作成された文書、特許公報などの文書が、意図表現ごとに文書要素に分離されたかたちで格納される。文書記憶部１０１ｃは、構造化文書そのものだけでなく、文書ＩＤを組にして格納してもよい。図２５では、文書ＩＤがＤ１の構造化文書から文書ＩＤがＤ３の構造化文書までを含む文書集合が文書記憶部１０１ｃに格納された例を示している。文書ＩＤがＤ１の構造化文書は、「広い」、「取れない」、「いい」の意図表現ごとに文書要素を持つ。また、文書ＩＤがＤ２の構造化文書は、「笑顔」、「いい」、「おいしい」、「良心的」、「イライラ」の意図表現ごとに文書要素を持つ。また、文書ＩＤがＤ３の構造化文書は、「多い」の意図表現に対応した文書要素を持つ。

　文書記憶部１０１ｃには、例えば、ハードディスクやフラッシュメモリなどを用いることができる。

　第４実施形態の文書分類装置において、データ処理装置２の特徴語抽出手段２０１は、第１実施形態と同様に、文書集合に含まれる分類対象の各文書から意図表現の対象となる語句を抽出し、意図表現の対象となる語句の中から、予め定めた基準に従って選択された語句を特徴語として抽出する。このとき、第４実施形態では、分類対象の文書が、意図表現ごとに文書要素に分離された構造化文書であるため、特徴語抽出手段２０１は各文書の文書要素から特徴語を抽出すればよく、処理が簡便になる。

　以上のように、第４実施形態の文書分類装置によれば、分類対象の文書が構造化文書として文書記憶部１０１ｃに格納されているので、第１実施形態の効果に加えて、分類対象の文書から特徴語を抽出する処理を簡便に行って、文書の分類を効率良く行うことができるという効果が得られる。

　以上説明した各実施形態において、データ処理装置２，２ａ，２ｂが備える上述した各機能は、例えば、データ処理装置２，２ａ，２ｂが所定のプログラムを実行することにより実現できる。このときのデータ処理装置２，２ａ，２ｂのハードウェア構成について、図２６を用いて説明する。図２６は、データ処理装置２，２ａ，２ｂのハードウェア構成例を示す説明図である。

　データ処理装置２，２ａ，２ｂは、ＣＰＵ（Central　Processing　Unit）５１などの制御装置と、ＲＯＭ（Read　Only　Memory）５２やＲＡＭ（Random　Access　Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard　Disk　Drive）、ＣＤ（Compact　Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

　上記のようなハードウェア構成を有するデータ処理装置２，２ａ，２ｂで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact　Disk　Read　Only　Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact　Disk　Recordable）、ＤＶＤ（Digital　Versatile　Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

　また、データ処理装置２，２ａ，２ｂで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、データ処理装置２，２ａ，２ｂで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

　また、データ処理装置２，２ａ，２ｂで実行されるプログラムを、データ処理装置２，２ａ，２ｂのＲＯＭ５２等に予め組み込んで提供するように構成してもよい。

　データ処理装置２，２ａ，２ｂで実行されるプログラムは、データ処理装置２，２ａ，２ｂの各手段（特徴語抽出手段２０１（２０１ａ，２０１ｂ）、特徴語クラスタリング手段２０２（２０２ａ）、文書分類手段２０３（２０３ａ）、分類ラベル付与手段２０４（２０４ａ，２０４ｂ）など）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ５１（プロセッサ）が記憶媒体からプログラムを読み出して実行することにより、上記の各手段が主記憶装置上にロードされ、上記の各手段が主記憶装置上に生成されるようになっている。

　以上述べた少なくとも一つの実施形態の文書分類装置によれば、分類されたクラスタの数が多くなりすぎたり、クラスタごとに分類される文書数に大きな偏りがあったりといった弊害を有効に抑制し、文書の分類結果を、ユーザに対して分かり易く提示することができる。　

　なお、以上述べた各実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　文書集合に含まれる文書から特徴語を抽出する特徴語抽出手段と、
　抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする特徴語クラスタリング手段と、
　前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する文書分類手段と、
　前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する分類ラベル付与手段と、
　前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する提示手段と、を備えることを特徴とする文書分類装置。
　前記特徴語抽出手段は、意図表現の対象となる語句から、予め定めた基準に従って選択された語句を、前記特徴語として抽出することを特徴とする請求項１に記載の文書分類装置。
　前記特徴語抽出手段は、意図表現の対象となる語句から、出現頻度に基づいて計算される重みが所定値以上となる語句を、前記特徴語として抽出することを特徴とする請求項２に記載の文書分類装置。
　前記提示手段は、前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと、分類されたクラスタに属する前記特徴語とに対応付けて提示することを特徴とする請求項２に記載の文書分類装置。
　前記提示手段は、前記文書の分類結果に対応付けて提示する前記特徴語を、該特徴語の抽出に用いた前記意図表現の種類ごとに区別できる形式で提示することを特徴とする請求項４に記載の文書分類装置。
　前記特徴語抽出手段は、前記文書集合に含まれる前記文書以外の指定された文書である指定文書から前記特徴語をさらに抽出し、
　前記特徴語クラスタリング手段は、前記指定文書から前記特徴語が抽出された場合、１つの前記指定文書から抽出された前記特徴語を１つのクラスタにクラスタリングし、
　前記文書分類手段は、前記文書集合に含まれる前記文書に前記指定文書から抽出された前記特徴語が出現する場合、該文書を前記指定文書から抽出された前記特徴語が属するクラスタに分類することを特徴とする請求項１に記載の文書分類装置。
　意図表現の対象となる観点の辞書を格納する観点辞書記憶手段をさらに備え、
　前記特徴語抽出手段は、意図表現の対象となる語句のうち、前記観点の辞書に含まれる語句を、前記特徴語として抽出することを特徴とする請求項２に記載の文書分類装置。
　前記文書集合に含まれる文書は、意図表現ごとに文書要素に分離された構造化文書であり、
　前記特徴語抽出手段は、前記文書要素から前記特徴語を抽出することを特徴とする請求項２に記載の文書分類装置。
　前記特徴語クラスタリング手段は、前記シソーラスにおいて１つの部分木を構成しない複数の前記特徴語を１つのクラスタにクラスタリングし、
　前記分類ラベル付与手段は、前記シソーラスにおいて１つの部分木を構成しない複数の前記特徴語が属するクラスタに対して、該クラスタがシソーラスの１つの部分木を構成しない複数の前記特徴語の集合であることを表す分類ラベルを付与することを特徴とする請求項１に記載の文書分類装置。
　文書集合に含まれる文書から特徴語を抽出するステップと、
　抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングするステップと、
　前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類するステップと、
　前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与するステップと、
　前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示するステップと、を備えることを特徴とする文書分類方法。
　コンピュータに、
　文書集合に含まれる文書から特徴語を抽出する機能と、
　抽出した前記特徴語を、木構造を有するシソーラスの部分木を構成する複数のクラスタであって、一のクラスタに属する前記特徴語が出現する前記文書の数と、他のクラスタに属する前記特徴語が出現する前記文書の数との差が、予め定めた基準値以下となる複数のクラスタにクラスタリングする機能と、
　前記文書集合に含まれる前記文書を、該文書に出現する前記特徴語が属するクラスタに分類する機能と、
　前記複数のクラスタのそれぞれに、各クラスタに属する前記特徴語を代表する語句である分類ラベルを付与する機能と、
　前記文書の分類結果を、分類されたクラスタに付与された前記分類ラベルと対応付けて提示する機能と、を実現させるプログラム。