WO2014141452A1

WO2014141452A1 - 文書分析装置及び文書分析プログラム

Info

Publication number: WO2014141452A1
Application number: PCT/JP2013/057300
Authority: WO
Inventors: 泰成宮部; 後藤　和之; 松本　茂; 早織新田; 磯部　庄三; 誠二江川
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2014-09-18
Also published as: US20160055238A1; JP6039057B2; JPWO2014141452A1; US10713292B2

Abstract

　実施形態の文書分析装置は、単語を含む複数の第１文書であって、階層構造を構成する複数のカテゴリの各々に属し、所望の対象に対する意見文書だけからなる複数の第１文書を記憶する第１文書記憶手段と、単語を含む複数の第２文書であって、階層構造を構成する複数のカテゴリの各々に属し、又は、属さず、所望の対象に対する意見文書と当該意見文書以外の文書とからなる複数の第２文書を記憶する第２文書記憶手段とを備えて、前記第２文書記憶手段に記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属さない第２文書を、階層構造を構成するいずれかのカテゴリに分類可能な装置である。

Description

文書分析装置及び文書分析プログラム

　本発明の実施形態は、文書分析装置及び文書分析プログラムに関する。

　一般に、企業や製品に対するユーザの声を分析する手法として、コンタクトセンタに寄せられた問い合わせを分析する手法がある。この手法では、コンタクトセンタで収集した文書（例、アンケートなど）に記述されたユーザの主観的な意見を効率的に分析するために、辞書を用いて当該収集した文書に記述された内容、すなわち、ユーザの発言の意図を、要望、疑問、不満及び予想外の観点で分類し、この分類結果と評価軸との観点から分析する。

　しかしながら、コンタクトセンタに寄せられた問い合わせの分析は、問い合わせという行為を面倒に思わないユーザの声の分析しかできないという不都合がある。

　一方で、現在、ブログや掲示板、Twitter（登録商標）、Facebook（登録商標）といったソーシャルメディアを用いて、ユーザが、自由な意見や感想を含む文書（情報）を発信する機会が増加する傾向にある。この文書には、企業や製品に対する意見や感想が含まれることもあり、これらソーシャルメディアで話題となっている内容は、将来的に、コンタクトセンタに問い合わせとして寄せられる可能性が高いものと考えられる。

　多数存在するソーシャルメディアの中でも、特にTwitterやFacebookなどのソーシャルネットワーキングサービスは、ユーザが手軽に文書を発信することが可能で、文書の発信頻度や速報性が高いという特長がある。

　このため、ソーシャルメディアで話題となっている内容の文書を収集し、当該文書を分析することで、当該文書の内容を事前に把握できる、つまり、将来的にコンタクトセンタに寄せられると考えられる問い合わせに対しての応対方法を事前に検討することができる。このことから、近年、コールセンタが設置されるコールセンタ部門では、ソーシャルメディアに発信された文書を適切に分析する技術が重要となってきている。

特開２０１２－３５７２号公報特開２００５－１８２６１１号公報

　しかしながら、ソーシャルメディアに発信される文書は、砕けた表現（つまり、未知の内容）を用いた文書であることが多々あるため、従来の技術では、当該文書を適切に分析し、当該文書を適切な分類体系に分類することができないという不都合がある。

　本発明が解決しようとする課題は、ソーシャルメディアに発信された文書に砕けた表現を用いた文書が含まれていたとしても、当該文書を適切に分析し、当該文書を適切な分類体系に分類し得る文書分析装置及び文書分析プログラムを提供することである。

　前記文書分析装置は、文書抽出手段、意見文書分類手段、既存カテゴリ分類手段、文書クラスタリング手段及びカテゴリ判定手段を備えている。

　前記文書抽出手段は、ユーザの操作に応じて入力を受け付けた条件に従って、当該条件を満たす前記第１文書及び前記第２文書を前記第１文書記憶手段及び前記第２文書記憶手段から抽出する。

　前記意見文書分類手段は、前記抽出された第１文書と、前記抽出された第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記抽出された第２文書のうち、当該複数のカテゴリの各々に属さない第２文書を前記意見文書と前記意見文書以外の文書とに分類する。

　前記既存カテゴリ分類手段は、前記記憶された複数の第１文書と、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記分類された意見文書を、当該教師文書が属する複数のカテゴリのいずれかに分類する。

　前記文書クラスタリング手段は、前記既存カテゴリ分類手段によって、いずれのカテゴリにも分類されない意見文書を対象にして文書クラスタリング処理を実行し、新規なカテゴリを作成すると共に、当該新規なカテゴリに当該意見文書を分類する。

　前記カテゴリ判定手段は、前記記憶された複数の第１文書が属する複数のカテゴリと、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書が属する当該複数のカテゴリとを教師文書として、前記作成された新規なカテゴリが、当該教師文書が属する複数のカテゴリのいずれかに従属する子カテゴリとなるか否かを判定する。

図１は本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。図２は同実施形態に係る文書分析装置の主として機能構成を示すブロック図である。図３は同実施形態に係る第１文書記憶部に記憶される第１文書のデータ構造の一例を示す模式図である。図４は同実施形態に係る第２文書記憶部に記憶される第２文書のデータ構造の一例を示す模式図である。図５は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図６は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図７は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図８は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図９は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図１０は同実施形態に係る第２文書分類結果記憶部に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。図１１は同実施形態に係る文書分析装置の動作の一例を示すフローチャートである。図１２はディスプレイに表示される検索画面の一例を示す模式図である。図１３は同実施形態に係る意見文書判定部によって複数の未分類の第２文書を意見文書と意見文書以外の文書とに分類する処理の一例を示す模式図である図１４は同実施形態に係る既存カテゴリ分類部の動作の一例を示すフローチャートである。図１５は同実施形態に係る既存カテゴリ分類部の動作の一例を示すフローチャートである。図１６は同実施形態に係る既存カテゴリ分類部の動作の一例を示すフローチャートである。図１７は同実施形態に係る既存カテゴリ分類部の動作の一例を示すフローチャートである。図１８は同実施形態に係る既存カテゴリ分類部によって意見文書が既存のカテゴリのいずれかに分類される処理の一例を示す模式図である。図１９は同実施形態に係る文書クラスタリング部の動作の一例を示すフローチャートである。図２０は同実施形態に係る文書クラスタリング部によって実行される文書クラスタリング処理の一例を示す模式図である。図２１は同実施形態に係る親カテゴリ判定部の動作の一例を示すフローチャートである。図２２は同実施形態に係る親カテゴリ判定部により新規な子カテゴリを既存の親カテゴリのいずれかに分類させる処理の一例を示す模式図である。図２３は同実施形態に係る新規カテゴリ判定部の動作の一例を示すフローチャートである。図２４は同実施形態に係る新規カテゴリ判定部により新規な子カテゴリを新たなカテゴリとして認定する処理の一例を示す模式図である。図２５はディスプレイに表示される分類結果画面の一例を示す模式図である。

　以下、図面を参照して、実施形態について説明する。

　図１は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。なお、文書分析装置は、当該装置の各機能を実現するためのハードウェア構成、またはハードウェアとソフトウェアとの組み合わせ構成として実現されている。ソフトウェアは、予め記憶媒体またはネットワークからインストールされ、文書分析装置にその機能を実現させるためのプログラムからなる。

　図１に示すように、文書分析装置１０は、記憶装置１１、キーボード１２、マウス１３、中央演算装置１４およびディスプレイ１５を備える。

　記憶装置１１は、中央演算装置１４から読み出しまたは書き込みが可能な記憶装置であり、例えばＲＡＭ（Random Access Memory）である。記憶装置１１には、予め中央演算装置１４によって実行されるプログラム（文書分析プログラム）が記憶されている。

　キーボード１２およびマウス１３は、入力装置であり、例えば文書分析装置１０の操作者（ユーザ）の操作により、データまたは命令からなる各種情報を中央演算装置１４に入力する。

　中央演算装置１４は、例えばＣＰＵ（プロセッサ）であり、記憶装置１１に記憶されているプログラムを実行する機能と、キーボード１２またはマウス１３から入力される情報に基づいて各処理の実行を制御する機能と、実行結果をディスプレイ１５に出力する機能とを有する。

　ディスプレイ１５は、表示装置であり、例えば編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化する機能を有する。また、ディスプレイ１５は、中央演算装置１４から出力された情報を表示する機能を有する。

　なお、文書分析装置１０は、例えば本実施形態に係る文書分析プログラムが適用された計算機によって実現される。

　図２は、本実施形態に係る文書分析装置１０の主として機能構成を示すブロック図である。

　図２に示すように、文書分析装置１０は、第１文書記憶部１００、第２文書記憶部１１０、第２文書分類結果記憶部１２０、ユーザインタフェース部１３０及び第２文書分類部１４０を備えている。なお、第１文書記憶部１００、第２文書記憶部１１０及び第２文書分類結果記憶部１２０は、例えば図示しない外部記憶装置等に格納される。また、ユーザインタフェース部１３０及び第２文書分類部１４０は、文書分析装置１０のコンピュータ（中央演算装置１４）が記憶装置１１に記憶されている文書分析プログラムを実行することにより実現される。

　第１文書記憶部１００には、文書分析装置１０による分析の対象となる複数の第１文書が記憶される。第１文書は、企業や製品に対する顧客からの意見文書であり、一例としては、コンタクトセンタに寄せられた問い合わせ内容を記述したコールログの文書などが挙げられる。

　第２文書記憶部１１０には、文書分析装置１０による分析の対象となる複数の第２文書が記憶される。第２文書は、ブログや掲示板、TwitterやFacebook等のいわゆるソーシャルメディアに投稿された文書であり、上記した第１文書とは異なり、企業や製品に対する顧客からの意見文書だけでなく、当該意見文書以外の文書（例えば、「今日は晴れです。」といった内容の文書等）も含む文書である。なお、第２文書記憶部１１０に記憶されている複数の第２文書には、後述する第２文書分類結果記憶部１２０に記憶されているカテゴリ情報により示されるカテゴリのいずれかに分類済の第２文書と未分類の第２文書とが含まれる。なお、以下の説明において、単に第２文書と表記したときは、分類済の第２文書と未分類の第２文書との両者を示すものとする。

　第１文書記憶部１００及び第２文書記憶部１１０には、第１文書及び第２文書が逐次記憶される。

　第２文書分類結果記憶部１２０には、第２文書記憶部１１０に記憶されている複数の分類済の第２文書が分類されたカテゴリの各々を示すカテゴリ情報（つまり、当該複数の第２文書の分類結果）が記憶される。具体的には、第２文書分類結果記憶部１２０には、例えば第２文書が有する項目の内容に基づいて第２文書記憶部１１０に記憶されている複数の第２文書が分類された結果が記憶される。

　ユーザインタフェース部１３０は、図２に示すように、検索部１３１及び可視化部１３２を更に備えている。

　検索部１３１は、ユーザの操作に応じて入力を受け付けた条件に従って、第１文書記憶部１００に記憶されている分析対象の複数の第１文書や、第２文書記憶部１１０に記憶されている分析対象の複数の第２文書を検索し、当該条件を満たす第１文書及び第２文書を各記憶部１００及び１１０から抽出する機能を有する。

　可視化部１３２は、検索部１３１によって抽出された第１文書及び第２文書の分類結果（つまり、当該抽出された第１文書及び第２文書のカテゴリ）を、図１に示すディスプレイ１５に出力し、表示（可視化）させる機能を有する。これにより、検索部１３１によって抽出された第１文書及び第２文書の分類結果は、ユーザに対して提示される。

　第２文書分類部１４０は、図２に示すように、意見文書判定部１４１、既存カテゴリ分類部１４２、文書クラスタリング部１４３、親カテゴリ判定部１４４及び新規カテゴリ判定部１４５を更に備えている。

　意見文書判定部１４１は、検索部１３１によって抽出された第２文書のうち、未分類の第２文書を意見文書と意見文書以外の文書とに分類する機能を有する。

　既存カテゴリ分類部１４２は、第１文書記憶部１００に記憶されている複数の第１文書と、第２文書記憶部１１０に記憶されている複数の第２文書のうちの分類済の第２文書とを教師文書として、意見文書判定部１４１によって分類された意見文書を、当該教師文書が属する複数のカテゴリのいずれかに分類する機能を有する。

　文書クラスタリング部１４３は、既存カテゴリ分類部１４２によって、いずれのカテゴリにも分類されない意見文書を対象にして文書クラスタリング処理を実行し、新規なカテゴリを作成すると共に、当該新規なカテゴリに当該意見文書を分類する機能を有する。

　親カテゴリ判定部１４４は、第１文書記憶部１００に記憶されている複数の第１文書が属する複数のカテゴリと、第２文書記憶部１１０に記憶されている複数の分類済の第２文書が属する複数のカテゴリとを教師文書として、文書クラスタリング部１４３によって作成された新規なカテゴリが、当該教師文書が属する複数のカテゴリのいずれかに従属する子カテゴリとなるか否かを判定する機能を有している。

　新規カテゴリ判定部１４５は、文書クラスタリング部１４３によって作成された新規なカテゴリを、第１文書記憶部１００に記憶されている複数の第１文書が属する複数のカテゴリと第２文書記憶部１１０に記憶されている複数の分類済の第２文書が属する複数のカテゴリとからなる分類体系に新たなカテゴリとして加える機能を有する。

　図３は、図２に示す第１文書記憶部１００に記憶される第１文書のデータ構造の一例を示す模式図である。図３に示す例では、第１文書には、当該第１文書が有する項目の項目名として、第１文書を識別するための文書番号、当該第１文書に関する問い合わせの対象である製品の種類、当該第１文書の内容である本文、問い合わせ日、当該第１文書の内容に関する顧客の意図を示す問い合わせ種類、当該第１文書の内容に関する顧客の意見を示す問い合わせ大分類、当該問い合わせ大分類により示される顧客の意見をより詳細に示す問い合わせ中分類が含まれている。

　また、第１文書には、例えば項目名「文書番号」に対応づけて内容「ｄ０１」が含まれている。これによれば、第１文書を識別するための文書番号が「ｄ０１」であることが示されている。ここでは、項目名「文書番号」（に対応づけられている内容）について説明したが、第１文書には、他の項目についても同様に項目名に対応づけて内容が含まれている。なお、項目名「本文」に対応づけて第１文書に含まれる内容には、複数の単語からなるテキストが含まれており、例えば、顧客からの意見及び顧客の意図が含まれる。

　ここでは、第１文書について説明したが、第１文書記憶部１００には、複数の第１文書が記憶されている。また、第１文書記憶部１００に記憶されている第１文書は、上記した図３に示す第１文書が有する項目の全てを有していなくてもよいし、他の項目を有していてもよい。

　図４は、図２に示す第２文書記憶部１１０に記憶される第２文書のデータ構造の一例を示す模式図である。図４に示す例では、第２文書１１１には、当該第２文書１１１が有する項目の項目名として、第２文書１１１を識別するための文書番号と、当該第２文書１１１の内容である本文と、当該第２文書１１１を投稿したソーシャルメディアを利用するユーザのユーザ名と、当該第２文書１１１が投稿された投稿日時とが含まれている。

　また、第２文書１１１には、例えば項目名「文書番号」に対応づけて内容「ｓ０１」が含まれている。これによれば、第２文書１１１を識別するための文書番号が「ｓ０１」であることが示されている。ここでは、項目名「文書番号」（に対応づけられている内容）について説明したが、第２文書１１１には、他の項目についても同様に項目名に対応づけて内容が含まれている。なお、項目名「本文」に対応づけて第２文書１１１に含まれる内容には、複数の単語からなるテキストが含まれている。図４に示す第２文書１１１の場合、項目名が「本文」である項目の内容には、例えば「Ａ製品はまじー。」といった製品に対するユーザの意見などが含まれる。

　ここでは、第２文書１１１について説明したが、第２文書記憶部１１０には、複数の第２文書が記憶されている。また、第２文書記憶部１１０に記憶されている第２文書は、上記した図４に示す第２文書１１１が有する項目の全てを有していなくてもよいし、他の項目を有していてもよい。

　図５～図１０は、図２に示す第２文書分類結果記憶部１２０に記憶されるカテゴリ情報のデータ構造の一例を示す模式図である。第２文書分類結果記憶部１２０に記憶されているカテゴリ情報は、第２文書記憶部１１０に記憶されている第２文書が分類されたカテゴリ（つまり、複数の分類済の第２文書のカテゴリ）を示す。なお、第２文書分類結果記憶部１２０に記憶されているカテゴリ情報によって示されるカテゴリは、例えば階層構造を構成する。なお、本実施形態において、第２文書記憶部１２０に記憶されている第２文書が分類されたカテゴリは予め作成され、当該カテゴリを示すカテゴリ情報が第２文書分類結果記憶部１２０に記憶されているものとする。また、カテゴリは、例えば第２文書記憶部１１０に記憶されている複数の第２文書をクラスタリングすることによって作成されてもよい。

　図５～図１０に示すように、カテゴリ情報には、カテゴリ番号、親カテゴリ番号、カテゴリ名及び文書番号が含まれる。なお、図８に示すように、カテゴリ情報には、必要に応じて条件が含まれていても構わない。

　カテゴリ番号は、カテゴリを一意に識別するための識別子である。親カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの一階層上位に位置するカテゴリ（親カテゴリ）を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。文書番号は、カテゴリ番号によって識別されるカテゴリに分類された第２文書を識別するための文書番号を示す。また、条件は、カテゴリ番号によって識別されるカテゴリに分類される文書が満たすべき条件を示す。

　図５に示す例では、カテゴリ情報１２１には、カテゴリ番号「ｃ０１」、親カテゴリ番号「（なし）」、カテゴリ名「（ルート）」及び文書番号「ｓ１０，ｓ１１，ｓ１２，…」が含まれている。このカテゴリ情報１２１によれば、カテゴリ番号「ｃ０１」によって識別されるカテゴリのカテゴリ名が「（ルート）」であることが、つまり、当該カテゴリがカテゴリの階層構造におけるルートのカテゴリ（以下、ルートカテゴリと表記）であることが示されている。なお、親カテゴリ番号「（なし）」は、階層構造においてカテゴリ番号「ｃ０１」によって識別されるカテゴリ（ルートカテゴリ）の親カテゴリは存在しないことが示されている。また、カテゴリ番号「ｃ０１」によって識別されるルートカテゴリには、文書番号「ｓ１０」、「ｓ１１」及び「ｓ１２」等によって識別される第２文書が分類されていることが示されている。

　図６に示す例では、カテゴリ情報１２２には、カテゴリ番号「ｃ０２」、親カテゴリ番号「ｃ０１」、カテゴリ名「意見文書」及び文書番号「（なし）」が含まれている。このカテゴリ情報１２２によれば、カテゴリ番号「ｃ０２」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、図５に示すカテゴリ情報１２１によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０２」によって識別されるカテゴリのカテゴリ名が「意見文書」であることが示されている。更に、文書番号「（なし）」は、カテゴリ番号「ｃ０２」によって識別されるカテゴリには文書が分類されていないことが示されている。なお、以下に説明するカテゴリ情報に含まれる文書番号「（なし）」についても同様であるため、その説明については省略する。

　図７に示す例では、カテゴリ情報１２３には、カテゴリ番号「ｃ０４」、親カテゴリ番号「ｃ０２」、カテゴリ名「味別」及び文書番号「（なし）」が含まれている。このカテゴリ情報１２３によれば、カテゴリ番号「ｃ０４」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０２」によって識別されるカテゴリ（つまり、図６に示すカテゴリ情報１２２によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０４」によって識別されるカテゴリのカテゴリ名が「味別」であることが示されている。

　図８に示す例では、カテゴリ情報１２４には、カテゴリ番号「ｃ０３」、親カテゴリ番号「ｃ０４」、カテゴリ名「まずい」、文書番号「ｓ０１，ｓ１５，ｓ２３，ｓ３６，…」及び条件「本文contains“まずい”」が含まれている。このカテゴリ情報１２４によれば、カテゴリ番号「ｃ０３」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０４」によって識別されるカテゴリ（つまり、図７に示すカテゴリ情報１２３によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０３」によって識別されるカテゴリのカテゴリ名が「まずい」であることが示されている。更に、カテゴリ番号「ｃ０３」によって識別されるカテゴリには、条件「本文contains“まずい”」を満たす第２文書、つまり、文書番号「ｓ０１」、「ｓ１５」、「ｓ２３」及び「ｓ３６」等によって識別される第２文書が分類されていることが示されている。なお、条件「本文contains“まずい”」は、第２文書が項目名「本文」の内容として「まずい」を含むことを示している。

　図９に示す例では、カテゴリ情報１２５には、カテゴリ番号「ｃ３１」、親カテゴリ番号「ｃ０１」、カテゴリ名「価格別」及び文書番号「ｓ０７，ｓ２３，ｓ５８，…」が含まれている。このカテゴリ情報１２５によれば、カテゴリ番号「ｃ３１」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、図５に示すカテゴリ情報１２１によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３１」によって識別されるカテゴリのカテゴリ名が「価格別」であることが示されている。更に、カテゴリ番号「ｃ３１」によって識別されるカテゴリには、文書番号「ｓ０７」、「ｓ２３」及び「ｓ５８」等によって識別される第２文書が分類されていることが示されている。

　図１０に示す例では、カテゴリ情報１２６には、カテゴリ番号「ｃ３２」、親カテゴリ番号「ｃ０１」、カテゴリ名「健康別」及び文書番号「ｓ１５，ｓ３２，ｓ６９，…」が含まれている。このカテゴリ情報１２６によれば、カテゴリ番号「ｃ３２」によって識別されるカテゴリの親カテゴリがカテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、図５に示すカテゴリ情報１２１によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３２」によって識別されるカテゴリのカテゴリ名が「健康別」であることが示されている。更に、カテゴリ番号「ｃ３２」によって識別されるカテゴリには、文書番号「ｓ１５」、「ｓ３２」及び「ｓ６９」等によって識別される第２文書が分類されていることが示されている。

　次に、以上のように構成された文書分析装置１０の動作の一例について、図１１のフローチャートを参照しながら説明する。

　始めに、ユーザインタフェース部１３０の検索部１３１は、ユーザの操作に応じて、検索キーワード（検索条件）の入力と、第２文書記憶部１１０に記憶されている複数の未分類の第２文書に対して実行する検索処理の対象（項目名）を指定する旨の入力と、第２文書記憶部１１０に記憶されている複数の分類済の第２文書に対して実行する検索処理の検索条件を指定する旨の入力と、第１文書記憶部１００に記憶されている複数の第１文書に対して実行する検索処理の対象（項目名）を指定する旨の入力とを受け付けると、当該入力を受け付けた検索条件に従って検索処理を実行し、当該検索条件を満たす第１文書、未分類の第２文書及び分類済の第２文書を第１文書記憶部１００及び第２文書記憶部１１０から抽出する（ステップＳ１）。

　ここで、図１２は、上記したステップＳ１の処理時に、例えばディスプレイ１５に表示される検索画面の一例を示す模式図である。図１２に示す検索画面には、キーワード入力領域、第１の検索対象指定領域、検索条件指定領域、第２の検索対象指定領域、検索ボタン及びキャンセルボタンが設けられている。図１２に示す例では、キーワード入力領域に検索キーワード「製品Ａ」が入力され、第１の検索対象指定領域では検索対象として項目名「本文」が指定され、検索条件指定領域では検索条件「製品Ａ（２０１２年３月）」が指定され、第２の検索対象指定領域では検索対象として項目名「製品の種類」及び「本文」が指定されている。

　このため、検索部１３１は、第２文書記憶部１１０に記憶されている複数の未分類の第２文書のうち、項目名「本文」に対応づけられている内容に検索キーワード「製品Ａ」という単語を含む複数の未分類の第２文書を第２文書記憶部１１０から抽出する。また、検索部１３１は、第２文書記憶部１１０に記憶されている複数の分類済の第２文書のうち、「２０１２年３月」までに「製品Ａ」に関して、第２文書分類結果記憶部１２０に記憶されているカテゴリ情報により示されるカテゴリのいずれかに分類された複数の分類済の第２文書を第２文書記憶部１１０から抽出する。また、検索部１３１は、第１文書記憶部１００に記憶されている複数の第１文書のうち、項目名「製品の種類」に対応づけられている内容に検索キーワード「製品Ａ」という単語を含む複数の第１文書を第１文書記憶部１００から抽出する。更に、検索部１３１は、第１文書記憶部１００に記憶されている複数の第１文書のうち、項目名「本文」に対応づけられている内容に検索キーワード「製品Ａ」という単語を含む複数の第１文書を第１文書記憶部１００から抽出する。

　なお、検索部１３１による抽出処理の結果は、可視化部１３２によってユーザに対して適宜提示される。

　再び図１１に戻ると、第２文書分類部１４０の意見文書判定部１４１は、検索部１３１によって抽出された複数の未分類の第２文書と複数の分類済の第２文書とを使用して、当該抽出された複数の未分類の第２文書を意見文書と意見文書以外の文書とに分類する（ステップＳ２）。

　ここで、図１３は、意見文書判定部１４１によって複数の未分類の第２文書を意見文書と意見文書以外の文書とに分類される処理の一例を示す模式図である。図１３に示す例では、複数の未分類の第２文書と、複数の分類済の第２文書とを使用して、複数の未分類の第２文書を意見文書と意見文書以外の文書とに分類しており、具体的には、「製品Ａを買った。」という意見文書以外の文書は、第２文書分類結果記憶部１２０に記憶されているカテゴリ情報１２１により示されるルートカテゴリに分類され、「製品Ａはしぶい。」という意見文書は、第２文書分類結果記憶部１２０に記憶されているカテゴリ情報１２２により示されるカテゴリ名「意見文書」のカテゴリに分類される例を示している。

　なお、意見文書と意見文書以外の文書との分類は、ＳＶＭなどの機械学習による公知技術を使用する。例えば、意見文書に含まれる単語と、意見文書以外の文書に含まれる単語とを素性として、ＳＶＭに学習させることで、意見文書と意見文書以外の文書とを分類可能な分類モデルを作成する。この分類モデルを使用することで、逐次記憶される未分類の第２文書、つまり、新たに収集される第２文書を、当該第２文書に含まれる単語を素性として、意見文書と意見文書以外の文書とに分類することができる。公知技術のため、ここではこれ以上の詳細な説明は省略する。

　再び図１１に戻ると、第２文書分類部１４０の既存カテゴリ分類部１４２は、第１文書記憶部１００に記憶されている複数の第１文書と、第２文書記憶部１１０に記憶されている複数の分類済の第２文書とを教師文書として、意見文書判定部１４１によって分類された意見文書を、既存のカテゴリのいずれかに分類する（ステップＳ３）。ここでの既存のカテゴリには、第１文書記憶部１００に記憶されている第１文書の項目名「問い合わせ大分類」及び「問い合わせ中分類」に対応付けられている内容によって示されるカテゴリ（以下、カテゴリｃｃと表記）と、第２文書分類結果記憶部１２０に記憶されているカテゴリ情報に含まれるカテゴリ名により示されるカテゴリ（以下、カテゴリｓｃと表記）とが含まれる。

　ここで、図１４のフローチャートを参照して、既存カテゴリ分類部１４２による上記したステップＳ３の処理の詳細について説明する。

　始めに、既存カテゴリ分類部１４２は、カテゴリｃｃ及びカテゴリｓｃを対応付けて、これらを統合したカテゴリ（以下、統合カテゴリｐと表記）を作成する（ステップＳ１１）。

　具体的には、既存カテゴリ分類部１４２は、第１文書の項目名「問い合わせ大分類」及び「問い合わせ中分類」に対応付けられている内容により示されるカテゴリ（カテゴリｃｃ）と、カテゴリ情報に含まれるカテゴリ名により示されるカテゴリ（カテゴリｓｃ）とが一致する場合に、統合カテゴリｐを作成する。このようにして統合カテゴリｐを作成することで、統合カテゴリｐには、カテゴリｃｃに分類される第１文書と、カテゴリｓｃに分類される第２文書とをあわせた文書が分類される。

　なお、ここでは上記したように、カテゴリｃｃ及びカテゴリｓｃが一致する場合に、第１文書と第２文書とを対応付けたが、例えば、カテゴリｃｃ及びカテゴリｓｃの特徴語を抽出し、当該特徴語が一致した場合に第１文書と第２文書とを対応付けるとしてもよい。

　続いて、既存カテゴリ分類部１４２は、統合カテゴリｐに分類された文書の単語ベクトルを生成する（ステップＳ１２）。

　ここで、図１５～図１７のフローチャートを参照して、既存カテゴリ分類部１４２による上記したステップＳ１２の処理の詳細について説明する。ここでは、既存カテゴリの文書の単語ベクトルと、分類対象の文書の単語ベクトルを生成する処理が必要だが、まとめて処理できるので、その処理手順について説明する。

　なお、図１５に示す処理の対象となるカテゴリｐに分類される第１文書及び第２文書と、既存カテゴリの教師文書をともに文書ｄとする。また、文書ｄは、意見文書判定部１４１によって分類された各意見文書を表し、文書ｄの単語ベクトルを単語ベクトルｖｐｄとする。意見文書判定部１４１によって分類された各文書は、図１３のように階層構造をもったカテゴリに属している。

　始めに、既存カテゴリ分類部１４２は、文書ｄから単語ベクトルｖｐｄを生成する対象となるテキスト（以下、対象テキストと表記）を取得する（ステップＳ３１）。ここでは、対象テキストとして文書ｄに含まれる本文を取得するものとするが、複数の単語からなるテキストが本文以外にも文書ｄに含まれている場合、当該テキストを対象テキストとして取得してもよい。

　続いて、既存カテゴリ分類部１４２は、取得された対象テキストを形態素解析する（ステップＳ３２）。既存カテゴリ分類部１４２は、取得された対象テキストに含まれる単語及び当該単語の品詞を、形態素解析結果に基づいて取得する。

　既存カテゴリ分類部１４２は、取得された単語の各々について以下のステップＳ３３～ステップＳ３６の処理を実行する。以下、この処理の対象となる単語を単語ｔとする。

　次に、既存カテゴリ分類部１４２は、単語ｔの品詞が所定の品詞に該当するか否かを判定する（ステップＳ３３）。ここで、所定の品詞とは、例えば名詞、サ変名詞及び固有名詞をいう。つまり、例えば接続詞または副詞等は所定の品詞には含まれない。

　単語ｔの品詞が所定の品詞であると判定された場合（ステップＳ３３のＹＥＳ）、既存カテゴリ分類部１４２は、単語ｔが予め定められた不要語に該当するか否かを判定する（ステップＳ３４）。ここで、不要語とは、文書の特徴を表さない単語をいう。本実施形態に係る文書ｄとは異なるが、例えば特許文書を文書ｄとするような場合には、「装置」または「手段」のような単語は文書の特徴を表さないため、予め不要語として設定されている。

　単語ｔが予め定められた不要語に該当しないと判定された場合（ステップＳ３４のＮＯ）、既存カテゴリ分類部１４２は、取得された対象テキスト中で単語ｔが出現する頻度（以下、出現頻度ｔｆと表記）を算出する（ステップＳ３５）。

　続いて、既存カテゴリ分類部１４２は、単語ｔを単語ベクトルｖｐｄにおける１つの次元とし、算出された出現頻度ｔｆを当該次元の値とする（ステップＳ３６）。

　次に、上記した形態素解析により得られた単語（対象テキストに含まれる単語）の全てについてステップＳ３３～ステップＳ３６の処理が実行されたか否かが判定される（ステップＳ３７）。

　形態素解析により得られた単語の全てについて処理が実行されていないと判定された場合（ステップＳ３７のＮＯ）、ステップＳ３３に戻って処理が繰り返される。この場合、ステップＳ３３～ステップＳ３６の処理が実行されていない単語を単語ｔとして処理が実行される。

　一方、形態素解析により得られた単語の全てについて処理が実行されたと判定された場合（ステップＳ３７のＹＥＳ）、処理が終了される。

　上記したようにステップＳ３３～ステップＳ３６の処理が形態素解析により得られた全ての単語について実行されることにより、所定の品詞であり、かつ、不要語でない単語を次元とする単語ベクトルｖｐｄが生成される。

　例えば上記した図３に示す第１文書の本文では、「味」という単語が１回出現する、すなわち、当該「味」の出現頻度は１である。したがって、図３に示す第１文書の単語ベクトルにおいては、当該単語ベクトルの１つの次元である「味」の値（当該次元の値）は１である。他の次元（例えば、「Ａ」及び「おいしくない」等）についても同様である。

　一方、上記したステップＳ３３において単語ｔの品詞が所定の品詞でないと判定された場合及びステップＳ３４において単語ｔが予め定められた不要語に該当すると判定された場合、ステップＳ３７の処理が実行される。

　次に、図１６を参照して、既存カテゴリ分類部１４２による上記したステップＳ１４の処理時に使用される単語ベクトルｖｐｄを生成する処理について説明する。始めに、既存カテゴリ分類部１４２は、統合カテゴリｐに直接的または間接的に属する文書集合（以下、文書集合Ｄｃと表記）を取得する（ステップＳ４１）。ここで、統合カテゴリｐに直接的または間接的に属する文書集合Ｄｃとは、上記したように統合カテゴリｐに属する文書及び当該子カテゴリの階層より下位の階層に位置するカテゴリ（統合カテゴリｐの子カテゴリ、つまり、統合カテゴリｐの子カテゴリ等）に属する文書の集合をいう。なお、統合カテゴリｐの階層より下位の階層に位置するカテゴリには、例えば統合カテゴリｐの子カテゴリの子カテゴリ（つまり、統合カテゴリｐの孫カテゴリ）のような統合カテゴリｐの階層より下位に位置する全てのカテゴリが含まれる。

　続いて、既存カテゴリ分類部１４２は、上記した図１５に示す処理によって生成された文書ｄの単語ベクトルｖｐｄの各次元とされた単語の各々について、以下のステップＳ４２～ステップＳ４４の処理を実行する。

　既存カテゴリ分類部１４２は、取得された文書集合Ｄｃ（に含まれる文書）の中で単語ｔを含む文書数（以下、文書数ｄｆｃと表記）を算出する（ステップＳ４２）。

　次に、既存カテゴリ分類部１４２は、算出された文書数ｄｆｃを用いて、計算式「ｔｆ＊（ｌｏｇ（｜Ｄｃ｜／ｄｆｃ）＋１）」の値を算出する（ステップＳ４３）。ここで、｜Ｄｃ｜は、文書集合Ｄｃの文書数であり、「＊」は乗算（×）を示すものである。また、ｔｆは、上記した図１５に示す処理によって生成された文書ｄの単語ベクトルｖｐｄにおける単語ｔの次元の値（つまり、図１５に示すステップＳ３５において算出された単語ｔの対象テキストにおける出現頻度）である。

　この計算式は、ＴＦ＊ＩＤＦと呼ばれ、例えば情報検索または文書分類の分野において広く使用されているものである。このＴＦ＊ＩＤＦによれば、単語ｔが文書ｄに出現する頻度が多い（つまり、ｔｆの値が大きい）ほど、また、統合カテゴリｐに直接的または間接的に属する文書のうち単語ｔを含む文書が少ない（つまり、ｄｆｃの値が小さい）ほど、ＴＦ＊ＩＤＦの値が大きくなり、当該単語ｔは文書ｄの特徴を適切に表す単語であるとみなされる。

　続いて、既存カテゴリ分類部１４２は、単語ｔを単語ベクトルｖｐｄ（統合カテゴリｐにおける文書ｄの単語ベクトル）の１つの次元とし、ステップＳ４３において算出された値（ＴＦ＊ＩＤＦの値）を当該次元の値とする（ステップＳ４４）。

　次に、上記した図１５に示す処理によって生成された単語ベクトルｖｐｄの各次元とされた単語の全てについて上記したステップＳ４２～ステップＳ４４の処理が実行されたか否かが判定される（ステップＳ４５）。

　単語ベクトルｖｐｄの各次元とされた単語の全てについて処理が実行されていないと判定された場合（ステップＳ４５のＮＯ）、ステップＳ４２に戻って処理が繰り返される。この場合、ステップＳ４２～ステップＳ４４の処理が実行されていない単語を単語ｔとして処理が実行される。

　一方、単語ベクトルｖｐｄの各次元とされた単語の全てについて処理が実行されたと判定された場合（ステップＳ４５のＹＥＳ）、当該単語ベクトルｖｐｄの各次元とされた単語の各々を次元とする単語ベクトルｖｐｄが生成される。

　このようにして生成された単語ベクトルｖｐｄは、上記した図１５に示す処理によって生成された単語ベクトルｖｐｄと比較すると、統合カテゴリｐにおいて文書ｄの特徴を適切に表す次元の値（単語の重み）が大きいベクトルとなる。

　なお、上記したＴＦ＊ＩＤＦにおけるＩＤＦに相当する部分、すなわち、（ｌｏｇ（｜Ｄｃ｜／ｄｆｃ）＋１）の部分は、統合カテゴリｐに直接的または間接的に属する文書集合Ｄｃを対象としている。このため、例えば文書集合Ｄｃの文書数が少ない場合には、本来特徴的ではない単語ｔの重み（ＴＦ＊ＩＤＦの値）が大きくなる場合がある。したがって、例えば第１文書記憶部１００及び第２文書記憶部１１０に記憶されている全ての文書集合（文書集合Ｄ）および当該文書集合Ｄの中で単語ｔを含む文書数（ｄｆ）を用いて、ＴＦ＊ＩＤＦにおけるＩＤＦの部分を計算しても構わない。また、文書集合Ｄｃ（および文書数ｄｆｃ）を用いて計算したＩＤＦの部分の値と、文書集合Ｄ（および文書数ｄｆ）を用いて計算した値との両方を加味した値（例えば、平均）を用いても構わない。

　更に、ステップＳ４２における単語ｔを含む文書数ｄｆｃを算出する処理においては、例えば情報検索における転置ファイルのような手段を用いることにより処理の効率を向上させる構成であっても構わない。

　しかる後、既存カテゴリ分類部１４２は、生成された単語ベクトルｖｐｄの各次元の値を、当該単語ベクトルｖｐｄのノルム｜ｖｐｄ｜で割ることによって正規化する（ステップＳ４６）。この結果、単語ベクトルｖｐｄは、ノルムが１のベクトルとなる。

　次に、図１７を参照して、単語ベクトルｖｐｃを生成する際の既存カテゴリ分類部１４２の処理手順について説明する。

　始めに、既存カテゴリ分類部１４２は、統合カテゴリｐに直接的または間接的に属する文書集合Ｄｃを取得する（ステップＳ５１）。

　続いて、既存カテゴリ分類部１４２は、単語ベクトルｖｐｃの初期値を空（つまり、すべての次元の値を０）とする（ステップＳ５２）。

　次に、既存カテゴリ分類部１４２は、取得された文書集合Ｄｃに含まれる文書の各々について、以下のステップＳ５３及びステップＳ５４の処理を実行する。

　既存カテゴリ分類部１４２は、統合カテゴリｐにおける文書ｄの単語ベクトルｖｐｄを生成する（ステップＳ５３）。この単語ベクトルｖｐｄは、上記した図１６に示す処理によって生成される。

　続いて、既存カテゴリ分類部１４２は、生成された単語ベクトルｖｐｄ（の各次元の値）を単語ベクトルｖｐｃに加算する（ステップＳ５４）。

　次に、文書集合Ｄｃに含まれる全ての文書について上記したステップＳ５３及びステップＳ５４の処理が実行されたか否かが判定される（ステップＳ５５）。

　文書集合Ｄｃに含まれる全ての文書について処理が実行されていないと判定された場合（ステップＳ５５のＮＯ）、ステップＳ５３に戻って処理が繰り返される。この場合、ステップＳ５３及びステップＳ５４の処理が実行されていない文書を文書ｄとして処理が実行される。

　一方、文書集合Ｄｃに含まれる全ての文書について処理が実行されたと判定された場合（ステップＳ５５のＹＥＳ）、単語ベクトルｖｐｃが生成される。つまり、単語ベクトルｖｐｃは、文書集合Ｄｃに含まれる文書毎に生成された単語ベクトルｖｐｄ（統合カテゴリｐにおける当該文書の単語ベクトル）を合計することによって生成される。

　しかる後、既存カテゴリ分類部１４２は、生成された単語ベクトルｖｐｃの各次元の値を、当該単語ベクトルｖｐｃのノルム｜ｖｐｃ｜で割ることによって正規化する（ステップＳ５６）。この結果、単語ベクトルｖｐｃは、ノルムが１のベクトルとなる。

　上記したようにして、単語ベクトルｖｐｃは、統合カテゴリｐの子カテゴリｃにおいて、当該統合カテゴリｐの子カテゴリｃに属する複数の文書の特徴を表す平均的なベクトルとして生成される。

　再び図１４に戻ると、既存カテゴリ分類部１４２は、統合カテゴリｐに分類された文書ｄの各々について以下のステップＳ１３～ステップＳ２２の処理を実行する。

　既存カテゴリ分類部１４２は、初期化処理を実行する（ステップＳ１３）。この初期化処理では、既存カテゴリ分類部１４２は、後述するｓｍａｘの値を０（つまり、ｓｍａｘ＝０）とし、後述するｃｍａｘをなしとする。

　既存カテゴリ分類部１４２は、統合カテゴリｐの子カテゴリ（以下、子カテゴリｃと表記）の各々について以下のステップＳ１４～ステップＳ１８の処理を実行する。

　既存カテゴリ分類部１４２は、文書ｄと統合カテゴリｐの子カテゴリｃとの類似度（以下、類似度ｓと表記）を算出する（ステップＳ１４）。この類似度ｓは、例えば分類対象の文書ｄの単語ベクトルｖｐｄと、統合カテゴリｐの子カテゴリｃの単語ベクトルｖｐｃとの余弦によって算出される。

　既存カテゴリ分類部１４２は、算出された類似度ｓが予め定められた値（以下、閾値ｓｔｈと表記）以上であるか否かを判定する（ステップＳ１５）。なお、閾値ｓｔｈは、０であっても構わない。

　類似度ｓが閾値ｓｔｈ以上であると判定された場合（ステップＳ１５のＹＥＳ）、既存カテゴリ分類部１４２は、算出された類似度ｓが上記したｓｍａｘより大きいか否かを判定する（ステップＳ１６）。

　類似度ｓがｓｍａｘより大きいと判定された場合（ステップＳ１６のＹＥＳ）、既存カテゴリ分類部１４２は、上記したｃｍａｘに子カテゴリｃ（つまり、ｃｍａｘ＝ｃ）を代入する（ステップＳ１７）。

　また、既存カテゴリ分類部１４２は、ｓｍａｘにｓ（つまり、ｓｍａｘ＝ｓ）を代入する（ステップＳ１８）。

　既存カテゴリ分類部１４２は、子カテゴリｃの全てについて上記したステップＳ１４～ステップＳ１８の処理が実行されたか否かを判定する（ステップＳ１９）。

　全ての子カテゴリｃについて処理が実行されていないと判定された場合（ステップＳ１９のＮＯ）、上記したステップＳ１４に戻って処理が繰り返される。この場合、ステップＳ１４～ステップＳ１８の処理が実行されていない子カテゴリを子カテゴリｃとして処理が実行される。

　なお、上記したステップＳ１５において類似度ｓが閾値ｓｔｈ以上でないと判定された場合及びステップＳ１６において類似度ｓがｓｍａｘ以下であると判定された場合には、ステップＳ１９の処理が実行される。

　このように、全ての子カテゴリｃについて処理が実行されると、当該全ての子カテゴリｃのうち、文書ｄ（の単語ベクトル）と最も類似度の高いカテゴリがｃｍａｘとなる。

　子カテゴリｃの全てについて処理が実行されたと判定された場合（ステップＳ１９のＹＥＳ）、既存カテゴリ分類部１４２は、条件を満たすｃｍａｘが存在するか否かを判定する（ステップＳ２０）。すなわち、既存カテゴリ分類部１４２は、上記したステップＳ１５及びステップＳ１６の処理における条件を満たす、つまり、閾値ｓｔｈ以上であり、かつｓｍａｘより大きい類似度ｓを算出した子カテゴリｃが存在するか否かを判定する。なお、条件を満たすｃｍａｘが存在しないと判定された場合（ステップＳ２０のＮＯ）、後述するステップＳ２３の処理に進む。

　条件を満たすｃｍａｘが存在すると判定された場合（ステップＳ２０のＹＥＳ）、既存カテゴリ分類部１４２は、文書ｄをｃｍａｘ（つまり、文書ｄと最も類似度の高い子カテゴリｃ）に分類する（ステップＳ２１）。

　次に、既存カテゴリ分類部１４２は、文書ｄと最も類似度の高い子カテゴリｃ（ｃｍａｘ）の単語ベクトルを再度算出する（ステップＳ２２）。この単語ベクトルは、上記した図１７に示す処理によって生成される。

　続いて、統合カテゴリｐに分類された全ての文書について上記したステップＳ１３～ステップＳ２２の処理が実行されたか否かを判定する（ステップＳ２３）。

　統合カテゴリｐに分類された全ての文書について処理が実行されていないと判定された場合（ステップＳ２３のＮＯ）、ステップＳ１３に戻って処理が繰り返される。この場合、ステップＳ１３～ステップＳ２２の処理が実行されていない文書を文書ｄとして処理が実行される。

　一方、統合カテゴリｐに分類された全ての文書について処理が実行されたと判定された場合（ステップＳ２３のＹＥＳ）、処理が終了される。

　上記したステップＳ１１～ステップＳ２３の処理が、既存カテゴリ分類部１４２によるステップＳ３の処理の詳細である。

　図１８は、既存カテゴリ分類部１４２によって意見文書が既存のカテゴリのいずれかに分類される処理の一例を示す模式図である。図１８に示す例では、「製品Ａは、味がまじい。最悪。２度と飲まない。」という意見文書を既存のカテゴリのカテゴリ名「まずい」のカテゴリに分類する例を示している。従来の分類機能では、一般的に、第２文書記憶部１１０に相当する記憶部に記憶されている第２文書に相当する文書を教師文書として採用するため（つまり、分析対象が記憶されている記憶部の同種の文書を教師文書として採用するため）、図１８に示す例では、一致する単語が「まじい」のみであり、意見文書をカテゴリ名「まずい」のカテゴリに分類できないことがある。一方、既存カテゴリ分類部１４２は、第１文書記憶部１００及び第２文書記憶部１１０に記憶されている第１文書及び第２文書を教師文書として採用するため、図１８に示す例では、一致する単語として「まじい」の他に、「味」、「２度」及び「飲まない」といった単語が存在するため、従来に比べてより確度高く、意見文書をカテゴリ名「まずい」のカテゴリに分類することができる。

　再び図１１に戻ると、第２文書分類部１４０の文書クラスタリング部１４３は、既存カテゴリ分類部１４２によって既存のカテゴリのいずれにも分類されなかった意見文書を対象にして文書クラスタリング処理を実行する（ステップＳ４）。

　ここで、図１９を参照して、文書クラスタリング部１４３による上記したステップＳ４の処理の詳細について説明する。

　始めに、文書クラスタリング部１４３は、既存カテゴリ分類部１４２によって既存のカテゴリのいずれにも分類されなかった意見文書（つまり、未分類の第２文書）を取得する（ステップＳ６１）。

　文書クラスタリング部１４３は、上記したステップＳ６１の処理において取得した意見文書の各々について以下のステップＳ６２～ステップＳ７３の処理を実行する。

　文書クラスタリング部１４３は、初期化処理を実行する（ステップＳ６２）。この初期化処理では、文書クラスタリング部１４３は、ｓｍａｘの値を０（つまり、ｓｍａｘ＝０）とし、ｃｍａｘをなしとする。

　文書クラスタリング部１４３は、統合カテゴリｐの子カテゴリｃのうち、新規に作成された子カテゴリｃの各々について以下のステップＳ６３～ステップＳ６７の処理を実行する。なお、統合カテゴリｐの子カテゴリｃのうちの新規に作成された子カテゴリｃは、最初の文書クラスタリング処理実行時には生成されておらず、後述するステップＳ７１の処理によって生成されるものとする。

　文書クラスタリング部１４３は、文書ｄと新規な子カテゴリｃとの類似度を算出する（ステップＳ６３）。この類似度ｓは、例えば統合カテゴリｐにおける文書ｄの単語ベクトルｖｐｄと、新規な子カテゴリｃの単語ベクトルｖｐｃとの余弦によって算出される。

　文書クラスタリング部１４３は、算出された類似度ｓが予め定められた閾値ｓｔｈ以上であるか否かを判定する（ステップＳ６４）。なお、閾値ｓｔｈは、０であっても構わない。

　類似度ｓが閾値ｓｔｈ以上であると判定された場合（ステップＳ６４のＹＥＳ）、文書クラスタリング部１４３、算出された類似度ｓが上記したｓｍａｘより大きいか否かを判定する（ステップＳ６５）。

　類似度ｓがｓｍａｘより大きいと判定された場合（ステップＳ６５のＹＥＳ）、文書クラスタリング部１４３は、上記したｃｍａｘに新規な子カテゴリｃ（つまり、ｃｍａｘ＝ｃ）を代入する（ステップＳ６６）。

　また、文書クラスタリング部１４３は、ｓｍａｘにｓ（つまり、ｓｍａｘ＝ｓ）を代入する（ステップＳ６７）。

　文書クラスタリング部１４３は、新規な子カテゴリｃの全てについて上記したステップＳ６３～ステップＳ６７の処理が実行されたか否かを判定する（ステップＳ６８）。

　全ての新規な子カテゴリｃについて処理が実行されていないと判定された場合（ステップＳ６８のＮＯ）、上記したステップＳ６３に戻って処理が繰り返される。この場合、ステップＳ６３～ステップＳ６７の処理が実行されていない新規な子カテゴリを新規な子カテゴリｃとして処理が実行される。

　なお、上記したステップＳ６４において類似度ｓが閾値ｓｔｈ以上でないと判定された場合及びステップＳ６５において類似度ｓがｓｍａｘ以下であると判定された場合には、ステップＳ６８の処理が実行される。

　このように、全ての新規な子カテゴリｃについて処理が実行されると、当該全ての新規な子カテゴリｃのうち、文書ｄ（の単語ベクトル）と最も類似度の高いカテゴリがｃｍａｘとなる。

　新規な子カテゴリｃの全てについて処理が実行されたと判定された場合（ステップＳ６８のＹＥＳ）、文書クラスタリング部１４３は、条件を満たすｃｍａｘが存在するか否かを判定する（ステップＳ６９）。すなわち、文書クラスタリング部１４３は、上記したステップＳ６４及びステップＳ６５の処理における条件を満たす、つまり、閾値ｓｔｈ以上であり、かつｓｍａｘより大きい類似度ｓを算出した新規な子カテゴリｃが存在するか否かを判定する。

　条件を満たすｃｍａｘが存在しないと判定された場合（ステップＳ６９のＮＯ）、文書クラスタリング部１４３は、例えばキーボード１２やマウス１３を介してユーザから新規に子カテゴリｃを作成する旨の要求を受けたか否かを判定する（ステップＳ７０）。なお、新規に子カテゴリｃを作成する旨の要求を受けていないと判定された場合（ステップＳ７０のＮＯ）、後述するステップＳ７４の処理に進む。

　新規に子カテゴリｃを作成する旨の要求を受けていると判定された場合（ステップＳ７０のＹＥＳ）、文書クラスタリング部１４３は、文書ｄと最も類似度の高いカテゴリとして、ｃｍａｘを新規な子カテゴリｃとして作成する（ステップＳ７１）。

　ｃｍａｘが存在すると判定された場合（ステップＳ７０のＹＥＳ）またはステップＳ７１の処理が実行されると、文書クラスタリング部１４３は、文書ｄをｃｍａｘ（つまり、文書ｄと最も類似度の高い新規な子カテゴリｃ）に分類する（ステップＳ７２）。

　次に、文書クラスタリング部１４３は、文書ｄと最も類似度の高い新規な子カテゴリｃ（ｃｍａｘ）の単語ベクトルを再度算出する（ステップＳ７３）。ｃｍａｘの単語ベクトルは、上記した図１７に示す処理によって生成される。つまり、ｃｍａｘの単語ベクトルは、文書ｄを新規な子カテゴリｃに分類する前のｃｍａｘの単語ベクトル（以下、単語ベクトルｖｐｃｍａｘと表記）と、単語ベクトルｖｐｄとを使用して算出することができる、更に具体的には、文書ｄを新規な子カテゴリｃに分類する前のｃｍａｘがもつ文書数を｜Ｄｃｍａｘ｜とすれば、単語ベクトル｜Ｄｃｍａｘ｜＊ｖｐｃｍａｘ＋ｖｐｄをそのノルムで正規化して大きさを１とした単語ベクトルをｃｍａｘの新しい単語ベクトルとすることができる。

　文書クラスタリング部１４３は、上記したステップＳ６１の処理において取得した全ての文書について、上記ステップＳ６２～ステップＳ７３の処理が実行されたか否かを判定する（ステップＳ７４）。

　取得した全ての文書について処理が実行されていないと判定された場合（ステップＳ７４のＮＯ）、ステップＳ６２に戻って処理が繰り返される。この場合、ステップＳ６２～ステップＳ７３の処理が実行されていない文書を文書ｄとして処理が実行される。

　一方、取得した全ての文書について処理が実行されたと判定された場合（ステップＳ７４のＹＥＳ）、文書クラスタリング部１４３は、上記したステップＳ７１の処理において作成した新規な子カテゴリｃのうち、分類された文書の数が１つ以下の新規な子カテゴリｃを削除し（ステップＳ７５）、処理が終了される。

　上記したステップＳ６１～ステップＳ７５の処理が、文書クラスタリング部１４３による上記ステップＳ４の処理の詳細である。

　図２０は、文書クラスタリング部１４３によって実行される文書クラスタリング処理の一例を示す模式図である。図２０に示す例では、新規な子カテゴリとして、「しぶい」、「汗」、「ＣＭ」及び「吹く」が生成される。

　再び図１１に戻ると、第２文書分類部１４０の親カテゴリ判定部１４４は、文書クラスタリング部１４３によって生成された新規な子カテゴリｃを対象にして、当該子カテゴリｃが既存の（親）カテゴリのいずれかに属する（従属する）か否かを判定する（ステップＳ５）。

　ここで、図２１を参照して、親カテゴリ判定部１４４による上記したステップＳ５の処理の詳細について説明する。

　親カテゴリ判定部１４４は、文書クラスタリング部１４３によって生成された新規な子カテゴリｃの各々について以下のステップＳ８１～Ｓ９０の処理を実行する。

　始めに、親カテゴリ判定部１４４は、初期化処理を実行する（ステップＳ８１）。この初期化処理では、親カテゴリ判定部１４４は、ｓｍａｘの値を０（つまり、ｓｍａｘ＝０）とし、ｃｍａｘをなしとする。

　親カテゴリ判定部１４４は、第１階層のカテゴリ（以下、カテゴリｃａと表記）の各々について以下のステップＳ８２～ステップＳ８６の処理を実行する。

　親カテゴリ判定部１４４は、新規な子カテゴリｃとカテゴリｃａとの類似度を算出する（ステップＳ８２）。この類似度ｓは、例えば新規な子カテゴリｃの単語ベクトルｖｐｃと、カテゴリｃａの単語ベクトルｖｐｃａとの余弦によって算出される。

　続いて、親カテゴリ判定部１４４は、算出された類似度ｓが予め定められた閾値ｓｔｈ以上であるか否かを判定する（ステップＳ８３）。なお、閾値ｓｔｈは、０であっても構わない。

　類似度ｓが閾値ｓｔｈ以上であると判定された場合（ステップＳ８３のＹＥＳ）、親カテゴリ判定部１４４は、算出された類似度ｓが上記したｓｍａｘより大きいか否かを判定する（ステップＳ８４）。

　類似度ｓがｓｍａｘより大きいと判定された場合（ステップＳ８４のＹＥＳ）、親カテゴリ判定部１４４は、上記したｃｍａｘに新規な子カテゴリｃ（つまり、ｃｍａｘ＝ｃ）を代入する（ステップＳ８５）。

　また、親カテゴリ判定部１４４は、ｓｍａｘにｓ（つまり、ｓｍａｘ＝ｓ）を代入する（ステップＳ８６）。

　親カテゴリ判定部１４４は、カテゴリｃａの全てについて上記したステップＳ８２～ステップＳ８６の処理が実行されたか否かを判定する（ステップＳ８７）。

　全てのカテゴリｃａについて処理が実行されていないと判定された場合（ステップＳ８７のＮＯ）、上記したステップＳ８２に戻って処理が繰り返される。この場合、ステップＳ８２～ステップＳ８６の処理が実行されていないカテゴリをカテゴリｃａとして処理が実行される。

　なお、上記したステップＳ８３において類似度ｓが閾値ｓｔｈ以上でないと判定された場合及びステップＳ８４において類似度ｓがｓｍａｘ以下であると判定された場合には、ステップＳ８７の処理が実行される。

　このように、全てのカテゴリｃａについて処理が実行されると、当該全てのカテゴリｃａのうち、新規な子カテゴリｃ（の単語ベクトル）と最も類似度の高いカテゴリｃａがｃｍａｘとなる。

　カテゴリｃａの全てについて処理が実行されたと判定された場合（ステップＳ８７のＹＥＳ）、親カテゴリ判定部１４４は、条件を満たすｃｍａｘが存在するか否かを判定する（ステップＳ８８）。すなわち、親カテゴリ判定部１４４は、上記したステップＳ８３及びステップＳ８４の処理における条件を満たす、つまり、閾値ｓｔｈ以上であり、かつｓｍａｘより大きい類似度ｓを算出したカテゴリｃａが存在するか否かを判定する。なお、条件を満たすｃｍａｘが存在しないと判定された場合（ステップＳ８８のＮＯ）、後述するステップＳ９１の処理に進む。

　条件を満たすｃｍａｘが存在すると判定された場合（ステップＳ８８のＹＥＳ）、親カテゴリ判定部１４４は、新規な子カテゴリｃをｃｍａｘ（新規な子カテゴリｃと最も類似度の高いカテゴリｃａ）に分類する（ステップＳ８９）。

　次に、親カテゴリ判定部１４４は、ｃｍａｘ（つまり、新規な子カテゴリｃと最も類似度の高いカテゴリｃａ）の単語ベクトルを再度算出する（ステップＳ９０）。ｃｍａｘの単語ベクトルは、上記した図１７に示す処理によって生成される。

　親カテゴリ判定部１４４は、全ての新規な子カテゴリｃについて、上記ステップＳ８１～ステップＳ９０の処理が実行されたか否かを判定する（ステップＳ９１）。

　全ての新規な子カテゴリｃについて処理が実行されていないと判定された場合（ステップＳ９１のＮＯ）、ステップＳ８１に戻って処理が繰り返される。この場合、ステップＳ８１～ステップＳ９０の処理が実行されていない新規な子カテゴリを新規な子カテゴリｃとして処理が実行される。

　一方、全ての新規な子カテゴリｃについて処理が実行されたと判定された場合（ステップＳ９１のＹＥＳ）、処理が終了される。

　上記したステップＳ８１～ステップＳ９１の処理が、親カテゴリ判定部１４４による上記ステップＳ５の処理の詳細である。

　図２２は、親カテゴリ判定部１４４により新規な子カテゴリを既存の親カテゴリのいずれかに分類させる処理の一例を示す模式図である。図２２に示す例では、親カテゴリ判定部１４４は、新規な子カテゴリのカテゴリ名「しぶい」はカテゴリ名「味」の直下に属するのが適切であると判定し、カテゴリ名「しぶい」をカテゴリ名「味」の直下に分類する（従属させる）。

　再び図１１に戻ると、新規カテゴリ判定部１４５は、親カテゴリ判定部１４４による判定処理の結果が既存の親カテゴリのいずれにも属さなかったカテゴリを対象にして、当該カテゴリが、新規な内容に関するカテゴリであるか否かを判定する（ステップＳ６）。

　ここで、図２３を参照して、新規カテゴリ判定部１４５による上記したステップＳ６の処理の詳細について説明する。

　新規カテゴリ判定部１４５は、親カテゴリ判定部１４４による判定処理の結果が既存の親カテゴリのいずれにも属さないと判定された新規な子カテゴリｃの各々について以下のステップＳ１０１～ステップＳ１０３の処理を実行する。

　始めに、新規カテゴリ判定部１４５は、親カテゴリ判定部１４４による判定処理の結果が既存の親カテゴリのいずれにも属さなかった新規な子カテゴリｃを対象にして、ユーザインタフェース部１３０の検索部１３１により抽出された第１文書及び第２文書を作成したユーザの数に対する、当該新規な子カテゴリｃに属する意見文書を作成したユーザの数の割合が所定の割合を超えているか否かを判定する（ステップＳ１０１）。つまり、新規カテゴリ判定部１４５は、分析対象の第１文書及び第２文書を作成したユーザの数のうち、新規な子カテゴリｃに関する内容の意見文書を作成したユーザの数が、新規な子カテゴリｃ以外のカテゴリに分類された意見文書を作成したユーザの数に比べて統計的に有意に多いか否かを判定する。

　なお、ユーザの数が有意に多いと判定された場合（ステップＳ１０１のＹＥＳ）、後述するステップＳ１０３の処理に進む。

　ユーザの数が有意に多くないと判定された場合（ステップＳ１０１のＮＯ）、新規カテゴリ判定部１４５は、親カテゴリ判定部１４４による判定処理の結果が既存の親カテゴリのいずれにも属さなかった新規な子カテゴリｃを対象にして、当該新規な子カテゴリｃに属する意見文書のうちの所定の割合の意見文書が、直近に第２文書記憶部１１０に記憶された文書であるか否かを判定する（ステップＳ１０２）。直近に第２文書記憶部１１０に記憶された文書でないと判定された場合（ステップＳ１０２のＮＯ）、後述するステップＳ１０４に進む。

　なお、ここでは、直近な文書と直近以外な文書とを分類する手法としては、例えば、５０％ずつの比率となるように分類する手法や、所望の日付を指定して当該指定した日付以降の文書を直近な文書に分類する手法等を用いるが、特にこれらに限定されるものではない。

　また、上記したステップＳ１０１の処理やステップＳ１０２の処理において使用される統計的な検討手法としては、例えば、ｘ二乗検定がある。ｘ二乗検定とは、以下の数式を用いて算出されるｘ二乗統計量（ｘ）が、自由度２の有意水準５％のｘ二乗分布（３．８４）や、自由度２の有意水準１％のｘ二乗分布（６．６３）より小さいときに統計的に有意となり、大きいときに統計的に有意とならない。

　なお、ステップＳ１０１の処理では、上記数式のｘ１１は、親カテゴリ判定部１４４によって既存の親カテゴリのいずれにも属さないと判定された新規な子カテゴリｃに分類された意見文書を作成したユーザの固有ユーザ数であり、上記数式のｂ１は、分析対象の文書で、当該文書を作成したユーザの固有ユーザ総数である。

　また、ステップＳ１０２の処理では、上記数式のｘ１１は、親カテゴリ判定部１４４によって既存の親カテゴリのいずれにも属さないと判定された新規な子カテゴリｃに分類された直近の意見文書の数であり、上記数式のｂ１は、分析対象の直近の文書の数である。

　更に、上記数式のａ１は、ステップＳ１０１及びステップＳ１０２のどちらの処理においても、親カテゴリ判定部１４４によって既存のカテゴリのいずれにも属さないと判定された新規な子カテゴリに属する文書の数であり、上記数式のｎは、分析対処の全ての文書の数である。

　また、上記数式のｘ１２は「ａ１－ｘ１１」であり、上記数式のｘ２１は「ｂ１－ｘ１１」であり、上記数式のｘ２２は「ｎ－ａ１－ｘ２１」である。

　再び図２３に戻ると、ステップＳ１０１の処理において、ユーザの数が有意に多いと判定された場合（ステップＳ１０１のＹＥＳ）、又は、直近に第２文書記憶部１１０に記憶された文書であると判定された場合（ステップＳ１０２のＹＥＳ）、新規カテゴリ判定部１４５は、当該新規な子カテゴリｃを、既存の複数のカテゴリからなる分類体系に新たなカテゴリとして加える（ステップＳ１０３）。

　新規カテゴリ判定部１４５は、親カテゴリ判定部１４４によって既存の親カテゴリのいずれにも属さないと判定された全ての新規な子カテゴリｃについて上記したステップＳ１０１～ステップＳ１０３の処理が実行されたか否かを判定する（ステップＳ１０４）。

　全ての新規な子カテゴリｃについて処理が実行されていないと判定された場合（ステップＳ１０４のＮＯ）、ステップＳ１０１に戻って処理が繰り返される。この場合、ステップＳ１０１～ステップＳ１０３の処理が実行されていない新規な子カテゴリを新規な子カテゴリｃとして処理が実行される。

　一方、全ての新規な子カテゴリｃについて処理が実行されたと判定された場合（ステップＳ１０４のＹＥＳ）、処理が終了される。

　上記したステップＳ１０１～ステップＳ１０４の処理が、新規カテゴリ判定部１４５による上記ステップＳ６の処理の詳細である。

　図２４は、新規カテゴリ判定部１４５により新規な子カテゴリを新たなカテゴリとして認定する処理の一例を示す模式図である。図２４に示す例では、親カテゴリ判定部１４４によって既存のカテゴリのいずれにも従属しないと判定された新規な子カテゴリ「汗」、「ＣＭ」及び「吹く」のうち、カテゴリ名「汗」及び「ＣＭ」のカテゴリが新たなカテゴリとして認定され、カテゴリ名「吹く」のカテゴリが意見文書以外の文書が属するカテゴリとして認定されている。

　再び図１１に戻ると、第２文書分類部１４０が、上記したステップＳ２～ステップＳ６の処理による分類結果を、ユーザインタフェース部１３０の可視化部１３２に出力し（ステップＳ７）、処理が終了される。

　図２５は、第２文書分類部１４０による分類処理の結果をユーザインタフェース部１３０の可視化部１３２を介してディスプレイ１５に表示させた画面例を示す模式図である。図２５に示す例では、カテゴリ名「しぶい」、「汗」及び「ＣＭ」が新たに生成されたカテゴリとして強調表示されている。

　以上説明した本実施形態によれば、ソーシャルメディアに発信された文書（第２文書）に砕けた表現（例えば、「まじー」等）を用いた文書が含まれていたとしても、当該文書を適切に分析し、当該文書を適切な分類体系に分類することができる。

　なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＰＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

　また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

　また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

　さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

　また、記憶媒体は１つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

　なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

　また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

　なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　単語を含む複数の第１文書であって、階層構造を構成する複数のカテゴリの各々に属し、所望の対象に対する意見文書だけからなる複数の第１文書を記憶する第１文書記憶手段と、単語を含む複数の第２文書であって、階層構造を構成する複数のカテゴリの各々に属し、又は、属さず、所望の対象に対する意見文書と当該意見文書以外の文書とからなる複数の第２文書を記憶する第２文書記憶手段とを備えて、前記第２文書記憶手段に記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属さない第２文書を、階層構造を構成するいずれかのカテゴリに分類可能な文書分析装置であって、
　ユーザの操作に応じて入力を受け付けた条件に従って、当該条件を満たす前記第１文書及び前記第２文書を前記第１文書記憶手段及び前記第２文書記憶手段から抽出する文書抽出手段と、
　前記抽出された第１文書と、前記抽出された第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記抽出された第２文書のうち、当該複数のカテゴリの各々に属さない第２文書を前記意見文書と前記意見文書以外の文書とに分類する意見文書分類手段と、
　前記記憶された複数の第１文書と、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記分類された意見文書を、当該教師文書が属する複数のカテゴリのいずれかに分類する既存カテゴリ分類手段と、
　前記既存カテゴリ分類手段によって、いずれのカテゴリにも分類されない意見文書を対象にして文書クラスタリング処理を実行し、新規なカテゴリを作成すると共に、当該新規なカテゴリに当該意見文書を分類する文書クラスタリング手段と、
　前記記憶された複数の第１文書が属する複数のカテゴリと、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書が属する当該複数のカテゴリとを教師文書として、前記作成された新規なカテゴリが、当該教師文書が属する複数のカテゴリのいずれかに従属する子カテゴリとなるか否かを判定するカテゴリ判定手段と
　を備えたことを特徴とする文書分析装置。
　請求項１に記載の文書分析装置において、
　前記第１文書記憶手段及び前記第２文書記憶手段には、新規な第１文書及び新規な第２文書が逐次記憶され、
　前記カテゴリ判定手段により、前記作成された新規なカテゴリが前記子カテゴリとならないと判定されたとき、当該新規なカテゴリに属する意見文書のうちの所定の割合の意見文書が、直近に前記第２文書記憶手段に記憶された文書であるか否かを判定する第１の新規カテゴリ判定手段と、
　前記第１の新規カテゴリ判定手段により、直近に前記第２文書記憶手段に記憶された文書であると判定されたとき、前記作成された新規なカテゴリを、前記階層構造を構成する複数のカテゴリの１つとして認定する第１の新規カテゴリ認定手段と
　を更に備えたことを特徴とする文書分析装置。
　請求項１または請求項２に記載の文書分析装置において、
　前記カテゴリ判定手段により、前記作成された新規なカテゴリが前記子カテゴリとならないと判定されたとき、前記抽出された第１文書及び第２文書を作成したユーザの数に対する、当該新規なカテゴリに属する意見文書を作成したユーザの数の割合が所定の割合を超えているか否かを判定する第２の新規カテゴリ判定手段と、
　前記第２の新規カテゴリ判定手段により、所定の割合を超えていると判定されたとき、前記作成された新規なカテゴリを、前記階層構造を構成する複数のカテゴリの１つとして認定する第２の新規カテゴリ認定手段と
　を更に備えたことを特徴とする文書分析装置。
　単語を含む複数の第１文書であって、階層構造を構成する複数のカテゴリの各々に属し、所望の対象に対する意見文書だけからなる複数の第１文書を記憶する第１文書記憶手段と、単語を含む複数の第２文書であって、階層構造を構成する複数のカテゴリの各々に属し、又は、属さず、所望の対象に対する意見文書と当該意見文書以外の文書とからなる複数の第２文書を記憶する第２文書記憶手段とを備えて、前記第２文書記憶手段に記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属さない第２文書を、階層構造を構成するいずれかのカテゴリに分類可能な文書分析装置のプログラムであって、
　前記文書分析装置を、
　ユーザの操作に応じて入力を受け付けた条件に従って、当該条件を満たす前記第１文書及び前記第２文書を前記第１文書記憶手段及び前記第２文書記憶手段から抽出する文書抽出手段、
　前記抽出された第１文書と、前記抽出された第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記抽出された第２文書のうち、当該複数のカテゴリの各々に属さない第２文書を前記意見文書と前記意見文書以外の文書とに分類する意見文書分類手段、
　前記記憶された複数の第１文書と、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書とを教師文書として、前記分類された意見文書を、当該教師文書が属する複数のカテゴリのいずれかに分類する既存カテゴリ分類手段、
　前記既存カテゴリ分類手段によって、いずれのカテゴリにも分類されない意見文書を対象にして文書クラスタリング処理を実行し、新規なカテゴリを作成すると共に、当該新規なカテゴリに当該意見文書を分類する文書クラスタリング手段、
　前記記憶された複数の第１文書が属する複数のカテゴリと、前記記憶された複数の第２文書のうち、前記複数のカテゴリの各々に属する第２文書が属する当該複数のカテゴリとを教師文書として、前記作成された新規なカテゴリが、当該教師文書が属する複数のカテゴリのいずれかに従属する子カテゴリとなるか否かを判定するカテゴリ判定手段、
　として機能させるための文書分析プログラム。