WO2014049708A1

WO2014049708A1 - 文書分析装置およびプログラム

Info

Publication number: WO2014049708A1
Application number: PCT/JP2012/074688
Authority: WO
Inventors: 泰成宮部; 松本　茂; 後藤　和之; 秀樹岩崎; 磯部　庄三
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-04-03
Also published as: CN104718546B; US20150199427A1; JP5349699B1; CN104718546A; JPWO2014049708A1

Abstract

　実施形態に係る文書分析装置は、取得手段と、第１の判定手段と、第２の判定手段と、提示手段とを具備する。取得手段は、文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する。第１の判定手段は、取得された単語毎に、当該単語と文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも２つの属性の各々との相関の有無を判定する。第２の判定手段は、第１の判定手段による判定結果が、パターン格納手段に格納されている複数のパターンのうちユーザによって指定されたパターンと一致するかを判定する。提示手段は、第１の判定手段による判定結果がユーザによって指定されたパターンと一致すると判定された単語を提示する。

Description

文書分析装置およびプログラム

　本発明の実施形態は、電子化された文書群を分析する文書分析装置およびプログラムに関する。

　近年では、情報システムの高度化に伴い、例えば特許文献、新聞記事、ウェブページまたは書籍等の電子化された文書（以下、単に文書と表記）を大量に記録し、保存することが可能である。そこで、これらの蓄積された文書群を日々の業務に有効活用していくことが求められている。

　文書群の有効活用の具体例としては、例えば膨大な量の新聞記事を分類することで多くの人が利用しやすいように整理する、あるいは、現在研究開発している技術に関係のある特許文献を分類することで自他社の特許群の傾向を分析し、新しい研究開発分野を発見する等が考えられる。

　つまり、情報の有効活用の点から、大量の文書を内容等に応じて分類（整理）しておくことが好ましい。

　ここで、上記したような文書は例えば複数の属性を有し、当該属性の各々は当該属性の値（以下、属性値と表記）をもつ。文書が例えば特許文献である場合、当該文書は、本文（例えば、要約）、出願人および出願日等の属性を有する。また、文書が有する本文、出願人および出願日の属性の各々は、当該属性に対応する属性値をもつ。なお、文書が有する属性のうち、本文のように単語からなるテキスト（文章全体における文字列の集合体）を含むものをテキスト属性、出願人のように連続していない（非連続な）値（離散値）を属性値としてもつ属性を離散値属性、出願日のように切れ目がなく連続している値を属性値としてもつ属性を連続値属性という。このように文書が属性を有する場合、当該文書は、当該属性の属性値（本文中に出現する単語、出願人である企業および出願日等）で各カテゴリに分類されることができる。

特開２０１１－１９８１１１号公報特開２０１０－０６１１７６号公報

　ところで、例えば大量の文書のテキストと当該文書に紐づけられている複数の属性とを組み合わせた傾向を分析する場合、あるテキストの内容が複数の属性によって偏って出現しているという知見を得たい場合がある。具体的には、テキストを要約文、離散値属性を出願人、連続値属性を出願日とした特許のベンチマーク分析において、他社と比較して、自社が有意に多く出願した期間や技術を知りたい場合がある。

　しかし、特開２０１１－１９８１１１号では、上記のような連続値や離散値などの２つの属性を考慮した特徴語抽出ではなく、１つの属性からの特徴語抽出である。属性が２つ以上になる場合、テキストと、２つの属性を組み合わせて分析するため、属性が１つの場合と比べて、より試行錯誤を要するという課題がある。

　特開２０１０－６１１７６号は、単語と、ユーザが着目した日付などの全ての属性と偏りがあるルールに限定しており、ユーザの目的にあった知見を獲得できない場合がある。例えば、ある特定の時期に、製品に共通して問い合わせが多かった内容を、ユーザが知りたいとする（すなわち、単語と日付とは出現に偏りがあるが、単語と問い合わせ製品とは偏りがない組み合わせのパターン）。しかし、特開２０１０－６１１７６号では、全ての属性と偏りがあるルールに限定しているため、このように単語の出現の偏りがない場合の属性の組み合わせを分析できず、ユーザの目的にあった知見を獲得できない。

　そこで、本発明が解決しようとする課題は、ユーザが所望する知見を効率的に得ることが可能な文書分析装置およびプログラムを提供することにある。

　実施形態に係る文書分析装置は、文書格納手段と、パターン格納手段と、取得手段と、第１の判定手段と、第２の判定手段と、提示手段とを具備する。

　前記文書格納手段は、複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する。

　前記パターン格納手段は、単語と前記複数の属性のうちの少なくとも２つの属性の各々との相関の有無を示す複数のパターンを格納する。

　前記取得手段は、前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する。

　前記第１の判定手段は、前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも２つの属性の各々との相関の有無を判定する。

　前記第２の判定手段は、前記第１の判定手段による判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定する。

　前記提示手段は、前記第１の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示する。

実施形態に係る文書分析装置のハードウェア構成を示すブロック図。本実施形態に係る文書分析装置１０の主として機能構成を示すブロック図。図２に示す文書格納部１００に格納されている文書のデータ構造の一例を示す図。カテゴリの階層構造におけるルートのカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図５に示すカテゴリ情報１２２によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。本実施形態に係る文書分析装置１０の処理手順を示すフローチャート。カテゴリ表示画面の一例を示す図。ユーザが各種情報を指定する際の画面について説明するための図。パターン指定欄１５０ｈにおいて指定することができるパターンについて説明するための図。第１のパターンについて具体的に説明するための図。第２のパターンについて具体的に説明するための図。第３のパターンについて具体的に説明するための図。第４のパターンについて具体的に説明するための図。単語パターン判定処理部１４１によって実行される単語パターン判定処理の処理手順を示すフローチャート。対象単語と離散値属性との相関判定処理について説明するための図。分析用単語抽出部１４２によって実行される分析用単語抽出処理の処理手順を示すフローチャート。分析用単語抽出部１４２によって抽出される単語について説明するための図。クロス集計可視化部１３２によって実行されるクロス集計結果表示処理の処理手順を示すフローチャート。クロス集計可視化部１３２によって出力されたｖｉｅｗリストが表示された場合の表示画面の一例を示す図。単語「屈折」が選択された場合における表示画面の一例を示す図。折れ線グラフで表示されたクロス集計結果の一例を示す図。数値で表示されたクロス集計結果の一例を示す図。

　以下、図面を参照して、実施形態について説明する。

　図１は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。なお、文書分析装置は、当該装置の各機能を実現するためのハードウェア構成、またはハードウェアとソフトウェアとの組み合わせ構成として実現されている。ソフトウェアは、予め記憶媒体またはネットワークからインストールされ、文書分析装置にその機能を実現させるためのプログラムからなる。

　図１に示すように、文書分析装置１０は、記憶装置１１、キーボード１２、マウス１２、中央演算装置１４およびディスプレイ１５を備える。

　記憶装置１１は、中央演算装置１４から読み出しまたは書き込みが可能な記憶装置であり、例えばＲＡＭ（Random Access Memory）である。記憶装置１１には、予め中央演算装置１４によって実行されるプログラム（文書分析プログラム）が記憶されている。

　キーボード１２およびマウス１３は、入力装置であり、例えば文書分析装置１０の操作者（ユーザ）の操作により、データまたは命令からなる各種情報を中央演算装置１４に入力する。

　中央演算装置１４は、例えばＣＰＵ（プロセッサ）であり、記憶装置１１に記憶されているプログラムを実行する機能と、キーボード１２またはマウス１３から入力される情報に基づいて各処理の実行を制御する機能と、実行結果をディスプレイ１５に出力する機能とを有する。

　ディスプレイ１５は、表示装置であり、例えば編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化する機能を有する。また、ディスプレイ１５は、中央演算装置１４から出力された情報を表示する機能を有する。

　なお、文書分析装置１０は、例えば本実施形態に係る文書分析プログラムが適用された計算機によって実現される。

　図２は、本実施形態に係る文書分析装置１０の主として機能構成を示すブロック図である。

　図２に示すように、文書分析装置１０は、文書格納部１００、カテゴリ格納部１１０、パターン格納部１２０、ユーザインタフェース部１３０および単語抽出部１４０を含む。なお、文書格納部１００、カテゴリ格納部１１０及びパターン格納部１２０は、例えば図示しない外部記憶装置等に格納される。また、ユーザインタフェース１３０および単語抽出部１４０は、文書分析装置１０のコンピュータ（中央演算装置１４）が記憶装置１１に記憶されている文書分析プログラムを実行することにより実現される。

　文書格納部１００には、文書分析装置１０による分析の対象となる複数の文書が格納される。文書格納部１００に格納されている文書は、複数の単語からなるテキストを含む。また、文書格納部１００に格納されている文書は、属性を有し、当該属性の属性値を含む。

　カテゴリ格納部１１０は、文書格納部１００に格納されている複数の文書が分類されたカテゴリの各々を示すカテゴリ情報（つまり、当該複数の文書の分類結果）が格納される。具体的には、カテゴリ格納部１１０には、例えば文書が有する属性の属性値に基づいて文書格納部１００に格納されている複数の文書が分類された結果が格納される。

　パターン格納部１２０には、単語と文書格納部１００に格納されている複数の文書が有する属性のうちの例えば２つの属性との相関の有無を示す複数のパターンが予め格納されている。

　なお、文書格納部１００、カテゴリ格納部１１０およびパターン格納部１２０は、例えばファイルシステムまたはデータベース等を用いて実現される。

　ユーザインタフェース部１３０は、上記したキーボード１２、マウス１３およびディスプレイ１５を用いて実現される機能部であり、例えばユーザの入力情報または指示情報等を受け付ける。ユーザインタフェース部１３０は、カテゴリ表示操作部１３１およびクロス集計可視化部１３２を含む。

　カテゴリ表示操作部１３１は、カテゴリ格納部１１０に格納されているカテゴリ情報に基づいて、当該カテゴリ情報によって示されるカテゴリおよび当該カテゴリの階層構造をユーザに対して提示するための画面（以下、カテゴリ表示画面と表記）をディスプレイ１５に表示する。また、カテゴリ表示操作部１３１は、ユーザに対して提示されたカテゴリ表示画面に対するユーザの操作（指定操作）を受け付ける。この場合、ユーザは、カテゴリ表示画面に対して、文書格納部１００に格納されている分析の対象となる文書（集合）、当該文書に含まれるテキスト、当該文書が有する例えば２つの属性（第１および第２の属性）、および単語と当該２つの属性の各々との相関の有無を示すパターンを指定することができる。なお、パターンは、上記したパターン格納部１２０に格納されている複数のパターンの中から指定される。

　クロス集計可視化部１３２は、ユーザによって指定された２つの属性のうちの１つ目の属性（第１の属性）の属性値に基づいて分析の対象となる文書が分類されたカテゴリ（第１のカテゴリ）を生成する。また、クロス集計可視化部１３２は、ユーザによって指定された２つの属性のうちの２つ目の属性（第２の属性）の属性値に基づいて分析の対象となる文書が分類されたカテゴリ（第２のカテゴリ）を生成する。

　クロス集計可視化部３２は、ユーザによって指定された２つの属性のうちの１つ目の属性の属性値に基づいて生成されたカテゴリおよび２つ目の属性の属性値に基づいて生成されたカテゴリの両方に分類された文書の数を含むクロス集計結果を生成する。

　クロス集計可視化部３２によって生成されたクロス集計結果は、後述する単語抽出部１４０によって抽出された単語とともに例えばディスプレイ１５に表示される。これにより、クロス集計可視化部３２によって生成されたクロス集計結果および単語抽出部１４０によって抽出された単語は、ユーザに対して提示される。

　単語抽出部１４０は、単語パターン判定処理部１４１および分析用単語抽出部１４２を含む。

　単語パターン判定処理部１４１は、ユーザによって指定された分析の対象となる文書（文書格納部１００に格納されている複数の文書）に含まれるテキストを解析することによって複数の単語を取得する。

　単語パターン判定処理部１４１は、取得された単語毎に、当該単語とユーザによって指定された２つの属性の各々との相関の有無を判定する。単語パターン判定処理部１４１は、判定結果がユーザによって指定されたパターンと一致するか否かを判定する。単語パターン判定処理部１４１は、判定結果がユーザによって指定されたパターンと一致する単語を抽出する。

　分析用単語抽出部１４２は、単語パターン判定処理部１４１によって抽出された単語毎に、ユーザによって指定された分析の対象となる文書における当該単語の出現頻度に基づいて特徴度を算出する。

　また、分析用単語抽出部１４２は、単語パターン判定処理部１４１によって抽出された単語毎に、当該単語と当該単語以外の単語パターン判定処理部１４１によって抽出された単語との共起に基づく関連度を算出する。

　分析用単語抽出部１４２は、単語パターン判定処理部１４１によって抽出された単語の中から、当該単語毎に算出された特徴度および関連度に基づいてユーザに対して提示される単語を抽出する。

　なお、分析用単語抽出部１４２によって抽出された単語は、上記したようにクロス集計可視化部１３２によってユーザに提示される。

　図３は、図２に示す文書格納部１００に格納されている文書のデータ構造の一例を示す。図２に示すように、文書格納部１００に格納されている文書は、複数の属性を有する。また、文書格納部１００に格納されている文書は、当該文書が有する属性毎に属性名および属性値を対応づけて含む。

　文書名は、文書の種類に応じて当該文書が有する属性の名称である。属性値は、文書が有する属性の値である。

　ここで、図３は、デジタルカメラに関する特許文書のデータ構造の一例を示す。図３に示す例では、文書１１１には、当該文書１１１が有する属性の属性名として、特許文書である文書１１１を識別するための文書番号、当該文書１１１の内容であるタイトルおよび本文、当該文書１１１の内容に関する特許出願をした出願人、当該特許出願の出願日および当該特許の重要度が含まれている。

　また、文書１１１には、例えば属性名「文書番号」に対応づけて属性値「ｄ０１」が含まれている。これによれば、文書１１１を識別するための文書番号が「ｄ０１」であることが示されている。ここでは、属性名「文書番号」（に対応づけられている属性値）について説明したが、文書１１１には、他の属性についても同様に属性名に対応づけて属性値が含まれている。なお、属性名「タイトル」および「本文」に対応づけて文書１１１に含まれる属性値には、複数の単語からなるテキストが含まれている。図３に示す文書（特許文書）１１１の場合、属性名が「本文」である属性の属性値には、例えば特許文書の要約等が含まれる。

　ここでは、文書１１１について説明したが、文書格納部１００には、複数の文書（特許文書）が格納されている。また、文書格納部１００に格納されている文書は、上記した図３に示す文書１１１が有する属性の全てを有していなくてもよいし、他の属性を有していてもよい。

　なお、図３においては省略されているが、文書が有する属性には型（当該属性値の型）が予め定められている。例えば属性名が「タイトル」および「本文」である属性のように当該属性の属性値にテキストが含まれる場合、当該属性名が「タイトル」および「本文」である属性の型はテキスト型である。また、属性名が「出願人」および「特許の重要度」である属性のように当該属性の属性値が連続していない値である属性の型は離散値型である。更に、属性名が「出願日」である属性のように当該属性の属性値が連続している値である属性の型は連続値型である。

　図４～図９は、図２に示すカテゴリ格納部１１０に格納されているカテゴリ情報のデータ構造の一例を示す図。カテゴリ格納部１１０に格納されているカテゴリ情報は、文書格納部１００に格納されている文書が分類されたカテゴリを示す。なお、カテゴリ格納部１１０に格納されているカテゴリ情報によって示されるカテゴリは、例えば階層構造を構成する。なお、本実施形態において、文書格納部１００に格納されている文書が分類されたカテゴリは予め作成され、当該カテゴリを示すカテゴリ情報がカテゴリ格納部１１０に格納されているものとする。また、カテゴリは、例えば文書格納部１００に格納されている複数の文書をクラスタリングすることによって作成されてもよい。

　図４～図９に示すように、カテゴリ情報には、カテゴリ番号、親カテゴリ番号、カテゴリ名および文書番号が含まれる。なお、図６、図８および図９に示すように、カテゴリ情報には、必要に応じて条件が含まれていても構わない。

　カテゴリ番号は、カテゴリを一意に識別するための識別子である。親カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの一階層上位に位置するカテゴリ（親カテゴリ）を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。文書番号は、カテゴリ番号によって識別されるカテゴリに分類された文書を識別するための文書番号を示す。また、条件は、カテゴリ番号によって識別されるカテゴリに分類される文書が満たすべき条件を示す。

　なお、カテゴリ格納部１１０に格納されているカテゴリ情報は、例えば文書格納部１００に格納されている文書に含まれる属性名または属性値単位のカテゴリ（つまり、属性名または属性値に対応するカテゴリ）を示す。

　図４は、カテゴリの階層構造におけるルートのカテゴリ（以下、ルートカテゴリと表記）を示すカテゴリ情報のデータ構造の一例を示す。

　図４に示す例では、カテゴリ情報１２１には、カテゴリ番号「ｃ０１」、親カテゴリ番号「（なし）」、カテゴリ名「（ルート）」および文書番号「（なし）」が含まれている。このカテゴリ情報１２１によれば、カテゴリ番号「ｃ０１」によって識別されるルートカテゴリのカテゴリ名が「（ルート）」であることが示されている。なお、親カテゴリ番号「（なし）」は、階層構造においてカテゴリ番号「ｃ０１」によって識別されるカテゴリ（ルートカテゴリ）の親カテゴリは存在しないことが示されている。また、文書番号「（なし）」は、カテゴリ番号「ｃ０１」によって識別されるルートカテゴリには文書が分類されていないことが示されている。なお、以下に説明するカテゴリ情報に含まれる文書番号「（なし）」についても同様であるため、その説明については省略する。

　図５は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

　図５に示す例では、カテゴリ情報１２２には、カテゴリ番号「ｃ０２」、親カテゴリ番号「ｃ０１」カテゴリ名「出願人別」および文書番号「（なし）」が含まれている。このカテゴリ情報１２２によれば、カテゴリ番号「ｃ０２」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０２」によって識別されるカテゴリのカテゴリ名が「出願人別」であることが示されている。

　なお、図５に示すカテゴリ情報１２２は、文書格納部１００に格納されている文書に含まれる属性名「出願人」に対応するカテゴリを示している。

　図６は、カテゴリの階層構造において図５に示すカテゴリ情報１２２によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

　図６に示す例では、カテゴリ情報１２３には、カテゴリ番号「ｃ２１」、親カテゴリ番号「ｃ０２」、カテゴリ名「Ａ社」、文書番号「ｄ０１，ｄ１５，ｄ２３，ｄ３６，…」および条件「出願人＝“Ａ社”」が含まれている。このカテゴリ情報１２３によれば、カテゴリ番号「ｃ２１」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０２」によって識別されるカテゴリ（つまり、図５に示すカテゴリ情報１２２によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ２１」によって識別されるカテゴリのカテゴリ名が「Ａ社」であることが示されている。また、カテゴリ番号「ｃ２１」によって識別されるカテゴリには、条件「出願人＝“Ａ社”」を満たす文書、つまり、文書番号「ｄ０１」、「ｄ１５」、「ｄ２３」および「ｄ３６」等によって識別される文書が分類されていることが示されている。なお、条件「出願人＝“Ａ社”」は、文書が属性名「出願人」の属性値として「Ａ社」を含むことを示している。

　なお、図６に示すカテゴリ情報１２３は、文書格納部１００に格納されている文書に含まれる属性値「Ａ社」に対応するカテゴリを示している。つまり、図６に示すカテゴリ情報１２３によって示されるカテゴリは、出願人をＡ社とする文書（特許文書）が分類されているカテゴリである。

　図７は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

　図７に示す例では、カテゴリ情報１２４には、カテゴリ番号「ｃ０３」、親カテゴリ番号「ｃ０１」、カテゴリ名「特許の重要度別」および文書番号「（なし）」が含まれている。このカテゴリ情報１２４によれば、カテゴリ番号「ｃ０３」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０３」によって識別されるカテゴリのカテゴリ名が「特許の重要度別」であることが示されている。

　なお、図７に示すカテゴリ情報１２４は、文書格納部１００に格納されている文書に含まれる属性名「特許の重要度」に対応するカテゴリを示している。

　図８は、カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

　図８に示す例では、カテゴリ情報１２５には、カテゴリ番号「ｃ３１」、親カテゴリ番号「ｃ０３」、カテゴリ名「Ａ」、文書番号「ｄ０７，ｄ２３，ｄ５８，…」および条件「特許の重要度＝“Ａランク”」が含まれている。このカテゴリ情報１２５によれば、カテゴリ番号「ｃ３１」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０３」によって識別されるカテゴリ（つまり、図７に示すカテゴリ情報１２４によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３１」によって識別されるカテゴリのカテゴリ名が「Ａ」であることが示されている。また、カテゴリ番号「ｃ３１」によって識別されるカテゴリには、条件「特許の重要度＝“Ａランク”」を満たす文書、つまり、文書番号「ｄ０７」、「ｄ２３」および「ｄ５８」等によって識別される文書が分類されていることが示されている。なお、条件「特許の重要度＝“Ａランク”」は、文書が属性名「特許の重要度」の属性値として「Ａランク」を含むことを示している。

　なお、図８に示すカテゴリ情報１２５は、文書格納部１００に格納されている文書に含まれる属性値「Ａランク」に対応するカテゴリを示している。つまり、図８に示すカテゴリ情報１２５によって示されるカテゴリは、特許の重要度がＡランクに設定されている文書（特許文書）が分類されているカテゴリである。

　図９は、カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

　図９に示す例では、カテゴリ情報１２６には、カテゴリ番号「ｃ３２」、親カテゴリ番号「ｃ０３」、カテゴリ名「Ｂ」、文書番号「ｄ１５，ｄ３２，ｄ６９，…」および条件「特許の重要度＝“Ｂランク”」が含まれている。このカテゴリ情報１２６によれば、カテゴリ番号「ｃ３２」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０３」によって識別されるカテゴリ（つまり、図７に示すカテゴリ情報１２４によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３２」によって識別されるカテゴリのカテゴリ名が「Ｂ」であることが示されている。また、カテゴリ番号「ｃ３２」によって識別されるカテゴリには、条件「特許の重要度＝“Ｂランク”」を満たす文書、つまり、文書番号「ｄ１５」、「ｄ３２」および「ｄ６９」等によって識別される文書が分類されていることが示されている。なお、条件「特許の重要度＝“Ｂランク”」は、文書が属性名「特許の重要度」の属性値として「Ｂランク」を含むことを示している。

　なお、図９に示すカテゴリ情報１２５は、文書格納部１００に格納されている文書に含まれる属性値「Ｂランク」に対応するカテゴリを示している。つまり、図９に示すカテゴリ情報１２６によって示されるカテゴリは、特許の重要度がＢランクに設定されている文書（特許文書）が分類されているカテゴリである。

　次に、図１０のフローチャートを参照して、本実施形態に係る文書分析装置１０の処理手順について説明する。

　まず、文書分析装置１０のユーザインタフェース部１３０に含まれるカテゴリ表示操作部１３１は、カテゴリ格納部１１０に格納されているカテゴリ情報に基づいて、階層構造を構成するカテゴリをユーザに対して提示するためのカテゴリ表示画面を表示する（ステップＳ１）。この場合、階層構造を構成するカテゴリは、カテゴリ格納部１１０に格納されているカテゴリ情報に含まれるカテゴリ番号、カテゴリ名および親カテゴリ番号に基づいて表示される。

　ここで、図１１は、カテゴリ表示画面の一例を示す。図１１に示すカテゴリ表示画面１５０には、カテゴリ表示領域１５０ａ、タイトル表示領域１５０ｂおよび本文表示領域１５０ｃが設けられている。カテゴリ表示領域１５０ａには、カテゴリ格納部１１０に格納されているカテゴリ情報によって示されるカテゴリ（のカテゴリ名）が階層構造で表示される。図１１に示す例では、カテゴリ表示領域１５０ａには、ルートカテゴリの子カテゴリ（当該ルートカテゴリの一階層下位に位置するカテゴリ）として、例えば「出願人別」カテゴリおよび「特許の重要度」カテゴリが表示されている。更に、カテゴリ表示領域１５０ａには、「出願人別」カテゴリの子カテゴリ（当該「出願人別」カテゴリの一階層下位に位置するカテゴリ）として、「Ａ社」カテゴリ、「Ｂ社」カテゴリ、「Ｃ社」カテゴリおよび「Ｄ社」カテゴリが表示されている。ここで、カテゴリ表示領域１５０ａに表示されている例えば「出願人別」カテゴリとはカテゴリ名が「出願人別」であるカテゴリであるものとし、他のカテゴリについても同様であるものとする。また、以下の説明においても同様に表記する。

　なお、図１１に示すカテゴリ表示領域１５０ａに表示されているカテゴリのうちの「出願人別」カテゴリおよび「特許の重要度」カテゴリは、文書格納部１００に格納されている文書に含まれる属性名「出願人」および「特許の重要度」に対応するカテゴリである。また、「Ａ社」カテゴリ、「Ｂ社」カテゴリ、「Ｃ社」カテゴリおよび「Ｄ社」カテゴリの各々は、属性名が「出願人」である属性の属性値「Ａ社」、「Ｂ社」、「Ｃ社」および「Ｄ社」に対応するカテゴリである。

　また、図１１に示すカテゴリ表示領域１５０ａには表示されていないが、当該カテゴリ表示領域１５０ａにおいてユーザが例えば「特許の重要度」カテゴリを指定すると、属性名が「特許の重要度」である属性の属性値「Ａランク」および「Ｂランク」等に対応するカテゴリ（つまり、「特許の重要度」カテゴリの子カテゴリ）が表示される。なお、カテゴリ表示領域１５０ａには、便宜的に「出願人別」カテゴリおよび「特許の重要度」カテゴリ等が表示されているが、他の属性（例えば、属性名が「出願日」である属性）に対応するカテゴリについても同様に表示される。

　ここで、ユーザは、カテゴリ表示領域１５０ａに表示されているカテゴリのうちの例えば１つを選択することができる。タイトル表示領域１５０ｂには、カテゴリ表示領域１５０ａに表示されたカテゴリのうち、ユーザによって選択されたカテゴリに分類された文書のタイトル（当該文書に含まれる属性名「タイトル」に対する属性値）の一覧が表示される。図１１に示す例では、カテゴリ表示領域１５０ａに表示されているカテゴリのうち「Ａ社」カテゴリが選択され、タイトル表示領域１５０ｂには、当該「Ａ社」カテゴリに分類された文書のタイトルの一覧が表示されている。具体的には、タイトル表示領域１５０ｂには、「Ａ社」カテゴリに分類された文書のタイトルとして、「電子スチルカメラ」、「画像処理装置およびデジタルカメラ」、「デジタルカメラ」および「デジタルカメラ」が表示されている。

　また、ユーザは、タイトル表示領域１５０ｂに表示されている文書のタイトルの一覧の中から例えば１つを選択することができる。本文表示領域１５０ｃには、タイトル表示領域１５０ｂに表示された文書のタイトルの一覧の中からユーザによって選択されたタイトルの文書の本文（属性名が「本文」である属性の属性値）が表示される。図１１に示す例では、タイトル表示領域１５０ｂに表示されている文書のタイトルの一覧の中から「画像処理装置およびデジタルカメラ」が選択され、本文表示領域１５０ｃには、タイトルが当該「画像処理装置およびデジタルカメラ」である文書の本文「顔表情検出部は、被写体画像中の被写体人物の笑顔を検出する。」が表示されている。

　再び図１０に戻ると、ユーザは、カテゴリ表示操作部１３１によって表示されたカテゴリ表示画面（図１１に示すような画面）を介して、各種情報を指定する操作を行うことができる。具体的には、ユーザは、文書分析装置１０による分析の対象となる複数の文書（以下、分析対象文書と表記）、当該分析対象文書のテキスト、当該テキストと組み合わせて傾向を分析したい２つの属性、単語と当該２つの属性の各々との相関の有無を示すパターンおよび当該パターンに基づいて抽出される単語の数（以下、抽出単語数と表記）を指定する操作を行う。

　カテゴリ表示操作部１３１は、ユーザによって上記したような各種情報を指定する操作が行われた場合、当該ユーザの指定操作を受け付ける（ステップＳ２）。

　ここで、図１２を参照して、ユーザが各種情報を指定する際の画面について説明する。この場合、ユーザは、カテゴリ表示画面１５０のカテゴリ表示領域１５０ａに表示されているカテゴリを指定することによって分析対象文書を指定することができる。なお、図１２に示すように、例えばルートカテゴリを指定した場合、分析対象文書には、当該ルートカテゴリの下位に位置する全てのカテゴリに分類されている文書が含まれる。

　また、ユーザが各種情報を指定する場合、カテゴリ表示画面１５０には、図１２に示すように指定操作画面１５０ｄが表示される。この指定操作画面１５０ｄには、テキスト指定欄１５０ｅ、属性１指定欄１５０ｆ、属性２指定欄１５０ｇ、パターン指定欄１５０ｈ、抽出単語数指定欄１５０ｉ、実行ボタン１５０ｊおよびキャンセルボタン１５０ｋが設けられている。

　テキスト指定欄１５０ｅでは、単語を抽出する対象となるテキストを指定することができる。テキスト指定欄１５０ｅにおいては、分析対象文書が有する属性であってテキストを含む属性値に対応する属性の属性名（ここでは、「タイトル」および「本文」）が表示されており、当該属性名の中から少なくとも１つを選択することができる。図１２に示す例では、単語を抽出する対象となるテキストとして「タイトル」および「本文」が指定されている。この場合、属性名が「タイトル」および「本文」である属性の属性値に含まれるテキストが指定されたことになる。

　属性１指定欄１５０ｆおよび属性２指定欄１５０ｇでは、テキスト指定欄１５０ｅにおいて指定されたテキスト（分析対象文書中のテキスト）と組み合わせて傾向を分析したい２つの属性を指定することができる。属性１指定欄１５０ｆおよび属性２指定欄１５０ｇにおいては、分析対象文書が有する属性の属性名のうち、上記したテキスト指定欄１５０ｅに表示されている属性名および文書番号以外の属性名（ここでは、「出願人」、「出願日」および「特許の重要度」）が表示されており、それぞれ当該属性名のうちの１つを選択することができる。なお、属性１指定欄１５０ｆにおいては、例えば型が離散値型の属性（以下、離散値属性と表記）が選択される。一方、属性値２指定欄１５０ｇにおいては、例えば型が連続値型の属性（以下、連続値属性と表記）が選択される。図１２に示す例では、属性１指定欄１５０ｆにおいて「出願人」、属性２指定欄１５０ｇにおいて「出願日」が指定されている。以下、属性１指定欄１５０ｆにおいて指定された属性を第１の属性、属性２の指定欄１５０ｇにおいて指定された属性を第２の属性と称する。なお、ここでは第１の属性として離散値属性が指定され、第２の属性として連続値属性が指定されるものとして説明したが、例えば第１および第２の属性として離散値属性が指定されてもよいし、当該第１および第２の属性として連続値属性が指定されてもよい。

　パターン指定欄１５０ｈでは、上記したパターン格納部１２０に格納されている複数のパターンの中からユーザが知見を得たいパターン（単語と第１および第２の属性の各々との相関の有無を示すパターン）を指定することができる。

　ここで、図１３を参照して、パターン指定欄１５０ｈにおいて指定することができるパターン（つまり、パターン格納部１２０に格納されている複数のパターン）について説明する。

　図１３に示すように、単語と第１および第２の属性の各々との相関の有無を示すパターンは、第１～第４のパターンを含む。以下、第１～第５のパターンのそれぞれについて説明する。

　まず、第１のパターンは、単語と第１の属性（例えば、離散値属性）との相関があり、当該単語と第２の属性（例えば、連続値属性）との相関があることを示すパターンである。なお、第１の属性との相関があり、第２の属性との相関がある単語を、第１のパターンに一致する単語と称する。

　ここで、図１４を用いて第１のパターンについて具体的に説明すると、第１のパターンに一致する単語Ｘは、例えば第１の属性の属性名が「出願人」である属性（以下、「出願人」属性と表記）であり、第２の属性の属性名が「出願日」である属性（以下、「出願日」属性と表記）である場合に、特定の出願人が、特定の時期に出願している技術（内容）を表す単語である。

　第２のパターンは、単語と第１の属性との相関があり、当該単語と第２の属性との相関がないことを示すパターンである。なお、第１の属性との相関があり、第２の属性との相関がある単語を、第２のパターンに一致する単語と称する。

　ここで、図１５を用いて第２のパターンについて具体的に説明すると、第２のパターンに一致する単語Ｘは、例えば第１の属性が「出願人」属性であり、第２の属性が「出願日」属性である場合に、特定の出願人が時期によらず、出願している技術（内容）を表す単語である。

　第３のパターンは、単語と第１の属性との相関がなく、当該単語と第２の属性との相関があることを示すパターンである。なお、第１の属性との相関がなく、第２の属性との相関がある単語を、第３のパターンに一致する単語と称する。

　ここで、図１６を用いて第３のパターンについて具体的に説明すると、第３のパターンに一致する単語Ｘは、例えば第１の属性が「出願人」属性であり、第２の属性が「出願日」属性である場合に、各出願人が特定の時期に出願している技術（内容）を表す単語である。

　なお、上記した第１～第３のパターンにおいては、単語と第１の属性と第２の属性との相関はあってもなくても構わない。

　第４のパターンは、単語と第１の属性との相関がなく、更に、当該単語と第２の属性との相関はないが、当該単語と第１の属性と第２の属性との相関があることを示すパターンである。なお、第１の属性との相関がなく、第２の属性との相関もなく、第１の属性と第２の属性との相関がある単語を、第４のパターンに一致する単語と称する。

　ここで、図１７を用いて第４のパターンについて具体的に説明すると、第４のパターンに一致する単語Ｘは、例えば第１の属性が「出願人」属性であり、第２の属性が「出願日」属性である場合に、各出願人がそれぞれの時期に出願している出願している技術（内容）を表す単語である。

　なお、単語と第１および第２の属性の各々との相関の有無を示すパターンには、上記した第１～第４のパターン以外に、第５のパターンがある。この第５のパターンは、単語と第１の属性との相関がなく、当該単語と第２の属性との相関がなく、更に、当該単語と第１の属性と第２の属性との相関もないことを示すパターンである。なお、第５のパターンのように全てに相関がない単語は文書の分析において有用でないため、上述した図１２に示すパターン指定欄１５０ｈのように、第５のパターンはユーザによって指定されない。換言すれば、パターン指定欄１５０ｈにおいては、上述した第１～第４のパターン（図１２に示すパターン指定欄１５０ｈでは、単に１～４と表記）が指定されることができる。図１２に示す例では、パターンとして「パターン２（つまり、第２のパターン）」が指定されている。

　なお、図１２に示す例では、パターンを番号で表示しているが、例えば図１４～図１７に示すような各パターンを概念的に認識できるような画像（つまり、各パターンによって得られる知見の例を表す画像）が予めパターン格納部１２０に格納されており、当該画像が表示されても構わない。

　抽出単語数指定欄１５０ｉでは、上記したユーザによって指定されたパターンと一致する単語のうちユーザに対して提示される単語として抽出される単語の数（抽出単語数）を指定することができる。抽出単語数指定欄１５０ｈにおいては、抽出単語数として例えば「５」、「１０」、「２０」、「３０」および「４０」が表示されており、当該抽出単語数として「５」が指定されている。

　上記した各欄１５０ｅ～１５０ｉの各々において指定操作が行われた後に、指定操作画面１５０ｄに設けられている実行ボタン１５０ｊが例えばマウス１３等を用いて指定（押下）された場合、後述する単語パターン判定処理が実行される。一方、指定操作画面１５０ｄに設けられているキャンセルボタン１５０ｋがマウス１３等を用いて指定（押下）された場合、例えば各欄１５０ｅ～１５０ｉにおいて行われた指定操作が無効となり、図１１に示すカテゴリ表示画面に戻る。

　再び図１０に戻ると、カテゴリ表示操作部１３１によってユーザの指定操作が受け付けられると、単語抽出部１４０に含まれる単語パターン判定処理部１４１は、単語パターン判定処理を実行する（ステップＳ３）。この単語パターン判定処理によれば、ユーザによって指定された分析対象文書の各々のテキストに含まれる複数の単語の中から、当該ユーザによって指定されたパターンに一致する単語（分析に役立つテキストの内容を表す単語）が抽出される。なお、単語パターン判定処理部１４１の詳細については後述する。

　次に、分析用単語抽出部１４２は、分析用単語抽出処理を実行する（ステップＳ４）。この分析用単語抽出処理によれば、単語抽出部１４０によって抽出された単語の各々に対して重み付けが行われ、当該重み付けの結果が上位の単語が抽出される。ここでは、上記したユーザによって単語抽出数として指定された数の単語が抽出される。なお、分析用単語抽出処理の詳細については後述する。

　ユーザインタフェース部１３０に含まれるクロス集計可視化部１３２は、クロス集計結果表示処理を実行する（ステップＳ５）。このクロス集計結果表示処理によれば、後述するようにユーザによって指定された第１の属性の属性値に基づいて生成されたカテゴリと第２の属性の属性値に基づいて生成されたカテゴリとをクロス集計した結果（クロス集計結果）および分析用単語抽出部１４２によって抽出された単語のリストが可視化されて提示（表示）される。なお、クロス集計結果表示処理の詳細については後述する。

　次に、図１８のフローチャートを参照して、上述した単語パターン判定処理（図１０に示すステップＳ３の処理）の処理手順について詳細に説明する。なお、単語パターン判定処理は、単語抽出部１４０に含まれる単語パターン判定処理部１４１によって実行される。

　以下、上記したようにカテゴリ表示画面を介してユーザによって指定されたテキストおよびパターンをそれぞれ指定テキストおよび指定パターンと称する。

　まず、単語パターン判定処理部１４１は、単語パターン判定処理による抽出結果のリストを初期化する（ステップＳ１１）。

　単語パターン判定処理部１４１は、ユーザによって指定された分析対象文書（の各々）に含まれる指定テキストを取得する。例えば指定テキストとしてタイトルおよび本文が指定されている場合には、分析対象文書の各々に含まれる「タイトル」属性および「本文」属性の属性値に含まれるテキストが取得される。単語パターン判定処理部１４１は、取得された指定テキストを形態素解析する（ステップＳ１２）。単語パターン判定処理部１４１は、形態素解析結果に基づいて、形態素（以下、単語と表記）の集合を取得する。ここで単語パターン判定処理部１４１によって取得される単語の集合には、例えば品詞が名詞、動詞および形容詞等の自立語が含まれる。

　次に、単語パターン判定部１４１によって取得された単語の各々について、以下のステップＳ１３～Ｓ２０の処理が実行される。

　この場合、単語パターン判定処理部１４１は、形態素解析結果に基づいて取得された単語の集合から単語を１つ取得する（ステップＳ１３）。以下、このステップＳ１３において取得された単語を対象単語と称する。

　単語パターン判定処理部１４１は、対象単語と第１の属性との相関を判定する（ステップＳ１４）。換言すれば、単語パターン判定処理部１４１は、対象単語と第１の属性との相関の有無（つまり、相関があるかないか）を判定する。

　ここで、対象単語と第１の属性との相関の判定処理について詳細に説明する。対象単語と第１の属性との相関の判定処理は、当該第１の属性が離散値属性であるかまたは連続値属性であるかで異なる。なお、第１の属性が離散値属性であるかまたは連続値属性であるかは、上述した当該第１の属性の型に基づいて判別される。

　まず、第１の属性が離散値属性である場合の対象単語と第１の属性との相関の判定処理（以下、対象単語と離散値属性との相関判定処理と表記）について説明する。

　対象単語と離散値属性との相関判定処理では、分類済みの離散値属性のカテゴリを対象に、特定の離散値（つまり、離散値属性の属性値）において対象単語の出現確率の偏りが統計的に有意であるか否かが判定される。具体的には、図１９に示すように、単語「笑顔」の各出願人毎の出現確率を比較すると、特定の出願人（ここでは、Ａ社）の出願確率が他の出願人の出現確率と比べて有意に偏っている。この場合、単語「笑顔」は、離散値属性（第１の属性）と相関があると判定される。

　このような集合間の出現確率の偏りの有意性を判定する方法として、分散分析がある。従って、上記した対象単語と離散値属性との相関判定処理においては、分散分析が用いられる。

　以下、分散分析を用いた対象単語と離散値属性との相関判定処理について具体的に説明する。

　ここでは、離散値属性（の各属性値）のカテゴリの集合をｄｉｓＣ１，ｄｉｓＣ２，…，ｄｉｓＣａとする。なお、離散値属性のカテゴリの集合とは、当該離散値属性の属性値に基づいて分析対象文書が部類された複数のカテゴリの集合である。具体的には、離散値属性が「出願人」属性である場合、離散値属性のカテゴリの集合には、分析対象文書のうち、「出願人」属性の属性値として「Ａ社」を含む文書が分類されたカテゴリ、「出願人」属性の属性値として「Ｂ社」を含む文書が分類されたカテゴリ、「出願人」属性の属性値として「Ｃ社」を含む文書が分類されたカテゴリ等が含まれる。なお、上記したｄｉｓＣ１，ｄｉｓＣ２，…，ｄｉｓＣａは、排他関係にあるものとする。

　また、離散値属性のカテゴリ数をａ、分析対象文書集合をＤ、当該分析対象文書集合における文書数を｜Ｄ｜とする。

　この場合、以下の式（１）に基づいて総平方和Ｓｔが算出される。

　なお、この式（１）において、ｄｆ（ｔ，Ｄ）は、分析対象文書集合Ｄにおける対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（１）におけるＣＴは、以下の式（２）によって定義される。

　次に、以下の式（３）に基づいて群間平方和（全体集合に対する離散値属性の属性値毎での出現確率の偏りの平方和）Ｓａが算出される。

　なお、この式（３）において、ｄｆ（ｔ，ｄｉｓＣｉ）は、離散値属性のカテゴリｄｉｓＣｉに分類された文書のうち対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（３）において、｜ｄｉｓＣｉ｜は、離散値属性のカテゴリｄｉｓＣｉに分類された文書の数を示す。

　また、以下の式（４）に基づいて群間平方和の自由度φａが算出される。

　次に、上記した式（１）および式（３）に基づいて算出された総平方和Ｓｔおよび群間平方和Ｓａを以下の式（５）に当てはめることによって、誤差変動和Ｓｅが算出される。

　また、以下の式（６）に基づいて誤差変動和の自由度φｅが算出される。

　更に、上記した式（３）および式（４）に基づいて算出された群間平方和Ｓａおよび当該群間平方和の自由度φａを以下の式（７）に当てはめることによって、群間の分散Ｖａが算出される。

　また、上記した式（５）および式（６）に基づいて算出された誤差変動和Ｓｅおよび当該誤差変動和の自由度φｅを以下の式（８）に当てはめることによって、誤差の分散Ｖｅが算出される。

　最後に、上記した式（７）および式（８）に基づいて算出された群間の分散Ｖａおよび誤差の分散Ｖｅを以下の式（９）に当てはめることによって、分散比Ｆａが算出される。

　上記した対象単語と離散値属性との相関判定処理においては、式（９）によって算出された分散比Ｆａが、式（４）によって算出された群間平方和の自由度φａ、式（６）によって算出された誤差変動和の自由度φｅのＦ分布の値よりも大きければ、離散値属性（のカテゴリ）間で、対象単語の出現確率の偏りが有意である、つまり、対象単語と離散値属性（第１の属性）との相関があると判定される。なお、自由度φａ、自由度φｅのＦ分布の値は、例えば文書分析装置１０において予め用意されているＦ分布表から取得されてもよいし、計算によって算出されても構わない。

　次に、第１の属性が連続値属性である場合の対象単語と第１の属性との相関の判定処理（以下、対象単語と連続値属性との相関判定処理と表記）について説明する。

　対象単語と連続値属性との相関判定処理では、連続値の特定の範囲での単語の出現確率が他の連続値の範囲と比べて統計的に有意であるか否かが判定される。

　なお、連続値属性の属性値（連続値）は、上記した離散値属性の属性値（離散値）とは異なり、データの切れ目がなく、機械的に特定の範囲の出現確率を求めることができない。そこで、本実施形態においては、ヒストグラムが用いられる。ヒストグラムとは、連続値が存在する範囲をいくつかの区間に分けて、当該各区間に該当するデータの出現の頻度を数えてグラフ化したものである。ヒストグラムを描くためには、区間の個数（以下、級数と表記）と、区間の幅（以下、階級幅と表記）を求める必要がある。ここでは、例えばスタージェスの公式を用いて級数および階級幅が求められるものとする。

　スタージェスの公式によれば、級数ｋは、以下の式（１０）に基づいて算出される。

　なお、式（１０）において、｜Ｄ｜は、分析対象文書の数を示す。また、階級幅ｈは、上記した式（１０）に基づいて算出された級数ｋを用いて以下の式（１１）に基づいて算出される。

　ここで、連続値属性（の各属性値）のカテゴリの集合をｃｖ１，ｃｖ２，…，ｃｖＤとする。この場合、式（１１）におけるｍａｘ（ｃｖ）は、連続値属性の属性値（つまり、連続値）の最大値を示す。一方、式（１１）におけるｍｉｎ（ｃｖ）は、連続値属性の属性値（つまり、連続値）の最小値を示す。

　対象単語と連続値属性との相関判定処理においては、上記したようにヒストグラムが求められた後、式（１１）に基づいて算出された階級幅ｈにおける単語の出現確率の偏りの有意性を、上述した対象単語と離散値属性との相関判定処理と同様の処理によって判定する。

　具体的には、階級幅ｈおよび第１の属性の属性値を用いて連続値属性のカテゴリの集合（連続値の階級幅ｈ毎の集合）が生成され、当該生成された連続値属性のカテゴリの集合を離散値属性のカテゴリの集合として上述した対象単語と離散値属性との相関判定処理と同様の処理が実行される。これにより、対象単語と連続値属性（第１の属性）との相関の有無が判定される。なお、連続値属性のカテゴリの集合には、例えば連続値属性の属性値の最小値から階級幅ｈ毎に生成されたカテゴリであって、当該各階級幅ｈに該当する文書（分析対象文書）が分類されたカテゴリが含まれる。また、階級幅ｈに該当する文書とは、連続値属性が例えば「出願日」属性である場合に、当該階級幅ｈの期間に出願された文書（つまり、当該階級幅ｈの期間内に該当する出願日を「出願日」属性の属性値として含む文書）をいう。

　なお、前述した図１２において説明したように第１の属性として例えば「出願人」属性が指定された場合には、ステップＳ１４においては、上記した対象単語と離散値属性との相関判定処理が実行される。

　このように、対象単語と第１の属性との相関の判定処理が実行された場合、単語パターン判定処理部１４１は、当該判定結果（つまり、対象単語と第１の属性との相関があるか否か）が指定パターンと一致するか否かを判定する（ステップＳ１５）。

　ここで、指定パターンが上述した第２のパターン（つまり、単語と第１の属性との相関があり、当該単語と第２の属性との相関がないことを示すパターン）である場合を想定する。第２のパターンによれば単語と第１の属性との相関があることが示されているため、ステップＳ１４における判定結果が「対象単語と第１の属性との相関がある」である場合には、当該判定結果が指定パターンと一致すると判定される。一方、ステップＳ１４における判定結果が「対象単語と第１の属性との相関がない」である場合には、当該判定結果が指定パターンと一致しないと判定される。ここでは、第２のパターンについて説明したが、他のパターンについても同様である。

　ステップＳ１４における判定結果が指定パターンと一致しないと判定された場合（ステップＳ１５のＮＯ）、後述するステップＳ２１の処理が実行される。

　一方、ステップＳ１４における判定結果が指定パターンと一致すると判定された場合（ステップＳ１５のＹＥＳ）、単語パターン判定処理部１４１は、対象単語と第２の属性との相関を判定する（ステップＳ１６）。なお、この対象単語と第２の属性との相関の判定処理については、上記したステップＳ１４の処理と同様であるため、その詳しい説明を省略する。

　なお、前述した図１２において説明したように第２の属性として例えば「出願日」属性が指定された場合には、ステップＳ１６においては、上記した対象単語と連続値属性との相関判定処理が実行される。

　次に、単語パターン判定処理部１４１は、ステップＳ１６における判定結果（つまり、対象単語と第２の属性との相関があるか否か）が指定パターンと一致するか否かを判定する（ステップＳ１７）。

　ここで、上記したように指定パターンが第２のパターン（つまり、単語と第１の属性との相関があり、当該単語と第２の属性との相関がないことを示すパターン）である場合を想定する。第２のパターンによれば単語と第２の属性との相関がないことが示されているため、ステップＳ１６における判定結果が「対象単語と第２の属性との相関がある」である場合には、当該判定結果が指定パターンと一致しないと判定される。一方、ステップＳ１４における判定結果が「対象単語と第２の属性との相関がない」である場合には、当該判定結果が指定パターンと一致すると判定される。

　ステップＳ１６における判定結果が指定パターンと一致しないと判定された場合（ステップＳ１７のＮＯ）、後述するステップＳ２１の処理が実行される。

　一方、ステップＳ１６における判定結果が指定パターンと一致すると判定された場合（ステップＳ１７のＹＥＳ）、単語パターン判定処理部１４１は、対象単語が第１の属性と第２の属性とによって偏って出現しているか否か、つまり、対象単語と第１の属性と第２の属性との相関を判定する（ステップＳ１８）。換言すれば、単語パターン判定処理部１４１は、対象単語と第１の属性と第２の属性との相関の有無（つまり、相関があるかないか）を判定する。

　ここで、対象単語と第１の属性と第２の属性との相関の判定処理について詳細に説明する。

　対象単語と第１の属性と第２の属性との相関の判定処理では、第１の属性の属性値（例えば、離散値）および第２の属性の属性値（例えば、連続値）とを組み合わせた各文書集合（当該第１の属性の属性値の各々および当該第２の属性の属性値の各々を含む文書の集合）における対象単語の出現確率の偏りが統計的に有意であるか否かが判定される。

　このような２つの属性を組み合わせた偏りを判定する方法として、二元配置分散分析がある。従って、上記した対象単語と第１の属性と第２の属性との相関の判定処理においては、二元配置分散分析が用いられる。

　以下、二元配置分散分析を用いた対象単語と第１の属性と第２の属性との相関の判定処理について具体的に説明する。ここでは、第１の属性が離散値属性であり、第２の属性が連続値属性であるものとして説明する。

　なお、上述した離散値属性（第１の属性）のカテゴリの集合をｄｉｓＣ１，ｄｉｓＣ２，…，ｄｉｓＣａとし、当該離散値属性のカテゴリの数をａとする。また、上述した連続値属性（第２の属性）のカテゴリの集合（連続値の階級幅毎の集合）をｃｏｎＣ１，ｃｏｎＣ２，…，ｃｏｎＣｂとし、当該連続値属性のカテゴリの数をｂとする。また、分析対象文書集合をＤ、当該分析対象文書集合における文書数を｜Ｄ｜とする。

　この場合、以下の式（１２）に基づいて総平方和Ｓｔが算出される。

　なお、この式（１２）において、ｄｆ（ｔ，Ｄ）は、分析対象文書集合Ｄにおける対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（１２）におけるＣＴは、以下の式（１３）によって定義される。

　この式（１３）におけるｎは、以下の式（１４）によって定義される。

　次に、以下の式（１５）に基づいて離散値間平方和Ｓａが算出される。

　なお、この式（１５）において、ｄｆ（ｔ，ｄｉｓＣｉ）は、離散値属性のカテゴリｄｉｓＣｉに分類された文書のうち対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（１５）において、｜ｄｉｓＣｉ｜は、離散値属性のカテゴリｄｉｓＣｉに分類された文書の数を示す。

　また、以下の式（１６）に基づいて連続値の階級幅間平方和Ｓｂが算出される。

　なお、この式（１６）において、ｄｆ（ｔ，ｃｏｎＣｉ）は、連続値属性のカテゴリｃｏｎＣｉに分類された文書のうち対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（１５）において、｜ｃｏｎＣｉ｜は、連続値属性のカテゴリｃｏｎＣｉに分類された文書の数を示す。

　次に、以下の式（１７）に基づいて離散値と連続値の階級幅を組み合わせた集合間の平方和Ｓａｂが算出される。

　なお、この式（１７）において、ｄｆ（ｔ，（ｄｉｓＣｉ，ｃｏｎＣｉ）は、離散値属性のカテゴリｄｉｓＣｉおよび連続値属性のカテゴリｃｏｎＣｉの両方に分類された文書のうち対象単語ｔを指定テキスト中に含む文書の数を示す。また、式（１７）において、｜ｄｉｓＣｉ∧ｃｏｎＣｉ｜は、離散値属性のカテゴリｄｉｓＣｉおよび連続値属性のカテゴリｃｏｎＣｉの両方に分類された文書の数を示す。

　また、以下の式（１８）に基づいて離散値と連続値の階級幅を組み合わせた集合間の平方和の自由度φａｂが算出される。

　なお、この式（１８）における（ａ－１）は上記した離散値間平方和の自由度φａであり、（ｂ－１）は上記した連続値の階級幅間平方和の自由度φｂである。

　次に、上記した式（１２）に基づいて算出された総平方和Ｓｔ、式（１５）に基づいて算出された離散値間平方和Ｓａ、式（１６）に基づいて算出された連続値の階級幅間平方和Ｓｂおよび式（１７）に基づいて算出された離散値と連続値の階級幅を組み合わせた集合間の平方和Ｓａｂを以下の式（１９）に当てはめることによって、誤差変動和Ｓｅが算出される。

　また、以下の式（２０）に基づいて誤差変動和の自由度φｅが算出される。

　次に、上記した式（１７）および式（１８）に基づいて算出された離散値と連続値の階級幅を組み合わせた集合間の平方和Ｓａｂおよびその自由度φａｂを以下の式（２１）に当てはめることによって、群間の分散Ｖａｂが算出される。

　更に、上記した式（１９）および式（２０）に基づいて算出された誤差変動和Ｓｅおよびその自由度φｅを以下の式（２２）に当てはめることによって、誤差の分散Ｖｅが算出される。

　最後に、上記した式（２０）および式（２１）に基づいて算出された群間の分散Ｖａｂおよび誤差の分散Ｖｅを以下の式（２３）に当てはめることによって、分散比Ｆａｂが算出される。

　上記した二元配置分散分析を用いた対象単語と第１の属性（離散値属性）と第２の属性（連続値属性）との相関の判定処理においては、式（２３）によって算出された分散比Ｆａｂが、式（１８）によって算出された自由度φａｂ、式（２０）によって算出された自由度φｅのＦ分布の値よりも大きければ、第１の属性（離散値）および第２の属性（連続値の階級幅）とを組み合わせた集合間で、単語の出現確率の偏りが有意である、つまり、対象単語と第１の属性と第２の属性との相関があると判定される。なお、自由度φａｂ、自由度φｅのＦ分布の値は、上記したように例えば文書分析装置１０において予め用意されているＦ分布表から取得されてもよいし、計算によって算出されても構わない。

　上記した対象単語と第１の属性と第２の属性との相関の判定処理が実行された場合、単語パターン判定処理部１４１は、当該判定結果（つまり、対象単語と第１の属性と第２の属性との相関があるか否か）が指定パターンと一致するか否かを判定する（ステップＳ１９）。

　ここで、指定パターンが上述した第４のパターン（つまり、単語と第１の属性との相関がなく、更に、当該単語と第２の属性との相関はないが、当該単語と第１の属性と第２の属性との相関があることを示すパターン）である場合を想定する。第４のパターンによれば単語と第１の属性と第２の属性との相関があることが示されているため、ステップＳ１８における判定結果が「対象単語と第１の属性と第２の属性との相関がある」である場合には、当該判定結果が指定パターンと一致すると判定される。一方、ステップＳ１８における判定結果が「対象単語と第１の属性と第２の属性との相関がない」である場合には、当該判定結果が指定パターンと一致しないと判定される。

　なお、ここでは第４のパターンについて説明したが、上述したように第１～第３のパターンにおいては対象単語と第１の属性と第２の属性との相関はあってもなくてもよい。このため、指定パターンが第１～第３のパターンである場合には、ステップＳ１８の判定結果にかかわらず指定パターンと一致すると判定されてもよいし、例えばステップＳ１８およびＳ１９の処理が省略されるような構成であっても構わない。ステップＳ１８およびＳ１９の処理が省略される場合には、ステップＳ１７において判定結果が指定パターンと一致すると判定された後に、後述するステップＳ２０の処理が実行されればよい。

　ステップＳ１８における判定結果が指定パターンと一致しないと判定された場合（ステップＳ１９のＮＯ）、後述するステップＳ２１の処理が実行される。

　一方、ステップＳ１８における判定結果が指定パターンと一致すると判定された場合（ステップＳ１９のＹＥＳ）、単語パターン判定処理部１４１は、対象単語をリストに追加（登録）する（ステップＳ２０）。なお、ここでリストに追加される単語は、第１および第２の属性の各々との相関が指定パターンに一致する単語である。

　次に、単語パターン判定処理部１４１は、当該単語パターン判定処理部１４１によって取得された全ての単語（分析対象文書に含まれる指定テキストを形態素解析することによって取得された単語）について上記したステップＳ１３～Ｓ２０の処理が実行されたか否かを判定する（ステップＳ２１）。

　全ての単語について処理が実行されていないと判定された場合（ステップＳ２１のＮＯ）、上記したステップＳ１３に戻って処理が繰り返される。

　一方、全ての単語について処理が実行されたと判定された場合（ステップＳ２１のＹＥＳ）、単語パターン判定処理部１４１は、リストを分析用単語抽出部１４２に対して出力する（ステップＳ２２）。

　このように単語パターン判定処理においては、分析対象文書に含まれる指定テキストを形態素解析することによって取得された複数の単語の中から指定パターンに一致する単語の集合が抽出される。具体的には、例えば指定パターンが上述した第２のパターンである場合には、第１の属性（離散値属性である「出願人」属性）との相関があり、第２の属性（連続値属性である「出願日」属性）との相関がない単語が抽出される。

　なお、上記した単語パターン判定処理においては、第１の属性との相関、第２の属性との相関および第１の属性と第２の属性との相関を個別に判定することによって、例えば第１の属性との相関の判定結果が指定パターンと一致しない場合には対象単語についての以降の判定処理を実行する必要がない。このため、本実施形態における単語パターン判定処理によれば、全ての相関を判定した後に指定パターンと一致するか否かを判定する場合と比較して処理を高速化することができる。

　次に、図２０のフローチャートを参照して、上述した分析用単語抽出処理（図１０に示すステップＳ４の処理）の処理手順について詳細に説明する。なお、分析用単語抽出処理は、単語抽出部１４０に含まれる分析用単語抽出部１４２によって実行される。

　分析用単語抽出処理においては、分析用単語抽出部１４２は、単語パターン判定処理部１４１によって出力されたリスト（以下、分析用単語リストと表記）に登録されている単語の各々について、以下のステップＳ３１～ステップＳ３７の処理を実行する。

　この場合、分析用単語抽出部１４２は、分析用単語リストに登録されている単語を１つ取得する（ステップＳ３１）。以下、分析用単語リストにｎ個の単語が登録されているものとし、このステップＳ３１において取得された単語を単語ｔｉ（ｉ＝１，２，…，ｎ）と称する。

　分析用単語抽出部１４２は、分析対象文書の指定テキスト中における単語ｔｉの出現頻度に基づいて、指定テキストの内容を表す単語ｔｉの特徴度を算出する（ステップＳ３２）。

　ここで、単語ｔｉの特徴度の算出処理について具体的に説明する。ここでは、単語ｔｉの特徴度は、例えばＴＦ－ＩＤＦによって算出されるものとする。ＴＦ－ＩＤＦは、テキストの内容を表す単語を抽出するための代表的な手法であり、文書中に頻繁に出現し、かつ、全体の文書集合の中であまり出現していない単語を特徴的な単語とみなすものである。ＴＦ－ＩＤＦには様々な数式があるが、ここでは代表的なものとして、以下の式（２４）によって算出されるものとする。

　なお、式（２４）におけるｔｆ（ｔｉ）は、以下の式（２５）によって定義される。

　この式（２５）におけるｔｆ（ｔｉ，Ｄ）は、分析対象文書集合Ｄの指定テキスト中に含まれる単語ｔｉの数を示す。また、ｄｆ（ｔｉ，Ｄ）は、分析対象文書集合Ｄにおける単語ｔｉを指定テキスト中に含む文書の数を示す。

　また、式（２４）におけるｉｄｆ（ｔｉ）は、以下の式（２６）によって定義される。なお、式（２５）における｜Ｄ｜は分析対象文書集合Ｄにおける文書数である。

　次に、分析用単語抽出部１４２は、分析用単語リストに登録されている単語の各々について、以下のステップＳ３３～Ｓ３５の処理を実行する。

　この場合、分析用単語抽出部１４２は、分析用単語リストに登録されている単語を１つ取得する（ステップＳ３３）。以下、このステップＳ３３において取得された単語を単語ｔｊ（ｊ＝１，２，…，ｎ）と称する。

　分析用単語抽出部１４２は、上記した単語ｔｉと単語ｔｊとが異なる（つまり、ｔｉ≠ｔｊ）か否かを判定する（ステップＳ３４）。

　単語ｔｉと単語ｔｊとが異ならない（つまり、単語ｔｉと単語ｔｊとが同じである）と判定された場合（ステップＳ３４のＮＯ）、ステップＳ３５の処理は実行されず、後述するステップＳ３６の処理が実行される。

　一方、単語ｔｉと単語ｔｊとが異なると判定された場合（ステップＳ３４のＹＥＳ）、分析用単語抽出部１４２は、単語ｔｉと単語ｔｊとの共起に基づく関連度を算出する（ステップＳ３５）。

　なお、単語ｔｉと単語ｔｊとの共起に基づく関連度は、複数の単語同士が統計的に有意に互いに共起して出現し、かつ、他の単語とはあまり共起して出現していない単語は分析対象文書集合において指定テキストの内容を表す単語であるということに基づく。単語の共起を用いた手法であれば特に制限はなく、例えば相互情報量、ダイス係数、自己相互情報量等を用いることができるが、本実施形態においては相互情報量を用いた場合について説明する。

　また、指定テキストは複数の単語で表現されており、同じパターンに一致する単語同士での共起は意味があると考えられる。このため、本実施形態において、単語ｔｉとの共起の対象とする単語（つまり、単語ｔｉとの共起に基づく関連度を算出する単語）は、当該単語ｔｉと同じパターンに一致する単語、つまり、上記したように分析用単語リストに登録されている単語（単語ｔｊ）とする。

　以下、単語ｔｉと単語ｔｊとの共起に基づく関連度（相互情報量）の算出処理について具体的に説明する。

　この単語ｔｉと単語ｔｊとの共起に基づく関連度の算出処理においては、単語ｔｊが、単語ｔｉとの共起頻度がχ二乗検定によって統計的に有意であるか否かが判定される。単語ｔｉと単語ｔｊとの共起に基づく関連度の算出処理においては、単語ｔｉとの共起頻度がχ二乗検定によって統計的に有意であると判定された単語ｔｊについてのみ関連度が算出される。つまり、単語ｔｉとの共起頻度がχ二乗検定によって統計的に有意でないと判定された単語ｔｊについては関連度は算出されない。

　χ二乗検定によれば、例えば０．５％有意水準でのχ二乗分布の値が７．８８より大きければ統計的に有意であると判定される。このχ二乗検定によって用いられるχ二乗値は、以下の式（２７）に基づいて算出される。

　なお、式（２７）において、ａ１は、ｄｆ（ｔｉ，Ｄ）であり、分析対象文書集合Ｄにおける単語ｔｉを指定テキスト中に含む文書の数（つまり、単語ｔｉの分析対象文書集合Ｄにおける頻度）を示す。

　ｂ１は、ｄｆ（ｔｊ，Ｄ）であり、分析対象文書集合Ｄにおける単語ｔｊを指定テキスト中に含む文書の数（つまり、単語ｔｊの分析対象文書集合Ｄにおける頻度）を示す。

　ａ２は、｜Ｄ｜－ｄｆ（ｔｉ，Ｄ）であり、分析対象文書集合Ｄにおける単語ｔｉを指定テキスト中に含まない文書の数（つまり、単語ｔｉを含まない文書の頻度）を示す。

　ｂ２は、｜Ｄ｜－ｄｆ（ｔｊ，Ｄ）であり、分析対象文書集合Ｄにおける単語ｔｊを指定テキスト中に含まない文書の数（つまり、単語ｔｊを含まない文書の頻度）を示す。

　ｘ１１は、ｄｆ（（ｔｉ，ｔｊ），Ｄ）であり、分析対象文書集合Ｄにおける単語ｔｉおよび単語ｔｊを指定テキスト中に含む文書の数（つまり、単語ｔｉおよび単語ｔｊの共起頻度）を示す。

　ｘ１２は、ａ１－ｘ１１であり、分析対象文書集合Ｄにおける単語ｔｉを指定テキスト中に含む文書集合における単語ｔｉおよび単語ｔｊを含まない文書の数（つまり、単語ｔｉの集合におけるｘ１１を含まない文書の頻度）を示す。

　ｘ２１は、ｂ１－ｘ１１であり、分析対象文書集合Ｄにおける単語ｔｊを指定テキスト中に含む文書集合における単語ｔｉおよび単語ｔｊを含まない文書の数（つまり、単語ｔｊの集合におけるｘ１１を含まない文書の頻度）を示す。

　ｘ２２は、ａ２－ｘ２２であり、分析対象文書集合Ｄにおける単語ｔｉを指定テキスト中に含まない文書集合におけるｘ２１の文書集合を含まない文書の数（つまり、単語ｔｊを含まない集合におけるｘ２１を含まない文書の頻度）を示す。

　上記したχ二乗検定によって単語ｔｊが統計的に有意であると判定された場合、単語ｔｉと単語ｔｊとの相互情報量ｍｉ（ｔｉ）は、以下の式（２８）に基づいて算出される。

　次に、分析用単語抽出部１４２は、分析用単語リストに登録されている全ての単語について上記したステップＳ３３～Ｓ３５の処理が実行されたか否かを判定する（ステップＳ３６）。

　分析用単語リストに登録されている全ての単語について処理が実行されていないと判定された場合（ステップＳ３６のＮＯ）、上記したステップＳ３３に戻って処理が繰り返される。

　一方、分析用単語リストに登録されている全ての単語について処理が実行されたと判定された場合（ステップＳ３６のＹＥＳ）、上記したステップＳ３２において算出された特徴度およびステップＳ３５によって算出された全ての関連度（つまり、単語ｔｉとの共起頻度がχ二乗検定によって統計的に有意であると判定された単語ｔｊの各々と単語ｔｉとの関連度）の和を単語ｔｉの重みとする（ステップＳ３７）。なお、特徴度および関連度は、それぞれ正規化された後に加算されることが好ましい。

　次に、分析用単語抽出部１４２は、分析用単語リストに登録されている全ての単語について上記したステップＳ３１～Ｓ３７の処理が実行されたか否かを判定する（ステップＳ３８）。

　分析用単語リストに登録されている全ての単語について処理が実行されていないと判定された場合（ステップＳ３８のＮＯ）、上記したステップＳ３１に戻って処理が繰り返される。

　一方、分析用単語リストに登録されている全ての単語について処理が実行されたと判定された場合（ステップＳ３８のＹＥＳ）、当該分析用単語リストに登録されている全ての単語について重みづけがされた状態となっている。

　この場合、分析用単語抽出部１４２は、分析用単語リストに登録されている単語を、当該単語の重みの順でソートする（ステップＳ３９）。

　分析用単語抽出部１４２は、ソートされた単語のうち重みが上位の単語を、ユーザインタフェース部１３０に含まれるクロス集計可視化部１３２に出力する（ステップＳ４０）。この場合、分析用単語抽出部１４２は、ユーザによって抽出単語数として指定された数の単語を出力する。

　このように分析用単語抽出処理においては、単語パターン判定処理部１４１によって抽出された単語（分析用単語リストに登録されている単語）の各々に対して重みづけがされ、当該単語の中から当該重みの高い単語（つまり、パターンにおける分析に役立つ単語）が抽出されて出力される。なお、分析用単語抽出部１４２によって出力された単語はクロス集計可視化部１３２によってユーザに対して提示される。

　つまり、本実施形態においては、単語パターン判定処理部１４１によって抽出された単語（指定パターンと一致すると判定された単語）が当該単語毎に算出された特徴語および関連度（つまり、当該単語の重み）に基づいてユーザに対して提示される。

　また、本実施形態においては、上記したようにχ二乗検定によって統計的に有意でないと判定された単語ｔｊについては関連度が算出されないため、このような単語ｔｊについての関連度を算出する場合と比較して、より適切な重みづけをすることができる。

　ここで、図２１を参照して、分析用単語抽出部１４２によって抽出（出力）される単語について説明する。

　図２１に示す分析用単語リスト２０１は、分析用単語抽出処理が実行される前の分析用単語リスト（つまり、単語パターン判定処理によって出力されたリスト）である。

　図２１に示すように、分析用単語リスト２０１には、単語「屈折」、「ＧＲ」、「消費」、「ＳＡ」および「顕微鏡」を含む複数の単語が登録されているものとする。この分析用単語リスト２０１では、単語がＤＦ順（分析対象文書集合Ｄにおける当該単語を指定テキスト中に含む文書の数の順）に登録されているものとする。なお、分析用単語リスト２０１に登録されている単語「ＧＲ」および「ＳＡ」は、分析対象文書に含まれる指定テキストの内容を表さない単語である。

　一方、図２１に示す分析用単語リスト２０２は、分析用単語リスト２０１に登録されている各単語が当該単語の重みでソートされた後の分析用単語リストである。

　図２１に示すように、分析用単語リスト２０２においては、分析用単語リスト２０１に登録されている各単語の重みでソートされることによって、例えば単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」等が上位に登録されている。ここで、上記した抽出単語数として「５」が指定されているものとすると、分析用単語抽出処理においては、分析用単語リスト２０２において重みが上位の５つの単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」が抽出され、上記した単語「ＧＲ」および「ＳＡ」等の指定テキストの内容を表さない単語については抽出されない。

　次に、図２２のフローチャートを参照して、前述したクロス集計結果表示処理（図１０に示すステップＳ５の処理）の処理手順について説明する。なお、クロス集計結果表示処理は、ユーザインタフェース部１３０に含まれるクロス集計可視化部１３２によって実行される。

　まず、クロス集計可視化部１３２は、クロス集計可視化部１３２の返り値であるｖｉｅｗリストを初期化する（ステップＳ４１）。

　次に、クロス集計可視化部１３２は、分析対象文書の各々に含まれる第１の属性（ユーザによって指定された１つ目の属性）の属性値に基づいて、当該分析対象文書が分類された複数のカテゴリ（第１のカテゴリ）を生成する（ステップＳ４２）。例えば第１の属性が「出願人」属性である場合、クロス集計可視化部１３２は、前述した離散値属性のカテゴリ（の集合）を生成する。具体的には、クロス集計可視化部１３２は、「出願人」属性の属性値として例えば「Ａ社」を含む分析対象文書が分類されたカテゴリが生成される。なお、「出願人」属性の他の属性値（例えば、「Ｂ社」および「Ｃ社」等）についても同様にカテゴリが生成される。以下、ステップＳ４２において生成されたカテゴリを、第１の属性のカテゴリと称する。

　上記したようにクロス集計可視化部１３２によって第１の属性のカテゴリが生成された場合、当該第１の属性のカテゴリ毎に、当該第１の属性のカテゴリを示すカテゴリ情報（以下、第１の属性のカテゴリ情報と表記）がカテゴリ格納部１１０に格納される。なお、第１の属性のカテゴリ情報のデータ構造は、前述した図４～図９において説明した通りであるため、その詳しい説明を省略する。つまり、第１の属性のカテゴリ情報によれば、当該第１の属性のカテゴリに分類された文書等を特定することができる。

　また、クロス集計可視化部１３２は、分析対象文書の各々に含まれる第２の属性（ユーザによって指定された２つ目の属性）の属性値に基づいて、当該分析対象文書が分類された複数のカテゴリ（第２のカテゴリ）を生成する（ステップＳ４３）。例えば第２の属性が「出願日」属性である場合、クロス集計可視化部１３２は、前述した連続値属性のカテゴリ（の集合）を生成する。具体的には、前述したように階級幅が算出され、当該階級幅および第２の属性の属性値（つまり、連続値）を用いて連続値属性のカテゴリの集合（連続値の階級幅毎の集合）が生成される。なお、階級幅の算出については、前述した通りであるため、その詳しい説明を省略する。以下、ステップＳ４３において生成されたカテゴリを、第２の属性のカテゴリと称する。

　上記したようにクロス集計可視化部１３２によって第２の属性のカテゴリが生成された場合、当該第２の属性のカテゴリ毎に、当該第２の属性のカテゴリを示すカテゴリ情報（以下、第２の属性のカテゴリ情報と表記）がカテゴリ格納部１１０に格納される。なお、第２の属性のカテゴリ情報のデータ構造は、前述した図４～図９において説明した通りであるため、その詳しい説明を省略する。つまり、第２の属性のカテゴリ情報によれば、当該第２の属性のカテゴリに分類された文書等を特定することができる。

　ここでは、ステップＳ４２およびＳ４３において第１の属性のカテゴリおよび第２の属性のカテゴリが生成されるものとして説明したが、例えば前述した相関判定処理において当該第１の属性のカテゴリ（例えば、離散値属性のカテゴリ）および当該第２の属性のカテゴリ（例えば、連続値属性のカテゴリ）が生成され、当該各カテゴリを示すカテゴリ情報がカテゴリ格納部１１０に格納されていた場合には、当該ステップＳ４２およびＳ４３の処理は省略されても構わない。

　次に、クロス集計可視化部１３２は、生成された第１の属性のカテゴリの各々について、以下のステップＳ４４～Ｓ４８の処理を実行する。

　この場合、クロス集計可視化部１３２は、第１の属性のカテゴリ情報をカテゴリ格納部１１０から１つ取得する（ステップＳ４４）。以下、このステップＳ４４において取得された第１の属性のカテゴリ情報によって示される第１の属性のカテゴリを第１の属性の対象カテゴリと称する。

　次に、クロス集計可視化部１３２は、生成された第２の属性のカテゴリの各々について、以下のステップＳ４５～Ｓ４７の処理を実行する。

　この場合、クロス集計可視化部１３２は、第２の属性のカテゴリ情報をカテゴリ格納部１１０から１つ取得する（ステップＳ４５）。以下、このステップＳ４５において取得された第２の属性のカテゴリ情報によって示される第２の属性のカテゴリを第２の属性の対象カテゴリと称する。

　クロス集計可視化部１３２は、ステップＳ４４において取得された第１の属性のカテゴリ情報およびステップＳ４５において取得された第２の属性のカテゴリ情報に基づいて、第１の属性の対象カテゴリおよび第２の属性の対象カテゴリの両方に分類された文書集合（つまり、両方のカテゴリに出現する文書集合）を特定する。

　これにより、クロス集計可視化部１３２は、第１の属性の対象カテゴリおよび第２の属性の対象カテゴリの両方に分類された文書数を特定する（ステップＳ４６）。

　クロス集計可視化部１３２は、特定された文書数を、第１の属性の対象カテゴリおよび第２の属性の対象カテゴリと関連づけてｖｉｅｗリストに追加（登録）する（ステップＳ４７）。

　次に、クロス集計可視化部１３２は、生成された全ての第２の属性のカテゴリについて、上記したステップＳ４５～Ｓ４７の処理が実行されたか否かを判定する（ステップＳ４８）。

　全ての第２の属性のカテゴリについて処理が実行されていないと判定された場合（ステップＳ４８のＮＯ）、上記したステップＳ４５に戻って処理が繰り返される。

　一方、全ての第２の属性のカテゴリについて処理が実行されたと判定された場合（ステップＳ４８のＹＥＳ）、クロス集計可視化部１３２は、生成された全ての第１の属性のカテゴリについて、上記したステップＳ４４～Ｓ４８の処理が実行されたか否かを判定する（ステップＳ４９）。

　全ての第１の属性のカテゴリについて処理が実行されていないと判定された場合（ステップＳ４９のＮＯ）、上記したステップＳ４４に戻って処理が繰り返される。

　一方、全ての第１の属性のカテゴリについて処理が実行されたと判定された場合（ステップＳ４９のＹＥＳ）、クロス集計可視化部１３２は、ｖｉｅｗリストに分析用単語抽出部１４２によって出力された単語の集合（リスト）を追加して、当該ｖｉｅｗリストを出力する（ステップＳ５０）。なお、ｖｉｅｗリストの内容は、例えばクロス集計結果としてディスプレイ１５に表示される。

　ここで、図２３は、クロス集計可視化部１３２によって出力されたｖｉｅｗリストが表示された場合の表示画面の一例を示す。

　図２３に示す表示画面３０１においては、クロス集計結果および単語リストが表示されている。

　クロス集計結果によれば、第１の属性（例えば、離散値属性である「出願人」属性）の各カテゴリ（ここでは、「Ａ社」、「Ｂ社」、「Ｃ社」および「Ｄ社」）を縦軸とし、第２の属性（例えば、連続値属性である「出願日」属性）を横軸とし、当該縦軸と横軸とがクロスした欄に当該縦軸のカテゴリと横軸のカテゴリとの両方に分類された文書（分析対象文書）の数が○印で示されている。このクロス集計結果において、○は１件の出願（１つの文書）を表しているものとする。

　なお、表示画面３０１のクロス集計結果では、分かり易さのために、連続値における階級幅の境界（つまり、連続値属性のカテゴリの表示）が省略されている。

　また、上記したように抽出単語数として「５」が指定されているものとすると、単語リストには、分析用単語抽出部１４２によって抽出された５つの単語「屈折」、「電力」、「消費」、「顕微鏡」および「電圧」が表示される。なお、単語リストに表示されている単語は、上記した第２のパターン（指定パターン）に一致する単語であるものとする。

　ここで、ユーザは、図２３に示す表示画面３０１において、単語リストに表示されている５つの単語のうちの１つを選択することができる。図２３に示す例において、ユーザによって例えば単語「屈折」が選択されたものとすると、図２４に示すように、単語「屈折」を指定テキスト中に含む文書に絞り込まれた文書集合におけるクロス集計結果を表示する表示画面３０２が表示される。具体的には、この表示画面３０２のクロス集計結果によれば、縦軸と横軸とがクロスした欄には、分析対象文書のうち単語「屈折」を指定テキスト中に含む文書のうち当該縦軸のカテゴリ（第１の属性のカテゴリ）と横軸のカテゴリ（第２の属性のカテゴリ）との両方に分類された文書（の数）が○印で示されている。

　これにより、図２３に示す表示画面３０１のクロス集計結果においては文書数（文書の出現）に偏りがないが、図２４に示す表示画面３０２のクロス集計結果においては、単語「屈折」（によって表される技術内容）では「Ａ社」が特定の出願日によらず多くの出願をしていることを容易に把握することができる。すなわち、図２４に示す表示画面３０２のクロス集計結果においては、単語と出願人（第１の属性）には相関があり、単語と出願日（第２の属性）には相関がないという、ユーザによって指定された第２のパターンの知見を得ることができる。

　ここでは、図２３に示す表示画面３０１（および図２４に示す表示画面３０２）においてはクロス集計結果および単語リストが表示されるものとして説明したが、表示画面には、例えば単語リストのみが表示されても構わない。この場合、ユーザは、単語リストに表示されている単語をキーワードとして分析対象文書を検索することによって、上記したようにユーザによって指定されたパターンの知見を得ることができる。

　なお、図２３および図２４においてはクロス集計結果を散布図で表示しているが、図２５に示すようにクロス集計結果を折れ線グラフで表示してもよいし、図２６に示すようにクロス集計結果を数値で表示してもよい。なお、図２３、図２４および図２６に示すクロス集計結果は、ユーザによって指定された２つの属性（つまり、第１および第２の属性）が離散値属性および連続値属性の組み合わせの場合だけでなく、例えば両方とも離散値属性である組み合わせの場合や両方とも連続値属性である組み合わせの場合にも適用可能である。一方、図２５に示すクロス集計結果は、ユーザによって指定された２つの属性のうちの少なくとも１つが連続値属性である場合に適用可能である。

　上記したように本実施形態においては、分析対象文書に含まれるテキストを解析することによって複数の単語を取得し、当該取得された単語毎に、当該単語とユーザによって指定された少なくとも２つの属性の各々（例えば、第１および第２の属性）との相関の有無を判定し、当該判定結果がユーザによって指定されたパターン（指定パターン）と一致する単語を提示する構成により、ユーザが所望する知見を効率的に得ることが可能となる。

　つまり、本実施形態においては、分析対象文書に含まれるテキスト中の単語と例えば２つの属性の各々との相関関係に着目し、当該テキストからユーザによって指定されたパターンと一致する単語を自動で抽出することができる。これにより、本実施形態においては、分析対象文書に含まれるテキストと２つの属性とを組み合わせた傾向の分析において、ユーザの目的に応じた知見を効率的に獲得することが可能となる。

　また、本実施形態においては、ユーザによって指定された２つの属性の各々との相関の有無がユーザによって指定されたパターンと一致すると判定された単語が当該単語毎に算出された特徴語および関連度（つまり、当該単語の重み）に基づいて提示されるため、パターンと一致すると判定された単語が多い場合であってもより有用な単語のみをユーザに対して提示することが可能となる。

　なお、本実施形態においてはユーザによって２つの属性（第１および第２の属性）が指定されるものとして主に説明したが、例えば３つ以上の属性が指定されても構わない。

　例えばユーザによって３つの属性（以下、第１～第３の属性と表記）が指定されたものとすると、単語と当該ユーザによって指定された第１～第３の属性の各々との相関の有無を示すパターンがユーザによって指定される。また、前述した単語パターン判定処理においては、単語と第１の属性との相関、当該単語と第２の属性との相関、当該単語と第３の属性との相関、当該単語と当該第１の属性と当該第２の属性と当該第３の属性との相関が判定され、当該各判定結果がユーザによって指定されたパターンと一致するか否かが判定される。

　これにより、例えばユーザによって３つの属性が指定された場合であっても、本実施形態において説明したように当該ユーザによって指定されたパターンと一致する単語を抽出することができる。

　なお、上記した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤなど）光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

　また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

　また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。

　更に、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

　また、記憶媒体は１つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。

　なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

　また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。　

　１０…文書分析装置、１１…記憶装置、１２…キーボード、１３…マウス、１４…中央演算装置、１５…ディスプレイ、１００…文書格納部、１１０…カテゴリ格納部、１２０…パターン格納部、１３０…ユーザインタフェース部、１３１…カテゴリ表示操作部、１３２…クロス集計可視化部、１４０…単語抽出部、１４１…単語パターン判定処理部、１４２…分析用単語抽出部。

Claims

　複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する文書格納手段と、
　単語と前記複数の属性のうちの少なくとも２つの属性の各々との相関の有無を示す複数のパターンを格納するパターン格納手段と、
　前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得する取得手段と、
　前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも２つの属性の各々との相関の有無を判定する第１の判定手段と、
　前記第１の判定手段による判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定する第２の判定手段と、
　前記第１の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示する提示手段と
　を具備することを特徴とする文書分析装置。
　前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、前記文書格納手段に格納されている複数の文書における当該単語の出現頻度に基づいて特徴度を算出する第１の算出手段と、
　前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、前記文書格納手段に格納されている複数の文書における当該単語と当該単語以外の前記第１の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語との共起に基づく関連度を算出する第２の算出手段と、
　前記提示手段は、前記第１の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を、当該単語毎に算出された特徴度および関連度に基づいて提示する
　ことを特徴とする請求項１記載の文書分析装置。
　前記第２の算出手段は、前記第１の判定手段による判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語毎に、当該単語と、当該単語との共起頻度が統計的に有意な単語との共起に基づく関連度を算出することを特徴とする請求項２記載の文書分析装置。
　カテゴリ生成手段を更に具備し、
　前記ユーザによって指定された少なくとも２つの属性は、第１および第２の属性を含み、
　前記カテゴリ生成手段は、前記複数の文書に含まれる前記第１の属性の属性値に基づいて当該複数の文書が分類された第１のカテゴリを生成し、前記複数の文書に含まれる前記第２の属性の属性値に基づいて当該複数の文書が分類された第２のカテゴリを生成し、
　前記提示手段は、前記生成された第１および第２のカテゴリの両方に分類された文書の数を含むクロス集計結果を更に提示する
　ことを特徴とする請求項１記載の文書分析装置。
　前記提示手段は、前記提示された単語が前記ユーザによって指定された場合、当該単語を含む文書のうち前記生成された第１および第２のカテゴリの両方に分類された文書の数を含むクロス集計結果を表示することを特徴とする請求項４記載の文書分析装置。
　複数の単語からなるテキストを含む複数の文書であって、複数の属性を有し、当該属性の属性値を含む複数の文書を格納する文書格納手段と、単語と前記複数の属性のうちの少なくとも２つの属性の各々との相関の有無を示す複数のパターンを格納するパターン格納手段とを有する文書分析装置のコンピュータによって実行されるプログラムであって、
　前記コンピュータに、
　前記文書格納手段に格納されている複数の文書に含まれるテキストを解析することによって複数の単語を取得するステップと、
　前記取得された単語毎に、当該単語と前記文書格納手段に格納されている複数の文書が有する複数の属性のうちユーザによって指定された少なくとも２つの属性の各々との相関の有無を判定するステップと、
　前記判定結果が、前記パターン格納手段に格納されている複数のパターンのうち前記ユーザによって指定されたパターンと一致するかを判定するステップと、
　前記判定結果が前記ユーザによって指定されたパターンと一致すると判定された単語を提示するステップと
　を実行させるためのプログラム。