JPWO2006115260A1

JPWO2006115260A1 - 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法

Info

Publication number: JPWO2006115260A1
Application number: JP2007514752A
Authority: JP
Inventors: 博昭増山; 令晃吉野
Original assignee: 株式会社アイ・ピー・ビー
Priority date: 2005-04-25
Filing date: 2006-04-25
Publication date: 2008-12-18
Also published as: US20090070101A1; CN101208694A; WO2006115260A1; EP1881423A1; EP1881423A4; KR20080005208A

Abstract

【課題】調査対象文書の情報を比較対象となる文書に対して解析して報告書を自動的に作成できる情報解析報告書自動作成装置等を提供する。
【解決手段】情報解析報告書自動作成装置１００は、処理装置１、入力装置２、記録装置３、および出力装置４から構成されている。情報解析報告書を作成する際に、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、作成された情報解析報告書を表示手段、記録手段、又は通信手段に出力する。
【選択図】図２

Description

本発明は、文書の解析装置に係わり、特に調査対象文書或いは文書群を解析して、その特徴を表す情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法に関するものである。

特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。しかし、それでも検索結果の類似文書の量は多く、調査対象の文書の内容或いは性格を知るためには、熟練した者が検索結果の類似文書を読み込まなければならなかった。

例えば、特許文献１の「類似文書検索装置及び類似文書検索方法」においても、調査対象の文書或いは文書群に含まれる索引語を比較対象の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。図３４は特許文献１に示される装置の全体構成図である。従来、入力装置６０２から入力された調査対象文書は、制御装置６０１の中の類似度算出システムによりある抽出条件にて外部補助記憶装置６０３のデータベースの文書群と比較して類似度算出の処理をし、出力装置６０４にて出力し、出力した文書一覧の結果に基づいて類似度の高い文書の内容を熟練した評価者が読み込んで、調査対象文書の評価としていた。評価者は、類似度の高い文書の内容を知るために、それらの数件乃至数千件程度を読み込まなければならなかった。
特開平１１−７３４１５号公報

しかし、前述した特許文献１と同様な類似文書自動検索システムは、比較対象文書群の中から、調査対象文書に類似した文書一覧を検索結果として出力し、評価者が、調査対象文書に類似した該文書一覧から類似度の高い文書を数件から数千件程度抽出して読み込み、調査対象の文書に類似している文書を見つけ、更に読み込んで評価し、それらを基準に調査対象文書の性格を位置付けていたので、評価者は、文書を数件から数千件程度抽出て読み込まなければ、調査対象の文書の性格を的確に表す表現を見つけることができない、という不具合が生じていた。

そこで、本発明は、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、該調査対象の文書の情報を的確に報告できる、情報解析報告書を自動的に作成することを目的とする。

上記課題を解決するために、本発明に係る情報解析報告書自動作成装置は、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成装置であって、
少なくとも前記調査対象文書の入力を受け入れる入力手段と、
前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段と、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段と、を備えるものである。

例えば、比較対象文書に対する類似率を算出する算出手段をさらに有し、選出手段は、算出手段の結果により母集団文書を選出する。また、算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。

また例えば、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段とをさらに備え、生成手段は、マップ、データおよび／またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。

好ましい実施態様においては、前記生成手段が、前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および／または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成する。

より好ましくは、前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成する。

別の好ましい実施態様においては、前記生成手段が、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現値頻度算出手段と、前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第２出現値頻度算出手段と、各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有する。

さらに別の実施態様においては、前記生成手段が、前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有する。

より好ましくは、前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出する。

前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去するのが望ましい。

また、別の好ましい実施態様においては、前記生成手段が、前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第１逆数算出手段と、各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第２逆数算出手段と、前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有する。

また、本発明にかかる情報解析報告書作成装置は、ネットワークに接続され、当該ネットワークを介して接続されたクライアントからの、調査対象文書の入力を受け入れるウェブサーバと、前記調査対象文書をキューイングして、処理すべき順番となった調査対象文書について、解析サーバに処理をリクエストする管理サーバと、前記リクエストに応答して、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出し、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出し、かつ、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する解析サーバと、を備えている。

上記課題を解決するために、本発明に係る情報解析報告書自動作成プログラムは、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成プログラムであって、コンピュータを、少なくとも前記調査対象文書の入力を受け入れる入力手段、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段、並びに、前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段として機能させるものである。

例えば、コンピュータを、比較対象文書に対する類似率を算出する算出手段として機能させ、選出手段は、算出手段の結果により母集団文書を選出する。また、算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。

また、例えば、コンピュータを、母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段として機能させ、生成手段は、マップ、データおよび／またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。

上記課題を解決するために、本発明に係る情報解析報告書自動作成方法は、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成方法であって、少なくとも前記調査対象文書の入力を受け入れる入力工程と、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出工程と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出工程と、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段工程と、前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力工程とを備えたことを特徴とする。

例えば、比較対象文書に対する類似率を算出する算出工程をさらに有し、選出工程では、算出工程の結果により母集団文書を選出する。また、算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。

また、例えば、母集団或いは前記索引語を分布させてマップ状にするマップ生成工程と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み工程と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み工程と、自由なコメントを記入するコメント記入工程とをさらに備え、生成工程では、マップ、データおよび／またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。

本発明においては、入力された調査対象文書及び比較対象文書、情報解析をする条件に基づいて、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および前記索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成するようになされる。

これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成すること可能となる。

また、母集団或いは索引語を分布させてマップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントとを合成して調査対象文書の特徴を表す情報解析報告書を作成することが可能となる。

本発明によれば、調査対象文書及び前記比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、得られた情報解析報告書を表示手段、記録手段、又は通信手段に出力するものである。

例えば、比較対象文書に対する類似率を算出し、この算出結果により母集団文書を選出する。また、算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。

これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成することができる。

また、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、母集団或いは索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段とを備え、生成手段は、マップ、データおよび／またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成するため、マップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントと、を有する情報解析報告書を作成することができる。

図１は、本発明の実施の形態にかかる情報解析報告書自動作成装置の構成を示す図である。図２は、情報解析報告書自動作成装置１００の各部の構成を示すブロック図である。図３は、入力装置２の動作を示すフローチャートである。図４は、処理装置１の動作を示すフローチャートである。図５は、出力装置４の動作を示すフローチャートである。図６は、入力条件設定例（その１）を示す図である。図７は、入力条件設定例（その２）を示す図である。図８は、入力条件設定例（その３）を示す図である。図９は、出力条件設定例を示す図である。図１０は、情報解析報告書の一例を示す図である。図１１は、全期間における特許の出願人ランキングを示す図である。図１２は、最近３年間における特許の出願人ランキングを示す図である。図１３は、国際特許分類（ＩＰＣ）の主分類のランキングを示す図である。図１４は、国際特許分類（ＩＰＣ）の主・副分類のランキングを示す図である。図１５は、出願人と国際特許分類（ＩＰＣ）のマトリックスマップを示す図である。図１６は、上位１０出願人と国際特許分類（ＩＰＣ）上位５分類の関係を示す表である。図１７は、上位２０出願人と国際特許分類（ＩＰＣ）主分類との関係を示す図である。図１８は、重要キーワード（対全比較対象文書）別の件数分布を示す図である。図１９は、重要キーワード（対母集団）別の件数分布を示す図である。図２０は、出願人別件数推移を示す図である。図２１は、出願人と出願件数との関係を示す表である。図２２は、国際特許分類（ＩＰＣ）別件数推移を示す図である。図２３は、国際特許分類（ＩＰＣ）と出願件数との関係を示す表である。図２４は、所定国際特許分類（ＩＰＣ）別件数推移を示す図である。図２５は、母集団全体のポートフォリオを示す図である。図２６は、国際特許分類（ＩＰＣ）のポートフォリオを示す図である。図２７は、重要キーワード（対全比較対象文書）別件数推移を示す図である。図２８は、重要キーワード（対全比較対象文書）と出願件数との関係を示す表である。図２９、重要キーワード（対母集団）別件数推移を示す図である。図３０は、重要キーワード（対母集団）と出願件数との関係を示す表である。図３１は、調査対象文書のキーワード分布を示す頻度散布図である。図３２は、調査対象文書の構造図である。図３３は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す図である。図３４は、従来の類似文献検索装置の構成例を示す図である。図３５は、類似率計算を説明するための図である。図３６は、第２の実施の形態にかかる情報解析報告書自動作成装置およびクライアントを含む構成図である。図３７Ａ，Ｂは、それぞれ、クライアントの表示装置上の画面の例を示す図である。図３８は、第１の解析サーバにおいて実行される処理を示すフローチャートである。図３９は、集計処理の例を示すフローチャートである。図４０は、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示したフローチャートである。図４１は、第１の解析サーバにおける特許構造図作成のための構成を示すブロックダイヤグラムである。図４２は、第１の解析サーバにおける特許構造図作成処理の概略を示すフローチャートである。図４３は、クラスタ抽出過程をより詳細に説明するフローチャートである。図４４Ａ〜図４４Ｆは、それぞれ、本実施の形態にかかるクラスタ抽出過程での樹状図配置例を示す図である。図４５は、キーワード抽出のための構成を示すブロックダイヤグラムである。図４６は、キーワード抽出過程をより詳細に説明するフローチャートである。図４７は、クラスタ情報出力までの処理の流れを示す図である。図４８は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第１および第２の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。図４９は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第１および第２の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。図５０は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第１および第２の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。

符号の説明

１処理装置
２入力装置
３記録装置
４出力装置，
１００情報解析報告書自動作成装置
１１０調査対象文書ｄ読み出し部
１２０索引語（ｄ）抽出部
１３０比較対象文書Ｐ読み出し部
１４０索引語（Ｐ）抽出部
１２１ＴＦ（ｄ）演算部
１４１ＴＦ（Ｐ）演算部
１４２ＩＤＦ（Ｐ）演算部
１５０類似率演算部
１５１母集団絞込み部
１６０母集団文書Ｓ選出部
１７０索引語（Ｓ）抽出部
１７１ＩＤＦ（Ｓ）演算部
１８０特徴索引語・母集団内類似率・頻度散布図・構造図等演算部
２１０調査対象文書ｄ条件入力部
２２０比較対象文書Ｐ条件入力部
２３０抽出条件その他入力部
３１０条件記録部
３２０作業結果格納部
３３０文書格納部
４１０マップ作成条件読出部
４１２マップ用データ取り込み部
４２０データ出力条件読出部
４２２出力データ取り込み部
４３０コメント条件読出部
４３２定形コメント取り込み部
４３５コメント追記部
４４０報告書生成部
４５０出力部

以下、本発明の実施の形態について、図面を参照して詳細に説明する。
［定義］
ここで、まず本明細書の中で使用した語彙を定義或いは説明する。

ｄ：調査対象文書（調査に係る、ある案件。例えば、特許公報第何号などの文書、或いはその集合）
比較対象文書：全文書Ｐ、或いは、母集団文書Ｓ
Ｐ：全文書（調査対象文書ｄを含む比較対象文書の集合全体）
Ｎ：全文書Ｐの文書数
ｐ：全文書の中の１文書（ｐ_ａ，ｐ_ｂ，・・・など、Ｎ個存在する。）
Ｓ：母集団文書（全文書Ｐの一部であり、本実施の形態においては、全文書Ｐの中で調査対象文書ｄに類似な文書の集団（ｄを含む。））
Ｎ’：母集団文書Ｓの文書数（Ｎ’＜Ｎ）
ｓ：母集団文書の中の１文書（ｓ_ａ，ｓ_ｂ，・・・など、Ｎ’個存在する。）
図中の構成部品に付してある、ｄ或いは（ｄ）、Ｐ或いは（Ｐ）、ｐ或いは（ｐ）、又はＳ或いは（Ｓ）は、それぞれ調査対象文書、比較対象文書、全文書のうちの１文書、又は、母集団文書の意味であり、以降判別しやすいように構成部品や動作にも付する。例えば、索引語（ｄ）とは、調査対象文書ｄの索引語を意味する。より具体的には、本実施の形態において、文書ｄの索引語は、ｄ_１、ｄ_２、ｄ_３、・・・、ｄ_ｘのｘ個と考える。また、文書ｐ_ａの索引語は、ｐ_ａ１、ｐ_ａ２、・・・、ｐ_ａｙａのｙａ個であり、これらの一部或いは全部が、ｄの索引語ｄ_１、ｄ_２、・・・、ｄ_ｘと一致する場合がある。

文書ｐｂの索引語は、ｐ_ｂ１、ｐ_ｂ２、・・・、ｐ_ｂｙｂのｙｂ個であり、同様に、これらの一部或いは全部が、ｄの索引語ｄ_１、ｄ_２、・・・、ｄ_ｘと一致する場合がある。

同様に、文書ｐｙの索引語は、ｐ_ｙ１、ｐ_ｙ２、・・・、ｐ_ｙｙｙのｙｙ個であり、同様に、これらの一部或いは全部が、ｄの索引語ｄ_１、ｄ_２、・・・、ｄ_ｘと一致する場合がある。

なお、文書ｐ_ａなどの索引語のうち、ｄ_１、ｄ_２、・・・、ｄ_ｘと一致する索引語以外は、後述するようにベクトルを生成して内積を算出すると「０」となってしまう。したがって、索引語としては、文書ｄの索引語ｄ_１、ｄ_２、・・・、ｄ_ｘのみを処理対象とすれば足りる。
［ＴＦ演算］
ＴＦ演算とはＴｅｒｍＦｒｅｑｕｅｎｃｙの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度（索引語頻度）のカウントの関数値の演算である。

ＤＦ演算のＤＦとはＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙの計算のことであり、ある文書に含まれる索引語で比較対象文書群から検索したときのヒット数（文書頻度）のカウント（計数）の演算である。

ＩＤＦ演算とは、例えばＤＦ演算結果の逆数、或いは、当該逆数にＰないしＳの文書数を乗じたものの対数などの演算である。対数にする意味や効果は、たとえば、ゼロ付近の関数値の目盛の間隔を拡大する一方、大きい数の関数値の目盛の間隔を縮めて、１つの平面状で、目視しやすくできることにある。

また、本実施の形態において利用する関数について、以下のように標記する。

ＴＦ（ｄ）：ｄの索引語（ｄ_１，・・・，ｄ_ｘ）による、ｄの中での出現頻度
ここに、ＴＦ（ｄ）を、ＴＦ（索引語；文書）という形式で書くと以下の通りとなる。

ＴＦ（ｄ_１；ｄ）：文書ｄの索引語ｄ_１による、文書ｄの中での出現頻度
ＴＦ（ｄ_２；ｄ）：文書ｄの索引語ｄ_２による、文書ｄの中での出現頻度
：
ＴＦ（ｄ_ｘ；ｄ）：文書ｄの索引語ｄ_ｘによる、文書ｄの中での出現頻度
ＴＦ（Ｐ_ａ）：Ｐの索引語（Ｐ_ａ１，・・・，ｐ_ａｙａ）による、Ｐ_ａの中での出現頻度
ここに、ＴＦ（Ｐ_ａ）を、ＴＦ（索引語；文書）という形式で書くと以下の通りとなる。

ＴＦ（ｐ_ａ１；ｐ_ａ）：文書ｐ_ａの索引語ｐ_ａ１による、文書ｐ_ａの中での出現頻度
ＴＦ（ｐ_ａ２：ｐ_ａ）：文書ｐ_ａの索引語ｐ_ａ２による、文書ｐ_ａの中での出現頻度
：
ＴＦ（ｐ_ａｙａ；ｐ_ａ）：文書ｐａの索引語ｐ_ａｙａによる、文書ｐ_ａの中での出現頻度
しかしながら、後述するように、ＴＦ（ｐ_ａ）については、以下の出現頻度のみを見れば足りる。

ＴＦ（ｄ_１；ｐ_ａ）：文書ｐ_ａの索引語ｄ_１による、文書ｐ_ａの中での出現頻度
ＴＦ（ｄ_２；ｐ_ａ）：文書ｐ_ａの索引語ｄ_２による、文書ｐ_ａの中での出現頻度
：
ＴＦ（ｄ_ｘ；ｐ_ａ）：文書ｐ_ａの索引語ｄ_ｘによる、文書ｐ_ａの中での出現頻度
ＴＦ（ｄ_１；ｐ_ｂ）：文書ｐ_ｂの索引語ｄ_１による、文書ｐ_ｂの中での出現頻度
ＴＦ（ｄ_２；ｐ_ｂ）：文書ｐ_ｂの索引語ｄ_２による、文書ｐ_ｂの中での出現頻度
：
ＴＦ（ｄ_ｘ；ｐ_ｂ）：文書ｐ_ｂの索引語ｄ_ｘによる、文書ｐ_ｂの中での出現頻度
：
ＴＦ（ｄ_１；ｐ_ｙ）：文書ｐ_ｙの索引語ｄ_１による、文書ｐ_ｙの中での出現頻度
ＴＦ（ｄ_２；ｐ_ｙ）：文書ｐ_ｙの索引語ｄ_２による、文書ｐ_ｙの中での出現頻度
：
ＴＦ（ｄ_ｘ；ｐ_ｙ）：文書ｐ_ｙの索引語ｄ_ｘによる、文書ｐ_ｙの中での出現頻度
つまり、文書Ｐ_ａの索引語（Ｐ_ａ１，・・・，Ｐ_ａｙａ）のうち、（ｄ_１，・・・，ｄ_ｘ）のみについて算出すれば足りる。

またＴＦ（ｐ_ｂ）とは、文書ｐ_ｂの中での出願頻度である。たとえば、
ＴＦ（ｄ_１；ｐ_ｂ）：文書ｐ_ｂの索引語ｄ_１による、ｐ_ｂの中での出現頻度
また、ＴＦ（ｐ_ｙ）とは、文書ｐ_ｙの中での出現頻度である。たとえば、
ＴＦ（ｄ_２；ｐ_ｙ）：文書ｐ_ｙの索引語ｄ_２による、文書ｐ_ｙの中での出現頻度
［ＤＦ演算］
ＤＦ（Ｐ）：ｄの索引語による、Ｐの中での文書頻度
ＤＦ（Ｐ）は、文書全体の中にどれだけ、文書ｄの索引語と同じ索引語ｄ_１，・・・，ｄ_ｘが使われているかを示す値である。たとえば、「装置」という索引語が、６００万件の文書のうち１／１０で使われていれば、ＤＦは６０万となる。

同様に、ＤＦ（索引語；全文書）という形式で書くと、以下の通りとなる。

ＤＦ（ｄ_１；Ｐ）：ｄの索引語ｄ_１による、Ｐ全体のＮ個の文書（ｐ_ａ〜ｐ_ｙ）の中で、ｄ_１が１回でも出現するような文書頻度（文書数）
ＤＦ（ｄ_２；Ｐ）：ｄの索引語ｄ_２による、Ｐ全体のＮ個の文書（ｐ_ａ〜ｐ_ｙ）の中で、ｄ_２が１回でも出現するような文書頻度（文書数）
：
ＤＦ（ｄ_ｘ；Ｐ）：ｄの索引語ｄ_ｘによる、Ｐ全体のＮ個の文書（ｐ_ａ〜ｐ_ｙ）の中で、ｄ_ｘが１回でも出現するような文書頻度（文書数）
以下、ＤＦ（Ｓ）についても、同様に考えることができるが、その詳細な説明は省略する。

ＤＦ（Ｓ）：ｄの索引語による、Ｓの中での文書頻度
［ＩＤＦ］
以下に述べるＩＤＦは、ＤＦ（文書Ｐ全体の中でのｄの索引語の文書頻度）のＮ（全文書数）に対する比の逆数をとり、さらに、分布が偏らないようにするため、その対数をとったものである。

ＩＤＦ（Ｐ）：ＤＦ（Ｐ）の逆数×文書数の対数：ｌｎ［Ｎ／ＤＦ（Ｐ）］
ＩＤＦ（Ｓ）：ＤＦ（Ｓ）の逆数×文書数の対数：ｌｎ［Ｎ’／ＤＦ（Ｓ）］
たとえば、Ｎ（全文書数）が６００万で、ＤＦ（ｄ_１；Ｐ）＝６００万のとき、すなわち、ある索引語ｄ_１が全文書Ｐ中の全ての文書に含まれるときには、ＩＤＦ（ｄ_１；Ｐ）＝０となる。また、ＤＦ（ｄ_２；Ｐ）＝６０万のとき、すなわち、ある索引語ｄ_２が、全文書Ｐのうち１／１０に文書に含まれるときには、ＩＤＦ（ｄ_２；Ｐ）＝１となる。
［ＴＦＩＤＦおよび文書ベクトル］
ＴＦＩＤＦ：ＴＦの関数値とＩＤＦ（ＤＦの逆数）の関数値との積であり、文書の索引語ごとに演算される。これが文書の類似性をみるための元となる索引語ごとの数値であり、ある索引語の文書内の出現頻度には比例させ、文書頻度についてはその関数地にしてから反比例させた。

簡単な例として、ＴＦ（ｄ）とＩＤＦ（Ｐ）を１対１で積算することを考える。ただし、実際には、１対１には限定されない。たとえば、ｄの文書ベクトルの成分を以下のように考える。

ＴＦ（ｄ_１；ｄ）＊ＩＤＦ（ｄ_１；Ｐ）
ＴＦ（ｄ_２；ｄ）＊ＩＤＦ（ｄ_２；Ｐ）
：
ＴＦ（ｄ_ｘ；ｄ）＊ＩＤＦ（ｄ_ｘ；Ｐ）
また、ｐ_ａの文書ベクトルを以下のように考える。

ＴＦ（ｄ_１；ｐ_ａ）＊ＩＤＦ（ｄ_１；Ｐ）
ＴＦ（ｄ_２；ｐ_ａ）＊ＩＤＦ（ｄ_２；Ｐ）
：
ＴＦ（ｄ_ｘ；ｐ_ａ）＊ＩＤＦ（ｄ_ｘ；Ｐ）
ここに、文書ベクトルとは、文書の索引語ごとにＴＦＩＤＦが演算され、それらの索引語の値を成分としたベクトルをいう。

文書ｄの文書ベクトルの成分は、ＴＦ（ｄ_１；ｄ）＊ＩＤＦ（ｄ_１；Ｐ）、・・・、ＴＦ（ｄ_１；ｄ）＊ＩＤＦ（ｄ_１；Ｐ）などとなる。また、文書ｐ_ａの文書ベクトルの成分は、ＴＦ（ｄ_ｘ；ｐａ）＊ＩＤＦ（ｄ_ｘ；Ｐ）のようになる。すなわち、それぞれの文書ベクトルは以下のように表される。

｛文書ｄの文書ベクトル｝＝｛ＴＦ（ｄ_１；ｄ）＊ＩＤＦ（ｄ_１；Ｐ）、ＴＦ（ｄ_２；ｄ）＊ＩＤＦ（ｄ_２；Ｐ）、・・・、ＴＦ（ｄ_ｘ；ｄ）＊ＩＤＦ（ｄ_ｘ；Ｐ）｝
｛文書ｐａの文書ベクトル｝＝｛ＴＦ（ｄ_１；ｐ_ａ）＊ＩＤＦ（ｄ_１；Ｐ）、ＴＦ（ｄ_２；ｐ_ａ）＊ＩＤＦ（ｄ_２；Ｐ）、・・・、ＴＦ（ｄ_ｘ；ｐ_ａ）＊ＩＤＦ（ｄ_ｘ；Ｐ）｝
［類似率（類似度）］
類似率：２つの文書間の類似の程度を表すものであり、本明細書において、類似度とも称する。本実施の形態においては、２つの文書ベクトルの性質の近さを測るために、ベクトル同士の内積により数値化した。たとえば、調査対象文書ｄの、比較対象文書群Ｐに属するある比較対象文書ｐ_ａとの類似率（Ｄ，Ｐ_ａ：Ｐ）は、調査対象文書ｄの文書ベクトル（ｄ）と、比較対象文書群Ｐに属するある比較対象文書Ｐ_ａの文書ベクトル（ｐ_ａ）との内積を意味する。

｛類似率（ｄ，ｐ_ａ；Ｐ）｝
＝｛文書ｄの文書ベクトル｝・｛文書ｐａの文書ベクトル｝
＝[｛ＴＦ（ｄ_１；ｄ）＊ＩＤＦ（ｄ_１；Ｐ）｝＊｛ＴＦ（ｄ_１；ｐ_ａ）＊ＩＤＦ（ｄ_１；Ｐ）｝
＋｛ＴＦ（ｄ_２；ｄ）＊ＩＤＦ（ｄ_２；Ｐ）｝＊｛ＴＦ（ｄ_２；ｐ_ａ）＊ＩＤＦ（ｄ_２；Ｐ）｝＋・・・
＋｛ＴＦ（ｄ_ｘ；ｄ）＊ＩＤＦ（ｄ_ｘ；Ｐ）｝＊｛ＴＦ（ｄ_ｘ；ｐ_ａ）＊ＩＤＦ（ｄ_ｘ２；Ｐ）｝]
比較対象文書ｐの類似率：本実施の形態において、調査対象文書ｄの比較対象文書群Ｐに属する或る比較対象文書ｐに対する類似率である。調査対象文書ｄの文書ベクトル（ｄ）と、比較対象文書群Ｐに属する或る比較対象文書ｐの文書ベクトル（ｐ）との内積の和を意味する。

ここで、索引語とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販のソフトを活用して、助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の辞書（シソーラス）のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。

なお、調査対象文書が複数ある文書群の場合は、抽出する対象は、前記の通りの索引語でもよいが、個々の文書、ＩＰＣの分類、企業や企業の集まりや業界、年毎例えば特許出願年や特許登録年などに束ねたものを抽出対象とすることも可能である。以下、本明細書では、代表して索引語とすることが多い。
［情報解析報告書自動作成装置］
図１は、本発明の実施の形態の情報解析報告書自動作成装置のハードウェア構成を示す図である。

図１に示すように、本発明に係る情報解析報告書自動作成装置１００は、ＣＰＵ（中央演算子）およびメモリィ（記憶装置）などから構成される処理装置１、キーボード（手入力器具）などの入力手段である入力装置２、文書データや条件や処理装置１による作業結果などを格納する記録手段である記憶装置３、および特徴索引語の抽出結果などをマップやデータなどで表示などする出力手段である出力装置４から構成される。

図２は、本発明に係る情報解析報告書自動作成装置の各部の機能を説明するためのブロック図である。

図２に示すように、処理装置１は、調査対象文書ｄ読み出し部１１０と、索引語（ｄ）抽出部１２０と、ＴＦ（ｄ）演算部１２１と、比較対象文書Ｐ読み出し部１３０と、索引語（Ｐ）抽出部１４０と、比較対象文書ＰのＴＦ（Ｐ）演算部１４１と、比較対象文書ＰのＩＤＦ（Ｐ）演算部１４２と、類似率演算部１５０と、母集団絞込み部１５１と、母集団文書Ｓ選出部１６０と、索引語（Ｓ）抽出部１７０と、ＩＤＦ（Ｓ）演算部１７１と、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０とから構成される。

入力装置２は、調査対象文書ｄ条件入力部２１０と、比較対象文書Ｐ条件入力部２２０と、抽出条件その他入力部２３０とから構成される。

記憶装置３は、条件記録部３１０と、作業結果格納部３２０と、文書格納部３３０とから構成される。文書格納部３３０は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のＩＰＤＬや、株式会社パトリスでサービスしているＰＡＴＯＬＩＳなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許ＪＰ−ＲＯＭなどのデータを自前で格納したデータベース、文書を格納したＦＤ（フレキシブルディスク）、ＣＤ−ＲＯＭ（コンパクトディスク）、ＭＯ（光磁気ディスク）、ＤＶＤ（デジタルビデオディスク）などの媒体から読み出す装置、紙などに出力された或いは手書きれた文書を読み込むＯＣＲ（光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

出力装置４は、マップ作成条件読み出し部４１０と、マップ用データ取り込み部４１２と、マップ（グラフ・表）生成部４１５と、データ出力条件読み出し部４２０と、出力データ取り込み部４２２と、コメント条件読み出し部４３０と、定形コメント取り込み部４３２と、コメント追記部４３５と、マップ・データ・コメントを合成し報告書を生成する報告書生成部４４０と、生成された報告書を出力する出力部４５０とから構成される。

図１および図２において、処理装置１、入力装置２、記憶装置３、および出力装置４の間で信号やデータをやり取りする通信手段としては、ＵＳＢ（ユニバーサルシステムバス）ケーブルなどで直接接続してもよいし，ＬＡＮ（ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納したＦＤ、ＣＤＲＯＭ、ＭＯ、ＤＶＤなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

図１および図２に示す本発明の情報解析報告書自動作成装置１００、および該情報解析報告書自動作成装置１００用プログラム、および報告書作成方法における機能を詳しく説明する。

図２に示す入力装置２において、調査対象文書ｄ条件入力部２１０は、入力画面などによって調査対象文書ｄの読み出しを行なう条件を設定する。比較対象文書Ｐ条件入力部２２０は、入力画面などによって比較対象文書Ｐの読み出しを行なう条件を設定する。抽出条件その他入力部２３０は、入力画面などによって調査対象文書ｄ及び比較対象文書Ｐの索引語抽出条件、ＴＦ演算の条件、ＩＤＦ演算の条件、類似率演算の条件、類似文書の選出条件、マップ作成条件、データ出力条件、コメント追記条件、母集団絞込み条件などを設定する。これら入力された条件は、記憶装置３の条件記録部３１０へ送られ格納される。

図２に示す処理装置１において、調査対象文書ｄ読み出し部１１０は、調査対象の文書を、条件記録部３１０に格納された読み出し条件に基づいて、文書格納部３３０より読み出し、そして索引語（ｄ）抽出部１２０に転送する。索引語（ｄ）抽出部１２０は、条件記録部３１０に格納された抽出条件に基づいて、調査対象文書ｄ読み出し部１１０で得られた文書から索引語の抽出を行ない、抽出された索引語を作業結果格納部３２０に格納する。

また、比較対象文書Ｐ読み出し部１３０は、母集団の文書を、条件記録部３１０に格納された読み出し条件に基づいて、文書格納部３３０より読み出し、索引語（Ｐ）抽出部１４０に転送する。索引語（Ｐ）抽出部１４０は、条件記録部３１０に格納された抽出条件に基づいて、比較対象文書Ｐ読み出し部１３０で得られた文書から索引語の抽出を行ない、抽出された索引語を作業結果格納部３２０に格納する。

上述した比較対象文書Ｐ読み出し部１３０および索引語（Ｐ）抽出部１４０においては、通常は比較対象文書のひとつである特許公開公報などの公報全部という場合が多く、一度索引語を切り出して用意し保存しておけば、わざわざ改めて切り出す必要はないので、省略することができる。

ＴＦ（ｄ）演算部１２１は，条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０に格納された調査対象文書ｄについての索引語（ｄ）抽出部１２０の作業結果を、ＴＦ演算して、ＴＦ（ｄ；ｄ）を得て、作業結果格納部３２０に格納し、或いは直接類似率演算部１５０、或いは特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０に転送する。

ＴＦ（Ｐ）演算部１４１は，条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０に格納された比較対象文書Ｐについての索引語（Ｐ）抽出部１４０の作業結果を、ＴＦ演算して、ＴＦ（ｄ；ｐ）を得て、作業結果格納部３２０に格納し、或いは直接類似率演算部１５０、又は直接、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０に転送する。

ＩＤＦ（Ｐ）演算部１４２は、条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０に格納された比較対象文書ｄから抽出された索引語（ｄ）の各々について、ＩＤＦ演算して、ＩＦ（ｄ；Ｐ）を得て、作業結果格納部３２０に格納し、或いは直接類似率演算部１５０、又は直接、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０に転送する。

類似率演算部１５０は、条件記録部３１０に格納された条件に基づいて、ＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１、及びＩＤＦ（Ｐ）演算部１４２の演算結果を、それぞれから直接或いは作業結果格納部３２０から得る。なお、前述したように、ＴＦ（ｄ）演算部１２１の演算結果はＴＦ（ｄ；ｄ）、ＴＦ（Ｐ）演算部１４１の演算結果は、ＴＦ（ｄ；ｐ）、ＩＤＦ（Ｐ）演算部１４２の演算結果は、ＩＤＦ（ｄ；Ｐ）である。類似率演算部１５０は、次いで、比較対象文書Ｐの文書それぞれの、調査対象文書ｄに対する類似率を演算し、比較対象文書Ｐのそれぞれに類似率データとして付され、作業結果格納部３２０或いは直接母集団文書Ｓ選出部１６０に転送する。

類似率演算部１５０における類似率の演算は、各文書が索引語毎に、例えばＴＦＩＤＦ演算などに代表される計算がなされ、比較対象文書Ｐの文書それぞれの、調査対象文書ｄに対する類似率が計算される。ＴＦＩＤＦ演算とは、ＴＦ演算結果とＩＤＦ演算結果の積である。類似率（類似度）の演算方法の一例を以下に詳しく述べる。

今、ｄを調査対象文書とし、ｐを比較対象文書群Ｐの個々の文書とする。これら文書ｄおよびｐに対する演算の結果、文書ｄから切り出された索引語が「赤」「青」および「黄」であったと考える。また、文書ｐから切り出された索引語が「赤」「白」であったと考える。その場合、文書ｄ中の索引語の索引語頻度をＴＦ（ｄ）とし、文書ｐ中の索引語の索引語頻度をＴＦ（ｐ）とし、比較対象文書群Ｐから得た索引語の文書頻度をＤＦ（Ｐ）とし、全文書数を５０とする。

このとき、例えば、それぞれの頻度を、図３５Ａに示す。ＴＦ＊ＩＤＦ（Ｐ）をそれぞれの文書の索引語毎に計算すると、図３５Ｂに示すようになる。

図３５Ｂの各欄に示されたものが、文書ｄ或いは文書ｐの、ＴＦ(ｄ)＊ＩＤＦ(Ｐ)或いはＴＦ(ｐ)＊ＩＤＦ(Ｐ)を成分としたベクトルの表現である。文書ベクトルｄ及び文書ベクトルｐは次のように表現される。但し、行と列を置換して表現してある。

文書ベクトルｄ＝（１*ln(50/30)、２*ln(50/20)、４*ln(50/45)、０）
文書ベクトルｐ＝（２*ln(50/30)、０、０、１*ln(50/13)）
次に、類似度が算出される。すなわち、この文書ベクトルｄと文書ベクトルｐとの内積をとれば、文書ベクトルｄと文書ベクトルｐとの間の類似度が得られる。なお、文書ベクトル間の類似度の値が大きいほど文書間の類似の度合いが高いことを意味し、文書ベクトル間の距離（非類似度）という表現をすれば値が小さいほどやはり類似の度合いが高いことを意味する。文書ベクトル間の内積は、ベクトル各成分の籍の総和であるから以下のように求められる。

（文書ベクトルｄ・文書ベクトルｐ）＝１*ln(50/30)＊２*ln(50/30)＋０＋０＋０
ここで、右辺最後の項は「０」になる。すなわち、調査対象文書ｄから抽出された索引語(ｄ)以外の索引語の内積の成分すなわち類似率は「０」であるから、索引語(ｄ)の各々についてだけ、ＴＦＩＤＦ演算すれば足りることがわかる。つまり、片方に索引語が存在しなければ、内積の成分が「０」であることを考慮して、ｄの索引語のみを演算対象とすることで、演算量を減じることができる。

上記類似率に基づくと、ｄの索引語に似た索引語がｐに存在すればするほど、内積の成分が０にならず、類似率として高い値が得られ、ｄの索引語に似た索引語がｐには少なければ少ないほど、内積の成分が０になるものが多いので、成分の和の類似率として低い値となる。

なお、類似率の演算の方法はいろいろあるので、前記の、ＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１、及びＩＤＦ（Ｐ）演算部１４２に基づいた類似率演算部１５０の場合はこのままでよいが、前記の、ＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１、及びＩＤＦ（Ｐ）演算部１４２を必要としない類似率の演算の方法のときは、総て省略して類似率演算部１５０だけとしてもよい、ことは言うまでもない。

母集団絞込み部１５１は、条件記録部３１０に格納された選出条件に基づいて、選ばれる母集団の絞込みをするためのものである。例えば、出願件数の多い出願人に絞る、又は逆に出願件数の少ない出願人に絞る、特別なＩＰＣに絞る、業種を限定するなど、母集団を絞り込むことができる。また、絞込みが不要な場合はパスすることができる。

母集団文書Ｓ選出部１６０は、条件記録部３１０に格納された選出条件に基づいて、作業結果格納部３２０或いは直接類似率演算部１５０の結果、或いは母集団絞込み部１５１から、設定された条件に沿った数の母集団文書Ｓを選出する。例えば、類似率の高い順に文書をソートし、条件に記された必要な数だけ選出し、作業結果格納部３２０或いは直接索引語（Ｓ）抽出部１７０に転送する。

また、母集団文書Ｓ選出部１６０の出力から、直接、マップ用データ取り込み部４１２や出力データ取り込み部４２２に進むことがあるので、その場合は、以降の構成は不要となることも言うまでもない。

索引語（Ｓ）抽出部１７０は、条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０或いは母集団文書Ｓ選出部１６０の結果の母集団文書Ｓから、索引語（Ｓ）を抽出し、抽出された索引語（Ｓ）を作業結果格納部３２０或いは直接ＩＤＦ（Ｓ）演算部１７１に転送する。

ＩＤＦ（Ｓ）演算部１７１は、条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０或いは直接索引語（Ｓ）抽出部１７０からの作業結果を、ＩＤＦ演算して、その結果を作業結果格納部３２０に格納し或いは直接特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０に転送する。

特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０は、条件記録部３１０に格納された条件に基づいて、作業結果格納部３２０から、或いはＴＦ（ｄ）演算部１２１の結果、ＴＦ（Ｐ）演算部１４１の結果、ＩＤＦ（Ｐ）演算部１４２の結果、及び直接ＩＤＦ（Ｓ）演算部１７１の結果から、選出のための条件に記された必要な数だけ、或いは条件に基づいた計算結果により選ばれた数だけ、母集団文書及び索引語を、例えば類似率やキーワード重要度の高い順に選出し、頻度散布図（キーワード分布図）、又は構造図を演算して、その結果を作業結果格納部３２０に格納する。

図２に示す記憶装置３において、条件記録部３１０は、入力装置２から得られた条件などの情報を記録し、処理装置１或いは出力装置４の要求に基づき、それぞれに必要なデータを送る。作業結果格納部３２０は、処理装置１における各構成部位の作業結果を格納し、処理装置１或いは出力装置４の要求に基づき、それぞれに必要なデータを送る。

文書格納部３３０は、入力装置２或いは処理装置１の要求に基づき、外部データベース或いは内部データベースから得た必要な文書データを格納するとともに、処理装置１或いは出力装置４の要求に基づき、提供する。

図２に示す出力装置４において、マップ作成条件読出部４１０は、条件記録部３１０に格納された条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部４１２に送る。また、データ出力条件読出部４２０は、条件記録部３１０に格納された条件に基づいて、データの出力条件を読み出し、出力データ取り込み部４２２に送る。コメント条件読出部４３０は、条件記録部３１０の条件に基づいて、コメントの出力条件や追記条件を読み出し、定形コメント取り込み部４３２に送る。なお、コメント追記部４３２で自由なコメントを追記することが可能である。

マップ用データ取り込み部４１２は、マップ作成条件読み出し部４１０により読み出された条件に従い、作業結果格納部３２０に格納された母集団文書Ｓ選出部１６０の結果、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０の結果などを、文書格納部３３０のデータとともに取り込み、作業結果格納部３２０或いは直接マップ（グラフ・表）生成部４１５に送られる。

マップ（グラフ・表）生成部４１５は、マップ用データ取り込み部４１２からのデータを使って、グラフ、表、タイトル、凡例などを生成する。その結果を報告書生成部４４０に送る。

出力データ取り込み部４２２は、データ出力条件読み出し部４２０の条件に従い、作業結果格納部３２０に格納された、母集団文書Ｓ選出部１６０の結果や特徴索引語ＴＦ（ｄ）
ＩＤＦ（Ｓ）演算部１８０の結果などを、文書格納部３３０のデータとともに取り込み、作業結果格納部３２０或いは直接報告書生成部４４０に送る。

定形コメント取り込み部４３２は、コメント条件読出部４３０の条件に従い、作業結果格納部３２０や文書格納部３３０のデータを取り込み、コメント追記部４３５に、或いは直接報告書生成部４４０に送る。

コメント追記部４３５は、コメント条件読出部４３０の条件に従い、キーボードやＯＣＲなどの外部入力装置から直接、或いは文書格納部３３０の内部データベースに事前に用意したものを、調査対象文書ｄの評価者のコメントとして追記するためのデータを用意し、作業結果格納部３２０或いは直接報告書生成部４４０に送る。

報告書生成部４４０は、マップ（グラフ・表）生成部４１５から出力される条件とデータ、出力データ取り込み部４２２から出力される条件とデータ、定形コメント取り込み部４３２から出力される条件とデータ及びコメント追記部４３５から出力される条件とデータをそれぞれ直接或いは作業結果格納部３２０より得て、マップ・データ・コメントを紙出力として最適な形に整形し、情報解析報告書を生成する。生成された情報解析報告書を出力部４５０に送る。

出力部４５０は、情報解析報告書を表示手段、記録手段、又は通信手段に出力する。この出力部４５０は、自動配信機能を有し、定期的に（例えば１ヶ月１回）新しい情報解析報告書を出力する。または、新しい情報解析報告書は以前と大きく変わったとき（例えば、１割以上の内容が変わったとき）、自動的に配信する。

なお、上述した報告書生成部４４０は、マップのみの情報解析報告書を生成することができ、その結果を出力部４５０を介して出力することができる。

以下、図３、図４、及び図５を参照しながら、本発明の実施形態の情報解析報告書自動作成方法およびプログラムの制御による処理手順について説明する。

図３は、入力装置２の動作を示すフローチャートである。図４は、処理装置１の動作を示すフローチャートである。図５は、出力装置４の動作を示すフローチャートである。

図３に示すように、入力装置２において各条件設定を行う際に、まず、ステップＳ２０１で初期化を行う。初期化（ステップＳ２０１）のあと、入力する条件を区別する（ステップＳ２０２）。このとき、条件が調査対象文書ｄの条件入力であるとき、調査対象文書ｄ条件入力部２１０において調査対象文書ｄの条件を入力する（ステップＳ２１０）。次に、入力した条件を表示画面（図６〜８参照）で確認し、よければ「設定」を選んで、入力内容を条件記録部３１０に格納し（ステップＳ３１０）、悪ければ「戻る」を選んで、ステップＳ２１０に戻り（ステップＳ２１１）、上記の動作を繰り返す。

一方ステップＳ２０２において条件が比較対象文書Ｐの条件入力であるとき、比較対象文書Ｐ条件入力部２２０において比較対象文書Ｐの条件を入力する（ステップＳ２２０）。次に、入力した条件を表示画面（図６〜８参照）で確認し、よければ「設定」を選んで、入力内容を条件記録部３１０に格納し（ステップＳ３１０）、悪ければ「戻る」を選んで、ステップＳ２２０に戻り（ステップＳ２２１）、上記の動作を繰り返す。

また、ステップＳ２０２において条件が抽出条件その他であるとき、抽出条件その他入力部２３０において抽出条件その他を入力する（ステップＳ２３０）。次に、入力した条件を表示画面（図６〜８参照）で確認し、よければ「設定」を選んで、入力内容を条件記録部３１０に格納し（ステップＳ３１０）、悪ければ「戻る」を選んでステップＳ２３０に戻り（ステップＳ２３１）、上記の動作を繰り返す。該ステップＳ２３０においては、調査対象文書ｄの抽出条件と、比較対象文書Ｐからの母集団文書Ｓの抽出条件の両方を設定する。また、ステップＳ２３０では、出力条件も設定する（後述図９参照）。

図４に示すように、処理装置１において各処理を行う際に、まず、ステップＳ１０１で初期化を行う。初期化（ステップＳ１０１）のあと、条件記録部３１０の条件に基づいて、文書格納部３３０から読み出す文書を、調査対象文書ｄと比較対象文書Ｐに区別する（ステップＳ１０２）。読み出す文書が調査対象文書ｄであるとき、調査対象文書ｄ読み出し部１１０において調査対象文書を文書格納部３３０より読み出す（ステップＳ１１０）。次に、索引語（ｄ）抽出部１２０において調査対象文書ｄの索引語抽出を行なう（ステップＳ１２０）。引き続き、抽出された索引語の各々について、ＴＦ（ｄ）演算部１２１においてＴＦ演算をする（ステップＳ１２１）。

一方、ステップＳ１０２において、読み出す文書が比較対象文書Ｐであるとき、比較対象文書Ｐ読み出し部１３０において比較対象文書Ｐを読み出す（ステップＳ１３０）。次に、索引語（Ｐ）抽出部１４０において比較対象文書Ｐの索引語抽出を行なう（ステップＳ１４０）。引き続き、抽出された索引語の各々について、ＴＦ（Ｐ）演算部１４１においてＴＦ演算をする（ステップＳ１４１）とともに、ＩＤＦ（Ｐ）演算部１４２においてＩＤＦ演算をする（ステップＳ１４２）。

次に、ＴＦ（ｄ）演算部１２１の出力のＴＦ（ｄ）演算結果と、ＴＦ（Ｐ）演算部１４１の出力のＴＦ（Ｐ）演算結果、及びＩＤＦ（Ｐ）演算部１４２の出力のＩＤＦ（Ｐ）演算結果にて、類似率演算部１５０において、文書の各索引語についての演算結果を出し、例えば索引語の平均値を出して、文書の類似率とする、などして類似率の演算を行なう（ステップＳ１５０）。

類似率の演算の方法がＴＦＩＤＦなどではない場合は、調査対象文書ｄの索引語（ｄ）抽出部１２０と比較対象文書Ｐの索引語（Ｐ）抽出部１４０から、別の方法により類似率が求められることがある。

次に、ステップＳ１５１で、母集団絞込み部により無駄の情報を除く。なお、このステップＳ１５１をパスすることも可能である。

次に、母集団文書Ｓ選出部１６０により、ステップＳ１５０にて演算した文書を類似率の順に並べ替え、抽出条件その他入力部２３０において設定した条件に沿った数の母集団文書Ｓを選出する（ステップＳ１６０）。

これらのデータは、出力装置４のマップ（グラフ・表）生成部４１５や報告書部４４０で直接利用することがある。

次に、母集団文書Ｓの索引語（Ｓ）抽出部１７０により、ステップＳ１６０にて選出した母集団文書Ｓの索引語（Ｓ）を抽出する（ステップＳ１７０）。

次に、索引語（ｄ）の各々について、ＩＤＦ（Ｓ）演算部１７１により、ＩＤＦ演算する（ステップＳ１７１）。

次に、ステップＳ１７１による母集団文書Ｓにおける索引語（ｄ）の各々についてのＩＤＦ（Ｓ）演算の結果と、Ｓ１２１ステップによる調査対象文書ｄにおける索引語（ｄ）の各々についてのＴＦ（ｄ）演算の結果とから、特徴索引語・母集団内類似率・頻度散布図・構造図等の演算を行なう（ステップＳ１８０）。

図５に示すように、出力装置４において情報解析報告書を作成して出力を行う際に、まず、ステップＳ４０１で初期化を行う。初期化（ステップＳ４０１）のあと、条件記録部３１０から読み出す条件を、マップ作成条件と、データ出力条件と、コメント追記条件に区別する（ステップＳ４０２）。

条件記録部３１０から読み出す条件がマップ作成条件であるとき（ステップＳ４１０）、マップを必要とする条件であったら（ステップＳ４１１）、作業結果格納部３２０からマップ用データ取り込み部４１２によりマップ用データ取り込みを行なう（ステップ４１２）。マップ作成条件読み出し部４１０のマップ作成条件に沿って、グラフや表などのマップを生成し（ステップＳ４１５）、続いて、マップを報告書生成部４４０に送る。

一方、条件記録部３１０から読み出す条件が母集団データ出力条件であるとき（ステップＳ４２０）、データを必要とする条件であったら（ステップＳ４２１）、作業結果格納部３２０から出力データ取り込み部４２２により出力用データ取り込みを行なう（ステップS４２２）。次に、データ出力条件読み出し部４２０のデータ出力条件に沿って、データを出力し（ステップＳ４２３）、続いて、データを報告書生成部４４０に送る。

また一方、条件記録部３１０から読み出す条件がコメント条件であるとき（ステップＳ４３０）、コメントを必要とする条件であったら（ステップＳ４３１）、マップ・データ・コメント複合整形出力部４４０にて、コメントを追記できる枠を準備し、該枠内に、キーボードから或いはＯＣＲから、手入力するか（ステップＳ４３５）、或いは又は、文書格納部３３０の内部データベースにある、事前に準備されたコメントを使って、コメントを取り込み（ステップＳ４３２）、続いて、コメントを報告書生成部４４０に送る。

ステップＳ４１１でマップを表示する条件でなかったら、又はステップＳ４２１でデータを出力する条件でなかったら、又はステップＳ４３１でコメントを追記する条件でなかったら、それぞれその時点で終了し、報告書生成部４４０へはデータを送らない。

図６は、情報解析報告書自動作成装置１００の入力装置２の入力条件設定画面を示す図である。

この図６は、情報解析報告書自動作成装置の入力装置２の入力条件設定（１）画面の表示例である。図６において、「対象文書」のウィンドウの「調査対象文書」と「比較対象文書」の中から「調査対象文書」を選び、次に「文書内容」のウィンドウの「公開特許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウィンドウの「自社ＤＢ１」、「自社ＤＢ２」、「特許庁ＩＰＤＬ」、「ＰＡＴＯＬＩＳ」、「他商用ＤＢ１」、「他商用ＤＢ２」、「ＦＤ」、「ＣＤ」、「ＭＯ」、「ＤＶＤ」、「その他」などの中から「ＦＤ」を選び、更に「ＦＤ」の「文書１」、「文書２」、「文書３」、「文書４」、「文書５」、「文書６」などの中から「文書３」を選んだ状態の例である。

また、図７は、情報解析報告書自動作成装置の前記入力装置２の入力条件設定（２）画面の表示例である。図７において、「対象文書」のウィンドウの「調査対象文書」と「比較対象文書」などの中から「比較対象文書」を選び、次に「文書内容」のウィンドウの「公開特許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウィンドウの「請求項」、「従来技術」、「発明の課題」、「手段・効果」、「実施例」、「図の説明」、「図面」、「要約」、「書誌事項」、「経過情報」「登録情報」、「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウィンドウで前述と同じ項目の中から「自社ＤＢ１」を選んだ状態の例である。この例の入力条件設定画面における設定条件が、調査対象文書ｄ条件入力部２１０と比較対象文書Ｐ条件入力部２２０を設定する。

また、図８は、情報解析報告書自動作成装置の前記入力装置２の入力条件設定（３）画面の表示例である。図８において、「索引語抽出条件」のウィンドウの「自社キーワード切出１」「自社キーワード切出２」、「商用キーワード切出１」、「商用キーワード切出２」などの中から「自社キーワード切出１」を選び、次に「類似率算出方法」のウィンドウの「類似率１」、「類似率２」、「類似率３」、「類似率４」、「類似率５」、「類似率６」などの中から「類似率１」を選び、次に「母集団文書選出」のウィンドウの「母集団文書数」、「非母集団文書数」などの中から「母集団文書数」を選び、更に「上位１００件」、「上位１０００件」、「上位３０００件」、「上位５０００件」、「数値入力」などの中から「上位３０００件」を選び、「母集団絞込み条件」のウィンドウの「出願件数の多い出願人」「出願軒数の少ない出願人」「ＩＰＣの指定」「企業名、業界の指定」の中から選んだ状態の例である。
この例の抽出条件設定画面における設定条件が、抽出条件その他入力部２３０を設定する。

図９は、情報解析報告書自動作成装置の入力装置２の出力条件設定画面の表示例である。図９において、「マップ算出方法」のウィンドウの「ｘ軸」に「ｘ軸：索引語件数」及び「ｙ軸」に「ｙ軸：索引語順位」を選び、次に「マップ位置」のウィンドウの「マップ１枚」、「マップ２枚」、「マップ１枚・データ付」、「マップ２枚・データ付」、「マップ１枚・コメント付」、「マップ２枚・コメント付」、「マップ１・データ・コメント付」、「マップ２・データ・コメント付」などの中から「マップ１枚」を選び、次に「出力データ」のウィンドウの「ＴＦＩＤＦ降順」、「ＴＦＩＤＦ昇順」などの中から「ＴＦＩＤＦ降順」を選び、更に「なし」「上位５個」「上位１０個」「上位１５個」「上位２０個」「数値入力」などの中から「上位２０個」を選んだ状態の例である。次に「コメント」のウィンドウの枠内の「（自由記入）」には無記入にした。こうして抽出条件その他入力部２３０の出力条件を設定する。

図１０は、情報解析報告書自動作成装置１００において、図６から図９までの例で入力したとき、作成された情報解析報告書の一例である。この場合、母集団文書Ｓ選出部１６０の選出結果、及び特徴索引語・母集団内類似率・頻度散布図・構造図等演算部１８０の結果を基に、マップ（グラフ・表）生成部４１５にて生成されたマップにデータおよび定形コメントを付加して生成されたものである。

図１０から、情報解析報告書自動作成装置１００において、調査対象文書ｄの「レーザイオン化質量分析計用試料作成方法および試料ホルダ」に関する公開特許公報にとって、比較対象文書として特許公開公報と特許公報の約１０年分の文書と比較して、特徴のある索引語を調べた結果、「試料」「分析」「質量」「固体」「レーザ」などが特徴索引語であることが分かる。

なお、図１０に示す情報解析報告書には、マップ、データ、定形コメント、自由コメントの内容が表示されているが、これに限定されるものではない。例えば、マップのみを表示するようにしてもよい。また例えば、マップとデータとを一緒に表示するようにしてもよい。

図１１乃至図３２は、情報解析報告書自動作成装置１００の他の出力例を示す図である。

図１１は、全期間における特許の出願人ランキングを示す図である。この場合、母集団中の公報を出願人別で集計して、件数が多い出願人を表示するようになされている。この図１１において、母集団（例えば調査対象文書に類似している公報３０００件の集合）中の公報を全比較対象文書のデータ範囲の全期間にわたって出願人別で集計して、母集団中における公報件数が多い出願人を上位２０人のランキングを表示している。なお、各出願人の件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１１により、母集団に含まれる公報について件数順の出願人ランキングが分かり、母集団とした分野の技術に関心の高い出願人が読み取られる。また、ランキングにおける件数の分布傾向から、その分野の技術に対する出願人の集中度が高い（少数の出願人による集中傾向）が、または低い（多数の出願人による分散傾向）かについて知ることができる。

図１２は、最近３年間における特許の出願人ランキングを示す図である。この場合、母集団中の公報を出願人別に最近３年間の範囲で集計して、件数が多い出願人を表示するようになされている。この図１２において、母集団（例えば調査対象文書に類似している公報３０００件の集合）を最近３年間の範囲で出願人別で集計して、母集団中のこの期間における公報件数が多い出願人を上位２０人のランキングを表示している。なお、各出願人の件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１２により、母集団の中で、特に最近３年間において公報件数が多い出願人のランキングが分かり、この期間で母集団とした分野の技術に関心の高い出願人が読み取られる。また、この３年間と全期間（図１１参照）の出願人ランキングを比較することによって、上位出願人の順位の入れ替わりや同一出願人の件数変化、即ち母集団とした分野への関心度の変化が読み取られる。

図１３は、国際特許分類（ＩＰＣ）の主分類のランキングを示す図である。この場合、母集団中の公報をＩＰＣ主分類別で集計して、件数が多いＩＰＣを表示している。この図１３において、母集団（例えば調査対象文書に類似している公報３０００件の集合）中の公報を付与されているＩＰＣ主分類のメイングループ別に集計して、件数が多いＩＰＣメイングループ上位２０分類のランキングを表示している。なお、各ＩＰＣが付与された公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１３により、調査対象文書と類似の技術に関する公報に主分類として付与されているＩＰＣ主分類のメイングループの中で、件数の多い分類がグラフから分かる。順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関係のある分野の範囲が狭く、逆に順位が下がっても件数が極端に減らない場合は、そのような技術に関係のある分野の範囲が広いといえる。ＩＰＣ主分類のメイングループ主分類だけの集計であるため、調査対象文書と類似している公報の中心的な技術分野についての分布傾向であると考えられる。

図１４は、国際特許分類（ＩＰＣ）の主・副分類のランキングを示す図である。この場合、母集団中の公報を主分類と副分類の全ＩＰＣ別で集計して、件数が多いＩＰＣを表示している。この図１４において、母集団（例えば調査対象文書に類似している公報３０００件の集合）中の公報を付与されているＩＰＣ主分類と副分類のすべてについてメイングループ別に集計して、件数が多い上位２０分類のランキングを表示している。なお、各ＩＰＣが付与された公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１４により、調査対象文書と類似の技術に関する公報に主分類あるいは副分類として付与されているＩＰＣのメイングループの中で、件数の多い分類がグラフから分かる。順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関係のある分野の範囲が狭く、逆に順位が下がっても件数が極端に減らない場合は、そのような技術に関係のある分野の範囲が広いといえる。主分類ＩＰＣだけから集計された件数のランキング（図１３参照）よりも、調査対象文書と類似している技術の関係のある分野の分布傾向をより広範囲に表していると考えられる。

図１５は、出願人と国際特許分類（ＩＰＣ）のマトリックスマップを示す図である。この場合、母集団中の件数上位１０出願人による公報で、母集団中のＩＰＣ件数上位５分類の何れかが付与されている公報件数を表示している。この図１５において、母集団（例えば調査対象文書に類似している公報３０００件の集合）中の公報を多く出願している上位１０出願人による母集団中の公報で、主分類あるいは副分類として母集団中で多く付与されているＩＰＣ上位５分類の何れかと同じＩＰＣメイングループが付与されている件数を集計してマトリックス形式で表示している。図１５中の泡（円）の大きさが件数を相対的に表示している。

この図１５により、母集団中で件数上位１０出願人それぞれによる公報によってＩＰＣ上位５分類のどの分類が特に多いか、あるいはＩＰＣ上位５分類それぞれについてどの出願人による特許が多いか、という傾向が読み取られる。調査対象文書と類似の技術に関する公報の件数上位１０出願人の中でも、出願人によってＩＰＣ別の件数分布に特有の傾向を有する場合があり、このような分布の違いから各出願人が目的または手段とする技術分野の傾向が比較できる。

図１６は、上位１０出願人と国際特許分類（ＩＰＣ）上位５分類の関係を示す表である。この図１６において、上述した図１５を表形式で表示したもので、公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

図１７は、上位２０出願人と国際特許分類（ＩＰＣ）主分類との関係を示す図である。この場合、母集団中の件数上位２０出願人による公報で、調査対象文書のＩＰＣ主分類と同じＩＰＣメイングループが付与されている件数を表示している。この図１７において、母集団（例えば調査対象文書に類似している公報３０００件の集合）中の公報を多く出願している上位２０出願人による母集団中の公報で、主分類あるいは副分類に調査対象文書のＩＰＣ主分類と同じＩＰＣメイングループが付与されている件数を集計して表示している。なお、各出願人の件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１７により、母集団中で件数上位２０出願人による公報で、調査対象文書のＩＰＣ主分類と同じメイングループが付与されている件数が把握でき、母集団の主要な出願人の中で調査対象文書と同じ技術分野に関する公報が多い出願人を知ることができる。

図１８は、重要キーワード（対全比較対象文書）別の件数分布を示す図である。この場合、調査対象文書の重要キーワード（対全比較対象文書）と同じキーワードを含む母集団中の公報件数を表示している。この図１８において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度（対全比較対象文書）を算出する。その重要度が高いものから上位２０語が使用されている母集団（調査対象文書に類似している公報３０００件の集合）中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１８により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード（対全比較対象文書）２０語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。

図１９は、重要キーワード（対母集団）別の件数分布を示す図である。この場合、調査対象文書の重要キーワード（対母集団）と同じキーワードを含む母集団中の公報件数を表示している。この図１９において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード（対母集団）を算出する。その重要度が高いものから上位２０語が使用されている母集団（調査対象文書に類似している公報３０００件の集合）中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。

この図１９により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード（対母集団）２０語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。

図２０は、出願人別件数推移を示す図である。この場合、母集団中の件数上位１０出願人による出願件数を出願年ごとに集計し、その件数の推移を表示する。図２０において、母集団（調査対象文書に類似している公報３０００件の集合）中の公報を多く出願している上位１０出願人による母集団中の出願件数を、出願人別に１９９２年から出願年ごとに集計してその件数の推移を表示している。１９９３以後の年は前年までの件数を加算した累積で表示している。

この図２０により、母集団中の公報で件数上位１０出願人による出願件数の年ごとの推移から、傾向の変化が注目される出願人や、母集団の技術分野に関する経時的な変化が読みとれる。

図２１は、出願人と出願件数との関係を示す表である。この図２１において、上述した図２０を表形式で表示したもので、各集計年における単年の件数も表示している。

図２２は、国際特許分類（ＩＰＣ）別件数推移を示す図である。この場合、母集団中のＩＰＣ件数上位５分類が付与された出願件数を出願年ごとに集計し、その件数の推移を表示する。この図２２において、母集団（調査対象文書に類似している公報３０００件の集合）中の公報において主分類あるいは副分類として付与されている件数が多いＩＰＣメイングループ上位５分類について、母集団中の出願でこれらのＩＰＣ別に主分類あるいは副分類として付与されている件数を１９９２年から出願年ごとに集計してその件数の推移を表示している。１９９３以降の年は前年までの件数を加算した累積で表示している。

この図２２により、母集団中に含まれる公報でＩＰＣ上位５分類が付与された件数の年ごとの推移から、母集団の技術分野に関する経時的な変化が読み取れる。

図２３は、国際特許分類（ＩＰＣ）と出願件数との関係を示す表である。この図２３において、上述した図２２を表形式で表示したもので、各集計年における単年の件数も表示している。

図２４は、所定国際特許分類（ＩＰＣ）別件数推移を示す図である。この場合、母集団中で調査対象文書の主分類と同じＩＰＣメイングループが付与された出願件数を出願年ごとに集計し、その件数の推移を表示する。この図２４において、母集団（調査対象文書に類似している公報３０００件の集合）中の出願において調査対象文書のＩＰＣ主分類と同じＩＰＣメイングループが主分類または副分類として付与されている出願の件数を１９９２年から出願年ごとに集計してその件数の推移を表示している。各集計年における単年の件数推移を棒グラフで、１９９３以降について前年までの件数を加算した累積の推移を折れ線グラフで表示している。

この図２４により、調査対象文書と類似する公報であり、且つ主要な技術分野が同一である特許の件数動向が時系列を追って把握できる。

図２５は、母集団全体のポートフォリオを示す図である。この場合、母集団中のすべての出願件数を出願年で集計し、各集計年について前年との比較によって件数の推移を表示して、技術発展の状態を模試的に表現する。この図２５において、母集団（調査対象文書に類似している公報３０００件の集合）中のすべての出願を１９９２年から出願年ごとに集計し、各集計年の単年ごとの件数を横軸（件／年）として、縦軸は１９９２年の件数を起点に１９９３年以降の各集計年の件数と前年分の件数との比較による伸び率（％）をプロットしている。また、プロット点の円の大きさは１９９２年から各集計年までの件数の累積を表示している。

この図２５により、調査期間中における調査対象文書に類似している公報件数の年代別推移を模式的に表現した形で把握することができ、母集団について技術発展の状態が読み取れる。

図２６は、国際特許分類（ＩＰＣ）のポートフォリオを示す図である。この場合、母集団中でこのＩＰＣが付与された出願件数を出願年で集計し、各集計年について前年との比較によって件数の推移を表示して、技術発展の状態を模試的に表現する。この図２６において、母集団（調査対象文書に類似している公報の集合）中の公報に主分類または副分類として付与されているＩＰＣをメイングループで集計した結果、このＩＰＣメイングループが主分類または副分類として付与されている母集団中の出願を１９９２年から出願年ごとに集計し、各集計年の単年ごとの件数を横軸（件／年）として、縦軸は１９９２年の件数を起点に１９９３年以降の各集計年の件数と前年分の件数との比較による伸び率（％）をプロットしている。また、プロット点の円の大きさは１９９２年から各集計年までの件数の累積を表示している。

この図２６により、母集団中の主要なＩＰＣの一つであるこのＩＰＣメイングループが主分類または副分類として付与されている母集団中の出願について、件数の年代別推移を模式的に表現した形で把握することができ、この分野の技術発展の状態が読み取れる。

図２７は、重要キーワード（対全比較対象文書：対全公報）別件数推移を示す図である。この場合、調査対象文書の重要キーワード（対全比較対象文書）と同じキーワードを含む母集団中の出願件数の推移を表示する。この図２７において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度（対全比較対象文書）を算出する。重要キーワード（対全比較対象文書）と同じキーワードを含む母集団（調査対象文書に類似している公報３０００件の集合）中の出願件数を、キーワード別に１９９２年から出願年ごとに集計してその件数の推移を表示している。１９９３以降の年は前年までの件数を加算した累積で表示している。

この図２７により、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード（対全比較対象文書）と同じキーワードを含む母集団中の出願件数の推移が把握できる。

図２８は、重要キーワード（対全比較対象文書）と出願件数との関係を示す表である。この図２８において、上述した図２７を表形式で表示したもので、各集計年における単年の件数も表示している。

図２９は、重要キーワード（対母集団）別件数推移を示す図である。この場合、調査対象文書の重要キーワード（対母集団）と同じキーワードを含む母集団中の出願件数の推移を表示する。この図２９において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度（対母集団）を算出する。重要キーワード（対母集団）と同じキーワードを含む母集団（調査対象文書に類似している公報３０００件の集合）中の出願件数を、キーワード別に１９９２年から出願年ごとに集計してその件数の推移を表示している。１９９３以降の年は前年までの件数を加算した累積で表示している。

この図２９により、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード（対母集団）と同じキーワードを含む母集団中の出願件数の推移が把握できる。

図３０は、重要キーワード（対母集団）と出願件数との関係を示す表である。この図３０において、上述した図２９を表形式で表示したもので、各集計年における単年の件数も表示している。

図３１は、調査対象文書のキーワード分布を示す頻度散布図である。この場合、調査対象文書から抽出したキーワードの各々について専門度および独創度を算出し、両者を軸とした平面上にプロットした散布図を表示する。頻度散布図の作成については、第２の実施の形態にかかる装置の説明とともに後に詳述する。

この図３１において、全比較対象文書中にその語を使用している公報の件数が少ないほど専門度の数値は高くなり、母集団の中にその語を使用している公報の件数が少ないほど独創度の数値は高くなる。この分布図にいて各々のキーワードがプロットされた領域から、その語が調査対象文書と母集団のどちらの特徴をより強く表現しているかを読み取ることができる。

また、この図３１により、（１）キーワード分布図の右下の領域にある語は独創度の数値が低く、専門度の数値が高い。すなわち母集団の中では多数の文書で用いられているが、全比較対象文書の中では用いられている文書が少ない。この領域にある語は母集団として切り出された技術分野の特性を表していると考えられる。この領域は母集団特性語領域である。

（２）キーワード分布図の左上の領域にある語は専門度の数値が低く、独創度の数値が高い。すなわち全比較対象文書の中では多数の文書の中で用いられているが、母集団の中では用いられている文書が少ない。この領域にある語は母集団として切り出された技術分野の中における調査対象文書の独創性を表していると考えられる。この領域は独創語領域である。

（３）キーワード分布図の右上の領域にある語は専門度の数値が高く、独創度の数値も高い。すなわち全比較対象文書の中で用いられている文書が少なく、母集団の中でも用いられている文書が少ない。この領域にある語は調査対象文書以外ではほとんど用いられていない非常に専門的な語であると考えられる。この領域は専門語領域である。

（４）キーワード分布図の左下の領域にある語は専門度の数値が低く、独創度の数値も低い。すなわち全比較対象文書の中では多数の文書で用いられており、母集団の中でも多数の文書で用いられている。この領域にある語は全比較対象文書・母集団の区別なくいずれの文書にも一般的に使用されている語であると考えられる。この領域は一般語（不要語）領域である。

図３２は、調査対象文書、或いは調査対象文書と母集団文書との関係を示す特許構造図である。この場合、キーワード検索によって抽出した＜清酒＞に関する日本特許出願１７件の各公開公報を文書要素として類似率の近いものを近くに結び出願日時の時系列として分析した結果である。

また、この図３２により、調査対象文書間、或いは調査対象文書の母集団に対する位置付けなどの関係が一目瞭然で分かる。もちろんここでも。調査対象文書も比較対象文書も母集団文書も一切読み込むことなく、すべてコンピュータで自動的になされる。

図３３は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す図である。この場合、母集団内類似率の上位３００件について出願番号、発明の名称、出願人などの情報を表示する。この図３３において、調査対象文書における各キーワードの重要度（対母集団）を比較することにより、母集団中のそれぞれの公報について調査対象文書に対する類似性の度合いを表す母集団内類似率を算出し、その母集団内類似率上位３００件について出願番号、発明の名称、出願人など公報の情報を表示している。

このように本実施の形態においては、情報解析報告書自動作成装置１００は、処理装置１、入力装置２、記憶装置３、および出力装置４から構成されている。情報解析報告書を作成する際に、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、作成された情報解析報告書を表示手段、記録手段、又は通信手段に出力する。

これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成することができる。また、マップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントとを有する情報解析報告書を作成することができる。
［第２の実施の形態］
次に、本発明の第２の実施の形態にかかる情報解析報告書自動作成装置について説明する。第２の実施の形態にかかる情報解析報告書自動解析装置は、基本的には第１の実施の形態と同様の機能を有するが、特に、ネットワークに接続され、ネットワークを介したクライアントの要求にしたがって処理を実行して、処理の結果得られた情報解析報告書のファイルを、ネットワークを介して、クライアントに送信することができるようになっている。

図３６は、第２の実施の形態にかかる情報解析報告書自動作成装置およびクライアントを含む構成図である。図３６に示すように、情報解析報告書自動作成装置５００は、インターネットなどのネットワーク５０１に接続される。ネットワーク５０１には、クライアント５０２−１、５０２−２、・・・が接続される。したがって、情報解析報告書自動作成装置５００と、クライアント５０２−１、５０２−２、・・・との間では、ネットワーク５０１を介したデータ通信が可能である。以下、クライアントについては、特定のクライアントを指さない場合には、単に、「クライアント５０２」と称する。

図３６に示すように、情報解析報告書自動作成装置５００は、ウェブサーバ５１１、キューイング機構を備えた管理サーバ５１２、構造図や頻度散布図などを作成する第１の解析サーバ５１３、クラスタ情報を作成する第２の解析サーバ５１４、データベースサーバ５１５、および、ファイル作成サーバ５１６を備えている。第２の実施の形態において、ウェブサーバ５１１、管理サーバ５１２、第１の解析サーバ５１３および第２の解析サーバ５１４が全体として、第１の実施の形態にかかる処理装置１、入力装置２および出力装置４とほぼ同様の機能を果たす。また、データベースサーバ５１５が、第１の実施の形態の記憶装置３とほぼ同様の機能を果たす。

ウェブサーバ５１１は、クライアント５０２との間のインタフェースとして機能し、クライアント５０２からのデータを受信し、また、クライアント５０２に対して、データを送信する。ウェブサーバ５１１は、クライアント５０２からネットワークを介してウェブサーバ５１１に送信された、ユーザによる入力に基づいて、情報解析報告書を作成すべき案件、つまり調査対象文書の情報（以下、「調査案件情報」と称する。）を作成し、これを管理サーバ５１２に与える。

管理サーバ５１２は、調査案件をキューイングして、その投入順に、第１の解析サーバ５１３および第２の解析サーバ５１４にリクエストする。管理サーバ５１２は、第１の解析サーバ５１３にリクエストするための第１のキューイング機構と、第１の解析サーバによる処理が完了した調査案件をキューイングして、第２の解析サーバ５１４にリクエストするための第２のキューイング機構を有している。

第１の解析サーバ５１３は、母集団の抽出、各種集計処理、構造図の作成などの処理を実行する。第２の解析サーバ５１４は、構造図にあるクラスタごとに、当該クラスタの特性などを示すクラスタ情報を作成する。

以下、第２の実施の形態にかかる情報解析報告書自動作成装置５００にて実行される処理について説明する。ユーザがクライアント５０２を操作してログインすることにより、ウェブサーバ５１１は、クライアント５０２に対して、調査対象文書などを特定するための検索画面を送信する。図３７Ａは、検索画面の一例を示す図である。図３７Ａに示すように、検索画面には、特許文献を特定するための欄３７０１〜３７０４、テキスト入力欄３７０５、およびコンテンツ選択欄が含まれる。本実施の形態においては、調査対象文書として、特許公開公報や特許公報のほか、ユーザ自身が入力したテキストとすることもできる。テキストとしては、ユーザが出願しようとしている技術の要約などを入力することができる。

調査対象文書が、特許公開公報などの特許文献であれば、ユーザは、クライアント５０２を操作して、欄３７０１〜３７０４に必要な情報を入力する。或いは、ユーザは、テキスト入力欄３７０５に、調査対象とすべき情報を入力しても良い。

なお、欄３７０６には、類似公報をリストする際に、欄３７０６の入力に基づく期間のものを色づけて強調するようなサービスを行うために利用される。

ユーザがクライアント５０２を操作して、ボタンをオンすると、各欄に入力された情報が、ネットワーク５０１を介してウェブサーバ５１１に送信される。ウェブサーバ５１１はユーザによる入力を確認するための確認画面を、クライアント５０２に送信する。図３７Ｂは、確認画面の例を示す図である。ユーザがその内容を確認したのち、クライアント５０２を操作して、所定のボタンをオンすることで、調査対象文書が確定する。

上述したように、本実施の形態においては、調査対象文書が確定すると、調査案件情報が、ウェブサーバ５１１から管理サーバ５１２に送信される。管理サーバ５１２は、調査案件を第１のキューイング機構によってキューイングし、処理すべき順番となった調査案件について、第１の解析サーバ５１３にリクエストして、調査案件データを与える。

図３８は、第１の解析サーバにおいて実行される処理を示すフローチャートである。図３８に示すように、第１の解析サーバ５１３は、サーバ自身が扱いやすいように調査案件情報に前処理を加え（ステップＳ３８０１）、次いで、母集団を作成する（ステップＳ３８０２）。

本実施の形態においては、特許文献であれば、その特許請求の範囲および要約が、調査対象文書となる。また、テキスト入力であれば、入力されたテキスト自体が、調査対象文書となる。また、第２の実施の形態においては、たとえば、ＪＰ−ＲＯＭなどの公報のそれぞれにおける特許請求の範囲および要約が比較対象文書となる。

また、母集団として、比較対象文書中、調査対象文書との間の類似度が高い順に、３０００件が抽出される。類似度の算出は、第１の実施の形態において説明したものと同様であるため、その説明は省略する。

なお、抽出された母集団を構成する文書の情報などは、第１の解析サーバ５１３の記憶装置（図示せず）に記憶される。

次いで、第１の解析サーバ５１３は、集計処理を実行する。図３９は、第２の実施の形態にかかる集計処理の例を示すフローチャートである。図３９に示すように、第１の解析サーバ５１３は、集計として、ランキング集計（ステップＳ３９０１）、時系列集計（ステップＳ３９０２）およびマトリクス集計（ステップＳ３９０３）を実行する。

ランキング集計には、キーワード集計、出願人に関する集計およびＩＰＣに関する集計が含まれる。キーワード集計においては、図１８、図１９に示すような分布図が作成される。第１の解析サーバ５１３は、記憶装置から、重要度の高い順に所定数の重要キーワード（対全公報）の情報を取り出して、重要キーワード（対全公報）ごとに、当該キーワード（索引語）が使用されている公報の数を示すグラフを作成する（図１８）。また、第１の解析サーバ５１３は、記憶装置から、重要キーワード（対母集団）の情報を取り出して、重要キーワード（対母集団）ごとに、当該キーワード（索引語）が使用されている公報の件数を示すグラフを作成する（図１９）。

また、第１の解析サーバ５１３は、記憶装置から、母集団の情報を取得して、母集団の公報を出願人別に集計する（図１１、図１２参照）。第１の解析サーバ５１３は、記憶装置から母集団の情報を取得して、母集団の公報のそれぞれにおけるＩＰＣ主分類をメイングループ別に集計したグラフを作成するとともに（図１３）、主分類および副分類の全ＩＰＣ別で集計してグラフを作成する（図１４）。このような集計結果（表およびグラフ）は、第１の解析サーバ５１３の記憶装置に記憶される。

第１の解析サーバ５１３は、記憶装置から、母集団の情報を取得して、母集団中、出願件数上位１０出願人の出願件数を出願年ごとに集計して、その件数の推移を示すグラフ（図２０）、並びに、件数の累計および単年計を表す表（図２１）を作成する。また、第１の解析サーバ５１３は、記憶装置から、母集団の情報を取得して、母集団の公報中、主分類或いは副分類として付与されているＩＰＣの上位５分類について、出願件数を年ごとに集計したグラフを作成する（図２２）とともに、当該出願件数の単年計および累計を示す表を作成する（図２３）。これら集計結果も、第１の解析サーバ５１３の記憶装置に記憶される。

さらに、第１の解析サーバ５１３は、記憶装置から、重要キーワード（対全公報）を取り出して、重要キーワード（対全公報）ごとの年ごとの使用頻度の累積を表すグラフ（図２７）、並びに、重要キーワード（対全公報）の単年計および累計を示す表（図２８）を作成する。また、第１の解析サーバ５１３は、記憶装置から、重要キーワード（対母集団）を取り出して、重要キーワード（対母集団）ごとの年ごとの使用頻度の累積を表すグラフ（図２９）、並びに、重要キーワード（対母集団）の単年計および累計を示す表（図３０）を作成する。これらグラフや表も、第１の解析サーバ５１３の記憶装置に記憶される。

また、第１の解析サーバ５１３は、母集団の年毎の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する（図２５）。図２５のグラフにおいて、プロット点の円の大きさは、出願件数の累積を示している。同様に、第１の解析サーバ５１３は、あるＩＰＣ（ＩＰＣメイングループ）について、母集団においてそのＩＰＣが付与されている出願の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する（図２６）。図２６においても、プロット点の円の大きさは、出願件数の累積を示している。このようにして作成されたグラフも、第１の解析サーバ５１３の記憶装置に記憶される。

以下、マトリクス集計についても説明する。第１の解析サーバ５１３は、さらに、記憶装置から母集団の情報を取り出して、母集団中の出願件数上位１０人の出願人の出願に付与されたＩＰＣを参照して、出願人ごとに、当該出願人の出願において、ＩＰＣグループが付与された出願件数を、出願人×ＩＰＣメイングループのマトリクス形式の表を作成する（図１５参照）。また、図１５と同じ情報を用いて、公開件数、登録件数、実用新案件数を分けて表示した表（図１６）も作成される。また、第１の解析サーバ５１３は、記憶装置から母集団の情報を取り出し、母集団中の出願件数上位２０出願人の公報において、調査対象文書のＩＰＣ主分類と同じＩＰＣメイングループが付与されている出願件数を算出し、出願人ごとにその件数を表示したグラフを作成する（図１７）。図１７においては、出願人ごとの公開件数、登録件数、実用新案件数に分けて表示するのが望ましい。これらマトリクス集計の結果も、第１の解析サーバ５１３の記憶装置に記憶される。

各種集計処理が完了すると、第１の解析サーバ５１３は、記憶装置から、母集団の情報を取り出して、母集団内類似度を算出する（ステップＳ３９０４）。母集団内類似度とは、調査対象文書の、母集団に属する文書との間の類似率（類似度）である。

さらに、第１の解析サーバ５１３は、頻度散布図のための座標の算出処理を実行する（ステップＳ３９０５）。頻度散布図は、図３１に示すように、調査対象文書のキーワード分布を示す図である。頻度散布図のための座標の算出について、図４０のフローチャートを参照して詳細に説明する。なお、図４０は、理解を容易にするために、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示している。したがって、図３９のＳ３９０５で、図４０に示す全ての処理ステップを実行するのではない。つまり、図３９のＳ３９０５では、第１の解析サーバ５１３において既に算出され、記憶装置に記憶された値は、改めて算出されることなく利用され、ステップＳ３９０５の処理以前には実行されていない処理ステップのみが実行される。

図４０に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される（ステップＳ４００１）。次いで、調査対象文書ｄの索引語による、全文書（比較対対象文書全体）Ｐの中での文書頻度を示すＤＦ（Ｐ）が算出される（ステップＳ４００２）。このＤＦ（Ｐ）はキーワード重要度に相当する。

その後、ＴＦ（ｄ）（ｄの索引語（ｄ_１，・・・，ｄ_ｘ）による、ｄの中での出現頻度）およびＩＤＦ（Ｐ）（ＤＦ（Ｐ）の逆数×文書数の対数：ｌｎ［Ｎ／ＤＦ（Ｐ）］）の積である文書ベクトル（ｄ）が算出される（ステップＳ４００３）。同様に、ＴＦ（Ｐ）（Ｐの索引語（Ｐ_１，・・・，ｐ_ｙａ）による、Ｐの中での出現頻度およびＩＤＦ（Ｐ）の積である文書ベクトル（ｐ）が算出される（ステップＳ４００４）。

文書ベクトル（ｄ）および文書ベクトル（ｐ）が算出されると、これらの内積をとることで類似度が算出される（ステップＳ４００５）。さらに、比較対象文書Ｐから、調査対象文書ｄに対して、類似度が高い順に所定の数の文書が母集団Ｓとして抽出され、その情報が記憶装置に記憶される（ステップＳ４００５）。その後、キーワード重要度ＤＦ（Ｓ）（Ｓの索引語による、Ｓの中での文書頻度）が算出される（ステップＳ４００６）。

その後、調査対象文書ｄの索引語（ｄ_１、・・・、ｄ_ｘ）の各々について、文書頻度の関数値ＩＤＦを、比較対象文書Ｐおよび母集団Ｓに対して求める（ステップＳ４００７、Ｓ４００８）。ステップＳ４００７においては、ＩＤＦ（ｄ_１；Ｐ）、ＩＤＦ（ｄ_２；Ｐ）、・・・、ＩＤＦ（ｄ_ｘ；Ｐ）が求められ、ステップＳ４００８においては、ＩＤＦ（ｄ_１；Ｓ）、ＩＤＦ（ｄ_２；Ｓ）、・・・、ＩＤＦ（ｄ_ｘ；Ｓ）が求められる。第１の解析サーバ５１３は、ＩＤＦ（Ｐ）とＩＤＦ（Ｓ）とで平面を作り、たとえば、ＩＤＦ（Ｐ）をｘ軸、ＩＤＦ（Ｓ）をｙ軸として、索引語（ｄ_１，・・・，ｄ_ｘ）の各々に対するＩＤＦ（Ｐ）やＩＤＦ（Ｓ）の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布図を作成する（ステップＳ４００９）。

なお、ステップＳ４００９により、頻度散布図（ＩＤＦ平面図）の中に、索引語が配置される（散布される）が、散布された索引語が偏って見にくくなる場合がある。このため、第２の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領域における密度が所定の値を超えていた場合には、第１の解析サーバ５１３は、その領域の軸の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛の間隔を狭めて、その領域を圧縮する。したがって、このように一部領域の拡大および他の領域の圧縮をする場合には、第１の解析サーバ５１３は、座標変換を行う（ステップＳ４０１０）。また、基本となるＩＤＦ平面図はひし形であるが、表現図としてみたときに違和感があり、また、取り扱いに不便である場合もある。したがって、第１の解析サーバ５１３は、座標変換により、平面を四角形で表せるようにしても良い。これら頻度散布図の情報も、第１の解析サーバ５１３の記憶装置に記憶される。

集計処理が終了すると、第１の解析サーバ５１３は、特許構造図の作成処理を実行する。以下、特許構造図の作成についてより詳細に説明する。
［特許構造図]
以下の説明で使用する言葉について定義する。

Ｅ：文書要素（分析対象となる文書集団を構成し、本実施の形態において分析の単位となる個々の対象である。本実施の形態では、調査対象文書ｄや母集団中の文書ｐがこれに該当する。）
樹状図：分析対象である文書集団を構成する各文書要素を樹状に結線した図である。

デンドログラム：階層的クラスタ分析によって生成される樹状図である。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度（類似度）に基づいて、非類似度が最小（類似度が最大）の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。

また、説明を簡素にするため、略号を以下のようにする。

Ｄ：樹状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ（結合距離）
α：樹状図の切断位置の高さ。

α^＊：＜Ｄ＞＋δσ_Ｄ（但し−３≦δ≦３）で算出される樹状図の切断高さ。ここで＜Ｄ＞は当該樹状図における全結合高Ｄの平均値であり、σ_Ｄは当該樹状図における全結合高Ｄの標準偏差である。

Ｎ：分析対象の文書要素数。第１の実施の形態とは異なり、ここでは、分析対象の数としている。

ｔ：文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れかとすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。

次に、第２の実施の形態において、第１の解析サーバ５１３における特許構造図を作成するための構成について説明する。図４１は、第１の解析サーバにおける特許構造図作成のための構成を示すブロックダイヤグラムである。図４１に示すように、第１の解析サーバ５１３は、文書読み出し部４１１０、時間データ抽出部４１２０、索引語データ抽出部４１３０、類似度演算部４１４０、樹状図作成部４１５０、切断条件読み出し部４１６０、クラスタ抽出部４１７０、配置条件読み出し部４１８０、および、クラスタ内要素配置部４１９０を有している。また、記憶装置４１０３は、条件記録部、作業結果格納部、文書格納部を有する。

文書読み出し部４１１０は、分析対象となる複数の文書要素を記憶装置４１０３の文書格納部から読み出す。読み出された文書要素群のデータは、時間データ抽出部４１２０および索引語データ抽出部４１３０に直接送られて各々での処理に用いられ、或いは記憶装置４１０３の作業結果格納部に送られて格納される。

なお、文書読み出し部４１１０から時間データ抽出部４１２０および索引語データ抽出部４１３０或いは作業結果格納部に送られるデータは、読み出された文書要素群の時間データおよび内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ（例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部から各文書要素のデータを読み出せばよい。

時間データ抽出部４１２０は、文書読み出し部４１１０で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部４１９０に直接送られてそこでの処理に用いられ、或いは記憶装置４１０３の作業結果格納部に送られて格納される。

索引語データ抽出部４１３０は、文書読み出し部４１１０で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部４１４０に直接送られてそこでの処理に用いられ、或いは記憶装置４１０３の作業結果格納部に送られて格納される。

類似度演算部４１４０は、索引語データ抽出部４１３０で抽出された各文書要素の索引語データに基づき、文書要素間の類似度を演算する。算出された類似度は、樹状図作成部４１５０に直接送られてそこでの処理に用いられ、或いは記憶装置４１０３の作業結果格納部に送られて格納される。

樹状図作成部４１５０は、樹状図作成条件に従って、類似度演算部４１４０で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する。作成された樹状図は、記憶装置４１０３の作業結果格納部に送られて格納される。樹状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。

切断条件読み出し部４１６０は、たとえば記憶装置４１０３の条件記録部に記録された樹状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部４１７０に送られる。

クラスタ抽出部４１７０は、樹状図作成部４１５０で作成された樹状図を記憶装置４１０３の作業結果格納部から読み出すとともに、切断条件読み出し部４１６０で読み出された切断条件に基づいて当該樹状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記憶装置４１０３の作業結果格納部に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。

配置条件読み出し部４１８０は、たとえば記憶装置４１０３の条件記録部に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部４１９０に送られる。

クラスタ内要素配置部４１９０は、クラスタ抽出部４１７０で抽出されたクラスタのデータを記憶装置４１０３の作業結果格納部から読み出すとともに、配置条件読み出し部４１８０で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記憶装置４１０３の作業結果格納部に送られて格納され、必要に応じて出力される。

次に、図４２のフローチャートを参照して、第１の解析サーバ５１３における特許構造図作成処理の概略について説明する。

まず、文書読み出し部４１１０が、分析対象となる複数の文書要素を記憶装置４１０３の文書格納部から読み出す（ステップＳ４２１０）。第２の実施の形態において、分析対象となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団文書となる。

次に、時間データ抽出部４１２０が、文書読み出しステップＳ４２１０で読み出された文書要素群から、各要素の時間データを抽出する（ステップＳ４２２０）。

次に、索引語データ抽出部４１３０が、文書読み出しステップＳ４２１０で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する（ステップＳ４２３０）。索引語の抽出は第１の実施の形態と同様である。

次に、類似度演算部４１４０が、索引語データ抽出ステップＳ４２３０で抽出された各文書要素の索引語データに基づき、文書要素間の類似度を演算する（ステップＳ４２４０）。類似度（類似率）の演算についても、既に説明しているので、ここでの説明は省略する。

次に、樹状図作成部４１５０が、樹状図作成条件に従って、類似度演算ステップＳ４２４０で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する（ステップＳ４２５０）。樹状図としては、文書要素などの間の類似度を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。デンドログラムの具体的な作成方法としては、公知のＷａｒｄ法などを用いる。

次に、切断条件読み出し部４１６０が、記憶装置４１０３の条件記録部に記録された樹状図切断条件を読み出す（ステップＳ４２６０）。

次に、クラスタ抽出部４１７０が、切断条件読み出しステップＳ４２６０で読み出された切断条件に基づき、樹状図作成ステップＳ４２５０で作成された樹状図を切断し、クラスタを抽出する（ステップＳ４２７０）。

次に、配置条件読み出し部４１８０が、記憶装置４１０３の条件記録部に記録されたクラスタ内の文書要素配置条件を読み出す（ステップＳ４２８０）。

次に、クラスタ内要素配置部４１９０が、配置条件読み出しステップＳ４２８０で読み出された文書要素配置条件に基づき、クラスタ抽出ステップＳ４２７０で抽出されたクラスタ内の文書要素の配置を決定する（ステップＳ４２９０）。クラスタ内の配置を決定することで、本実施の形態にかかる構造図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップＳ４２８０を一度実行すれば、他のクラスタのために再度実行する必要はない。

より詳細に、構造図の作成処理について説明する。本実施の形態おいては、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。

図４３は、本実施の形態にかかるクラスタ抽出過程をより詳細に説明するフローチャートである。このフローチャートは、図４２を部分的により詳細に示すものである。したがって、図４２と同様のステップは、図４２のステップ番号に１００を加え、下二桁を図４２と同一のステップ番号とし、重複する説明を省略する場合がある。

図４４Ａ〜図４４Ｆは、本実施の形態にかかるクラスタ抽出過程での樹状図配置例を示す図であり、図４３を補足するものである。Ｅ_１〜Ｅ_１０は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間ｔをもつ（より古い）文書要素であるとする。

まず、文書読み出し部４１１０が、分析対象となる複数の文書要素を記憶装置４１０３の文書格納部から読み出す（ステップＳ４３１０）。

次に、時間データ抽出部４１２０が、分析対象である文書集団の各文書要素から時間データを抽出する（ステップＳ４３２０）。

次に、索引語データ抽出部４１３０が、分析対象である文書集団の各文書要素から索引語データを抽出する（ステップＳ４３３０）。このとき、後述のように文書集団のうちの最古要素（最古の文書要素）Ｅ_１の索引語データは不要なので、ステップＳ４３２０で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。

次に、類似度演算部４１４０が、各文書要素間の類似度を演算する（ステップＳ４３４０）。このときも、上記と同様に最古要素Ｅ_１以外の要素間の類似度のみを演算する。

次に、樹状図作成部４１５０が、分析対象である文書集団の各文書要素からなる樹状図を作成する（ステップＳ４３５０：図４４Ａ）。このとき、最古要素Ｅ_１は他の要素との類似度如何に関わらず、樹状図の先頭に配置する。

次に、切断条件読み出し部４１６０が、切断条件の読み出しを行う（ステップＳ４３６０）。ここでは切断高さα、後述の偏差判定閾値などを読み出す。

次に、クラスタ抽出部４１７０が、クラスタ抽出を行う。まず、切断高さα＝ａで樹状図を切断する（ステップＳ４３７１：図４４Ｂ）。α＝ａでクラスタ分離が生じない場合（ステップＳ４３７２でＮＯ）、α^＊＝＜Ｄ＞＋δσ_Ｄ（但し−３≦δ≦３。特に０≦δ≦２とするのが好ましく、δ＝１とするのが最も好ましい。）で切断する（ステップＳ４３７３）。樹状図が切断されたら、各クラスタ内の最古要素Ｅ_２、Ｅ_７を当該各クラスタの先頭に配置する（ステップＳ４３７４：図４４Ｃ）。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。

まず、各クラスタにつき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う（ステップＳ４３７５）。例えば、図４４Ｃに示す文書要素Ｅ_２を先頭とするクラスタにおいて、文書要素Ｅ_３、Ｅ_４、Ｅ_５、Ｅ_６の索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表１に示す通りだったとする。

偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で１０％と規定した場合には、索引語ｗ_ｂ及びｗ_ｅを偏差が小さい値と判定し削除する。

次に、各クラスタにつき、上記最古要素以外のクラスタ内要素からなる部分樹状図の作成を行う（ステップＳ４３７６：図４４Ｄ）。表１の例で言えば、残りの索引語ｗ_ａ、ｗ_ｃ、ｗ_ｄ、ｗ_ｆを用いて部分樹状図を作成する。従って、ステップＳ４３５０で作成された樹状図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差が小さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップＳ４３５０で樹状図を作成した際の類似度よりも、ステップＳ４３７６で部分樹状図を作成する際の類似度の方が小さく評価されることになる。

ここで、各クラスタにつき、最古要素を除いたクラスタ内要素数を取得し、所定の閾値（例えば「３」）と比較する（ステップＳ４３７７）。図４４Ｄの文書要素Ｅ_３〜Ｅ_６のように、最古要素Ｅ_２を除いた文書要素数が閾値を超えている場合は（ステップＳ４３７７でＮＯ）、ステップＳ４３７１に戻って樹状図の切断を行い、子孫クラスタを抽出する。このときの切断高さα（又はα^＊）は、ステップＳ４３７１（又はステップＳ４３７３）で上述した通りであるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さα（又はα^＊）でも再度樹状図の切断が可能となる。

なお、子孫クラスタ抽出の際にステップＳ４３７３の切断高さα^＊で切断する場合には、切断される親クラスタにおける各結合位置の高さＤに応じてその都度α^＊を更新してもよいし（可変法）、α^＊の初期値をそのまま用いてもよい（固定法）。

図１２Ｄの文書要素Ｅ_８〜Ｅ_１０のように、クラスタ内の最古要素Ｅ_７を除いた文書要素数が閾値以下であった場合（ステップＳ４３７７でＹＥＳ）、当該クラスタについては最後に切断高さα＝ａで切断を行う（ステップＳ４３７８：図４４Ｅ）。ステップＳ４３７８では、実際にクラスタ分離が生じない場合でもステップＳ４３８０に移行する。

ステップＳ４３８０では、配置条件読み出し部４１８０が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部４１９０が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する（ステップＳ４３９０：図４４Ｆ）。

例えば、ステップＳ４３７８において、図４４Ｅの切断高さα＝ａ_ｘで切断されクラスタ分離が生じなかった場合は、当該クラスタの文書要素Ｅ_７〜Ｅ_１０の時間データ順の直列鎖配列となる（図４４Ｆ）。

また、例えばステップＳ４３７８において、図４４Ｅの切断高さα＝ａ_ｙで切断された場合は、文書要素Ｅ_７から、文書要素Ｅ_８と、文書要素Ｅ_９及びＥ_１０の時間データ順の直列鎖と、に分岐される（図示せず）。

また、例えばステップＳ４３７８において、図４４Ｅの切断高さα＝ａ_ｚで切断された場合は、文書要素Ｅ_７から、文書要素Ｅ_８と文書要素Ｅ_９と文書要素Ｅ_１０の３枝に分岐される（図示せず）。

クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ましいが、他のものでもよい。

なお、偏差の判定閾値について、平均に対する標準偏差の比率で１０％とした例を説明したが、これは各文書要素が１つの文書からなる場合に好適な例である。各文書要素が１つの文書からなる場合の判定閾値は、０％以上１０％以下とするのが好ましい。その一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が６０％或いは７０％以下であれば、偏差が小さいものとして扱うことが好ましい。

第１の解析サーバ５１３が上述した処理を実行することにより、図３２に示すような特許構造図を得ることができる。特許構造図の作成（図３８のステップＳ３８０４）が完了すると、第１の解析サーバ５１３は、ＩＰＣデータを取得し（ステップＳ３８０５）、記憶装置に記憶された処理結果（集計結果、頻度散布図、特許構造図など）を所定形式のファイル（たとえばＺｉｐファイル）にする（ステップＳ３８０６）。その後、第１の解析サーバ５１３は、管理サーバ５１２に対して、処理終了を通知する（ステップＳ３８０７）。

管理サーバ５１２は、第１の解析サーバ５１３から処理終了の通知を受けると、その調査案件を、第２のキューイング機構に投入する。管理サーバ５１２は、調査案件を第２のキューイング機構によってキューイングし、処理すべき順番となった調査案件について、第２の解析サーバ５１４にリクエストして、調査案件データおよび特許構造図の情報を与える。
［クラスタ情報の生成］
以下、クラスタ情報を得るための処理について説明する。

第１の解析サーバ５１３は、調査対象文書における各キーワード（索引語）の使用頻度と全公報中における各キーワード（索引語）の使用頻度とに基づいて、各キーワードの重要度を算出する。重要度が上位所定の範囲にあるキーワードを重要キーワードとする。各キーワードの重要度や、重要キーワードの情報も、第１の解析サーバ５１３の記憶装置に記憶される。

調査対象文書における各キーワードの使用頻度と全公報中における各キーワードの使用頻度を数値化して比較することにおり、調査案件の技術的特徴を強く表現している度合いを、各キーワードの「重要度」として算出する。重要度がより高いキーワードは、調査対象文書の特徴をより強く表現しているため、重要度が上位所定の範囲にあるキーワードを重要キーワードと称する。
まず、以下の説明で使用する用語の定義および略号について説明する。クラスタ情報は、各クラスタについての、タイトル、公報件数、主分類ＩＰＣの集計（上位５位）、出願人の集計（上位５位）およびクラスタの重要キーワードを含む。重要キーワードは、クラスタに属する全公報から抽出されたキーワードの重要度上位１０語までを表示し、以下の４分類に分けて表示する。

技術領域語：クラスタの重要キーワードのうち、他のクラスタにも共通して使われているキーワードである。多くのクラスタで共通して使われているキーワードは概ねクラスタの属する技術領域を表すキーワードであることが多い。

主要語：クラスタの重要キーワードから「技術領域語」を除いたものの中で、そのクラスタで特に良く使われているキーワード。他のクラスタではあまり使われていないキーワードであり、そのクラスタの主要な技術要素を表すキーワードであることが多い。他のクラスタとの差別化を端的に表すキーワードでもある。

特徴語：クラスタの重要キーワードから「技術領域語」および「主要語」を除いたものは、手段や構成などと関連のあるキーワードであることが多い。その中でも、比較的の良く使われる一般語でありながら、分析対象公報群（全公報類似度の上位３００位）ではあまり使われていないキーワードは手段や構成における特徴的な面を示唆する可能性のあるキーワードであるとイエス。そのようなキーワードを所定の基準で算出し、「特徴語」として表示する。

その他の重要語：クラスタの重要キーワードから上記の３分類の何れにも該当しない重要キーワードである。「その他の重要語」は、重要キーワードでありながら、上記の３ついの観点のいずれにも属さないキーワードであり、手段や構成に関連する技術専門用語であることが多い。

以下、このよう重要キーワードを抽出し、それぞれの分類に属するキーワードを取得するキーワード取得処理について説明する。以下の処理の説明において、略号については、上述した第１の実施の形態および第２の実施の形態にかかる第１の解析サーバ５１３の説明で用いたものと同じパラメータを、別の略号で記すこともあり、その一方、前者の略号を、異なる意味で使うこともある。したがって、以下に述べる略号は、以下の説明の範囲においてのみ適用される。

高頻度語：索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む重みが大きい、所定個数の語。例えば、索引語の重みとしてＧＦ（Ｅ）又はＧＦ（Ｅ）を変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出する。

Ｅ：分析対象の文書群。文書群Ｅとしては、例えば、多数の文書を類似度に基づいてクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群Ｅを複数備えた文書群集団Ｓにおける各文書群を表示するときはＥ_ｕ（ｕ＝１，２，・・・，ｎ。ｎは文書群の数。）と表示する。

Ｓ：文書群Ｅを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に類似する３００件の特許文書で構成される。

Ｐ：文書群Ｅを含み、且つ文書群集団Ｓを含む文書集団（大文書集団）である全文書。全文書Ｐとしては、特許文献についての分析であれば、例えば日本国内で過去１０年間に発行されたすべての公開特許公報及び登録実用新案公報約５００万件を用いる。

Ｎ（Ｅ）又はＮ（Ｐ）：文書群Ｅ又は文書集団Ｐに含まれる文書の数
Ｄ、Ｄ_ｋ又はＤ_１〜Ｄ_Ｎ（Ｅ）：文書群Ｅに含まれる個々の文書
Ｗ：文書群Ｅに含まれる索引語の総数
ｗ、ｗ_ｉ、ｗ_ｊ：文書群Ｅに含まれる個々の索引語（ｉ＝１，・・・，Ｗ、ｊ＝１，・・・，Ｗ）
Σ_{｛条件Ｈ｝}：条件Ｈを満たす範囲で和をとることを意味する。

Π_{｛条件Ｈ｝}：条件Ｈを満たす範囲で積をとることを意味する。

β（ｗ，Ｄ）：文書Ｄにおける索引語ｗの重み
Ｃ（ｗ_ｉ，ｗ_ｊ）：索引語の文書単位での共起有無に基づいて算出される文書群での共起度。索引語ｗ_ｉと索引語ｗ_ｊの１つの文書Ｄにおける共起有無（１又は０）を、（β（ｗ_ｉ，Ｄ）及びβ（ｗ_ｊ，Ｄ）により重み付けの上で）文書群Ｅに属するすべての文書Ｄについて合計したもの
ｇ又はｇ_ｈ：高頻度語のうち各索引語との共起度が類似するもの同士で構成される「土台」。土台数＝ｂ（ｈ＝１，２，・・・，ｂ）
Ｃｏ（ｗ，ｇ）：索引語−土台共起度。索引語ｗと、土台ｇに属する高頻度語ｗ’との共起度Ｃ（ｗ，ｗ’）を、土台ｇに属するすべてのｗ’（但しｗを除く。）につき合計したもの
ａ_ｋ：文書Ｄ_ｋのタイトル（題名）
ｓ：タイトルａ_ｋ（ｋ＝１，・・・，Ｎ（Ｅ））の文字列連結
ｘ_ｋ：題名出現率。題名和ｓの中での各題名ａ_ｋの（文書数Ｎ（Ｅ）に対する）出現率
ｍ_ｋ：各題名ａ_ｋにおいて出現した索引語ｗ_ｖ（題名用語）の種数
ｆ_ｋ：題名用語についての、題名和ｓ中での（文書数Ｎ（Ｅ）に対する）出現率
ｙ_ｋ：題名用語出現率平均。題名用語出現率ｆ_ｋを、各題名ａ_ｋに出現した索引語ｗ_ｖ（題名用語）の種数ｍ_ｋで除したもの
τ_ｋ：タイトルスコア。ラベルの抽出順位を決めるために、文書群Ｅに属する各文書のタイトルごとに算出する。

Ｔ_１、Ｔ_２、・・・：タイトルスコアτ_ｋ降順で抽出されるタイトル（題名）
κ：キーワード適合度。ラベル（後述）の抽出個数を決めるために算出するもので、文書群Ｅに対するキーワードの占有度を示す。

ＴＦ（Ｄ）又はＴＦ（ｗ，Ｄ）：索引語ｗによる、文書Ｄの中での出現頻度（索引語頻度；Term
Frequency）
ＤＦ（Ｐ）又はＤＦ（ｗ，Ｐ）：索引語ｗによる、母集団である全文書Ｐの中での文書頻度（Document
Frequency）。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。

ＤＦ（Ｅ）又はＤＦ（ｗ，Ｅ）：索引語ｗによる、文書群Ｅでの文書頻度
ＤＦ（ｗ，Ｄ）：索引語ｗによる、文書Ｄでの文書頻度、すなわち、索引語ｗが文書Ｄに含まれていれば１、含まれていなければ０となる。

ＩＤＦ（Ｐ）又はＩＤＦ（ｗ，Ｐ）：“ＤＦ（Ｐ）の逆数×全文書の総文書数Ｎ（Ｐ）”の対数。例えば、ln（Ｎ（Ｐ）／ＤＦ（Ｐ））
ＧＦ（Ｅ）又はＧＦ（ｗ，Ｅ）：索引語ｗによる、文書群Ｅの中での出現頻度（大域的頻度；Global Frequency）
ＴＦ＊ＩＤＦ（Ｐ）：ＴＦ（Ｄ）とＩＤＦ（Ｐ）との積。文書の索引語ごとに演算される。

ＧＦ（Ｅ）＊ＩＤＦ（Ｐ）：ＧＦ（Ｅ）とＩＤＦ（Ｐ）との積。文書の索引語ごとに演算される。

以下、キーワード抽出のための処理装置の構成について、図４５のブロックダイヤグラムを参照して説明する。ここでは、処理の内容の理解を容易にするために、第１の解析サーバ５１３および第２の解析サーバ５１４の双方の機能のうち、キーワード抽出に必要な機能を全て記載している。

文書読み出し部４５１０は、記憶装置４５０３の条件記録部に格納された読み出し条件に従って、分析対象となる複数の文書Ｄ_１〜Ｄ_Ｎ（Ｅ）からなる文書群Ｅを記憶装置４５０３の文書格納部から読み出す。読み出された文書群のデータは、索引語抽出部４５２０に直接送られてそこでの処理に用いられる他、記憶装置４５０３の作業結果格納部に送られて格納される。

なお、文書読み出し部４５１０から索引語抽出部４５２０或いは作業結果格納部に送られるデータは、読み出された文書群Ｅの文書データを含むすべてのデータであっても良い。また、これら文書群Ｅに属する各々の文書Ｄを特定する書誌データ（例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部から各文書Ｄのデータを読み出せばよい。

索引語抽出部４５２０は、文書読み出し部４５１０で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部４５３０に直接送られてそこでの処理に用いられる他、記憶装置４５０３の作業結果格納部に送られて格納される。

高頻度語抽出部４５３０は、索引語抽出部４５２０で抽出された各文書の索引語に基づき、記憶装置４５０３の条件記録部に格納された高頻度語抽出条件に従って、文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。

具体的には、まず、各索引語について、文書群Ｅにおける出現回数であるＧＦ（Ｅ）を算出する。また更に各索引語のＩＤＦ（Ｐ）を算出し、ＧＦ（Ｅ）との積であるＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を算出するのが好ましい。次に、算出された各索引語の重みであるＧＦ（Ｅ）或いはＧＦ（Ｅ）＊ＩＤＦ（Ｐ）の上位所定個数の索引語を、高頻度語として抽出する。

抽出された高頻度語のデータは、高頻度語−索引語共起度算出部４５４０に直接送られてそこでの処理に用いられる他、記憶装置４５０３の作業結果格納部に送られて格納される。また、上記算出した各索引語のＧＦ（Ｅ）及び算出することが好ましいとされた各索引語のＩＤＦ（Ｐ）についても、記憶装置４５０３の作業結果格納部に送られて格納されることが好ましい。

高頻度語−索引語共起度算出部４５４０は、高頻度語抽出部４５３０にて抽出された各高頻度語と、上記索引語抽出部４５２０にて抽出され作業結果格納部に格納された各索引語との文書単位での共起有無に基づいて、文書群Ｅにおける共起度を算出する。索引語がｐ個、そのうち高頻度語がｑ個抽出されたとすれば、ｐ行ｑ列の行列データとなる。

高頻度語−索引語共起度算出部４５４０で算出された共起度のデータは、クラスタリング部４５５０に直接送られてそこでの処理に用いられ、或いは記憶装置４５０３の作業結果格納部に送られて格納される。

クラスタリング部４５５０は、高頻度語−索引語共起度算出部４５４０で算出された共起度データに基づき、記憶装置４５０３の条件記録部に格納されたクラスタリング条件に従って、ｑ個の高頻度語をクラスタ分析する。

クラスタ分析を行うためには、まず、ｑ個の高頻度語の各々について、各索引語との共起度の類似度を演算する。

次に、類似度の演算結果に基づき、記憶装置４５０３の条件記録部に格納された樹状図作成条件に従って、高頻度語を樹状に結線した樹状図を作成する。樹状図としては、高頻度語間の非類似度を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。

次に、記憶装置４５０３の条件記録部に記録された樹状図切断条件に従って、上記作成した樹状図を切断する。切断の結果、ｑ個の高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」ｇ_ｈ（ｈ＝１，２，・・・，ｂ）と呼ぶことにする。

クラスタリング部４５５０で形成された土台のデータは、索引語−土台共起度算出部４５６０に直接送られてそこでの処理に用いられ、或いは記憶装置４５０３の作業結果格納部に送られて格納される。

索引語−土台共起度算出部４５６０は、索引語抽出部４５２０で抽出され記憶装置４５０３の作業結果格納部に格納された各索引語について、クラスタリング部４５５０で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータはｋｅｙ（ｗ）算出部４５７０に直接送られてそこでの処理に用いられ、或いは記憶装置４５０３の作業結果格納部に送られて格納される。

ｋｅｙ（ｗ）算出部４５７０は、索引語−土台共起度算出部４５６０で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるｋｅｙ（ｗ）を算出する。算出されたｋｅｙ（ｗ）のデータはＳｋｅｙ（ｗ）算出部４５８０に直接送られてそこでの処理に用いられ、或いは記憶装置４５０３の作業結果格納部に送られて格納される。

Ｓｋｅｙ（ｗ）算出部４５８０は、ｋｅｙ（ｗ）算出部４５７０で算出された各索引語のｋｅｙ（ｗ）スコア、高頻度語抽出部４５３０で算出され記憶装置４５０３の作業結果格納部に格納された各索引語のＧＦ（Ｅ）及び各索引語のＩＤＦ（Ｐ）に基づき、Ｓｋｅｙ（ｗ）スコアを算出する。算出されたＳｋｅｙ（ｗ）のデータは記憶装置４５０３の作業結果格納部に送られて格納される。

評価値算出部４７００は、文書群Ｅ_ｕを複数備えた文書群集団Ｓに関し、索引語抽出部４５２０において抽出された各文書の索引語ｗ_ｉを作業結果格納部から読み出す。或いは評価値算出部４７００は、Ｓｋｅｙ（ｗ）算出部４５８０において各文書群Ｅ_ｕについてそれぞれ算出された索引語のＳｋｅｙ（ｗ）を作業結果格納部から読み出す。必要に応じて、評価値算出部４７００は、文書読み出し部４５１０により読み出された各文書群Ｅ_ｕのデータを作業結果格納部から読み出し、その文書数Ｎ（Ｅ_ｕ）を計数してもよい。また、高頻度語抽出部４５３０における高頻度語抽出の過程で算出されたＧＦ（Ｅ_ｕ）やＩＤＦ（Ｐ）を作業結果格納部から読み出してもよい。

そして、評価値算出部４７００は、読み出した情報に基づき、各索引語ｗ_ｉの各文書群Ｅ_ｕにおける出現頻度に基づく評価値Ａ（ｗ_ｉ，Ｅ_ｕ）をそれぞれ算出する。算出された評価値は、作業結果格納部に送られて格納され、或いは直接、集中度算出部４７１０及びシェア算出部４７２０に送られてそこでの処理に用いられる。

集中度算出部４７１０は、評価値算出部４７００で算出された各索引語ｗ_ｉの各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、作業結果格納部から読み出し、又は評価値算出部４７００から直接受信する。

そして、集中度算出部４７１０は、得られた評価値Ａ（ｗ_ｉ，Ｅ_ｕ）に基づき、各索引語ｗ_ｉについて、文書群集団Ｓでの各索引語ｗ_ｉの分布の集中度を算出する。この集中度は、各索引語ｗ_ｉについて、各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する全ての文書群Ｅ_ｕでの和を算出し、当該和に対する各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比を各文書群Ｅ_ｕについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団Ｓに属する全ての文書群Ｅ_ｕにおける和を算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。

シェア算出部４７２０は、評価値算出部４７００で算出された各索引語ｗ_ｉの各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、作業結果格納部から読み出し、又は評価値算出部４７００から直接受信する。

そして、シェア算出部４７２０は、得られた評価値Ａ（ｗ_ｉ，Ｅ_ｕ）に基づき、各索引語ｗ_ｉについて、各文書群Ｅ_ｕでのシェアを算出する。このシェアは、分析対象の文書群Ｅ_ｕにおける各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する各文書群Ｅ_ｕから抽出された全ての索引語ｗ_ｉについての和を算出し、当該和に対する各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比を各索引語ｗ_ｉについて算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。

第１逆数算出部４７３０は、文書群Ｅ_ｕを複数備えた文書群集団Ｓに関し、索引語抽出部４５２０において抽出された各文書の索引語ｗ_ｉを作業結果格納部から読み出す。

そして、第１逆数算出部４７３０は、読み出した文書群集団Ｓの各文書の索引語ｗ_ｉのデータに基づき、各索引語ｗ_ｉについての文書群集団Ｓでの出現頻度の逆数の関数値（例えば後述の規格化ＩＤＦ（Ｓ））を算出する。算出された文書群集団Ｓでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部４７５０に送られてそこでの処理に用いられる。

第２逆数算出部４７４０は、文書群集団Ｓを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書Ｐを用いる。この場合、高頻度語抽出部４５３０における高頻度語抽出の過程で算出されたＩＤＦ（Ｐ）を作業結果格納部から読み出し、その関数値（例えば後述の規格化ＩＤＦ（Ｐ））を算出する。算出された大文書集団Ｐでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部４７５０に送られてそこでの処理に用いられる。

独創度算出部４７５０は、第１逆数算出部４７３０及び第２逆数算出部４７４０において算出された各出現頻度の逆数の関数値を、作業結果格納部から読み出し、又は第１逆数算出部４７３０及び第２逆数算出部４７４０から直接受信する。また、高頻度語抽出部４５３０における高頻度語抽出の過程で算出されたＧＦ（Ｅ）を作業結果格納部から読み出す。

そして、独創度算出部４７５０は、第１逆数算出部４７３０の算出結果から第２逆数算出部４７４０の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第１逆数算出部４７３０の算出結果から第２逆数算出部４７４０の算出結果を減算したものに対し、第１逆数算出部４７３０の算出結果と第２逆数算出部４７４０の算出結果との和で除算したものでも良いし、各文書群Ｅ_ｕでのＧＦ（Ｅ_ｕ）を乗算したものでも良い。算出された独創度は、作業結果格納部に送られて格納される。

キーワード抽出部４７６０は、Ｓｋｅｙ（ｗ）算出部４５８０で算出されたＳｋｅｙ（ｗ）、集中度算出部４７１０で算出された集中度、シェア算出部４７２０で算出されたシェア及び独創度算出部４７５０において算出された独創度の各データを、作業結果格納部から読み出す。

そして、キーワード抽出部４７６０は、上記読み出したＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標に基づき、キーワードを抽出する。キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによっても良いし、選択された複数の指標の組み合わせに基づいて、キーワードをカテゴライズして抽出してもよい。

抽出されたキーワードのデータは、記憶装置４５０３の作業結果格納部に送られて格納される。

以下、キーワード抽出処理について、図４６のフローチャートを参照して説明する。

＜１．文書読み出し＞
まず、文書読み出し部４５１０が、分析対象となる複数の文書Ｄ_１〜Ｄ_Ｎ（Ｅ）からなる文書群Ｅを記憶装置４５０３の文書格納部から読み出す（ステップＳ４６０１）。

＜２．索引語抽出＞
次に、索引語抽出部４５２０が、文書読み出しステップＳ４６１０で読み出された文書群から、各文書の索引語を抽出する（ステップＳ４６０２）。各文書の索引語データは、例えば、文書群Ｅに含まれる索引語の各文書Ｄ内における出現回数（索引語頻度ＴＦ（Ｄ））の関数値を成分とするベクトルで表現することができる。

＜３．高頻度語抽出＞
次に、高頻度語抽出部４５３０が、索引語抽出ステップＳ４６０２で抽出された各文書の索引語データに基づき、文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。

具体的には、まず、各索引語について、文書群Ｅにおける出現回数であるＧＦ（Ｅ）を算出する（ステップＳ４６０３）。各索引語のＧＦ（Ｅ）を算出するには、上記索引語抽出ステップＳ４６０２において算出した各索引語の各文書における索引語頻度ＴＦ（Ｄ）を、文書群Ｅに属する文書Ｄ_１〜Ｄ_Ｎ（Ｅ）について合計すればよい。

説明をわかり易くするために、６個の文書Ｄ_１〜Ｄ_６からなる文書群Ｅに合計１４個の索引語ｗ_１〜ｗ_１４が含まれる場合のＴＦ（Ｄ）及びＧＦ（Ｅ）の仮想事例を次の表に示す。以下の説明において、この仮想事例を適宜参照する。

次に、算出された各索引語のＧＦ（Ｅ）に基づき、出現頻度上位の索引語を所定個数抽出する（ステップＳ４６０４）。高頻度語の抽出数は例えば１０語とする。この場合、例えば１０語目と１１語目が同順位であれば、１１語目も高頻度語として抽出する。

高頻度語の抽出にあたっては、更に各索引語のＩＤＦ（Ｐ）を算出してＧＦ（Ｅ）＊ＩＤＦ（Ｐ）の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例による以下の説明においては、簡単のためＧＦ（Ｅ）上位７語を高頻度語とすることにする。すなわち、索引語ｗ_１〜索引語ｗ_７が高頻度語として抽出される。

なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であれば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考えられる。

〔キーワードとして意味をなさないもの〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徴
〔キーワードとして重要性が低い語・単位記号・ローマ数字〕
全体、範囲、種、類、系、用、％、ｍｍ、ｍｌ、ｎｍ、μｍなど
ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを与えることは自由である。

＜４．高頻度語−索引語共起度算出＞
次に、高頻度語−索引語共起度算出部４５４０が、上記高頻度語抽出ステップＳ４６０４にて抽出された各高頻度語と、上記索引語抽出ステップＳ４６０２にて抽出された各索引語との共起度を算出する（ステップＳ４６０５）。

索引語ｗ_ｉと索引語ｗ_ｊとの文書群Ｅにおける共起度Ｃ（ｗ_ｉ，ｗ_ｊ）は、例えば次の式により算出する。

ここでβ（ｗ_ｉ，Ｄ）は文書Ｄにおける索引語ｗ_ｉの重みであり、
β（ｗ_ｉ，Ｄ）＝１
β（ｗ_ｉ，Ｄ）＝ＴＦ（ｗ_ｉ，Ｄ）
β（ｗ_ｉ，Ｄ）＝ＴＦ（ｗ_ｉ，Ｄ）×ＩＤＦ（ｗ_ｉ，Ｐ）
等が考えられる。

ＤＦ（ｗ_ｉ，Ｄ）は文書Ｄに索引語ｗ_ｉが含まれていれば１、含まれていなければ０となるから、ＤＦ（ｗ_ｉ，Ｄ）×ＤＦ（ｗ_ｊ，Ｄ）は、索引語ｗ_ｉと索引語ｗ_ｊが１つの文書Ｄにおいて共起していれば１、共起していなければ０となる。これを、（β（ｗ_ｉ，Ｄ）及びβ（ｗ_ｊ，Ｄ）により重み付けの上で）文書群Ｅに属するすべての文書Ｄについて合計したものが、索引語ｗ_ｉと索引語ｗ_ｊとの共起度Ｃ（ｗ_ｉ，ｗ_ｊ）である。

なお、上記［数１］の類似例として、［β（ｗ_ｉ，Ｄ）×β（ｗ_ｊ，Ｄ）］の代わりに、索引語ｗ_ｉと索引語ｗ_ｊとのセンテンス内共起有無に基づいて算出した文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）を用いても良い。文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）は、例えば以下の式により算出する。

ここでsenは文書Ｄにおける各センテンスを意味するものとする。［ＴＦ（ｗ_ｉ，sen）×ＴＦ（ｗ_ｊ，sen）］は、あるセンテンス内に索引語ｗ_Ｉとｗ_ｊが共起していれば１以上の値を返し、共起していなければ０を返す。これを文書Ｄにおけるすべてのセンテンスsenにつき合計したものが、文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）である。

上記の仮想事例に基づいて、上記［数１］により、重みβ（ｗ_ｉ，Ｄ）＝１として共起度を算出すると以下の通りである。まず、同じ索引語である索引語ｗ_１と索引語ｗ_１は、文書Ｄ_１〜文書Ｄ_３の計３文書において共起していると言うことができ、共起度Ｃ（ｗ_１，ｗ_１）＝３である。また、索引語ｗ_２と索引語ｗ_１は、文書Ｄ_１及び文書Ｄ_３の計２文書において共起しており、共起度Ｃ（ｗ_２，ｗ_１）＝２である。以下同様にして、索引語ｗ_１〜ｗ_１４の何れか１つと高頻度語ｗ_１〜ｗ_７の何れか１つとの組すべてについて共起度Ｃ（ｗ_ｉ，ｗ_ｊ）を算出すると、次の表のような１４行７列の行列データが得られる。

＜５．クラスタリング＞
次に、クラスタリング部４５５０が、高頻度語−索引語共起度算出ステップＳ４６０５で算出された共起度データに基づき、上記高頻度語をクラスタ分析する。

クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との共起度の類似度を演算する（ステップＳ４６０６）。

上記仮想事例において、類似度として、高頻度語ｗ_１〜ｗ_７の各々についての１４次元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りである。

表の左下半部は右上半部と重複するので省略している。この表によると、例えば高頻度語ｗ_１〜高頻度語ｗ_４は、それらの何れの組合せでも相関係数が０．８を超えている。また高頻度語ｗ_５〜高頻度語ｗ_７は、それらの何れの組合せでも相関係数が０．８を超えている。逆に、高頻度語ｗ_１〜高頻度語ｗ_４の何れかと高頻度語ｗ_５〜高頻度語ｗ_７の何れかとの組合せでは、相関係数がすべて０．８未満となっている。

次に、類似度の演算結果に基づき、高頻度語を樹状に結線した樹状図を作成する（ステップＳ４６０７）。

樹状図としては、高頻度語間の非類似度を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。デンドログラムの作成原理を簡単に説明すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小（類似度が最大）の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語間の非類似度に基づいて更新する。更新方法としては例えば公知のＷａｒｄ法などを用いる。

次に、クラスタリング部４５５０が、上記作成した樹状図を切断する（ステップＳ４６０８）。例えばデンドログラムにおける結合距離をＤとしたときの＜Ｄ＞＋δσ_Ｄの位置で切断する。ここで＜Ｄ＞はＤの平均値、σ_ＤはＤの標準偏差である。δは−３≦δ≦３の範囲で与え、好ましくはδ＝０とする。

切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされ、各クラスタに属する高頻度語群からなる「土台」ｇ_ｈ（ｈ＝１，２，・・・，ｂ）が形成される。同じ土台ｇ_ｈに属する高頻度語は、索引語との共起度の類似度が高く、異なる土台ｇ_ｈに属する高頻度語は、索引語との共起度の類似度が低いことになる。

樹状図とその切断過程については上記の仮想事例による説明を省略するが、高頻度語ｗ_１〜高頻度語ｗ_４からなる土台ｇ_１と、高頻度語ｗ_５〜高頻度語ｗ_７からなる土台ｇ_２という２つの土台（土台数ｂ＝２）が形成されたものとする。

＜６．索引語−土台共起度算出＞
次に、索引語−土台共起度算出部４５６０において、上記索引語抽出ステップＳ４６０２で抽出された各索引語について、クラスタリングのステップＳ４６０８で形成された各土台との共起度（索引語−土台共起度）Ｃｏ（ｗ，ｇ）を算出する（ステップＳ４６０９）。

索引語−土台共起度Ｃｏ（ｗ，ｇ）は、例えば、次の式により算出する。

ここでｗ’は、ある土台ｇに属する高頻度語であり、かつ共起度Ｃｏ（ｗ，ｇ）の計測対象である索引語ｗ以外のものをいう。索引語ｗと土台ｇとの共起度Ｃｏ（ｗ，ｇ）は、ｗ’すべてについての、ｗとの共起度Ｃ（ｗ，ｗ’）の合計である。

例えば上記の仮想事例において、索引語ｗ_１と土台ｇ_１との共起度Ｃｏ（ｗ_１，ｇ_１）は、
Ｃｏ（ｗ_１，ｇ_１）＝Ｃ（ｗ_１，ｗ_２）＋Ｃ（ｗ_１，ｗ_３）＋Ｃ（ｗ_１，ｗ_４）
であり、上の表３より、この値は、２＋３＋３＝８となる。

また、索引語ｗ_１と土台ｇ_２との共起度Ｃｏ（ｗ_１，ｇ_２）は、
Ｃｏ（ｗ_１，ｇ_２）＝Ｃ（ｗ_１，ｗ_５）＋Ｃ（ｗ_１，ｗ_６）＋Ｃ（ｗ_１，ｗ_７）＝１＋１＋０＝２となる。

同様にして、すべての索引語ｗについて土台ｇ_１，ｇ_２との共起度を算出すると、次の表のようになる。

なお、索引語−土台共起度は、上記Ｃｏ（ｗ，ｇ）に限らず、次の式により算出しても良い。

ここでΘ（Ｘ）は、Ｘ＞０なら１を返し、Ｘ≦０なら０を返す関数である。Θ（Σ_{｛ｗ’∈ｇ，ｗ’≠ｗ｝}ＤＦ(ｗ’，Ｄ)）は、土台ｇに属する何れかの高頻度語であってかつ共起度の計測対象索引語ｗ以外の語ｗ’が、文書Ｄに１つでも含まれていれば１を返し、まったく含まれていなければ０を返すことになる。ＤＦ（ｗ，Ｄ）は共起度の計測対象索引語ｗが、文書Ｄに１つでも含まれていれば１を返し、まったく含まれていなければ０を返す。ＤＦ（ｗ，Ｄ）にΘ（Ｘ）を乗じることで、ｗと土台ｇに属する何れかのｗ’とが文書Ｄにおいて共起していれば１を返し、共起していなければ０を返すことになる。これに、上で定義した重みβ（ｗ，Ｄ）を乗じ、さらに文書群Ｅに属するすべての文書Ｄについて合計したものが、Ｃｏ'（ｗ，ｇ）である。

上記［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）は、ｗとｗ’のＤ内での共起有無（１又は０）をすべてのＥについて重みβ（ｗ，Ｄ）×β（ｗ’，Ｄ）付きで合計（Ｃ（ｗ，ｗ’））し、これをｇ内のｗ’について合計した。これに対し、上記［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）は、ｗとｇ内の何れかのｗ’のＤ内での共起有無（１又は０）をすべてのＥについて重みβ（ｗ，Ｄ）付きで合計した。

従って、いずれの場合でも、より多くの文書Ｄで高頻度語と共起した方が、より大きい索引語−土台共起度が得られる。また、［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）は索引語ｗと共起する土台ｇ内のｗ’の数の多寡により増減するものであるのに対し、［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）は索引語ｗと共起する土台ｇ内のｗ’の存否により増減するもので、共起するｗ’の多寡は無関係である。［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）を用いる場合は重みβ（ｗ，Ｄ）＝１とするのが好ましく、［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）を用いる場合は重みβ（ｗ，Ｄ）＝ＴＦ（ｗ，Ｄ）とするのが好ましい。

＜７．ｋｅｙ（ｗ）算出＞
次に、ｋｅｙ（ｗ）算出部４５７０が、上記索引語−土台共起度算出ステップＳ４６０９で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるｋｅｙ（ｗ）を算出する（ステップＳ４６１０）。

ｋｅｙ（ｗ）は、例えば、次の式により算出する。

ここで、Ｆ（ｇ_ｈ）＝Σ_{｛ｗ∈Ｅ｝}Ｃｏ（ｗ，ｇ_ｈ）と定義する。索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）の、全索引語ｗについての合計である。Ｃｏ（ｗ，ｇ_ｈ）をＦ（ｇ_ｈ）で除して１との差をとり、これをすべての土台ｇ_ｈ（ｈ＝１，２，・・・，ｂ）について乗じて１との差をとったものが、ｋｅｙ（ｗ）である。

なお、索引語−土台共起度として、ここでは上記［数３］のＣｏ（ｗ，ｇ）を用いたが、上記［数４］のＣｏ'（ｗ，ｇ）を用いてもよいことは上述の通りである。

例えば上記の仮想事例において、Ｆ（ｇ_ｈ）を算出すると、上記［表４］より、
Ｆ（ｇ₁）＝Ｃｏ（ｗ₁，ｇ₁）＋Ｃｏ（ｗ₂，ｇ₁）＋・・・＋Ｃｏ（ｗ₁₄，ｇ₁）＝８５
Ｆ（ｇ₂）＝Ｃｏ（ｗ₁，ｇ₂）＋Ｃｏ（ｗ₂，ｇ₂）＋・・・＋Ｃｏ（ｗ₁₄，ｇ₂）＝５９
となる。そこで、ｋｅｙ（ｗ）は、
ｋｅｙ（ｗ₁）＝１−（１−Ｃｏ（ｗ₁，ｇ₁）／８５）（１−Ｃｏ（ｗ₁，ｇ₂）／５９）
＝１−（１ − ８／８５）（１ − ２／５９）
＝０．１２５
ｋｅｙ（ｗ₂）＝１−（１−Ｃｏ（ｗ₂，ｇ₁）／８５）（１−Ｃｏ（ｗ₂，ｇ₂）／５９）
＝１−（１ − ８／８５）（１ − ４／５９）
＝０．１５６
以下同様に、すべての索引語についてｋｅｙ（ｗ）を算出すると、次の表の通りである。

この表の右端の欄はｋｅｙ（ｗ）の大きい順に並べた場合の順位を示している。

ｋｅｙ（ｗ）の特質を説明するために、［表２］と同じものに各索引語の文書頻度ＤＦ（Ｅ）と上記ｋｅｙ（ｗ）順位とを付記して次に示す。

この表からわかるように、ｋｅｙ（ｗ）の順位には文書群Ｅでの文書頻度ＤＦ（Ｅ）の順位の影響が大きい。例えば、ＤＦ（Ｅ）最多の索引語ｗ_８はｋｅｙ（ｗ）が第１位であり、ＤＦ（Ｅ）次点の索引語ｗ_４はｋｅｙ（ｗ）が第２位であり、以下索引語ｗ_３、ｗ_５、ｗ_６等がそれに続いている。

文書群Ｅでの文書頻度ＤＦ（Ｅ）が大きい索引語なら、より多くの文書において高頻度語と共起することができる。したがって、より大きい索引語−土台共起度Ｃｏ（ｗ，ｇ）又はＣｏ'（ｗ，ｇ）が得られる。ｋｅｙ（ｗ）の順位にＤＦ（Ｅ）の順位の影響が大きい理由はここにあると考えられる。

なお、共起度の算出に用いる重みβ（ｗ，Ｄ）をＴＦ（ｗ，Ｄ）とした場合には、ｋｅｙ（ｗ）の順位には文書群Ｅでの大域的頻度ＧＦ（Ｅ）の順位の影響が大きくなると考えられる。

また、［表３］及び［表７］で索引語ｗ_９〜ｗ_１４を比較するとわかるように、共起する高頻度語がより多くの土台にまたがっている方が、ｋｅｙ（ｗ）が大きい。例えば、索引語ｗ_１０〜ｗ_１３と共起する高頻度語は、２つの土台にまたがっているのに対し、索引語ｗ_９やｗ_１４と共起する高頻度語は、１つの土台に偏っている。そして、索引語ｗ_１０〜ｗ_１３の方が索引語ｗ_９やｗ_１４よりｋｅｙ（ｗ）が大きくなっている。

また、［表３］及び［表７］で索引語ｗ_１０〜ｗ_１３を比較するとわかるように、より多くの高頻度語と共起している方が、ｋｅｙ（ｗ）が大きい傾向がある。例えば、ｗ_１０〜ｗ_１３のうち、最も多くの高頻度語と共起しているｗ_１２は、それらのうちで最もｋｅｙ（ｗ）が大きく、その次に多くの高頻度語と共起しているｗ_１１は、その次にｋｅｙ（ｗ）が大きい。

なお、各索引語の評価スコアとして、上記ｋｅｙ（ｗ）の代わりに、次の式を用いても良い。

ここでΦは適当な規格化定数であり、例えばΦ＝Σ_ｈ＝１ ^ｂ
Ｆ（ｇ_ｈ）とする。Ｆ（ｇ_ｈ）は上記［数５］で定義した通りである。

ｋｅｙ'（ｗ）は、索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）の、全土台ｇ_ｈ（ｈ＝１，・・・，ｂ）における平均値を定数（１／Φ）倍したものである。

また、各索引語の評価スコアとして、上記ｋｅｙ（ｗ）の代わりに、次の式を用いても良い。

ｋｅｙ”(ｗ) は、索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）をＦ（ｇ_ｈ）で除して、全土台ｇ_ｈ（ｈ＝１，・・・，ｂ）における平均値をとったものである。

［数５］のｋｅｙ（ｗ）において積部分を展開し、高次の微小項Ｏ［（Ｃｏ（ｗ，ｇ_ｈ）／Ｆ（ｇ_ｈ））^２］を無視すると、
ｋｅｙ（ｗ）
＝１−［１−Ｃｏ(ｗ,ｇ_１)／Ｆ(ｇ_１)］×［１−Ｃｏ(ｗ,ｇ_２)／Ｆ(ｇ_２)］×・・・
≒１−１＋Ｃｏ(ｗ,ｇ_１)／Ｆ(ｇ_１) ＋
Ｃｏ(ｗ,ｇ_２)／Ｆ(ｇ_２) ＋・・・
となるから、ｋｅｙ”(ｗ) ≒（１／ｂ）ｋｅｙ（ｗ）ということができる。

＜８．Ｓｋｅｙ（ｗ）算出＞
次にＳｋｅｙ（ｗ）算出部４５８０において、上記ｋｅｙ（ｗ）算出ステップＳ４６１０で算出された各索引語のｋｅｙ（ｗ）スコア、高頻度語抽出ステップＳ４６０４で算出された各索引語のＧＦ（Ｅ）及び各索引語のＩＤＦ（Ｐ）に基づき、Ｓｋｅｙ（ｗ）スコアを算出する（ステップＳ４６１１）。

Ｓｋｅｙ（ｗ）スコアは、次の式により算出する。

ＧＦ（ｗ，Ｅ）は文書群Ｅにおいて多く出現する語に対して大きな値が与えられるものであり、ＩＤＦ（Ｐ）は全文書Ｐにおいては珍しく文書群Ｅ特有の語に対して大きな値が与えられるものであり、ｋｅｙ（ｗ）は上記のようにＤＦ（Ｅ）の影響を受け、より多くの土台と共起する語に大きな値が与えられるスコアである。これらＧＦ（ｗ，Ｅ）、ＩＤＦ（Ｐ）及びｋｅｙ（ｗ）の値が大きいほどＳｋｅｙ（ｗ）は大きくなる。

索引語に対する重み付けとして良く用いられているＴＦ＊ＩＤＦは、索引語頻度ＴＦと、文書集団における索引語の出現確率ＤＦ(Ｐ)／Ｎ(Ｐ)の逆数の対数であるＩＤＦとの積である。ＩＤＦは文書集団において高確率で出現する索引語の寄与を小さく抑える効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることができる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持っている。次に説明するように、Ｓｋｅｙ（ｗ）スコアは、このような欠点を改善する効果を有するものである。

分析対象の文書群Ｅにおいて、索引語ｗを含む文書が出現する確率をＰ（Ａ）、土台（に属する索引語）を含む文書が出現する確率をＰ（Ｂ）、索引語ｗと土台をともに含む文書が出現する確率（＝文書内で共起する確率）をＰ（Ａ∩Ｂ）とすると、
Ｐ（Ａ）＝ＤＦ（ｗ，Ｅ）／Ｎ（Ｅ）
Ｐ（Ａ∩Ｂ）＝ｋｅｙ（ｗ）
で表せる。これより、文書群Ｅにおいて、索引語ｗを含む文書が選出された時に土台と共起する確率（条件付確率）は、

となる。更に、一様性の仮定（ＩＤＦ（Ｅ）＝ＩＤＦ（Ｐ））を考慮し、かつ上記条件付確率の対数をとると、

となる。この値は、ｋｅｙ（ｗ）＝１ならばＩＤＦ（Ｐ）に等しい。そして、ＤＦ→０の極限では、Ｎ（Ｐ）／ＤＦ（ｗ，Ｐ）→
∞ 且つｋｅｙ（ｗ）→０なので、Ｎ（Ｐ）／ＤＦ（ｗ，Ｐ）とｋｅｙ（ｗ）の積をとることによって、ＤＦ値が小さいときにＩＤＦ値が特異的に跳ね上がるという上記の欠点を改善することができる。［数８］のＳｋｅｙ（ｗ）スコアは、ＧＦ（ｗ，Ｅ）と、上記［数１０］のｌｎｋｅｙ（ｗ）＋
ＩＤＦ（Ｐ）との積をとったものであるから、共起度によって補正されたＧＦ（Ｅ）＊ＩＤＦ（Ｐ）ということができる。

なお、［数８］によるＳｋｅｙ（ｗ）の算出において、［数５］のｋｅｙ（ｗ）の代わりに、［数６］のｋｅｙ'（ｗ）や［数７］のｋｅｙ”(ｗ) を用いても良いことは上記の通りである。

［数７］のｋｅｙ”(ｗ) を用いた場合のＳｋｅｙ（ｗ）スコアをＳｋｅｙ（ｋｅｙ”）と表記し、［数５］のｋｅｙ（ｗ）を用いた場合のＳｋｅｙ（ｗ）スコアをＳｋｅｙ（ｋｅｙ）と表記して両者を比較すると、
Ｓｋｅｙ（ｋｅｙ）−Ｓｋｅｙ（ｋｅｙ”）
＝ＧＦ（ｗ，Ｅ）×［ln ｋｅｙ(ｗ)−ln ｋｅｙ”(ｗ)］
≒ ＧＦ（ｗ，Ｅ）× ln ｂ
よって、［数７］のｋｅｙ”(ｗ) を用いたＳｋｅｙ（ｗ）と、［数５］のｋｅｙ（ｗ）を用いた場合のＳｋｅｙ（ｗ）の振る舞いは土台数ｂの違いを除いて本質的に合致し、土台数ｂが大きくない限りはＳｋｅｙ（ｗ）スコアの順位に大きな影響は及ぼさない。

＜９．評価値算出＞
Ｓｋｅｙ（ｗ）を算出すると、評価値算出部４７００は、各文書群Ｅ_ｕにおける上記索引語ｗ_ｉの出現頻度の関数値に基づく評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、各文書群Ｅ_ｕ及び各索引語ｗ_ｉにつき算出する（ステップＳ４６１２）。

評価値Ａ（ｗ_ｉ，Ｅ_ｕ）としては、例えば、上述のＳｋｅｙ（ｗ）をそのまま用いるか、Ｓｋｅｙ（ｗ）／Ｎ（Ｅ_ｕ）、或いはＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を用いる。例えば、各文書群Ｅ_ｕ及び各索引語ｗ_ｉにつき、次のようなデータを得る。なお、説明の便宜上、索引語の種数Ｗ＝５とし、文書群数ｎ＝３とした。

＜１０．集中度算出＞
次に集中度算出部４７１０が、各索引語ｗ_ｉについて次のようにして集中度を算出する（ステップＳ４６１３）。

まず、各索引語ｗ_ｉについて、各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する全ての文書群Ｅ_ｕについての和Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）を算出し、当該和に対する各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比
Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）
を各文書群Ｅ_ｕ及び各索引語ｗ_ｉについて算出する。そして、各索引語ｗ_ｉについて、当該比の上記文書群集団Ｓに属する全ての文書群Ｅ_ｕにおける二乗和
Σ_ｕ＝１ ^ｎ｛Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）｝^２
が、索引語ｗ_ｉの文書群集団Ｓでの集中度となる。これを上表の例で示すと次のようになり、各索引語ｗ_ｉについて集中度が算出される。

＜１１．シェア算出＞
次にシェア算出部４７２０が、各索引語ｗ_ｉについて各文書群Ｅ_ｕでのシェアを次のようにして算出する（ステップＳ４６１４）。

まず、各文書群Ｅ_ｕにおいて、各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓから抽出された全ての索引語ｗ_ｉについての和Σ_ｉ＝１ ^ＷＡ（ｗ_ｉ，Ｅ_ｕ）を算出する。そして、当該和に対する各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比であるシェア
Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｉ＝１ ^ＷＡ（ｗ_ｉ，Ｅ_ｕ）
を算出する。これを上表の例で示すと次のようになり、各索引語ｗ_ｉについて各文書群Ｅ_ｕでのシェアが決定される。

＜１２．独創度算出＞
次に、各索引語ｗ_ｉについて、次のようにして独創度の値を算出する。

まず、第１逆数算出部４７３０が、各索引語ｗ_ｉについて、上記文書群集団Ｓでの出現頻度の逆数の関数値を算出する（ステップＳ４６１５）。

文書群集団Ｓでの出現頻度としては例えば文書頻度ＤＦ（Ｓ）を用いる。出現頻度の逆数の関数値としては、文書群集団Ｓでの逆文書頻度ＩＤＦ（Ｓ）、或いは特に好ましい例としてＩＤＦ（Ｓ）を分析対象の文書群Ｅ_ｕから抽出された全索引語で規格化した値（規格化ＩＤＦ（Ｓ））を用いる。ここでＩＤＦ（Ｓ）は“ＤＦ（Ｓ）の逆数×文書群集団Ｓの文書数Ｎ（Ｓ）”の対数である。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで後述のＩＤＦ（Ｐ）との組み合わせによる独創度の算出を容易にするためである。

次に、第２逆数算出部４７４０が、各索引語ｗ_ｉについて、上記文書群集団Ｓを含む大文書集団Ｐでの出現頻度の逆数の関数値を算出する（ステップＳ４６１６）。

出現頻度の逆数の関数値としては、ＩＤＦ（Ｐ）或いは特に好ましい例としてＩＤＦ（Ｐ）を分析対象の文書群Ｅ_ｕから抽出された全索引語で規格化した値（規格化ＩＤＦ（Ｐ））を用いる。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで上記のＩＤＦ（Ｓ）との組み合わせによる独創度の算出を容易にするためである。

次に、独創度算出部４７５０が、各索引語ｗ_ｉについて、｛ＩＤＦ（Ｓ）の関数値−ＩＤＦ（Ｐ）の関数値｝の関数値を、独創度として算出する（ステップＳ４６１７）。独創度の算出にＩＤＦ（Ｓ）及びＩＤＦ（Ｐ）のみを用いる場合には、独創度は各索引語ｗ_ｉについて１つの値が算出される。文書群Ｅ_ｕで規格化した規格化ＩＤＦ（Ｓ）や規格化ＩＤＦ（Ｐ）を用いる場合や、別途ＧＦ（Ｅ_ｕ）等で重み付けする場合は、独創度は各文書群Ｅ_ｕについて、且つ各索引語ｗ_ｉについてそれぞれ算出される。

独創度は、特に、次式のＤＥＶで与えるのが好ましい。

ＤＥＶの第一ファクタである規格化ＧＦ（Ｅ_ｕ）は、分析対象の文書群Ｅ_ｕでの各索引語ｗ_ｉの大域的頻度ＧＦ（Ｅ_ｕ）を、分析対象文書群Ｅ_ｕから抽出された全索引語で規格化したものである。

規格化ＩＤＦ（Ｓ）＞０、且つ規格化ＩＤＦ（Ｐ）＞０となるような規格化をした場合、ＤＥＶの第二ファクタは、文書群集団ＳにおけるＩＤＦの規格化値が大文書集団ＰにおけるＩＤＦの規格化値より大きければ正、小さければ負となる。文書群集団ＳでのＩＤＦが大きいことは、この文書群集団Ｓでは珍しい語であることを意味する。この、文書群集団Ｓでは珍しい語のうち、文書群集団Ｓを含む大文書集団ＰでのＩＤＦが小さい語は、他分野では良く使われているとしても当該文書群集団Ｓに係る分野で用いることに独創性があるということができる。また、｛規格化ＩＤＦ（Ｓ）＋規格化ＩＤＦ（Ｐ）｝で除算しているので、ＤＥＶの第二ファクタは−１以上＋１以下の範囲となり、異なる文書群Ｅ_ｕ間での比較が容易となる。

また、ＤＥＶは規格化ＧＦ（Ｅ_ｕ）に比例するため、対象文書群での頻度の高い語程、高い数値ともなる。

特に、文書群集団Ｓが複数の文書群Ｅ_ｕ（ｕ＝１，２，・・・）からなる場合に、これら文書群Ｅ_ｕの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、当該文書群集団Ｓにおいて共通の索引語は下位に落ち、各文書群Ｅ_ｕに特徴的な語が各文書群Ｅ_ｕでの上位にくることになるため、文書群Ｅ_ｕごとの特徴を把握するのに有益である。

＜１３．キーワードの抽出＞
次に、キーワード抽出部４７６０が、以上のステップで得られたＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標に基づき、キーワードを抽出する（ステップＳ４６１８）。

好ましくは、以上のＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標すべてを用いて、対象文書群Ｅ_ｕの索引語ｗ_ｉを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に好ましい分類方法は次の通りである。

まず、第一判定はＳｋｅｙ（ｗ）を用いる。各文書群Ｅ_ｕにおいて、Ｓｋｅｙ（ｗ）降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群Ｅ_ｕで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。

第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団Ｓにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群Ｅ_ｕの重要語から、上記の技術領域語と一致するキーワードを、その文書群Ｅ_ｕの「技術領域語」として分類する。

第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの（主要語）として位置づけることができる。そこで各文書群Ｅ_ｕにおいて、第二判定で分類されなかった重要語に対するシェア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。

第四判定は独創度を用いる。各文書群Ｅ_ｕにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。

以上の判定を表にすると次のようになる。

以上の判定において、第一判定に用いる重要度の指標としてＳｋｅｙ（ｗ）を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、ＧＦ（Ｅ）＊ＩＤＦ（Ｐ）でもよい。

また、以上の判定において、重要度、集中度、シェア及び独創度の４指標を用いて分類したが、これらのうち任意の２つ以上の指標を用いることによっても、索引語の分類が可能である。

上述したように、キーワードが重要度、集中度、シェア及び独創度の４指標を用いて分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類ＩＰＣの集計（上位５位）、出願人の集計（上位５位）およびクラスタの重要キーワードを含むクラスタ情報が、第２の解析サーバ５１４の記憶装置に記憶されるとともに、管理サーバ５１２に与えられる。管理サーバ５１２は、第２の解析サーバ５１４の処理結果を、ファイル作成サーバ５１６に与える。

管理サーバ５１２、第２の解析サーバ５１４およびファイル作成サーバ５１６による、クラスタ情報出力までの流れについて説明する。図４７は、クラスタ情報出力までの処理の流れを示す図である。図４７に示すように、管理サーバ５１２は、第１の解析サーバ５１３の処理結果を、たとえば、Ｚｉｐファイルにして、第２の解析サーバ５１４に引き渡す（ステップＳ４７０１）。

第２の解析サーバ５１４は、処理を実行してＩＤＦ情報を出力する（ステップＳ４７０２）。より詳細には、第２の解析サーバ５１４は、
（１）管理サーバ５１２から受領したファイル中に含まれている構造図を出力する際に作成された公報リストを元に、各公報のキーワードの分かち書き結果を取得する。
（２）上記（１）で求めたキーワードごとのＩＤＦ（対母集団）、ＩＤＦ（対全公報）を算出する。
（３）上記（２）で求めた値を保持するファイル（たとえばＣＳＶファイル）、および、管理サーバ５１２から受領したファイル（Ｚｉｐファイル）内に含まれる全ファイルを含んだ形式のファイル（たとえばＺｉｐファイル）を作成し、管理サーバ５１２に返却する（ステップＳ４７０３）。

管理サーバ５１２は、さらに、第１の解析サーバ５１３の処理結果およびＳ４７０２のＩＤＦ情報を含むファイル（たとえばＺｉｐファイル）を、再度、第２の解析サーバ５１４に引き渡す（ステップＳ４７０４）。

第２の解析サーバ５１４は、ファイルを受領すると、キーワード属性、主要出願人情報を出力する（ステップＳ４７０５）。より詳細には、第２の解析サーバ５１４は、
（１）キーワードごとの集中度、集中度順位を求める。
（２）クラスタ、クラスタに付随するキーワードごとに、以下の値を求める。
重要度、重要度順位
説明度、説明度順位
独創度、独創度順位（ここで、ＩＤＦ情報が参照される。）
（３）クラスタごとの主要出願人、出願件数、主要出願人順位を求める。
（４）クラスタごとの主要ＩＰＣサブグループ、公開件数、主要ＩＰＣサブグループ順位を求める。
（５）上記（１）〜（４）で求めた値を保持する各ファイル（たとえばＣＳＶファイル）および管理サーバより受領したファイル（Ｚｉｐファイル）内に含まれる全ファイルを含んだ形式のファイル（たとえばＺｉｐファイル）を作成し、管理サーバ５１２に返却する（ステップＳ４７０６）。

管理サーバ５１２は、第１の解析サーバ５１３の処理結果および第２の解析サーバ５１４の処理結果を含むファイル（たとえばＺｉｐファイル）を、ファイル作成サーバ５１６に引き渡す（ステップＳ４７０７）。

ファイル作成サーバ５１６は、受領したファイルに基づいて、クラスタ情報ファイルを作成する（ステップＳ４７０８）。より詳細には、ファイル作成サーバ５１６は、
（１）上記第２の解析サーバ５１４におけるステップＳ４７０５で算出された各値を元に、各クラスタに付随するキーワードがどのカテゴリ（「技術領域」、「主要観点（主要語）」、「独自観点（独創語）」「その他」）に属するかを判定し、各キーワードを適切な項目（カテゴリ）にセットする。
（２）各クラスタの主要出願人や主要ＩＰＣサブグループの情報を、各項目にセットする。
（３）上記（１）、（２）をクラスタごとに行った後、項目にキーワードなどがセットされた状態の表形式ファイルを作成するとともに、当該表形式ファイルと、管理サーバより受領したファイル（Ｚｉｐファイル）中に含まれる全ファイルとを含んだ形式のファイル（たとえばＺｉｐファイル）を作成し、管理サーバ５１２に返却する（ステップＳ４７０９）。

これにより、管理サーバ５１２は、全ての処理結果が含まれる最終的なファイル（Ｚｉｐファイル）を取得することができる。管理サーバ５１２は、最終的なファイルを、ウェブサーバ５１１に引き渡す。ウェブサーバ５１１は、管理サーバ５１２から受領したファイルを添付ファイルとするようなメールを作成して、クライアント５０２に送信する。
［他の実施の形態］
図４８〜図５０を参照して、クライアント、ウェブサーバ、管理サーバ、第１および第２の解析サーバ、並びに、データベースサーバのそれぞれで実行される処理について説明する。なお、以下の説明では、第１の解析サーバおよび第２の解析サーバを分けず、単に「解析サーバ」と称する。ただし、解析サーバを、第１の解析サーバおよび第２の解析サーバの２台設けて、分散処理させることも可能である。本実施の形態は、解析サーバがスレッドを作成することにより、各種処理を逐次又は並列に行うことができるマルチスレッド処理機能を備えることに特徴がある。

ウェブサーバは、クライアントとの間のインタフェースとして機能し、クライアントからのデータを受信し、また、クライアントに対して、データを送信する。ウェブサーバは、クライアントからネットワークを介してウェブサーバに送信された、ユーザによる入力に基づいて、情報解析報告書を作成すべき案件、つまり調査対象文書の情報（以下、「調査案件情報」と称する。）を作成し、これを管理サーバに与える。

管理サーバは、調査案件をキューイングして、その投入順に、解析サーバにリクエストする。管理サーバは、解析サーバにリクエストするためのキューイング機構を有している。

解析サーバは、母集団の抽出、各種集計処理、構造図、及びクラスタリング情報の作成などの処理を実行する。

図４８に示すように、ウェブサーバは、クライアントからのリクエストに応じて、ＨＴＭＬ配信する。クライアントはユーザの操作にしたがってログイン画面要求をウェブサーバに送信し、ウェブサーバは、ログイン画面要求に応じて、ログイン画面をクライアントに配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証できなかった場合には、再度、クライアントによるログインに戻る。その一方、認証できた場合には、ウェブサーバは、調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面をクライアントに配信する。

第２の実施の形態と同様、図３７Ａに示すように、検索画面には、特許文献を特定するための欄３７０１〜３７０４、テキスト入力欄３７０５が含まれる。本実施の形態においては、調査対象文書として、特許公開公報や特許公報のほか、ユーザ自身が入力したテキストとすることもできる。テキストとしては、ユーザが出願しようとしている技術の要約などを入力することができる。

ユーザがクライアントを操作して入力した調査対象文書情報およびコンテンツ選択情報を、ウェブサーバが受信すると、受信した調査対象文書情報およびコンテンツ選択情報から案件を識別し、案件を管理サーバに送信する。管理サーバは、解析サーバで処理中の先行案件の有無を判断し、先行案件があれば待機する。その一方、先行案件がなければ、案件を解析サーバに投入する。本実施の形態においては、調査対象文書が確定すると、調査案件情報が、ウェブサーバから管理サーバに送信される。管理サーバは、調査案件をキューイング機構によってキューイングし、処理すべき順番となった調査案件について、解析サーバにリクエストして、調査案件データを与える。

図４９に示すように、解析サーバは、スレッドを作成する際、コンテンツ選択情報から構造図の有無を判断し、必要なスレッドを作成し処理を実行する。この例では、文書索引語集計処理スレッド、類似文書母集団作成スレッド、文書属性集計処理スレッド、構造図作成処理スレッド、クラスタ情報作成処理スレッドが作成される。これらスレッドは逐次或いは並列的に作成され得る。また、これらのうちの少なくとも１つが作成されるように構成しても良い。

データベースサーバは、全公報データベース（ＤＢ）から全公報を取得して、全公報についての索引語（全公報キーワード）を作成する。

解析サーバは、スレッド処理の実行にあたって、まず、データベースサーバにより抽出された調査案件索引語を取得する。次に、調査案件索引語の文書内における使用頻度の集計処理を行う。これにより、解析サーバは、調査案件索引語集計処理結果を取得する。

次いで、解析サーバは、母集団の作成を開始する。データベースサーバは、解析サーバからの母集団作成開始依頼に応答して、先に生成した全公報に含まれる文書ごとの索引語と、先に取得した調査案件索引語集計処理結果とに基づいて全公報類似率を算出する。類似度の算出は、第１の実施の形態において説明したものと同様であるため、その説明は省略する。そして、算出した全公報類似率の値の上位３０００件の文書群から調査案件類似母集団を作成する。データベースサーバは調査案件類似母集団を解析サーバに返す。これにより、解析サーバは、調査案件類似母集団を取得する。

解析サーバは、集計処理を実行して、類似文書母集団における類似率のランキング、調査対象文書の書誌情報に含まれる文書属性ごとの類似文書母集団内の各種文書数、類似文書母集団内の文書数推移若しくは文書属性ごとの各種ランキング、又は、索引語文書頻度散布図の少なくともいずれか１つを集計した結果を取得する。

第２の実施の形態と同様、解析サーバは、集計として、ランキング集計（ステップＳ３９０１）、時系列集計（ステップＳ３９０２）およびマトリクス集計（ステップＳ３９０３）を実行する。

図３９に示すように、ランキング集計には、キーワード集計、出願人に関する集計およびＩＰＣに関する集計が含まれる。キーワード集計においては、図１８、図１９に示すような分布図が作成される。解析サーバは、記憶装置から、重要度の高い順に所定数の重要キーワード（対全公報）の情報を取り出して、重要キーワード（対全公報）ごとに、当該キーワード（索引語）が使用されている公報の数を示すグラフを作成する（図１８）。また、解析サーバは、記憶装置から、重要キーワード（対母集団）の情報を取り出して、重要キーワード（対母集団）ごとに、当該キーワード（索引語）が使用されている公報の件数を示すグラフを作成する（図１９）。

また、解析サーバは、記憶装置から、母集団の情報を取得して、母集団の公報を出願人別に集計する（図１１、図１２参照）。解析サーバは、記憶装置から母集団の情報を取得して、母集団の公報のそれぞれにおけるＩＰＣ主分類をメイングループ別に集計したグラフを作成するとともに（図１３）、主分類および副分類の全ＩＰＣ別で集計してグラフを作成する（図１４）。このような集計結果（表およびグラフ）は、解析サーバの記憶装置に記憶される。

解析サーバは、記憶装置から、母集団の情報を取得して、母集団中、出願件数上位１０出願人の出願件数を出願年ごとに集計して、その件数の推移を示すグラフ（図２０）、並びに、件数の累計および単年計を表す表（図２１）を作成する。また、解析サーバは、記憶装置から、母集団の情報を取得して、母集団の公報中、主分類或いは副分類として付与されているＩＰＣの上位５分類について、出願件数を年ごとに集計したグラフを作成する（図２２）とともに、当該出願件数の単年計および累計を示す表を作成する（図２３）。これら集計結果も、解析サーバの記憶装置に記憶される。

さらに、解析サーバは、記憶装置から、重要キーワード（対全公報）を取り出して、重要キーワード（対全公報）ごとの年ごとの使用頻度の累積を表すグラフ（図２７）、並びに、重要キーワード（対全公報）の単年計および累計を示す表（図２８）を作成する。また、解析サーバは、記憶装置から、重要キーワード（対母集団）を取り出して、重要キーワード（対母集団）ごとの年ごとの使用頻度の累積を表すグラフ（図２９）、並びに、重要キーワード（対母集団）の単年計および累計を示す表（図３０）を作成する。これらグラフや表も、解析サーバの記憶装置に記憶される。

また、解析サーバは、母集団の年毎の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する（図２５）。図２５のグラフにおいて、プロット点の円の大きさは、出願件数の累積を示している。同様に、解析サーバは、あるＩＰＣ（ＩＰＣメイングループ）について、母集団においてそのＩＰＣが付与されている出願の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する（図２６）。図２６においても、プロット点の円の大きさは、出願件数の累積を示している。このようにして作成されたグラフも、解析サーバの記憶装置に記憶される。

以下、マトリクス集計についても説明する。解析サーバは、さらに、記憶装置から母集団の情報を取り出して、母集団中の出願件数上位１０人の出願人の出願に付与されたＩＰＣを参照して、出願人ごとに、当該出願人の出願において、ＩＰＣグループが付与された出願件数を、出願人×ＩＰＣメイングループのマトリクス形式の表を作成する（図１５参照）。また、図１５と同じ情報を用いて、公開件数、登録件数、実用新案件数を分けて表示した表（図１６）も作成される。また、解析サーバは、記憶装置から母集団の情報を取り出し、母集団中の出願件数上位２０出願人の公報において、調査対象文書のＩＰＣ主分類と同じＩＰＣメイングループが付与されている出願件数を算出し、出願人ごとにその件数を表示したグラフを作成する（図１７）。図１７においては、出願人ごとの公開件数、登録件数、実用新案件数に分けて表示するのが望ましい。これらマトリクス集計の結果も、解析サーバの記憶装置に記憶される。

なお、図示していないが、各種集計処理が完了すると、解析サーバは、記憶装置から、母集団の情報を取り出して、母集団内類似度を算出してもよい（ステップＳ３９０４）。母集団内類似度とは、調査対象文書の、母集団に属する文書との間の類似率（類似度）である。

さらに、解析サーバは、頻度散布図のための座標の算出処理を実行する（ステップＳ３９０５）。頻度散布図は、図３１に示すように、調査対象文書のキーワード分布を示す図である。頻度散布図のための座標の算出について、図４０のフローチャートを参照して詳細に説明する。なお、図４０は、理解を容易にするために、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示している。したがって、図３９のＳ３９０５で、図４０に示す全ての処理ステップを実行するのではない。つまり、図３９のＳ３９０５では、解析サーバにおいて既に算出され、記憶装置に記憶された値は、改めて算出されることなく利用され、ステップＳ３９０５の処理以前には実行されていない処理ステップのみが実行される。

図４０に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される（ステップＳ４００１）。次いで、全文書（比較対対象文書全体）Ｐの索引語による、Ｐの中での文書頻度を示すＤＦ（Ｐ）が算出される（ステップＳ４００２）。このＤＦ（Ｐ）はキーワード重要度に相当する。

その後、調査対象文書ｄの索引語（ｄ_１、・・・、ｄ_ｘ）の各々について、文書頻度の関数値ＩＤＦを、比較対象文書Ｐおよび母集団Ｓに対して求める（ステップＳ４００７、Ｓ４００８）。ステップＳ４００７においては、ＩＤＦ（ｄ_１；Ｐ）、ＩＤＦ（ｄ_２；Ｐ）、・・・、ＩＤＦ（ｄ_ｘ；Ｐ）が求められ、ステップＳ４００８においては、ＩＤＦ（ｄ_１；Ｓ）、ＩＤＦ（ｄ_２；Ｓ）、・・・、ＩＤＦ（ｄ_ｘ；Ｓ）が求められる。解析サーバは、ＩＤＦ（Ｐ）とＩＤＦ（Ｓ）とで平面を作り、たとえば、ＩＤＦ（Ｐ）をｘ軸、ＩＤＦ（Ｓ）をｙ軸として、索引語（ｄ_１，・・・，ｄ_ｘ）の各々に対するＩＤＦ（Ｐ）やＩＤＦ（Ｓ）の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布図を作成する（ステップＳ４００９）。

なお、ステップＳ４００９により、頻度散布図（ＩＤＦ平面図）の中に、索引語が配置される（散布される）が、散布された索引語が偏って見にくくなる場合がある。このため、第２の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領域における密度が所定の値を超えていた場合には、解析サーバは、その領域の軸の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛の間隔を狭めて、その領域を圧縮する。したがって、このように一部領域の拡大および他の領域の圧縮をする場合には、解析サーバは、座標変換を行う（ステップＳ４０１０）。また、基本となるＩＤＦ平面図はひし形であるが、表現図としてみたときに違和感があり、また、取り扱いに不便である場合もある。したがって、解析サーバは、座標変換により、平面を四角形で表せるようにしても良い。これら頻度散布図の情報も、解析サーバの記憶装置に記憶される。

また、解析サーバは、類似文書母集団に含まれる文書の類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する。また、作成された構造図データに基づき、調査対象文書を含む構造図のクラスタリング情報を作成する。

なお、図４９に示すように、調査案件類似母集団の情報は構造図作成及びクラスタリング情報作成に利用される。

特許構造図の作成についてのより詳細な説明は、第２の実施の形態と同様であるため省略する。ここでは、図４２のフローチャートを参照して、解析サーバにおける特許構造図作成処理の概略について説明する。

まず、文書読み出し部４１１０が、分析対象となる複数の文書要素を記憶装置４１０３の文書格納部から読み出す（ステップＳ４２１０）。本実施の形態において、分析対象となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団文書となる。

図４３は、本実施の形態にかかるクラスタ抽出過程をより詳細に説明するフローチャートであるが、第２の実施の形態と同様であるため、ここでは説明を省略する。

解析サーバが上述した処理を実行することにより、図３２に示すような特許構造図を得ることができる。次いで、解析サーバは調査案件データおよび特許構造図の情報に基づき構造図のクラスタリング情報を生成する。

以下、クラスタ情報を得るための処理について説明する。まず、以下の説明で使用する用語の定義および略号について説明する。クラスタ情報は、各クラスタについての、タイトル、公報件数、主分類ＩＰＣの集計（上位５位）、出願人の集計（上位５位）およびクラスタの重要キーワードを含む。重要キーワードは、クラスタに属する全公報から抽出されたキーワードの重要度上位１０語までを表示し、以下の４分類に分けて表示する。

以下、キーワード抽出のための処理装置の構成について、図４５および図４７のブロックダイヤグラムを参照して説明する。ここでは、処理の内容の理解を容易にするために、解析サーバの機能のうち、キーワード抽出に必要な機能を全て記載している。

そして、キーワード抽出部４７６０は、上記読み出したＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標に基づき、キーワードを抽出する。
キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによる。抽出されたキーワードのデータは、記憶装置４５０３の作業結果格納部に送られて格納される。その後、選択された複数の指標と、それらの指標ごとに抽出されたキーワードとの組み合わせに基づいてクラスタリング情報を作成する。

具体的には、キーワード抽出部４７６０が、以上のステップで得られたＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標と抽出されたキーワードとに基づき、クラスタリング情報を作成する。

好ましくは、以上のＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標すべてを用いて、対象文書群Ｅ_ｕの索引語ｗ_ｉを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類してクラスタリング情報を作成する。特に好ましい分類方法は次の通りである。

以上の判定を表にすると表１１のようになる。

上述したように、キーワードが重要度、集中度、シェア及び独創度の４指標を用いて分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類ＩＰＣの集計（上位５位）、出願人の集計（上位５位）およびクラスタの重要キーワードを含むクラスタリング情報が、解析サーバの記憶装置に記憶されるとともに、管理サーバに与えられる。
キーワード抽出処理手順（図４６参照）については第２の実施の形態と同様であるため、ここでの説明は省略する。

図５０に示すように、解析サーバは、調査案件索引語集計処理結果、調査案件類似母集団、文書数、索引語文書頻度散布図等、各種集計処理結果、構造図作成結果、クラスタリング情報作成結果に基づいてレポートを作成する。レポート作成後、解析サーバは、管理サーバにレポートを転送し、さらに、管理サーバは、ウェブサーバに対してレポートを転送する。
ウェブサーバはレポートを取得すると、処理が終了したことを示す終了通知を作成してクライアントに送信する。

ウェブサーバは、クライアントからのリクエストに応じて、ログイン画面をクライアントに配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証できなかった場合には、再度、クライアントによるログイン画面に戻る。その一方、認証できた場合には、ウェブサーバは、購入レポート一覧画面をクライアントに配信する。

そして、クライアントからのレポート出力要求に応答して、ウェブサーバは、レポートをクライアントに転送する。クライアントはレポートを取得し、これを表示装置に表示し、記憶装置に記憶し、或いはプリンタなどにより印刷物として出力することができる。

この発明は、調査対象文書或いは文書群を解析して、その特徴を表す情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法を提供する目的に適用する。

【００３２】
［０１４０］
図１８は、重要キーワード（対全比較対象文書）別の件数分布を示す図である。この場合、調査対象文書の重要キーワード（対全比較対象文書）と同じキーワードを含む母集団中の公報件数を表示している。この図１８において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度（対全比較対象文書）を算出する。その重要度が高いものから上位２０語が使用されている母集団（調査対象文書に類似している公報３０００件の集合）中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。
［０１４１］
この図１８により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード（対全比較対象文書）２０語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。
［０１４２］
図１９は、重要キーワード（対母集団）別の件数分布を示す図である。この場合、調査対象文書の重要キーワード（対母集団）と同じキーワードを含む母集団中の公報件数を表示している。この図１９において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度（対母集団）を算出する。その重要度が高いものから上位２０語が使用されている母集団（調査対象文書に類似している公報３０００件の集合）中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新（実用新案）件数で区別して表示している。
［０１４３］
この図１９により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード（対母集団）２０語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用され

Claims

調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成装置であって、
少なくとも前記調査対象文書の入力を受け入れる入力手段と、
前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段と、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段と、を備えたことを特徴とする情報解析報告書自動作成装置。
前記比較対象文書に対する類似率を算出する算出手段をさらに有し、
前記選出手段は、前記算出手段の結果により母集団文書を選出することを特徴とする請求項１に記載の情報解析報告書自動作成装置。
前記算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項２に記載の情報解析報告書自動作成装置。
前記母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、
前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、
前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、
自由なコメントを記入するコメント記入手段とのうちの少なくとも１つをさらに備え、
前記生成手段は、前記マップ、前記データおよび／または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項２に記載の情報解析報告書自動作成装置。
前記生成手段が、
前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および／または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成することを特徴とする請求項１ないし４の何れか１項に記載の情報解析報告書自動作成装置。
前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成することを特徴とする請求項５に記載の情報解析報告書自動作成装置。
前記生成手段が、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現値頻度算出手段と、
前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第２出現値頻度算出手段と、
各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有することを特徴とする請求項１ないし６の何れか一項に記載の情報解析報告書作成装置。
前記生成手段が、
前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、
前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有することを特徴とする請求項１ないし７の何れか一項に記載の情報解析報告書作成装置。
前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項８に記載の情報解析報告書作成装置。
前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項９に記載の情報解析報告書作成装置。
前記生成手段が、
前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、
各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、
前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、
各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、
前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有することを特徴とする請求項８に記載の情報解析報告書作成装置。
ネットワークに接続され、当該ネットワークを介して接続されたクライアントからの、調査対象文書の入力を受け入れるウェブサーバと、
前記調査対象文書をキューイングして、処理すべき順番となった調査対象文書について、解析サーバに処理をリクエストする管理サーバと、
前記リクエストに応答して、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出し、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出し、かつ、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する解析サーバと、を備えたことを特徴とする請求項１ないし１２の何れか１項に記載の情報解析報告書作成装置。
調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成プログラムであって、コンピュータを、
少なくとも前記調査対象文書の入力を受け入れる入力手段、
前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段、並びに、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段として機能させることを特徴とする情報解析報告書自動作成プログラム。
コンピュータを、前記比較対象文書に対する類似率を算出する算出手段として機能させ、
前記選出手段は、前記算出手段の結果により母集団文書を選出することを特徴とする請求項１３に記載の情報解析報告書自動作成プログラム。
前記算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項１４に記載の情報解析報告書自動作成プログラム。
コンピュータを、前記母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、
前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、
前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、
自由なコメントを記入するコメント記入手段とのうち少なくとも１つとして機能させ、
前記生成手段は、前記マップ、前記データおよび／または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項１４に記載の情報解析報告書自動作成プログラム。
前記生成手段が、
前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および／または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成することを特徴とする請求項１３ないし１６の何れか１項に記載の情報解析報告書自動作成プログラム。
前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成することを特徴とする請求項１７に記載の情報解析報告書自動作成プログラム。
前記生成手段が、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現値頻度算出手段と、
前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第２出現値頻度算出手段と、
各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有することを特徴とする請求項１３ないし１８の何れか一項に記載の情報解析報告書作成プログラム。
前記生成手段が、
前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、
前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有することを特徴とする請求項１３ないし１９の何れか一項に記載の情報解析報告書作成プログラム。
前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項２０に記載の情報解析報告書作成プログラム。
前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項２１に記載の情報解析報告書作成プログラム。
前記生成手段が、
前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、
各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、
前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、
各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、
前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有することを特徴とする請求項２０に記載の情報解析報告書作成プログラム。
調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成方法であって、
少なくとも前記調査対象文書の入力を受け入れる入力工程と、
前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出工程と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出工程と、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段工程と、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力工程と、を備えたことを特徴とする情報解析報告書自動作成方法。
前記比較対象文書に対する類似率を算出する算出工程をさらに有し、
前記選出工程では、前記算出工程の結果により母集団文書を選出することを特徴とする請求項２４に記載の情報解析報告書自動作成方法。
前記算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項２５に記載の情報解析報告書自動作成方法。
前記母集団或いは前記索引語を分布させてマップ状にするマップ生成工程と、
前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み工程と、
前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み工程と、
自由なコメントを記入するコメント記入工程とのうちの少なくとも１つをさらに備え、
前記生成工程では、前記マップ、前記データおよび／または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項２５に記載の情報解析報告書自動作成方法。
前記生成工程において、
前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および／または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成する工程を有することを特徴とする請求項２４ないし２７の何れか１項に記載の情報解析報告書自動作成方法。
前記生成手段において、
前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成する工程を有することを特徴とする請求項２８に記載の情報解析報告書自動作成方法。
前記生成工程において、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現値頻度算出工程と、
前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第２出現値頻度算出工程と、
各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成工程と、を有することを特徴とする請求項２４ないし２９の何れか一項に記載の情報解析報告書作成方法。
前記生成工程において、
前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出工程と、
前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成工程と、
前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング工程と、
前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列工程と、を有することを特徴とする請求項２４ないし３０の何れか一項に記載の情報解析報告書作成方法。
前記クラスタリング工程において、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項３１に記載の情報解析報告書作成方法。
前記クラスタリング工程において、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項３２に記載の情報解析報告書作成方法。
前記生成工程において、
前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出工程と、
各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出工程と、
前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出工程と、
各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第１逆数算出工程と、
各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第２逆数算出工程と、
前記第１逆数算出工程による算出結果から前記第２逆数算出工程による算出結果を減算したものの関数値によって独創度を算出する独創度算出工程と、
前記集中度算出工程で算出された集中度と、前記シェア算出工程による前記分析対象の文書群につき算出されたシェアと、前記独創度算出肯定で算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出工程と、を有することを特徴とする請求項３２に記載の情報解析報告書作成方法。
少なくとも１つのウェブサーバと、少なくとも１つのクライアントコンピュータとを含む文書情報解析システムであって、
前記ウェブサーバは、前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信手段と、
前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信手段と、
前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別手段と、
書誌情報と内容情報とを含む文献データを取得する文献データ取得手段と、
前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出手段と、
前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか１つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも１つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理手段と、
前記マルチスレッド処理手段によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成手段と、
前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知手段と、
前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信手段と、を有し、
前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
ことを特徴とする文書情報解析システム。
少なくとも１つのウェブサーバと、少なくとも１つのクライアントコンピュータとを含む文書情報解析システムにおいて、文書情報を解析する方法であって、
前記ウェブサーバにおいて、前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信工程と、
前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信工程と、
前記受信工程において受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別工程と、
書誌情報と内容情報とを含む文献データを取得する文献データ取得工程と、
前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出工程と、
前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか１つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも１つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理工程と、
前記マルチスレッド処理工程によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成工程と、
前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知工程と、
前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信工程と、を有し、
前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
ことを特徴とする文書情報解析方法。
少なくとも１つのウェブサーバと、少なくとも１つのクライアントコンピュータとを含む文書情報解析システムにおいて、文書情報を解析するためのコンピュータプログラムであって、前記ウェブサーバに、
前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信機能と、
前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信機能と、
前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別機能と、
書誌情報と内容情報とを含む文献データを取得する文献データ取得機能と、
前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出機能と、
前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか１つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも１つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理機能と、
前記マルチスレッド処理機能とによって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成機能と、
前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知機能と、
前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信機能と、を実現させ、
前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
ことを特徴とする文書情報解析プログラム。
少なくとも１つのクライアントコンピュータからの要求に応じて文書情報解析を行うための少なくとも１つのウェブサーバであって、
前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信手段と、
前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信手段と、
前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別手段と、
書誌情報と内容情報とを含む文献データを取得する文献データ取得手段と、
前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出手段と、
前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか１つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも１つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理手段と、
前記マルチスレッド処理手段によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成手段と、
前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知手段と、
前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信手段と、を有することを特徴とする文書情報解析サーバ。