JPWO2005038672A1

JPWO2005038672A1 - 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Info

Publication number: JPWO2005038672A1
Application number: JP2005514757A
Authority: JP
Inventors: 博昭増山; 晴正佐藤
Original assignee: 株式会社アイ・ピー・ビー
Priority date: 2003-10-21
Filing date: 2004-10-13
Publication date: 2007-01-25
Also published as: EP1677210A1; AU2004282733A1; KR20060095565A; EP1677210A4; NO20062273L; US20080250007A1; MXPA06004513A; IS8407A; WO2005038672A1; BRPI0415730A; CA2542438A1; RU2006117318A

Abstract

調査対象文書ｄ及び比較対象文書群Ｐを入力する入力手段１と、調査対象文書ｄ内の索引語を抽出する索引語抽出手段１２０と、前記抽出された索引語の、比較対象文書群Ｐにおける出現頻度の関数値ＩＤＦ（Ｐ）を算出する第１出現頻度算出手段１４２と、調査対象文書ｄのデータに基づき、比較対象文書群Ｐの中から調査対象文書ｄに類似する類似文書群Ｓを選出する類似文書群選出手段１６０と、前記抽出された索引語の、類似文書群Ｓにおける出現頻度の関数値ＩＤＦ（Ｓ）を算出する第２出現頻度算出手段１７１と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各出現頻度の関数値の組合せに基づき、各索引語とその位置づけデータとを出力する出力手段４と、を備える。これにより、調査対象文書の性格の的確な把握を可能にする。

Description

本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の性格乃至文書群に対する位置付けを的確に分析することを可能にする索引語の自動抽出装置、抽出プログラム、抽出方法、及び抽出された索引語を用いた性格表現図に関するものである。
また、本発明は文書の特徴分析装置に係わり、特に調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付けや、調査対象文書群全体としての特色を分析できるようにする文書の特徴分析装置、分析プログラム、分析方法、及び文書特徴表現図に関するものである。

特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書群から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。例えば、特開平１１−７３４１５号公報「類似文書検索装置及び類似文書検索方法」（特許文献１）においては、調査対象の文書に含まれる索引語を他の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。

しかし、類似文書は検索されても、それだけでは調査対象の文書の性格或いは文書群での位置づけを知ることはできない。調査対象の文書の性格乃至文書群での位置づけを知るためには、検索結果の類似文書を読み込んだ上で、読み込んだ類似文書を前提として調査対象文書の評価をしなければならなかった。

一方、文書の特徴そのものを自動抽出するものとして、例えば特開平１１−３４５２３９号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」（特許文献２）が存在する。この公報においては、「標準文書集合」から検索により「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特徴情報を抽出している。
具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この技術は、大量の情報の中からユーザが有益な情報を見つけ出して取捨選択することを容易にする点で有益である。
特開平１１−７３４１５号公報「類似文書検索装置及び類似文書検索方法」特開平１１−３４５２３９号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」

しかし、上記特開平１１−３４５２３９号公報（特許文献２）に記載の技術には、次の３つの問題がある。

第１に、この公報に記載の技術では例えば「桜の花見」など特定のテーマを決めてからこれに合致する「対象文書集合」を抽出する。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象となる各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定のテーマが予め決まっていないと「個別文書」を決定することさえできない。従ってこの公報に記載の技術では、特定の調査対象文書が与えられたときにその性格を分析することはできない。
第２に、この公報に記載の技術では『対象文書集合全体特徴』と『個別文書特徴』との積を算出することで、「対象文書集合」を特徴付け且つ各「個別文書」を特徴付ける情報として出力する。従ってこの公報に記載の技術では、特徴情報を単に１次元的な量で捉えるにとどまり、調査対象文書の性格を多面的に分析することはできない。
第３に、調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付けや、調査対象文書群全体としての傾向を、専門性や独創性といった観点から分析することのできる文書の特徴分析装置は開示されておらず、他の文献にも記載されていない。

本発明の第１の課題は、調査対象文書が与えられたときにその性格の的確な把握を可能にする索引語抽出装置を提供することである。
また本発明の第２の課題は、調査対象文書の性格の多面的な分析を可能にする索引語抽出装置及び性格表現図を提供することである。
また本発明の第３の課題は、調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付けや、調査対象文書群全体としての傾向を分析することを可能にする文書特徴分析装置及び文書特徴表現図を提供することである。

上記第１の課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群の選出元となる選出源文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、を備えている。
本発明は、出現頻度の関数値を各索引語における組合せで観察することにより、調査対象文書の性格を分析できるようにするものである。
本発明によれば、調査対象文書内の索引語を抽出する処理、選出源文書群から類似文書群を選出する処理、比較対象文書群又は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のために人間が文書内容を読む必要はまったくない。
特に、調査対象文書のデータに基づいて類似文書群を新たに選出し、この類似文書群における出現頻度の関数値と、比較対象文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力するので、調査対象文書の性格を精度よく分析することができる。
上記比較対象文書群及び選出源文書群は、検索処理可能なデータである必要はあるが、内容については格別の制約はなく、例えばこれらが同一の文書群であっても良いし、異なる文書群であってもよい。また、これらの文書群の何れか又は双方が、ある文書群から無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全特許文書（公開特許公報など）を、比較対象文書群及び選出源文書群とする。
上記調査対象文書は、１文書でも複数の文書でもよい。複数の文書をまとめて調査対象文書とする場合は、個々の調査対象文書の性格というよりは、文書群としての性格を示すことになる。また調査対象文書は、比較対象文書群又は選出源文書群に含まれるものでも、含まれないものでもよい。
上記索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り出すことにより行う。単語の切り出し方に特段の制約はなく、例えば日本語文書であれば従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でも良いし、索引語の辞書（シソーラス）のデータベースを事前に保持し、該データベースから得られる索引語を利用する方法でもよい。
索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数（文書頻度ＤＦ）を用いるが、これに限られるものではなく、例えば当該索引語がヒットした延べ回数でもよい。
出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すべてを出力しても良いし、文書の性格を強く示す一部の索引語のみを出力しても良い。また、出力手段により索引語とともに出力される位置づけデータは、比較対象文書群及び類似文書群における出現頻度の関数値をそのままの形で出力しても良いし、これに基づいて座標上に索引語を配置した図として出力しても良いし、上記出現頻度の関数値に基づいてグループ分けされた索引語のリストとして出力しても良い。

上記索引語抽出装置においては、前記選出源文書群として前記比較対象文書群を用いることとするのが好ましい。これにより選出源文書群の入力を、比較対象文書群の入力と別々にする必要がなくなり、構成を簡略化することができる。また、類似文書群が比較対象文書群の部分集合になるので、データの解析がより容易になる。

上記索引語抽出装置において、前記類似文書群選出手段は、前記調査対象文書及び前記選出源文書群の各文書について、当該文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記選出源文書群における出現頻度の関数値を成分とするベクトルを算出し、前記調査対象文書について算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記選出源文書群から選出して、類似文書群とすることが望ましい。
類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保することができる。また、例えばＩＰＣ（国際特許分類）等の一致により類似文書群を選出する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる。
上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至Tanimoto相関（類似度）などベクトル成分間の積の関数を用いても良いし、ベクトル間の距離（非類似度）などベクトル成分間の差の関数を用いてもよい。

上記索引語抽出装置において、前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力することが望ましい。
比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値とを用いて、第１〜第３グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
また例えばここでいう第２グループには、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）が含まれる。
また例えばここでいう第３グループには、類似文書群を特徴付ける語（類似文書群規定語）が含まれる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。

上記索引語抽出装置において、前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語と、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語と、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語と、をそれぞれ出力することが望ましい。
比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値とを用いて、第１〜第３グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えばここでいう第３グループの索引語は、類似文書群を特徴付ける語（類似文書群規定語）であると評価できる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
また例えばここでいう第２グループの索引語は、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）であると評価できる。
また例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
ここでいう第３グループや第２グループには、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語（一般語）は含まれないので、精度の高い分析が可能である。

上記第２の課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力する出力手段と、を備えている。
調査対象文書内の索引語の、比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値と、に基づいて、第１〜第３グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
また例えばここでいう第２グループには、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）が含まれる。
また例えばここでいう第３グループには、類似文書群を特徴付ける語（類似文書群規定語）が含まれる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群又は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のために人間が文書内容を読む必要はまったくない。
比較対象文書群は、検索処理可能なデータである必要はあるが、それ以外に格別の制約はなく、例えばある文書群から無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。例えば、ある国及び期間における全特許文書（公開特許公報など）を、比較対象文書群とする。
類似文書群も、検索処理可能なデータである必要がある。類似文書群は調査対象文書のデータに基づいて比較対象文書群などの文書群から選出して入力しても良いし、調査対象文書のデータに基づかないで選出したものを入力しても良い。例えば、公知の方法により選出した類似文書群の中から調査対象文書を選んでこれらを入力することにより、結果として当該類似文書群が調査対象文書に類似する類似文書群となる場合でもよい。
調査対象文書は、１文書でも複数の文書でもよい。複数の文書をまとめて調査対象文書とする場合は、個々の調査対象文書の性格というよりは、文書群としての性格を示すことになる。また調査対象文書は、比較対象文書群又は類似文書群に含まれるものでも、含まれないものでもよい。
索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り出すことにより行う。単語の切り出し方に特段の制約はなく、例えば日本語文書であれば従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でも良いし、索引語の辞書（シソーラス）のデータベースを事前に保持し、該データベースから得られる索引語を利用する方法でもよい。
索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数（文書頻度ＤＦ）を用いるが、これに限られるものではなく、当該索引語がヒットした延べ回数でもよい。
出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すべてを位置づけデータとともに出力しても良いし、文書の性格を良く示す一部の索引語のみを出力しても良い。

また、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語と、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語と、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語と、をそれぞれ出力する出力手段と、を備えている。
調査対象文書内の索引語の、比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値と、に基づいて、第１〜第３グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えばここでいう第３グループの索引語は、類似文書群を特徴付ける語（類似文書群規定語）であると評価できる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
また例えばここでいう第２グループの索引語は、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）であると評価できる。
また例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
ここでいう第３グループや第２グループには、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語（一般語）は含まれないので、精度の高い分析が可能である。

上記各索引語抽出装置において、前記比較対象文書群又は前記類似文書群における出現頻度の関数値は、当該出現頻度の逆数に、前記比較対象文書群又は前記類似文書群の総文書数を乗じたものの対数であることが望ましい。
これにより、出現頻度の関数値が特定の値付近に集中することを避け、索引語の位置づけの把握を容易にすることができる。特に各索引語を座標上に配置した場合には、各索引語が原点付近に集中することを避け、位置づけの視覚的な把握を容易にすることができる。

上記各索引語抽出装置において、前記出力手段は、前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、前記索引語を配置し出力することが望ましい。
座標上に配置された索引語の位置により、各索引語の位置づけを視覚的に把握することができる。すなわち、座標上の２次元的な配置により、上記第１〜第３グループの索引語の区別を一見して明瞭に把握することができる。
座標系としては例えば平面の直交座標を用い、第１軸としてＸ軸（横軸）、第２軸としてＹ軸（縦軸）を用いるが、これに限らず例えば３次元座標を用いて上記以外の指標をＺ軸にとってもよい。

上記各索引語抽出装置において、前記出力手段は、前記第１グループの索引語と、前記第２グループの索引語と、前記第３グループの索引語とを、それぞれリストして出力することが望ましい。
これにより、各領域に属する索引語をリストの状態で見ることができる。このリストは例えば各文書群における出現頻度に応じた順序で索引語をソートしたものとすることにより、調査対象文書の性格分析をより的確に行うことができる。

上記各索引語抽出装置において、前記出力手段は、前記第１グループの索引語と、前記第２グループの索引語と、前記第３グループの索引語とを用いて、当該調査対象文書の解説文を自動生成して出力することが望ましい。
これにより、調査対象文書の性格を述べる解説文として出力することができる。この解説文は、例えば、「**、**（第３グループの索引語）に関する技術分野において、**、**（第１グループの索引語）に関わる専門的な概念・技術を利用し、**、**（第２グループの索引語）の観点に着目した文書」のように生成する。
また例えば第１グループに該当する索引語が存在しないときは、解説文は第１グループの索引語に関する記述を除き、「**、**（第３グループの索引語）に関する技術分野において、**、**（第２グループの索引語）の観点に着目した文書」のように生成する。

上記各索引語抽出装置において、前記類似文書群の各文書は、前記比較対象文書群に含まれており、前記出力手段は、前記比較対象文書群における出現頻度の関数値を、さらに変換して座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、前記索引語を配置し出力するものであって、前記変換は、前記類似文書群が前記比較対象文書群の部分集合であることによる、前記索引語の前記座標上における存在可能領域の境界線が、前記第１軸と垂直に近づくように変換することが望ましい。
類似文書群を選出するための選出源文書群を比較対象文書群とした場合には、類似文書群は比較対象文書群の部分集合となる。従って、例えばある索引語を比較対象文書群Ｐで検索したときのヒット文書数ＤＦ（Ｐ）は、同じ索引語を類似文書群Ｓで検索したときのヒット文書数ＤＦ（Ｓ）より小さい数にはなり得ない。従って例えば上記ＤＦ（Ｐ）を直交座標のＸ軸に、上記ＤＦ（Ｓ）をＹ軸にとろうとすると、Ｘ≧Ｙの領域にのみ各索引語が配置されることになるので、存在可能領域の境界線が４５度に傾いた状態となる。また例えば上記ＤＦ（Ｐ）の逆数に比較対象文書総数Ｎを乗じたものの対数ＩＤＦ（Ｐ）を直交座標のＸ軸に、上記ＤＦ（Ｓ）の逆数に類似文書総数Ｎ′を乗じたものの対数ＩＤＦ（Ｓ）をＹ軸にとろうとすると、Ｙ≧Ｘ−ln（Ｎ／Ｎ′）の領域（ここでは対数として自然対数を用いた）にのみ各索引語が配置されることになるので、存在可能領域の境界線が４５度に傾いた状態となる。
本発明によれば、各索引語を座標上に配置した場合の存在可能領域が矩形に近づくので、各索引語がどの領域に属するかの視覚的把握を一層容易にすることができる。

上記索引語抽出装置において、前記変換は、前記類似文書群における出現頻度との関数によって与えられる変換であることが望ましい。
例えば、変換前の点の座標を（Ｘ，Ｙ）とおいた場合、変換後の点の座標（Ｘ′，Ｙ′）＝（Ｘ−Ｙ＋const，Ｙ）とする。また例えば、変換後の点の座標（Ｘ′，Ｙ′）＝（Ｘ＊（α＋β_２/２）／（Ｙ＋α），Ｙ）とする。
これにより、索引語座標の存在可能領域を矩形に近づける際に、索引語座標の横軸に沿った移動量が縦軸の値によって異なるようにし、原点付近などへの索引語座標の集中を避けることができる。

上記各索引語抽出装置において、前記調査対象文書内の各索引語の、当該調査対象文書における出現頻度を算出する索引語頻度算出手段を更に備え、前記出力手段は、前記調査対象文書内の各索引語の当該調査対象文書における出現頻度を反映して出力することが望ましい。
これにより、調査対象文書における各索引語の重みを加味して調査対象文書の性格を分析することができる。
反映のさせ方としては、例えば、比較対象文書群又は類似文書群における出現頻度の関数値に基づいて各索引語を座標に配置する場合には、調査対象文書内の各索引語の当該調査対象文書における出現頻度（ＴＦ）の大小によって異なる色を用いて各索引語を表示する方法、各索引語の出現頻度（ＴＦ）をＺ成分とし、３次元グラフィックにより３次元座標を表示する方法、等が考えられる。また例えばいわゆるＴＦＩＤＦを用いて、各索引語の位置づけデータを出力する方法が考えられる。
なお、索引語頻度算出手段により算出された調査対象文書内の各索引語の出現頻度は、類似文書群を選出する場合の文書の類似度合いの判定にも用いることができる。

上記各索引語抽出装置において、前記出力手段は、各索引語につき、前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとった場合に、前記座標上の複数の基準点のうち当該索引語に最も近い基準点に更に近づくように配置して座標上に出力することが望ましい。
これにより、索引語の位置が基準点に近づくので、座標上の表示をより見易くすることができる。このような処理のためには、自己組織化マップ（ＳＯＭ）を応用した技術を用いることが望ましい。

上記各索引語抽出装置において、座標上に複数の基準点の座標を設定する基準点設定手段と、各索引語につき、前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとった場合に、前記複数の基準点のうち当該索引語に最も近い基準点の座標データを、当該索引語に更に近づくように、所定回数にわたり更新する手段と、前記更新された基準点に基づいて、当該索引語を配置する座標を算出する座標算出手段と、を更に備え、前記出力手段は、前記座標算出手段により算出された座標に基づいて、各索引語を前記座標に配置して出力することが望ましい。
これにより、索引語の位置が基準点に近づくので、座標上の表示をより見易くすることができる。

本発明の性格表現図は、調査対象文書内の索引語について、前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第２軸にとって配置したものである。
座標上に配置された索引語の位置により、各索引語の位置づけを視覚的に把握できる結果、調査対象文書の性格を的確に分析することができる。すなわち、座標上の２次元的な配置により、上記第１〜第３グループの索引語の区別を一見して明瞭に把握することができる。
座標系としては例えば平面の直交座標を用い、第１軸としてＸ軸（横軸）、第２軸としてＹ軸（縦軸）を用いるが、これに限らず例えば３次元座標を用いて上記以外の指標をＺ軸にとってもよい。

本発明の他の性格表現図は、調査対象文書内の索引語を配置した、調査対象文書の性格表現図であって、第１エリアに、前記調査対象文書と比較される比較対象文書群においても、前記調査対象文書群に類似する類似文書群においても、出現頻度の低い第１グループの索引語を配置し、第２エリアに、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語を配置し、第３エリアに、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語を配置したものである。
出現頻度の関数値に基づいて、第１エリア〜第３エリアに各索引語を配置することにより、調査対象文書の性格を多面的に分析することができる。
例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
また例えばここでいう第２エリアには、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）が含まれる。
また例えばここでいう第３グループには、類似文書群を特徴付ける語（類似文書群規定語）が含まれる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
この性格表現図は、２次元座標上に索引語を配置したものでも良いし、索引語を列挙する表の各欄を各エリアに割り当てて索引語を表示したものでも良い。

本発明の他の性格表現図は、調査対象文書内の索引語を配置した、調査対象文書の性格表現図であって、第３エリアに、前記調査対象文書と比較される比較対象文書群においても前記調査対象文書群に類似する類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語を配置し、第２エリアに、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語を配置し、第１エリアに、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語を配置したものである。
出現頻度の関数値に基づいて、第１エリア〜第３エリアに各索引語を配置することにより、調査対象文書の性格を多面的に分析することができる。
例えばここでいう第３グループの索引語は、類似文書群を特徴付ける語（類似文書群規定語）であると評価できる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
また例えばここでいう第２グループの索引語は、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）であると評価できる。
また例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
ここでいう第３グループや第２グループには、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語（一般語）は含まれないので、精度の高い分析が可能である。

上記第３の課題を解決するため、本発明の文書特徴分析装置は、複数の調査対象文書を含む調査対象文書群、各調査対象文書と比較される比較対象文書群、前記調査対象文書群と共通の属性を有する同類文書群、を入力する入力手段と、前記各調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値、を算出する第３出現頻度算出手段と、前記抽出された索引語の、前記同類文書群における出現頻度の関数値、を算出する第４出現頻度算出手段と、各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値との組合せに基づき、前記調査対象企業の各文書における中心点を算出する中心点算出手段と、前記各調査対象文書における前記中心点のデータを出力する出力手段と、を備えている。
これにより、調査対象文書群に含まれる調査対象文書について、比較対象文書群及び同類文書群に対する大まかな位置付けを知ることができる。例えば、比較対象文書群及び同類文書群に対して、標準的文書なのか、独創的性質を持つ文書か、或いは専門的性質を持つ文書かを知ることができる。また例えば、調査対象文書群から、標準的文書、独創的性質を持つ文書、又は専門的性質を持つ文書を検出することができる。更に、調査対象文書群全体としての傾向を評価するこができる。例えば、標準的文書の多い文書群、独創的性質を持つ文書の多い文書群、或いは専門的性質を持つ文書の多い文書群というように評価することができる。
上記調査対象文書群は、例えばある調査対象企業の文書群、或いは調査対象技術分野の文書群などが挙げられる。前者の場合は例えば全特許文書群から調査対象企業を出願人とする文書をすべて検索し、或いは更にＩＰＣ等で絞り込んで調査対象文書群とする。後者の場合は例えば全特許文書群から特定のＩＰＣが付与された文書をすべて検索し、或いは更に出願期間等で絞り込んで調査対象文書群とする。上記調査対象文書群は、比較対象文書群及び同類文書群に含まれるものであることが望ましいが、含まれないものでもよい。
上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容については格別の制約はなく、例えばある文書群から無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全特許文書（公開特許公報など）を、比較対象文書群とする。
上記同類文書群も、検索処理可能なデータである必要はあるが、その選出方法に格別の制約はない。例えば調査対象文書群を調査対象企業の文書群とする場合には、同類文書群は、ユーザが当該調査対象企業と同業界の企業名を複数指定して検索された文書群でもよいし、調査対象企業の企業名と業界分類から同業界の企業を検索するようにしても良い。また、調査対象企業の文書と同分野に属する文書群をＩＰＣ（国際特許分類）などにより検索するようにしても良い。また、これら同業界の文書群又は同分野の文書群から更に一定条件で絞り込んでも良い。
また、例えば調査対象文書群を調査対象技術分野の文書群とする場合には、（例えばＩＰＣのサブグループまで指定して検索した）特定の技術分野に属する調査対象文書群より広い範囲の技術分野に含まれる文書群を、（例えばＩＰＣのメイングループまでの指定で検索し）同類文書群とする。また、例えばＩＰＣで検索し更に特定の出願期間で絞り込んだ調査対象文書群より、長い出願期間で絞り込んで同類文書群とする。
同類文書群は、比較対象文書群の中から選出することが望ましいがこれに限られるものではない。調査対象企業の文書をＩＰＣで絞り込んだ文書群を上記調査対象文書群とする場合は、同類文書群も同じＩＰＣで検索し或いは絞り込んだものを使うことが好ましい。
上記索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り出すことにより行う。単語の切り出し方に特段の制約はなく、例えば日本語文書であれば従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でも良いし、索引語の辞書（シソーラス）のデータベースを事前に保持し、該データベースから得られる索引語を利用する方法でもよい。
索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数（文書頻度ＤＦ）を用いるが、これに限られるものではなく、例えば当該索引語がヒットした延べ回数でもよい。
また、出現頻度の関数値としては、当該出現頻度の逆数に、前記比較対象文書群又は前記同類文書群の総文書数を乗じたものの対数（ＩＤＦ）であることが望ましい。
上記各調査対象文書における中心点は、例えば座標（＜ＩＤＦ（Ｐ）＞_ｗ，＜ＩＤＦ（Ｓ）＞_ｗ）で与えられる点（但し“＜＞_ｗ”は各文書における平均値）とするが、これに限られるものではない。
上記出力手段は、上記中心点を座標上に配置したマップとして出力することが望ましい。座標系としては例えば平面の直交座標を用い、第１軸としてＸ軸（横軸）、第２軸としてＹ軸（縦軸）を用いるが、これに限らず例えば３次元座標を用いて上記以外の指標をＺ軸にとってもよい。

上記文書特徴分析装置において、各調査対象文書における前記中心点の算出は、各索引語についての、前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値とに基づく各索引語の座標値に、当該文書内の索引語頻度値合計に対する各索引語の索引語頻度値の比で重み付けをした平均値である索引語座標の加重平均値を算出することによって行うことが望ましい。
これにより、中心点の算出に索引語頻度による重み付けを反映させることができる。

上記文書特徴分析装置において、前記調査対象文書群のうち、当該文書群に対して類似性の高い文書と、当該文書群に対して類似性の低い文書とを抽出して前記中心点のデータを出力することが望ましい。
調査対象文書群の文書数が膨大にある場合でも、代表的な文書に絞って出力することにより、調査対象文書群としての傾向を把握し易くすることができる。
調査対象文書群に対する各文書の類似性の判定は、例えば、各文書ｄにつき、各索引語ｗ_ｉで調査対象文書群（Ｅ０）内を検索したときのヒット文書数ＤＦ（ｗ_ｉ，Ｅ０）の平均値（１／ｄ_Ｎ）｛ＤＦ（ｗ_１，Ｅ０）＋ＤＦ（ｗ_２，Ｅ０）＋・・・＋ＤＦ（ｗ_ｄＮ，Ｅ０）｝の高いものを「類似」、低いものを「非類似」とする（ｄ_Ｎは当該文書ｄ内の索引語数）。抽出の方法としては、例えば上記平均値の昇順及び降順の一定数を抽出する方法、また例えば上記平均値を企業内文書数で除したものをＺとしたときに、「全Ｚの平均値＋全Ｚの標準偏差」以上のＺをとる文書と、「全Ｚの平均値−全Ｚの標準偏差」以下のＺをとる文書とを抽出する方法などが考えられる。

本発明の、調査対象文書の文書特徴表現図は、調査対象文書群に含まれる複数の調査対象文書について、各調査対象文書と比較される比較対象文書群に対する位置づけを座標の第１軸にとり、前記調査対象文書群と共通の属性を有する同類文書群に対する位置づけを前記座標の第２軸にとって配置したものであって、前記座標における前記各調査対象文書の座標値は、各調査対象文書内の各索引語の前記比較対象文書群における出現頻度の関数値と、各索引語の前記同類文書群における出現頻度の関数値と、を成分とする索引語座標値の、各調査対象文書における中心点としたものである。
これにより、調査対象文書群全体の傾向を分析することができる。
上記調査対象文書群の各文書における中心点は、例えば座標（＜ＩＤＦ（Ｐ）＞_ｗ，＜ＩＤＦ（Ｓ）＞_ｗ）で与えられる点（但し“＜＞_ｗ”は各文書における平均値）とするが、これに限られるものではない。また例えば、当該調査対象文書内の索引語頻度値合計に対する各索引語の索引語頻度値の比で重み付けをした平均値であってもよい。

また本発明は、上記各装置によって実行される方法と同じ工程を備えた抽出方法及び分析方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできる抽出プログラム及び分析プログラムである。このプログラムは、ＦＤ、ＣＤＲＯＭ、ＤＶＤなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。

本発明によれば、第１に、調査対象文書が与えられたときにその性格を的確に表現できるようにする索引語抽出装置を提供することができる。
また第２に、調査対象文書の性格を多面的に分析できるようにする索引語抽出装置及び性格表現図を提供することができる。
また第３に、調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付けや、調査対象文書群全体としての傾向を分析できるようにする文書特徴分析装置及び文書特徴表現図を提供することができる。

本発明の一実施形態に係る特徴索引語抽出装置のハードウェア構成を示す図。上記特徴索引語抽出装置における構成と機能を詳細に説明する図。入力装置２における条件設定の動作を示すフローチャート。処理装置１の動作を示すフローチャート。出力装置４におけるマップ、リスト、及びコメントの出力の動作を示すフローチャート。調査対象文書の入力条件設定画面の表示例を示す図。比較対象文書群の入力条件設定画面の表示例を示す図。索引語抽出条件および類似文書群選出条件の設定画面の表示例を示す図。出力条件設定画面の表示例を示す図。マップの性質を説明するための概念図。実施例１の特徴索引語抽出装置による「外部補助記憶装置」に関する公開特許公報のマップ表示の具体例を示す図。図１１と同じ調査対象文書に関する、リスト出力の具体例を示す図。実施例１の特徴索引語抽出装置による「緊急通報」に関する公開特許公報のマップ表示の具体例を示す図。図１３と同じ調査対象文書に関する、リスト出力の具体例を示す図。実施例１の特徴索引語抽出装置による「毛髪洗浄剤」に関する公開特許公報１０件のマップ表示の具体例を示す図。図１５と同じ調査対象文書に関する、リスト出力の具体例を示す図。実施例２の特徴索引語抽出装置によりＴＦＩＤＦ（Ｓ）を反映したマップの例を示す図。実施例２の特徴索引語抽出装置によりＴＦ（ｄ）を反映したマップの例を示す図。実施例２の特徴索引語抽出装置によるＴＦＩＤＦ平面図の例を示す図。実施例２の特徴索引語抽出装置によるＤＦ平面図の例を示す図。実施例３の特徴索引語抽出装置により線形変換して出力したマップの例を示す図。実施例３の特徴索引語抽出装置によりスケール変換して出力したマップの例を示す図。実施例３の特徴索引語抽出装置により複合変換して出力したマップの例を示す図。実施例３の特徴索引語抽出装置により複合変換して出力したマップの他の例を示す図。実施例４の説明のために図１０を書き直した図。実施例４の例１における参照点の初期値を示す図。実施例４の例１による変換で得たマップの例を示す図。実施例４の例２における参照点の初期値を示す図。実施例４の例２による変換で得たマップの例を示す図。実施例４の例３における参照点の初期値を示す図。実施例４の例３による変換で得たマップの例を示す図。実施例４の例４による変換で得たマップの例を示す図。実施例５の文書特徴分析装置のハードウェア構成を示す図。実施例５の文書特徴分析装置の処理装置１の動作を示すフローチャート。実施例５の文書特徴分析装置の出力装置４におけるマップ出力の動作を示すフローチャート。実施例５の文書特徴分析装置によりある企業１社の文書特徴を示した図。実施例５の文書特徴分析装置により同業界に属する３社の文書特徴を示した図。

符号の説明

１：処理装置、２：入力装置、３：記録装置、４：出力装置、
１２０：索引語（ｄ）抽出部、１２１：ＴＦ（ｄ）演算部（索引語頻度算出手段）、１４２：ＩＤＦ（Ｐ）演算部（第１、第３出現頻度算出手段）、１５０：類似度演算部、１６０：類似文書群Ｓ選出部、１７１：ＩＤＦ（Ｓ）演算部（第２、第４出現頻度算出手段）、１７３：中心点算出部、１８０：特徴索引語抽出部、
ａ：独創語的着目語領域、ｂ：専門語領域、ｃ：類似文書群規定語領域、ｄ：一般語領域

以下、本発明の実施の形態を、図面を参照して詳細に説明する。

＜１．語彙の説明等＞
本明細書の中で使用する語彙を定義或いは説明する。
調査対象文書ｄ：調査に係る、ある案件。例えば、特許第何号公報などの文書、或いはその集合。
比較対象文書群Ｐ：調査対象文書ｄと比較する対象の文書の集合。例えば、ある国及び期間における特許文書（公開特許公報など）のすべて、又はそこから無作為抽出された文書の集合である。ここでは調査対象文書ｄを含む場合について説明するが含んでいなくてもよい。
類似文書群Ｓ：調査対象文書ｄに類似な文書の集合。ここではｄを含む場合について説明するが含んでいなくてもよい。また比較対象文書群Ｐの中から選出される場合について説明するが別の選出源文書群から選出されていても良い。

図中の構成要素に付してある、ｄ或いは（ｄ）、Ｐ或いは（Ｐ）、又はＳ或いは（Ｓ）は、それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降判別しやすいように構成要素や動作にも付する。例えば、索引語（ｄ）とは、調査対象文書ｄの索引語を意味する。
ＴＦ演算とはTerm Frequencyの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度（索引語頻度）の計算である。
ＤＦ演算とはDocument Frequencyの計算のことであり、ある文書に含まれる索引語で検索対象文書群から検索したときのヒット文書数（文書頻度）の計算である。
ＩＤＦ演算とは、例えばＤＦ演算結果の逆数、或いは逆数に検索対象文書群であるＰないしＳの文書数を乗じたものの対数などの計算である。

以降の説明を簡素にするため、略号を決める。
ｄ：調査対象文書。
ｐ：比較対象文書群Ｐに属する文書。
Ｎ：比較対象文書群Ｐの全文書数。
Ｎ′：類似文書群Ｓの文書の数。
ＴＦ（ｄ）：ｄの索引語による、ｄの中での出現頻度。
ＴＦ（Ｐ）：ｐの索引語による、ｐの中での出現頻度。
ＤＦ（Ｐ）：ｄ又はｐの索引語による、Ｐの中での文書頻度。
ＤＦ（Ｓ）：ｄの索引語による、Ｓの中での文書頻度。
ＩＤＦ（Ｐ）：ＤＦ（Ｐ）の逆数×文書数の対数：ln［Ｎ／ＤＦ（Ｐ）］。
ＩＤＦ（Ｓ）：ＤＦ（Ｓ）の逆数×文書数の対数：ln［Ｎ′／ＤＦ（Ｓ）］。
ＴＦＩＤＦ：ＴＦとＩＤＦとの積。文書の索引語ごとに演算される。
類似度（類似率）：調査対象文書ｄと、比較対象文書群Ｐに属する或る文書ｐとの類似の程度。

ここで、索引語とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出してもよいし、又索引語の辞書（シソーラス）のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。
また、対数としてここでは自然対数を用いたが、これに限らず常用対数等を用いてもよい。

＜２．索引語抽出装置の構成：図１、図２＞
図１は本発明の一実施形態に係る特徴索引語抽出装置のハードウェア構成を示す図である。
同図に示すように、本実施形態の特徴索引語抽出装置は、ＣＰＵ（中央演算装置）およびメモリ（記録装置）などから構成される処理装置１、キーボード（手入力器具）などの入力手段である入力装置２、文書データや条件や処理装置１による作業結果などを格納する記録手段である記録装置３、および特徴索引語の抽出結果などをマップやリストなどで表示などする出力手段である出力装置４から構成される。

図２は上記の特徴索引語抽出装置における構成と機能を詳細に説明する図である。

処理装置１は、調査対象文書ｄ読み出し部１１０、索引語（ｄ）抽出部１２０、ＴＦ（ｄ）演算部１２１、比較対象文書群Ｐ読み出し部１３０、索引語（Ｐ）抽出部１４０、ＴＦ（Ｐ）演算部１４１、ＩＤＦ（Ｐ）演算部１４２、類似度演算部１５０、類似文書群Ｓ選出部１６０、索引語（Ｓ）抽出部１７０、ＩＤＦ（Ｓ）演算部１７１、特徴索引語抽出部１８０などから構成される。

入力装置２は、調査対象文書ｄ条件入力部２１０、比較対象文書群Ｐ条件入力部２２０、抽出条件その他入力部２３０などから構成される。

記録装置３は、条件記録部３１０、作業結果格納部３２０、文書格納部３３０などから構成される。文書格納部３３０は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のＩＰＤＬや、株式会社パトリスでサービスしているＰＡＴＯＬＩＳなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許ＪＰ−ＲＯＭなどのデータを自前で格納したデータベース、文書を格納したＦＤ（フレキシブルディスク）、ＣＤＲＯＭ（コンパクトディスク）、ＭＯ（光磁気ディスク）、ＤＶＤ（デジタルビデオディスク）などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むＯＣＲ（光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

出力装置４は、マップ作成条件読み出し部４１０、マップ用データ取り込み部４１２、リスト出力条件読み出し部４２０、リスト用データ取り込み部４２２、コメント追記条件読み出し部４３０、コメント追記部４３２、マップ・リスト・コメント複合出力部４４０などから構成される。

図１及び図２において、処理装置１、入力装置２、記録装置３、および出力装置４の間で信号やデータをやり取りする通信手段としては、ＵＳＢ（ユニバーサルシステムバス）ケーブルなどで直接接続してもよいし、ＬＡＮ（ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納したＦＤ、ＣＤＲＯＭ、ＭＯ、ＤＶＤなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

次に、図２により本発明に係る一実施形態の特徴索引語抽出装置における機能を詳しく説明する。

＜２−１．入力装置２の詳細＞
図２の入力装置２において、調査対象文書ｄ条件入力部２１０は、入力画面などによって調査対象文書ｄの読み出しを行なう条件を設定する。比較対象文書群Ｐ条件入力部２２０は、入力画面などによって比較対象文書群Ｐの読み出しを行なう条件を設定する。抽出条件その他入力部２３０は、入力画面などによって調査対象文書ｄ及び比較対象文書群Ｐの索引語抽出条件、ＴＦ演算の条件、ＩＤＦ演算の条件、類似度演算の条件、類似文書の選出条件、マップ作成条件、リスト出力条件、コメント追記条件などを設定する。これら入力された条件は、記録装置３の条件記録部３１０へ送られ格納される。

＜２−２．処理装置１の詳細＞
図２の処理装置１において、調査対象文書ｄ読み出し部１１０は、条件記録部３１０の条件に基づいて、調査対象の文書を、文書格納部３３０より読み出す。読み出された調査対象文書ｄは、索引語（ｄ）抽出部１２０に送られる。索引語（ｄ）抽出部１２０は、条件記録部３１０の条件に基づいて、調査対象文書ｄ読み出し部１１０で得られた文書から索引語の抽出を行ない、作業結果格納部３２０に格納する。

比較対象文書群Ｐ読み出し部１３０は、比較対象となる複数の文書を、条件記録部３１０の条件に基づいて、文書格納部３３０より読み出す。読み出された比較対象文書群Ｐは、索引語（Ｐ）抽出部１４０に送られる。索引語（Ｐ）抽出部１４０は、条件記録部３１０の条件に基づいて、比較対象文書群Ｐ読み出し部１３０で得られた文書から索引語の抽出を行ない、作業結果格納部３２０に格納する。

ＴＦ（ｄ）演算部１２１は、条件記録部３１０の条件に基づいて、作業結果格納部３２０に格納された調査対象文書ｄについての索引語（ｄ）抽出部１２０の作業結果を、ＴＦ演算する。得られたＴＦ（ｄ）のデータは、作業結果格納部３２０に格納され或いは直接類似度演算部１５０に送られる。

ＴＦ（Ｐ）演算部１４１は、条件記録部３１０の条件に基づいて、作業結果格納部３２０に格納された比較対象文書群Ｐについての索引語（Ｐ）抽出部１４０の作業結果を、ＴＦ演算する。得られたＴＦ（Ｐ）のデータは、作業結果格納部３２０に格納され或いは直接類似度演算部１５０に送られる。

ＩＤＦ（Ｐ）演算部１４２は、条件記録部３１０の条件に基づいて、作業結果格納部３２０に格納された比較対象文書群Ｐについての索引語（Ｐ）抽出部１４０の作業結果を、ＩＤＦ演算する。得られたＩＤＦ（Ｐ）のデータは、作業結果格納部３２０に格納され、又は直接類似度演算部１５０に若しくは直接特徴索引語抽出部１８０に送られる。

類似度演算部１５０は、条件記録部３１０の条件に基づいて、ＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１、及びＩＤＦ（Ｐ）演算部１４２の演算結果を、それぞれから直接或いは作業結果格納部３２０から得て、比較対象文書群Ｐの文書それぞれの、調査対象文書ｄに対する類似度を演算する。得られた類似度は、比較対象文書群Ｐのそれぞれの文書に類似度データとして付され、作業結果格納部３２０或いは直接類似文書群Ｓ選出部１６０に送られる。

類似度演算部１５０における類似度の演算は、各文書の索引語毎に、例えばＴＦＩＤＦ演算などの計算がなされ、比較対象文書群Ｐの文書それぞれの、調査対象文書ｄに対する類似度が計算される。ＴＦＩＤＦ演算とは、ＴＦ演算結果とＩＤＦ演算結果の積である。類似度の演算方法は後で詳しく述べる。

類似文書群Ｓ選出部１６０は、作業結果格納部３２０或いは直接類似度演算部１５０の結果から比較対象文書群Ｐの類似度演算結果を得て、条件記録部３１０の条件に基づいて類似文書群Ｓを選出する。類似文書群Ｓの選出は、例えば類似度の高い順に文書をソートし、条件に記された必要な数だけ選出する。選出された類似文書群Ｓは、作業結果格納部３２０或いは直接索引語（Ｓ）抽出部１７０に出力される。

索引語（Ｓ）抽出部１７０は、作業結果格納部３２０或いは直接類似文書群Ｓ選出部１６０から類似文書群Ｓのデータ入力を得て、この類似文書群Ｓから、条件記録部３１０の条件に基づいて索引語（Ｓ）を抽出する。抽出された索引語（Ｓ）は、作業結果格納部３２０或いは直接ＩＤＦ（Ｓ）演算部１７１に送られる。

ＩＤＦ（Ｓ）演算部１７１は、作業結果格納部３２０或いは直接索引語（Ｓ）抽出部１７０から索引語（Ｓ）を得て、この索引語（Ｓ）を、条件記録部３１０の条件に基づいてＩＤＦ演算する。得られたＩＤＦ（Ｓ）は、作業結果格納部３２０に格納され或いは直接特徴索引語抽出部１８０に送られる。

特徴索引語抽出部１８０は、条件記録部３１０の条件に基づいて、作業結果格納部３２０から、或いは直接ＩＤＦ（Ｓ）演算部１７１の結果及びＩＤＦ（Ｐ）演算部１４２の結果から、条件に記された必要な数だけ、或いは条件に基づいた計算結果により選ばれた数だけ、索引語（ｄ）を抽出する。ここで抽出された索引語を「特徴索引語」と称することにする。抽出された特徴索引語（ｄ）は、作業結果格納部３２０に送られる。

＜２−３．記録装置３の詳細＞
図２の記録装置３において、条件記録部３１０は、入力装置２から得られた条件などの情報を記録し、処理装置１或いは出力装置４の要求に基づき、それぞれに必要なデータを送る。作業結果格納部３２０は、処理装置１における各構成要素の作業結果を格納し、処理装置１の要求に基づき、必要なデータを送る。

文書格納部３３０は、入力装置２或いは処理装置１の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。

＜２−４．出力装置４の詳細＞
図２の出力装置４において、マップ作成条件読み出し部４１０は、条件記録部３１０の条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部４１２に送る。リスト出力条件読み出し部４２０は、条件記録部３１０の条件に基づいて、リストの出力条件を読み出し、リスト用データ取り込み部４２２に送る。コメント追記条件読み出し部４３０は、条件記録部３１０の条件に基づいて、コメントの追記条件を読み出し、コメント追記部４３２に送る。

マップ用データ取り込み部４１２は、マップ作成条件読み出し部４１０の条件に従い、作業結果格納部３２０より、特徴索引語抽出部１８０の作業結果を取り込む。取り込まれた特徴索引語データは、作業結果格納部３２０或いは直接マップ・リスト・コメント複合出力部４４０に送られる。

リスト用データ取り込み部４２２は、リスト出力条件読み出し部４２０の条件に従い、作業結果格納部３２０より、特徴索引語抽出部１８０の作業結果を取り込む。取り込まれたリスト用データは、作業結果格納部３２０或いは直接マップ・リスト・コメント複合出力部４４０に送られる。

コメント追記部４３２は、コメント追記条件読み出し部４３０の条件に従い、キーボードやＯＣＲなどの外部入力装置から直接、或いは文書格納部３３０の内部データベースに事前に用意した、調査対象文書ｄに対する評価のコメントとして追記するためのデータを準備する。準備されたコメント用データは、作業結果格納部３２０或いは直接マップ・リスト・コメント複合出力部４４０に送られる。

マップ・リスト・コメント複合出力部４４０は、マップ用データ取り込み部４１２から出力される条件とデータ、リスト用データ取り込み部４２２から出力される条件とデータ、及びコメント追記部４３２から出力される条件とデータをそれぞれ直接或いは作業結果格納部３２０より得て、マップ・リスト・コメントを複合的に出力する場を作る。同時に、特徴索引語抽出部１８０の作業結果を、マップ上に表示し、一覧リストに出力し、及びコメント或いはそれらの一部を表示、印刷、若しくはデータで格納できるように出力する。

マップ・リスト・コメント複合出力部４４０において出力するマップの特徴的な一例は、特徴索引語抽出部１８０において抽出された調査対象文書ｄの特徴索引語の各々について、比較対象文書群ＰにおけるＩＤＦ（Ｐ）演算部１４２の演算結果を横軸の値とし、調査対象文書ｄに類似な類似文書群ＳにおけるＩＤＦ（Ｓ）演算部１７１の演算結果を縦軸の値として、二次元のＩＤＦ（Ｐ）−ＩＤＦ（Ｓ）平面（以下、ＩＤＦ平面と呼ぶ）上に分布させたマップである。図１１以降の説明において詳細を後述する。該ＩＤＦ平面上で表わされた特徴索引語の分布状況から、調査対象文書ｄの性格を読み取ることができる。

＜３．索引語抽出装置の動作＞
図３、図４、及び図５は上記の特徴索引語抽出装置における動作を説明する図である。

＜３−１．入力動作：図３＞
図３は、入力装置２における条件設定の動作手順を示すフローチャートである。後述の図６〜図９に、入力装置により入力する条件設定の操作画面が例示されている。まず初期化（ステップＳ２０１）のあと、入力する条件を区別する（ステップＳ２０２）。オペレータが調査対象文書ｄの条件入力を選定したときは、調査対象文書ｄ条件入力部２１０において調査対象文書ｄの条件入力を受けつける（ステップＳ２１０）。次に、入力された条件が図６のような表示画面でオペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部３１０で格納し（ステップＳ３１０）、悪ければ「戻る」が選ばれるので、ステップＳ２１０に戻る（ステップＳ２１１）。

一方ステップＳ２０２においてオペレータが比較対象文書群Ｐの条件入力を選定したときは、比較対象文書群Ｐ条件入力部２２０において比較対象文書群Ｐの条件入力を受けつける（ステップＳ２２０）。次に、入力された条件が図７のような表示画面でオペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部３１０で格納し（ステップＳ３１０）、悪ければ「戻る」が選ばれるので、ステップＳ２２０に戻る（ステップＳ２２１）。

又、ステップＳ２０２においてオペレータが抽出条件その他の入力を選定したときは、抽出条件その他入力部２３０において抽出条件その他の入力を受けつける（ステップＳ２３０）。次に、入力された条件が図８や図９のような表示画面でオペレータにより確認され、よければ画面上の「設定」が選ばれるので、入力された条件を条件記録部３１０で格納し（ステップＳ３１０）、悪ければ「戻る」が選ばれるので、ステップＳ２３０に戻る（ステップＳ２３１）。該ステップＳ２３０においては、索引語（ｄ）の抽出条件及び類似文書群Ｓの選出条件と、特徴索引語等の出力条件との両方を設定する。

＜３−２．特徴索引語の抽出動作：図４＞
図４は、処理装置１の動作を示すフローチャートである。まず初期化（ステップＳ１０１）のあと、条件記録部３１０の条件に基づいて、文書格納部３３０から読み出す文書を、調査対象文書ｄと比較対象文書群Ｐに区別する（ステップＳ１０２）。読み出す文書が調査対象文書ｄであるとき、調査対象文書ｄ読み出し部１１０において調査対象文書を文書格納部３３０より読み出す（ステップＳ１１０）。次に、索引語（ｄ）抽出部１２０において調査対象文書ｄの索引語抽出を行なう（ステップＳ１２０）。引き続き、抽出された索引語の各々について、ＴＦ（ｄ）演算部１２１においてＴＦ演算をする（ステップＳ１２１）。

一方ステップＳ１０２で、読み出す文書が比較対象文書群Ｐであるとき、比較対象文書群Ｐ読み出し部１３０において比較対象文書群Ｐを読み出す（ステップＳ１３０）。次に、索引語（Ｐ）抽出部１４０において比較対象文書群Ｐの索引語抽出を行なう（ステップＳ１４０）。引き続き、抽出された索引語の各々について、ＴＦ（Ｐ）演算部１４１においてＴＦ演算をする（ステップＳ１４１）とともに、ＩＤＦ（Ｐ）演算部１４２においてＩＤＦ演算をする（ステップＳ１４２）。

次に、ＴＦ（ｄ）演算部１２１の出力のＴＦ（ｄ）演算結果と、ＴＦ（Ｐ）演算部１４１の出力のＴＦ（Ｐ）演算結果、及びＩＤＦ（Ｐ）演算部１４２の出力のＩＤＦ（Ｐ）演算結果を基に、類似度演算部１５０により、類似度の演算を行なう（ステップＳ１５０）。この類似度の演算は、入力装置２から入力された条件に基づき、類似度算出のための類似度算出モジュールを外部記録部３１０から呼び出してきて実行する。

類似度演算の具体的な一例を説明すると以下の通りである。今、ｄを調査対象文書とし、ｐを比較対象文書群Ｐの個々の文書とする。これら文書ｄ及びｐに対する演算の結果、文書ｄから切り出された索引語を「赤」「青」「黄」とする。また、文書ｐから切り出された索引語を「赤」「白」とする。その場合、文書ｄ中の索引語の索引語頻度をＴＦ（ｄ）とし、文書ｐ中の索引語の索引語頻度をＴＦ（Ｐ）とし、比較対象文書群Ｐから得た索引語の文書頻度をＤＦ（Ｐ）とし、全文書数を５０とする。このとき、例えば、

であるとする。ＴＦ＊ＩＤＦ（Ｐ）を各文書の索引語毎に計算して、ベクトル表現を算出する。この結果は文書ベクトルｄ及びｐについて、

となる。このベクトルｄ及びｐ間の余弦（又は距離）の関数を取れば、文書ベクトルｄ及びｐ間の類似度（又は非類似度）が得られる。なお、ベクトル間の余弦（類似度）は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離（非類似度）は値が小さいほど類似度合いが高いことを意味する。得られた類似度は、作業結果格納部３２０に格納されるとともに、類似文書群Ｓ選出部１６０に送られる。

次に、類似文書群Ｓ選出部１６０により、ステップＳ１５０にて類似度演算した文書を類似度の順に並べ替え、抽出条件その他入力部２３０において設定した条件に沿った数の類似文書群Ｓを選出する（ステップＳ１６０）。

次に、類似文書群Ｓの索引語（Ｓ）抽出部１７０により、ステップＳ１６０にて選出した類似文書群Ｓの索引語（Ｓ）を抽出する（ステップＳ１７０）。

次に、索引語（ｄ）の各々について、ＩＤＦ（Ｓ）演算部１７１により、類似文書群ＳにおけるＩＤＦ演算をする（ステップＳ１７１）。

次に、ステップＳ１７１によるＩＤＦ（Ｓ）演算の結果と、ステップＳ１４２によるＩＤＦ（Ｐ）演算の結果とから、特徴索引語を抽出する（ステップＳ１８０）。

＜３−３．出力動作：図５＞
図５は、出力装置４による、マップ、リスト、及びコメントの出力の動作手順を示すフローチャートである。まず初期化（ステップＳ４０１）のあと、条件記録部３１０から、マップ作成条件と、リスト出力条件と、コメント追記条件に区別して条件の読み出しを開始する（ステップＳ４０２）。

出力装置のマップ作成条件読み出し部４１０で条件記録部３１０からマップ作成条件を読み出したとき（ステップＳ４１０）、マップを必要とする条件であったら（ステップＳ４１１）、作業結果格納部３２０からマップ用データ取り込み部４１２へのマップ用データ取り込みを行なう（ステップＳ４１２）。次に、マップ作成条件読み出し部４１０のマップ作成条件に沿って、マップを作成し（ステップＳ４１３）、マップ・リスト・コメント複合出力部４４０に送る。

一方、出力装置のリスト出力条件読み出し部４２０で条件記録部３１０からリスト出力条件を読み出したとき（ステップＳ４２０）、リストを必要とする条件であったら（ステップＳ４２１）、作業結果格納部３２０からリスト用データ取り込み部４２２によりリスト用データ取り込みを行なう（ステップＳ４２２）。次に、リスト出力条件読み出し部４２０のリスト出力条件に沿って、リストを生成し（ステップＳ４２３）、続いて、マップ・リスト・コメント複合出力部４４０に送る。

また一方、出力装置のコメント追記条件読み出し部４３０で条件記録部３１０からコメント追記条件を読み出したとき（ステップＳ４３０）、コメントを必要とする条件であったら（ステップＳ４３１）、マップ・リスト・コメント複合出力部４４０にてコメントを追記できる枠を準備し、該枠内に、キーボードから或いはＯＣＲから、手入力するか、或いは文書格納部３３０の内部データベースにある事前に準備された定型文データを使って、コメント追記を生成し（ステップＳ４３３）、続いて、マップ・リスト・コメント複合出力部４４０に送る。

ステップＳ４１１でマップを表示する条件でなかったら、又はステップＳ４２１でリストを出力する条件でなかったら、又はステップＳ４３１でコメントを追記する条件でなかったら、それぞれその時点で終了し、マップ・リスト・コメント複合出力部４４０へはデータを送らない。

＜３−４．入力画面：図６〜図９＞
図６は、調査対象文書ｄの入力条件設定画面の表示例を示す図である。

図６においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」の中から「調査対象文書」を選び、次に「文書種別」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウインドの「自社ＤＢ１」「自社ＤＢ２」「特許庁ＩＰＤＬ」「ＰＡＴＯＬＩＳ」「他商用ＤＢ１」「他商用ＤＢ２」「ＦＤ」「ＣＤ」「ＭＯ」「ＤＶＤ」「その他」などの中から「ＦＤ」を選び、更に「ＦＤ」の「文書１」「文書２」「文書３」「文書４」「文書５」「文書６」などの中から「文書３」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、調査対象文書ｄ条件入力部２１０で入力される。

図７は、比較対象文書群Ｐの入力条件設定画面の表示例を示す図である。図７においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」などの中から「比較対象文書群」を選び、次に「文書種別」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウインドの「請求項」「従来技術」「発明の課題」「手段・効果」「実施例」「図の説明」「図面」「要約」「書誌事項」「経過情報」「登録情報」「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウインドで前述と同じ項目の中から「自社ＤＢ１」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、比較対象文書群Ｐ条件入力部２２０で入力される。

図８は、索引語抽出条件および類似文書群選出条件の設定画面の表示例を示す図である。図８においては、「索引語抽出条件」のウインドの「自社キーワード切出１」「自社キーワード切出２」「商用キーワード切出１」「商用キーワード切出２」などの中から「自社キーワード切出１」を選び、次に「類似度算出方法」のウインドの「類似度１」「類似度２」「類似度３」「類似度４」「類似度５」「類似度６」などの中から「類似度１」を選び、次に「類似文書群選出」のウインドの「類似文書数」「非類似文書数」などの中から「類似文書数」を選び、更に「上位１００件」「上位１０００件」「上位３０００件」「上位５０００件」「数値入力」などの中から「上位３０００件」を選んだ状態の例が示されている。この例のような抽出条件設定画面における設定条件が、抽出条件その他入力部２３０で入力される。

図９は、特徴索引語抽出装置の出力条件設定画面の表示例を示す図である。図９においては、「マップ算出方法」のウインドの「Ｘ軸」に「Ｘ軸：比較対象文書群ＩＤＦ」及び「Ｙ軸」に「Ｙ軸：類似文書群ＩＤＦ」を選び、次に「マップ形式」のウインドの「マップ１枚」「マップ２枚」「マップ１枚・リスト付」「マップ２枚・リスト付」「マップ１枚・コメント付」「マップ２枚・コメント付」「マップ１・リスト・コメント付」「マップ２・リスト・コメント付」などの中から「マップ１枚」を選び、次に「出力データ」のウインドの「独創的着目語」「専門語」「類似文書群規定語」などの中から「独創的着目語」を選び、更に「なし」「上位５個」「上位１０個」「上位１５個」「上位２０個」「数値入力」などの中から「上位２０個」を選んだ状態の例が示されている。次に「コメント」のウインドの枠内の「（自由記入）」には無記入にした。こうして抽出条件その他入力部２３０より、出力条件が入力される。

＜４．実施例１＞
＜４−１．マップの性質：図１０＞
図１０は、実施例１の索引語抽出装置により出力したマップの性質を説明するための概念図である。このマップは、調査対象文書ｄの索引語（ｄ）のうち特徴索引語抽出部１８０で抽出された索引語（以下、特徴索引語という）を、マップ・リスト・コメント複合出力部４４０で出力し、表示手段により表現するものである。マップは、特徴索引語の各々について、それぞれ、横軸の値に比較対象文書群ＰにおけるＩＤＦ（Ｐ）演算部１４２の演算結果を、縦軸の値に類似文書群ＳにおけるＩＤＦ（Ｓ）演算部１７１の演算結果を取って、ＩＤＦ平面上に配置したものである。

図１０を説明する。図１０において、Ｘ−Ｙ平面は、Ｘ軸がＩＤＦ（Ｐ）の値で、Ｙ軸がＩＤＦ（Ｓ）の値で作る平面である。比較対象文書群Ｐの文書数をＮ、類似文書群Ｓの文書数をＮ′とすれば、ＩＤＦ（Ｐ）の最大値β_１＝lnＮ、ＩＤＦ（Ｓ）の最大値β_２＝lnＮ′である。
平面の原点をＤとする。Ｙ＝Ｘの直線と、Ｙ＝β_２の線との交点をＡとする。Ｙ＝β_２の線と、Ｘ＝β_１の線の交点をＢとする。Ｙ−β_２＝Ｘ−β_１の直線がＸ軸を切る点をＣとする。従って、四角形ＡＢＣＤは、平行四辺形である。α＝β_１−β_２＝ln（Ｎ／Ｎ′）とすると、平行四辺形ＡＢＣＤの各頂点の値は、それぞれ、Ｄ＝（０，０）、Ｂ＝（β_１，β_２）、Ａ＝（β_２，β_２）、Ｃ＝（α，０）である。

線分ＡＢは、Ｙ＝β_２、線分ＡＤは、Ｙ＝Ｘの直線である。線分ＢＣは、Ｙ−β_２＝Ｘ−β_１の直線である。線分ＤＣは、Ｙ＝０の直線である。

図１０において、Ｘ座標はＩＤＦ（Ｐ）の値であり、Ｘの値が０付近すなわちＤ付近は、比較対象文書群Ｐのほとんどに存在する索引語が配置される領域である。Ｘ座標がβ_１＝lnＮの内側は、比較対象文書群Ｐにもほとんど存在しない索引語の領域で、Ｘ座標がα＝ln（Ｎ／Ｎ′）の内側すなわちＣの内側は、比較対象文書群Ｐにも類似文書群Ｓの文書数Ｎ′相当の数が存在する索引語の領域である。一方、Ｙ座標はＩＤＦ（Ｓ）の値であり、Ｙの値が０付近すなわちＤ付近は、類似文書群Ｓのほとんどに存在する索引語の領域である。Ｙ座標がβ_２＝lnＮ′の線分ＡＢの内側は、類似文書群Ｓの中にはほとんど存在せず、ほぼ調査対象文書ｄにしか存在しない索引語の領域である。

図１０において、比較対象文書群Ｐにおける文書頻度ＤＦ（Ｐ）が小さい、即ち珍しい索引語は、ＩＤＦ（Ｐ）が大きいため、図１０上の右側に現れる。ＤＦ（Ｐ）が大きい、即ち頻繁に用いられる索引語は、ＩＤＦ（Ｐ）が小さいため、図１０上のＹ軸の近くに現れる。従って、比較対象文書群Ｐにおいて珍しい索引語ほど右に現れ、比較対象文書群Ｐにおいて頻繁に用いられる索引語ほど左に現れる。二次元平面上では類似文書群Ｓが比較対象文書群Ｐの部分集合であることによる制限が課せられるため、図１０の右側では線分ＢＣで切られる領域内部にしか索引語の点は存在しない。

同様に、類似文書群Ｓにおける文書頻度ＤＦ（Ｓ）が１件しかない索引語、即ち調査対象文書ｄ自身にしか含まれていない索引語は、ＩＤＦ（Ｓ）が大きいため、図１０上のＢＡ線上に現れる。ＤＦ（Ｓ）が１より大きいと、索引語はＢＡ線より下に位置する。逆に、類似文書群Ｓの全ての文書に存在する索引語は、ＩＤＦ（Ｓ）＝０のため、図１０上のＤＣ線上、すなわちｙ＝０の線上に現れる。従って、Ｓにおいて珍しい索引語ほど上に現れ、Ｓにおいて頻繁に用いられる索引語ほど下に現れる。

ここで線分ＢＣは次により導出される。類似文書群Ｓが比較対象文書群Ｐの部分集合であることより、
ＤＦ（Ｐ）≧ＤＦ（Ｓ）
である。また、ＩＤＦの上記定義より、
ＤＦ（Ｐ）＝Ｎ exp［−ＩＤＦ（Ｐ）］、
ＤＦ（Ｓ）＝Ｎ′exp［−ＩＤＦ（Ｓ）］
である。これらの関係式より、境界線の式としてｙ＝ｘ−α、即ちｙ−β_２＝ｘ−β_１が得られる。

類似文書群Ｓの文書数に依存せず、一様に含まれる索引語の場合、その索引語は図１０の線分ＤＡ（直線Ｙ＝Ｘ）上に現れる。ここで一様とは、計測対象とする文書群Ｑの文書数Ｎ_Ｑを変化させる時、
ＤＦ（Ｑ）＝Ｎ_Ｑ／ｋ（ｋは１より大なる定数）
が成立するＱを一様又は空間一様性のある文書群、また、その様な性質を持つ索引語を、空間一様性を持つ索引語と呼ぶ。Ｑ＝Ｐ，Ｓに対して一様性を仮定すると、
lnｋ＝ln［Ｎ／ＤＦ（Ｐ）］＝ln［Ｎ′／ＤＦ（Ｓ）］
より、直線Ｙ＝Ｘが得られる。
実際には、多くの索引語は類似文書群Ｓよりも膨大な文書群である比較対象文書群Ｐにおいても頻出するから、線分ＤＡの下方領域に出現するのが普通であり、特異なものだけがこの線分の上側に浮かび上がることになる。このうち特に、図１０内の線分ＢＡの半分位の高さより上側の領域にあっては、比較対象文書群Ｐにおいては珍しくないが、類似文書群Ｓにおいては珍しい索引語が出現する。この傾向によりＡ付近の領域は独創的着目語領域と言ってよい。

図１０において、線分ＡＤ左方の充分外側の領域にも索引語の点は存在可能であるが、次のことを考え合わせると、該領域を索引語の点の非存在領域として扱っても、調査対象文書ｄの性質解読に支障を来たすものではない。すなわち、該領域は、独創的着目語領域Ａの遠方の領域なので、もし出現したとしても、かなり特異な索引語であること、ｙ軸近傍にはＤＦ（Ｓ）≧ＤＦ（Ｐ）−Ｎ＋Ｎ′の制限から導かれる存在限界線：
Ｙ＝−ln（γexp(−ｘ) −γ＋１）、但しγ＝Ｎ／Ｎ′
があり、同線に近いこと、観測的事実として、類似文書群Ｓの類似度が十分高い場合には該領域には索引語が観測されなかったことなどをあわせて、事実上、非存在領域と帰結される。

以上のように、調査対象文書ｄから抽出された特徴索引語は、図１０のＩＤＦ平面の右に行くほど比較対象文書群Ｐでの文書頻度は低く、上に行くほど類似文書群Ｓでの文書頻度が低い。そこで、図１０における各領域には、次のような性質を持つ索引語が配置されるため、該ＩＤＦ平面上の点の分布状況から、調査対象文書ｄの、比較対象文書群Ｐの中に対する位置付けや性格を読み取ることができる。

専門語領域ｂ：比較対象文書群Ｐにおいても類似文書群Ｓにおいても使用頻度の低い索引語が現れる領域。すなわち調査対象文書ｄに含まれる高度に専門的な内容、又はこれに直結する概念を記述する索引語の出現する領域。本発明の第１エリアに含まれる。

独創的着目語領域ａ：比較対象文書群Ｐにおける出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す索引語の出現する領域。本発明の第２エリアに含まれる。

類似文書群規定語領域ｃ：類似文書群Ｓでほとんどの文書が持ち、従って比較対象文書群Ｐにおいてもそれに相当する数の文書が持っている、類似文書群Ｓの性質を表わすのに極めて自然な索引語が現れる領域。例えば技術文書を調査対象とした場合であれば、この類似文書群規定語を見れば、類似文書群Ｓ及び調査対象文書ｄの技術分野を知ることができる。本発明の第３エリアに含まれる。

一般語領域ｄ：比較対象文書群Ｐと類似文書群Ｓの両方において頻出する索引語が現れる領域。比較対象文書群Ｐとの比較において調査対象文書ｄの性格を分析する際には、重要度が低いことが多い。

＜４−２．マップ出力例１：図１１（外部補助記憶装置）＞
図１１は、実施例１の特徴索引語抽出装置において、調査対象文書ｄとして「外部補助記憶装置」に関する公開特許公報を１件選んだときの、マップ表示の具体例である。このマップは本発明の性格表現図に相当する（以下のマップも同様）。比較対象文書群Ｐとして、過去１０年間の特許公報及び公開特許公報約４６４万件を選び、抽出内容には特許請求の範囲と要約を選び、索引語抽出は自社キーワード切り出し１（市販の索引語切出しツール）を選び、類似度算出方法には、文書ベクトルの成分ごとにＴＦＩＤＦを計算し調査対象文書ｄと比較対象文書群Ｐのそれぞれとの余弦を計算する方法を選び、類似文書群Ｓ選出には類似度の上位３０００件を選び、マップ算出方法にはＸ軸：比較対象文書群Ｐに対するＩＤＦと、Ｙ軸：類似文書群Ｓに対するＩＤＦを選び、マップ出力位置にマップ１枚を選んだ結果、表示されたものである。

図１１から、図１０にて示した独創的着目語領域ａには、「絵」「ホログラム」「欲求」「プラスチック」「外面」などの特徴索引語を見つけ、同じく専門語領域ｂには、該当する特徴索引語を見つけることができず、又同じく類似文書群規定語領域ｃには、「コンテンツ」「編集」などの特徴索引語を見つけることができる。

＜４−３．リスト出力例１：図１２（外部補助記憶装置）＞
図１２は、図１１と同じ調査対象文書に関する、リスト出力の具体例である。このリストは本発明の性格表現図に相当する（以下のリストも同様）。

各領域において出力すべき索引語は、例えば次のように求められる。
各領域に応じて変換Ｍ：（Ｘ，Ｙ）→（Ｘ′，Ｙ′）が与えられる時、
（ｓ/100） Exp［Ｙ′］＜２
なる点を、Ｘ′で降順に抽出する。但し、
（ｐ/100） Exp［Ｘ′］≧２
なる点に限る。

各領域から抽出するための上記変換Ｍ（Ｘ′，Ｙ′）は次で与えられる：
独創的着目語領域ａ………（Ｘ，Ｘ−Ｙ）、
専門語領域ｂ………………（Ｙ，Ｙ−Ｘ＋α）、
類似文書群規定語領域ｃ…（Ｘ，Ｙ）、
一般語領域ｄ………………（Ｙ−Ｘ＋α，Ｙ）。
但し、α＝ln（Ｎ／Ｎ′）。

例えば類似文書群規定語を抽出する場合は、比較対象文書群Ｐにおける文書数Ｎに対する文書頻度ＤＦ（Ｐ）の割合がｐ／２（％）以下で、且つ類似文書群Ｓにおける文書数Ｎ′に対する文書頻度ＤＦ（Ｓ）の割合が、ｓ／２（％）を超える索引語が抽出されることになる。図１２では、ｐ＝ｓ＝２５として索引語を抽出した。
独創的着目語、専門語及び一般語に対する変換値（Ｘ′，Ｙ′）はそれぞれ類似文書群規定語領域ｃ付近に写像したものであるので、同様の抽出条件を用いることにより各領域の索引語が抽出される。

なお、抽出条件は上記に限らず、例えば、
ＰＤＦ（ｗ_ｉ，Ｐ）＝（ｐ/100）Exp［Ｘ′］−１、
ＰＤＦ（ｗ_ｉ，Ｓ）＝（ｓ/100）Exp［Ｙ′］−１
とおいて、
ＰＤＦ（ｗ_ｉ，Ｐ）≧１のとき、
Ｘ″＝lnＰＤＦ（ｗ_ｉ，Ｐ）、
０＜ＰＤＦ（ｗ_ｉ，Ｐ）＜１のとき、
Ｘ″＝−１、
ＰＤＦ（ｗ_ｉ，Ｐ）≦０のとき、
Ｘ″＝−２
のように離散化し（Ｙ′についても同様）、Ｙ″＜０且つＸ″≧０なる索引語を、Ｘ″値の降順に抽出しても同様の結果を得ることができる。

図１２で出力されたデータを調べると、図１０にて示した独創的着目語領域ａには、「絵」「ホログラム」「制作」「プラスチック」「外面」などの特徴索引語が含まれ、同じく専門語領域ｂには、該当する特徴索引語がなく、又同じく類似文書群規定語領域ｃには、「コンテンツ」「編集」などの特徴索引語が含まれていることがわかる。

図１１或いは図１２から、本発明の特徴索引語抽出装置において、調査対象文書ｄの「外部補助記憶装置」に関する公開特許公報にとって特徴のある索引語を調べた結果、「プラスチック」「外面」「ホログラム」「絵」などが独創的概念着目語であり、専門語はなく、「コンテンツ」「編集」などが類似文書群規定語であることが分かる。
なお、出力する索引語の個数は、各領域についてそれぞれ複数であることが望ましいが、単数でも良いし、本出力例のように該当する索引語がない領域については０でもよい。

＜４−４．マップ出力例２：図１３（緊急通報）＞
図１３は、図１１の条件と同じで、調査対象文書ｄとして「緊急通報」に関する公開特許公報を１件選んだときの、マップ表示の具体例である。

図１３から、独創的着目語領域ａには、「既知」「デファレンシャル」「老齢」「基準局」「ＤＧＰＳ」などの特徴索引語を見つけ、専門語領域ｂには、点Ｂから若干離れたところに「消防署」などの特徴索引語を見つけ、類似文書群規定語領域ｃには、「通報」「緊急」「事態」などの特徴索引語を見つけることができる。

＜４−５．リスト出力例２：図１４（緊急通報）＞
図１４は、図１３と同じ調査対象文書に関する、リスト出力の具体例である。図１４で出力されたデータを調べると、独創的着目語領域ａには、「デファレンシャル」「既知」「手順」などの特徴索引語が含まれ、専門語領域ｂには、「消防署」などの特徴索引語を見つけ、類似文書群規定語領域ｃには、「事態」「通報」「緊急」「センタ」「電話機」などの特徴索引語が含まれていることがわかる。

図１３或いは図１４から、本発明の特徴索引語抽出装置において、調査対象文書ｄの「緊急通報」に関する公開特許公報にとっては、「デファレンシャル」「既知」などが独創的着目語であり、「消防署」が専門語であり、「事態」「通報」「緊急」などが類似文書群規定語である特徴索引語であることが分かる。

＜４−６．マップ出力例３：図１５（毛髪洗浄剤）＞
図１５は、図１１の条件と同じで、調査対象文書ｄとして「毛髪洗浄剤」に関する公開特許公報を１０件選んだときの、マップ表示の具体例である。

図１５から、独創的着目語領域ａには、「高齢」「クシ」「行為」「ｍｌ」「カリ」「工程」「滞留」「ブラシ」などの特徴索引語を見つけ、専門語領域ｂには、「フライアウェイ」「ジアリルアンモニウム」「メタクリロイルエチル」「ポリオキシエチレンジオレイン」などの特徴索引語を見つけ、類似文書群規定語領域ｃには、「両性」「毛髪」「アニオン」「アルケニル」「脂肪酸」などの特徴索引語を見つけることができる。

＜４−７．リスト出力例３：図１６（毛髪洗浄剤）＞
図１６は、図１５と同じ調査対象文書に関するリスト出力の具体例である。図１６で出力されたデータを調べると、独創的着目語領域ａには、「クシ」「ｍｌ」「カリ」「薬効」「高齢」「行為」「外用」などの特徴索引語が含まれ、専門語領域ｂには、「フライアウェイ」「ポリオキシエチレンジオレイン」「メチルカルボキシベタイン」「ジアリルアンモニウム」などの特徴索引語が含まれ、類似文書群規定語領域ｃには、「両性」「毛髪」「ヒドロキシアルキル」「泡」「皮膚」「アニオン」「カチオン」「脂肪酸」などの特徴索引語が含まれていることがわかる。

図１５或いは図１６から、本発明の特徴索引語抽出装置において、調査対象文書ｄの「毛髪洗浄剤」に関する公開特許公報にとっては、「高齢」「クシ」が独創的着目語であり、「フライアウェイ」「ポリオキシエチレンジオレイン」は専門語であり、「両性」「毛髪」が類似文書群規定語であることが分かる。

こうして、本発明の特徴索引語抽出装置を利用すれば、人間が調査対象文書の内容を読むことなく、その文書の性格を的確に表す特許マップを提供することができる。

＜４−８．コメント出力＞
本発明の特徴索引語抽出装置による出力は、上記のマップやリストに限らず、代表的な索引語を用いて調査対象文書ｄの性格を解説するコメント文を自動生成して出力しても良い。コメント文は、例えば、図１２，図１４，図１６で出力したリストの上位数個の索引語を用いて、「**、**（類似文書群規定語領域ｃの索引語）に関する技術分野において、**、**（専門語領域ｂの索引語）に関わる専門的な概念・技術を利用し、**、**（独創的着目語領域ａの索引語）の観点に着目した文書」のように生成する。
また例えば専門語領域ｂに索引語が現れなかったときは、コメント文は専門語に関する記述を除き、「**、**（領域ｃの索引語）に関する技術分野において、**、**（領域ａの索引語）の観点に着目した文書」のように生成する。
また例えば独創的着目語領域ａに索引語が現れなかったときは、コメント文は独創的着目語に関する記述を除き、「**、**（領域ｃの索引語）に関する技術分野において、**、**（領域ｂの索引語）に関わる専門的な概念・技術を利用した文書」のように生成する。
また例えば独創的着目語領域ａ、専門語領域ｂいずれも索引語が現れなかったときは、コメント文は独創的着目語及び専門語に関する記述を除き、「**、**（領域ｃの索引語）に関する技術分野に属する文書」のように生成する。

このコメント文は、上記のマップや表と一緒に出力しても良いし、コメントのみを出力しても良い。また、出力する索引語の個数は、各領域についてそれぞれ複数であることが望ましいが、単数でも良いし、該当する索引語がない領域については０でもよい。

＜５．実施例２＞
図１７〜図２０は、実施例２の特徴索引語抽出装置により出力したマップの例を示す図である。特徴索引語抽出装置の具体的な構成は実施例１と同様であるので詳細な説明を省略し、主な相違点について説明する。

＜５−１．ＴＦ又はＴＦＩＤＦ重み付け：図１７、図１８＞
図１１に示したＩＤＦ平面図で、抽出された特徴索引語を単純にマップ表示しても、調査対象文書ｄにおいてどの索引語が重視されているのかは不明である。そこで、調査対象文書ｄ中における当該特徴索引語の出現頻度ＴＦ（ｄ）或いはこれとＩＤＦ（Ｓ）との積であるＴＦＩＤＦ（Ｓ）を索引語の位置づけデータに反映させる。反映のさせ方としては、当該特徴索引語のマップ上の存在点でサイズ（表示の大きさ）を変えたり、表示の形を変えたり、或いは色を変えて表示して、重視される特徴索引語の視覚化を図る。反映のさせ方としては他にも、各索引語の出現頻度ＴＦ（ｄ）又はＴＦＩＤＦ（Ｓ）をＺ成分とし、３次元グラフィックにより３次元座標を表示する方法などが考えられる。

この場合には、マップ作成条件の一つとして、異なる特徴索引語に対し、出現頻度順にサイズや形や色を自動的に割り当てる情報を条件記録部３１０に格納しておけばよい。マップ表示の時、入力装置からの指示により、特徴索引語抽出部１８０に読み出してきて、特徴索引語抽出部１８０においてその割り当て処理を行って出力させることが出来る。このマップ出力信号は、ＴＦ（ｄ）またはＴＦＩＤＦ（Ｓ）を反映した出現頻度反映信号である。

図１１に示された特徴索引語に対して、このような処理を行った例を図１７及び図１８にそれぞれ示す。図１７は、ＴＦＩＤＦが上位２０までの特徴索引語について、○印を付して表示した例を示す図である。図１８は、ＴＦ値が上位１０までの特徴索引語について、サイズの大きい◇印を付して表示した例を示す図である。

＜５−２．ＴＦＩＤＦ及びＤＦ平面図：図１９、図２０＞
図１９と図２０は、図１１と同じく調査対象文書ｄとして「外部補助記憶装置」に関する公開特許公報を１件選ぶとともに、文書群における各索引語の出現頻度の関数値の取り方を実施例１とは変えて出力したものである。

図１９は、調査対象文書ｄの索引語（ｄ）の各々について、横軸に比較対象文書群Ｐに対するＴＦＩＤＦ（ＴＦ（ｄ）とＩＤＦ（Ｐ）との積）をとり、縦軸に類似文書群Ｓに対するＴＦＩＤＦ（ＴＦ（ｄ）とＩＤＦ（Ｓ）との積）をとって、分布させたもの（以下ＴＦＩＤＦ平面図という）である。

図１９によってＴＦ（ｄ）を加味して評価すれば、「データ」「コンテンツ」「編集」などを類似文書群規定語と評価でき、「物」「算出」「適合」「ＩＣ」「プラスチック」などを独創的着目語と評価することができる。しかし、原点付近にほとんどの点が集中するため、点の分布状況から直接且つ容易に調査対象文書ｄの性質を論じることは困難である。実施例１の図１１などの表示をこの図１９と対比すると明らかなように、実施例１によるＩＤＦ平面図の方が、調査対象文書ｄの性質の容易で直接的な解読には好ましい、ということがわかる。原点付近への点の集中を回避するための一法としては、ＴＦＩＤＦの対数をとって座標上に配置することも考えられる。

図２０は、調査対象文書ｄの索引語（ｄ）の各々について、横軸に比較対象文書群ＰにおけるＤＦを文書数Ｎで除したものをとり、縦軸に類似文書群ＳにおけるＤＦを文書数Ｎ′で除したものをとって、分布させたもの（以下ＤＦ平面図という）である。図２０によってＤＦに基づき評価すれば、「データ」「記憶」「情報」「媒体」「編集」「コンテンツ」などを類似文書群規定語と評価でき、「物」「内部」「プラスチック」などを独創的着目語と評価することができる。しかし、この場合も、原点付近にほとんどの点が集中するため、点の分布状況から直接且つ容易に調査対象文書ｄの性質を論じることは困難である。実施例１の図１１などの表示をこの図２０と対比すると明らかなように、実施例１によりＤＦ値を逆冪の対数で変換したＩＤＦ平面図の方が、調査対象文書ｄの性質の容易で直接的な解読には好ましい、ということがわかる。原点付近への点の集中を回避するための一法としては、ＤＦそのものの対数をとって座標上に配置することも考えられる。

文書群における索引語の出現頻度は、上記ＤＦに限らず、例えば検索対象文書群から検索したときに当該索引語がヒットした延べ回数を用いてもよい。

＜６．実施例３：図の変形＞
図２１乃至図２４は、実施例３の特徴索引語抽出装置により出力したマップの例を示す図である。特徴索引語抽出装置の具体的な構成は実施例１と同様であるので詳細な説明を省略し、主な相違点について説明する。

上述の実施例１又は２により、調査対象文書を評価する者は、特徴索引語抽出装置の出力結果を観察すれば、該文書の内容を読むことなく、該文書の大きな傾向としての性格を読取ることができる。

但し、観察者が不慣れの場合には、図１１、図１３及び図１５（以下代表して図１１のみ示すことがある）等のように、境界線ＢＣ等がＸ軸に対して斜交していると、領域を特定しにくい場合がある。特に類似文書群Ｓが比較対象文書群Ｐの部分集合である場合、例えばある索引語を比較対象文書群Ｐで検索したときのヒット文書数ＤＦ（Ｐ）は、同じ索引語を類似文書群Ｓで検索したときのヒット文書数ＤＦ（Ｓ）より小さい数にはなり得ない。また、ある索引語を比較対象文書群Ｐで検索したときにヒットしない文書数Ｎ−ＤＦ（Ｐ）は、同じ索引語を類似文書群Ｓで検索したときにヒットしない文書数Ｎ′−ＤＦ（Ｓ）より小さい数にはなり得ない。従って例えば上記ＤＦ（Ｐ）を直交座標のＸ軸に、上記ＤＦ（Ｓ）をＹ軸にとろうとすると、Ｘ≧ＹかつＮ−Ｘ≧Ｎ′−Ｙの領域にのみ各索引語が配置されることになるので、存在可能領域の境界線が４５度に傾いた状態となる。また例えば上記実施例１のＩＤＦ平面図では、Ｙ≧Ｘ−ln（Ｎ／Ｎ′）の領域にのみ各索引語が配置されることになるので、存在可能領域の境界線が４５度に傾いた状態となる。

そこで、観察者が不慣れの場合でも、より的確に観察できるマップへの変換を与えるため、本実施例では、図１１のマップ中の平行四辺形の端点Ａ、Ｂ、Ｃ、及びＤのそれぞれが長方形ＡＢＣＤの四隅に来るように変換を施す。これにより、変換した横軸Ｘ′を専門性を表す軸、変換したＹ′を独創性を表す軸と解釈できれば、評価者が不慣れな場合でも、当該変換後のマップから、より的確に調査対象文書を評価できるようになる。
なお、図２０のＤＦ平面図のようにＤＦ（Ｐ）の値を一律に文書数Ｎで除した場合でも、存在可能領域の境界線を４５度より垂直に近づけることが可能であるが、却って原点付近への索引語座標の集中が顕著になるなど索引語座標の集中箇所が生じてしまう。そこで以下の変換例１〜３に示すように、横軸に沿った移動量が縦軸の値によって異なるような変換を施すことが望ましい。変換例１〜３におけるＸ値に対する変換は、Ｙ値との関数によって与えられる。

＜６−１．変換例１：図２１（線形変換）＞
図２１は、図１１の条件のままで、図１１の平行四辺形ＡＢＣＤを長方形ＡＢＣＤに変換したものである。特に、Ｙ＝Ｘの直線に平行な線を、Ｙ軸値を保ったままＹ軸と平行な線に変換したものである。すなわち、変換前の点の座標を（Ｘ，Ｙ）とおくと、変換後の点の座標（Ｘ′，Ｙ′）は、

で表わされる。但し、式中でconst＝０のとき、図１１の平行四辺形ＡＢＣＤのうちの独創的着目語領域ａはＸ′＜０なる領域に変換されて収まる。一方、式中でconst＝β_２／２のとき、同領域はＸ′≧０なる領域に変換されて収まる。図２１はconst＝β_２／２の場合を示している。

図２１から、独創的着目語領域ａに「欲求」「ホログラム」「絵」「プラスチック」「外面」などの特徴索引語を見つけ、専門語領域ｂには特徴索引語を見出せず、類似文書群規定語領域ｃに「コンテンツ」「編集」などの特徴索引語を見つけることができる。

図２１のように表わされたマップを調査対象文書の評価者が観察したとき、マップが図１１などのように平行四辺形ではなく、長方形に分かれているので、特徴索引語をより的確に評価できる。

＜６−２．変換例２：図２２（スケール変換）＞
図２２は、図１１の条件のままで、図１１のＸ値を、Ｙ軸から辺ＢＣにかけてのＸ軸方向に沿った長さに対する比率で、スケール変換したものである。すなわち、変換前の点の座標を（Ｘ，Ｙ）とおくと、変換後の点の座標（Ｘ′，Ｙ′）は，

で表わされる。これは一次双曲変換である

の特別な場合に相当する。

図２２から、独創的着目語領域ａに「プラスチック」「外面」「ホログラム」「絵」などの特徴索引語を見つけ、同じく専門語領域ｂには、該当する特徴索引語を見つけることができず、又同じく類似文書群規定語領域ｃには、「コンテンツ」「編集」などの特徴索引語を見つけることができる。

図２２では、マップの左上方に索引語の不存在領域が残っているが、右方の存在領域の境界線は垂直になっている。従って、図２２のように表わされたマップを調査対象文書の評価者が観察したとき、特に類似文書群規定語領域ｃの特徴索引語をより的確に評価できる。

＜６−３．変換例３：図２３（下半部双曲変換）＞
図２３は、図１１の条件のままで、図の上半分の平行四辺形には変換例１の式を適用し、図の下半分には変換例２の式を適用して変換（複合変換）したものである。すなわち、変換前の点の座標を（Ｘ，Ｙ）とおくと、変換後の点の座標（Ｘ′，Ｙ′）は、

で表わされる。

図２３から、独創的着目語領域ａに「絵」「ホログラム」「外面」「プラスチック」「欲求」などの特徴索引語を見つけ、同じく専門語領域ｂには、該当する特徴索引語を見つけることができず、又同じく類似文書群規定語領域ｃには、「コンテンツ」「編集」などの特徴索引語を見つけることができる。

図２３では、マップ左右の索引語の不存在領域が解消され、境界領域がいずれもＸ軸に垂直になっている。従って、図２３のように表わされたマップを調査対象文書の評価者が観察したとき、各領域の特徴索引語をより的確に評価できる。

図２４は、調査対象文書ｄとして「抗腫瘍剤」に関する公開特許公報を２件選び、図２３と同じ方法で変換（複合変換）したときの、マップ表示の具体例である。
図２４でも、図２３と同様に、マップ左右の索引語の不存在領域が解消され、境界領域がいずれもＸ軸に垂直になっている。従って、各領域の特徴索引語をより的確に評価できる。

図２４には、独創的着目語領域ａ、専門語領域ｂ、類似文書群規定語領域ｃ、一般語領域ｄの存在位置を示す枠線が表示されている。このように各領域の存在位置をマップ上に表示することにより、各特徴索引語が属すべき領域をわかりやすく示すことができる。
各領域の存在位置の表示形態は枠線に限らず他の表示形態でも良いし、各領域の存在位置の表示に加えて「独創的着目語領域」等の具体的呼称を表示しても良い。また、枠線などにより各領域の存在位置をマップ上に表示することは、本実施例３のように座標値に対する変換を施す場合に限らず、他の実施例において行っても良い。

各領域の存在位置をマップ上に表示して出力するには、例えば、各領域を示す枠線のみのデータを予め条件記録部３１０に保持しておき、マップ・リスト・コメント複合出力部４４０においてこれを読み出し、特徴索引語のマップ表示と重ね合わせて出力する。なお、処理すべきデータによってＩＤＦ（Ｓ）の上限値などが相違し、マップの大きさが異なる場合もあるので、得られるマップに合わせて枠線データの縦横長さを調整することが望ましい。また、本実施例３のように座標値に対する変換を施す場合は、そのような変換で得られる座標位置に適合した枠線データを予め準備しておくことが望ましい。

図２４から、独創的着目語領域ａに「脆弱」「ユニーク」「集積」などの特徴索引語を見つけ、同じく専門語領域ｂには、「ＺｎＰＰ」「ヘムオキシゲナーゼ」「プロトポルフィリン」などの特徴索引語を見つけ、又同じく類似文書群規定語領域ｃには、「腫瘍」「酵素」「細胞」などの特徴索引語を見つけることができる。

＜６−４．変換例４＞
上述の変換例以外にも、マップの観察を容易にする方法として、例えば、データを標準化する方法も可能である。すなわち、変換前の点の座標を（Ｘ，Ｙ）とし、Ｘの平均をｍ（Ｘ）、Ｘの標準偏差をσ（Ｘ）としたとき（Ｙも同様とする）、変換後の点の座標（Ｘ′，Ｙ′）を、

で与える。
この変換により、Ｘ及びＹの平均値にＸ′軸及びＹ′軸が配置されるので、４領域への区分を容易にすることができる。

＜７．実施例４：自己組織化マップの応用＞
自己組織化マップ（ＳＯＭ：Self-Organization Map）は、多数のデータを予備知識なしにクラスタリングできる技術である。このＳＯＭの手法は、例えば、論文 Self-Organization Semantic Maps, H.Ritter and T.Kohonen, Biol. Cybern. 61(1989)241-254、或いは書籍 Self-Organizing Maps, T. Kohonen (Springer-Verlag, 1995) に開示されている。

図２５は、以下の説明の理解を容易にするために、図１０を書き直した図である。図２５において、各座標値は図１１と同じ方法により得られた座標値である。同図において、点（０，β_２／２）をＴとし、Ｔを通る傾き１の直線Ｙ＝Ｘ＋β_２／２と直線ＢＡの延長との交点をＴ′とする。また、ＡＤの中点をＦとし、ＢＣの中点をＧとする。さらに、ＡＢの中点をＨとし、ＦＧの中点をＩとし、及びＤＣの中点をＪとする。

今、抽出された特徴索引語（キ−ワ−ド）ｗ_ｉがＮ_ｓ個（ｉ＝１，・・・，Ｎ_ｓ）あるとする。これらＮ_ｓ個の特徴索引語ｗ_ｉは、平行四辺形ＡＢＣＤ内又は五角形ＢＣＤＴＴ′内の領域に点在して分布する。しかし、これらの索引語がどの領域に属するのか、或いはどこにも属さないのか、一見して分類することは困難である。また、この平行四辺形は、斜めに傾いた形状であるので、評価者が特徴索引語の性格を即座に的確に読み取るのは困難である。

そこで、これら特徴索引語の座標点（Ｘ_ｉ，Ｙ_ｉ）を、それらの性格をより簡単かつ的確に読み取ることが出来るような形態のマップ表示に変換した方がよい。その一つの手法として、この傾斜した平行四辺形の各頂点Ａ、Ｂ、Ｃ、及びＤに近い領域に分布する特徴索引語を、四つの領域に自動的に分けてマップ表現できれば、これら特徴索引語の性格が一目瞭然となり、従って、評価者が的確に特徴索引語の性格を読み取ることが出来る。このようなマップ表現を実現させる一つの手法として、ＳＯＭを応用した以下の変換方法を用いる。

＜７−１．自己組織化マップの応用例１：図２６、図２７＞
上述したＮ_ｓ個の特徴索引語の座標点（Ｘ_ｉ，Ｙ_ｉ）をこのマッピング処理の入力ベクトルＫ（ｗ_ｉ）とする。このＸ−Ｙ平面中に、参照点Ｕ_ｊ（ｗ_ｉ；ｔ）を、任意の個数だけ任意の座標値として、取る。但し、この応用例１では、ｊ：０，１，２，３，４，５，６，７，８，９，１０の１１点を取って、参照点を１１点斜方格子の座標点として考える。この１１点の初期値を、それぞれ図２５中のＡ，Ｂ，Ｃ，Ｄ，Ｆ，Ｇ，Ｈ，Ｉ，Ｊ，Ｔ，Ｔ′に対応する座標値（ｍ１_ｊ，ｍ２_ｊ）とする。

図２６は、自己組織化マップの応用例１における参照点の初期値を一例として示す図である。応用例１のマップ作成条件において、図２６に示すように、参照点Ｕ_ｊ（ｗ_ｉ；ｔ）の初期値は、ｊ：０〜１０に対応して、それぞれ、０（０，０）、１（α／２，０）、２（α，０）、３（α／２＋β_２／２，β_２／２）、４（α＋β_２／２，β_２／２）、５（α／２＋β_２，β_２）、６（β_１，β_２）、７（β_２／２，β_２／２）、８（β_２，β_２）、９（０，β_２／２）、１０（β_２／２，β_２）とする。

参照点の初期値を設定したら、入力ベクトルＫ（ｗ_ｉ）で与えられた各索引語ｗ_ｉにつき、各入力点から最近接の参照点Ｕ_ｊ（ｗ_ｉ；ｔ）の座標を、下記の更新則により、各索引語ｗ_ｉに近づくように値を更新する。なお、上記Ｕ_ｊ（ｗ_ｉ；ｔ）の括弧内は各索引語ｗ_ｉに対する依存性及び更新ステップ数ｔへの依存性を示している。このような更新をＴ_Ｆ回例えば１０００回繰り返す。

こうして各索引語ｗ_ｉにつき更新された最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）に基づいて、写像Ｒ_ｊ＝（ｒ１_ｊ（ｗ_ｉ），ｒ２_ｊ（ｗ_ｉ））を与える。特に、最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）のうち、各索引語ｗ_ｉの座標から最近接の参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）に基づいて与えられる写像Ｒ_ｊが、マップへの出力座標となる。

更新則は、例えば次の通りとする。

但し、ｔは更新ステップ回数の依存性を示す。また、δ_{｛ｊ，０｝}は、クロネッカのδであり、ｊ＝０のときδ_{｛ｊ，０｝}＝１、ｊ≠０のときδ_{｛ｊ，０｝}＝０を意味する。また、ＡｒｇＭｉｎ_ｊ（ｘ）は、ｘが最小となるｊを返す関数である。なお、近傍サイズを、σ（ｔ）＝κ（ｔ）としたのは、σ（ｔ）の函数形の詳細な項がこの変換の出力結果に大きな影響を与えないので、簡略化が可能なためである。

このような条件において、Ｕ座標からＲ座標へと座標変換する。すなわち、Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）＝（ｍ１_ｊ（ｗ_ｉ；Ｔ_Ｆ），ｍ２_ｊ（ｗ_ｉ；Ｔ_Ｆ））をＲ_ｊ（ｗ_ｉ）＝（ｒ１_ｊ（ｗ_ｉ），ｒ２_ｊ（ｗ_ｉ））に変換する。この変換方法には何通りかの方法があるが、例えば、索引語の存在領域の境界線が垂直となるように、以下のようにして行う。すなわち、

但し、γ＝β_２−αとおいた。
また、Ｒ_ｊのｊは、Ｋ（ｗ_ｉ）とＵ_ｊ（ｗ_ｉ；Ｔ_Ｆ）との距離が最も小さい値をとるｊとする。また、上式でｒ１_ｊ＜０となった場合は、ｒ１_ｊ＝０とするのが好ましい。

上述の変換によって、最近接の参照点Ｕ_ｊに基づく写像Ｒ_ｊが、特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）に基づき写像された新たな座標値（Ｘ′，Ｙ′）となる。

このようなマップ形成条件としての、ｊ個の参照点の座標値、更新ステップ数、更新則、学習係数及びＵ座標系からＲ座標系へ変換条件は、予め条件記録部に格納しておいて、入力装置からの指示により、条件記録部３１０から読み出して来て、上述のマップ作成の演算を行えば、最終的にＩＤＦ座標系の座標値は、Ｒ座標系の座標値へと写像される。このマップ作成の演算につき説明する。

本実施例４の上述した変換処理は、特徴索引語抽出部１８０で行う。この変換処理を行うには、まず、入力装置２からの指令により、条件格納部３１０から更新則を読み出す。

続いて、入力装置２からの指令により、実施例１と同様の抽出方法によって得られるＩＤＦ平面の座標系を作業結果格納部３２０から読み出してきて表示させる。表示画面を見ながら、ＩＤＦ平面に分布している特徴索引語をＮ_ｓ個指定して入力値を設定する。さらに、入力装置２からの指令により、更新回数Ｔ_Ｆを設定する。

これらの設定が終了すると、自動的に或いは入力装置からの演算開始指令により、マップ作成の演算を開始して、Ｎ_ｓ個の特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）は、最終的に、Ｒ座標の座標値へと写像される。

図２７は、一例として、図１１の各座標点に対し上述の変換を行って得たマップを示す図である。図２７からも理解出来るように、各座標点は、二つの直線ａ−ａ及びｂ−ｂによって分けられた４つの長方形の領域に分離されることがわかる。

＜７−２．自己組織化マップの応用例２：図２８、図２９＞
この変換は応用例１に類似する例である。応用例１では入力ベクトルＫ（ｗ_ｉ）として特徴索引語の座標点（Ｘ_ｉ，Ｙ_ｉ）をそのまま用いたが、本応用例２では各座標点の値に対して予め変換を施し、入力ベクトルとして、
Ｋ（ｗ_ｉ）＝（Ｙ_ｉ，Ｙ_ｉ−Ｘ_ｉ＋α）
を用いる。
この変換により入力ベクトルＫ（ｗ_ｉ）はほぼ直線Ｙ＝α＋β_２／２、Ｘ＝β_２、Ｘ軸及びＹ軸で囲まれる矩形領域内に分布することになる。そこで参照点の初期値もこの領域内に分布させる。

図２８は、応用例２で用いる参照点の配置例を示しており、これら１１個の参照点に０番から１０番までの番号を付して示してある。各参照点の初期値は、横軸上の（β_２／６，０）（β_２／２，０）（５β_２／６，０）の各点をそれぞれ通る直線と及び縦軸上の（０，α／６）（０，α／２）（０，５α／６）（０，α＋β_２／４）の各点を通る直線との１１個の交点での座標値である。

そして、応用例１と同様の更新則に従い、各索引語ｗ_ｉにつき参照点Ｕ_ｊ（ｗ_ｉ；ｔ）をＴ_Ｆ回更新する。

Ｕ座標からＲ座標（ｒ１_ｊ（ｗ_ｉ），ｒ２_ｊ（ｗ_ｉ））への座標変換は、出力座標の存在点を直線Ｘ＝α＋β_２／２、Ｙ＝β_２、Ｙ軸及びＸ軸で囲まれる矩形領域内に分布させるように、すべてのｊに対して、以下のようにして行う。

このような変換処理によって、最近接の参照点Ｕ_ｊに基づく写像Ｒ_ｊが、特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）に基づき写像された新たな座標値（Ｘ′，Ｙ′）となる。

図２９は、一例として、図１１の各索引語の座標点に対し、上述した変換処理を行った結果を示す図である。この変換処理によって得られた各座標点は、二つの直線ａ−ａ及びｂ−ｂによって分けられた四つの長方形の領域に分離されることが分かる。また、図２７の新たな座標系の場合と同様に、図１１の左上領域に示した空白領域に対応する空白領域が解消していることが分かる。

＜７−３．自己組織化マップの応用例３：図３０、図３１＞
この変換も応用例１に類似する例である。まず、図１１の各索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）に対して、実施例３で説明したスケール変換を行って入力ベクトルＫ（ｗ_ｉ）とする。そしてこの例では、新たな１６個の参照点を用いて、応用例１と同様の変換処理を行う。

図３０は、この１６個の参照点を示しており、この座標系において、１６個の参照点に０番から１５番までの番号を付して示してある。各参照点の座標値は、横軸上に（β_１／８，０）（３β_１／８，０）（５β_１／８，０）（７β_１／８，０）の各点をそれぞれ通る直線と及び縦軸上の（０，β_２／８）（０，３β_２／８）（０，５β_２／８）（０，７β_２／８）の各点を通る直線との１６個の交点である。

この１６点格子を用いた変換の場合には、入力ベクトルとして

を用いることで、予めスケール変換を施し索引語の存在領域の境界線を垂直にしておく。そして、応用例１と同様の更新則に従い、各索引語ｗ_ｉにつきＵ_ｊ（ｗ_ｉ；ｔ）をＴ_Ｆ回更新する。

Ｕ座標からＲ座標（ｒ１_ｊ（ｗ_ｉ），ｒ２_ｊ（ｗ_ｉ））への座標変換は、すべてのｊに対して、以下のように行う。
ｒ１_ｊ（ｗ_ｉ）＝ｍ１_ｊ（ｗ_ｉ；Ｔ_Ｆ）
ｒ２_ｊ（ｗ_ｉ）＝ｍ２_ｊ（ｗ_ｉ；Ｔ_Ｆ）

このような１６点の参照値を用いた変換処理によって、最近接の参照点Ｕ_ｊに基づく写像Ｒ_ｊが、特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）に基づき写像された新たな座標値（Ｘ′，Ｙ′）となる。

図３１は、一例として、図１１の各索引語の座標点に対し、上述した１６点の参照値を用いた変換処理を行った結果を示す図である。この変換によって得た各座標点は、直線ａ２−ａ２と、直線ｂ２−ｂ２により分けられる４つの長方形の領域に配置されることが分かる。

＜７−４．自己組織化マップの応用例４：図３２＞
この変換も応用例１に類似する例である。応用例１〜３では入力ベクトルＫ（ｗ_ｉ）及び参照点Ｕ_ｊ（ｗ_ｉ；ｔ）が２次元であったのに対し、本応用例では入力ベクトル及び参照点を、２＋Ｎ_ｓ次元とする。

まず、入力ベクトルＫ（ｗ_ｉ）は、特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）と、当該特徴索引語とＮ_ｓ個の特徴索引語の各々との共起度を用いたベクトルＶ_ｉを用いて、
Ｋ（ｗ_ｉ）＝（Ｘ_ｉ，Ｙ_ｉ，Ｖ_ｉ）
で表現する。
ここで共起度ベクトルＶ_ｉは、共起度行列の成分Ｃｏ（ｉ，ｉ′）から得られる共起データＣｏ_{｛ｉｉ′｝}（但し、ｉ′＝１，２，・・・，Ｎ_ｓ）を用いて、
Ｖ_ｉ＝（Ｃｏ_｛ｉ１｝，Ｃｏ_｛ｉ２｝，・・・，Ｃｏ_｛ｉNs｝）
で表現されるＮ_ｓ次元ベクトルとする。

ここで共起度行列の成分Ｃｏ（ｉ，ｉ′）は、

とする。ＴＦ（ｗ，sen）はセンテンスsen中での索引語ｗの出現頻度、τは冪、μは重みを表す。ここでは例えばτ＝１／２、μ＝１を選ぶ。
ＴＦ（ｗ，sen）は、センテンスsen内に索引語ｗが出現する場合は１以上の数となり、出現しない場合は０となるから、上記ＴＦ(ｗ_ｉ，sen)^τ×ＴＦ(ｗ_ｉ′，sen)^τ×μ_ｉ×μ_ｉ′は、同一センテンスsen内に特徴索引語ｗ_ｉと特徴索引語ｗ_ｉ′が共に出現する（共起する）場合は１以上の数となり、一方又は双方が出現しない（共起しない）場合は０となる。これを調査対象文書ｄ内のすべてのセンテンスsenにつき合計したものが、共起度行列の成分Ｃｏ（ｉ，ｉ′）である。
なお、τ＝１／２、μ＝１を選んだのは、共起度行列の対角成分Ｃｏ（ｉ，ｉ）をＴＦ（ｗ_ｉ，ｄ）とするためである。

共起度ベクトルＶ_ｉの成分である共起データＣｏ_{｛ｉｉ′｝}は、共起度行列の成分Ｃｏ（ｉ，ｉ′）をｉ′に関する平均で標準化したものを、Ｖ_ｉの次元数Ｎ_ｓの平方根で除したものであり、以下のように表現される。

ここで、（１／Ｎ_ｓ）Σ_ｉ′＝１ ^NsＣｏ（ｉ，ｉ′）は、Ｃｏ（ｉ，ｉ′）のｉ′＝１，２，・・・，Ｎ_ｓに関する平均である。
また、σ（Ｃｏ（ｉ，ｉ′））は、Ｃｏ（ｉ，ｉ′）のｉ′＝１，２，・・・，Ｎ_ｓに関する標準偏差である。
このように共起度行列の成分Ｃｏ（ｉ，ｉ′）を標準化し、かつ次元数Ｎ_ｓの平方根で除して共起度ベクトルＶ_ｉの成分Ｃｏ_{｛ｉｉ′｝}を得ることにより、共起度ベクトルＶ_ｉの大きさは１となる。

入力ベクトルとしては、上記Ｋ（ｗ_ｉ）＝（Ｘ_ｉ，Ｙ_ｉ，Ｖ_ｉ）で表される２＋Ｎ_ｓ次元ベクトルのうち、Ｘ_ｉやＹ_ｉの部分については応用例２又は応用例３のような変換を施したものを用いてもよい。但し、ここでは上記Ｋ（ｗ_ｉ）＝（Ｘ_ｉ，Ｙ_ｉ，Ｖ_ｉ）をそのまま用いるものとして説明する。

次に参照点Ｕ_ｊ（ｗ_ｉ；ｔ）の初期値は、上記応用例１の参照点の初期値の座標（ｍ１_ｊ，ｍ２_ｊ）を用いて、
（ｍ１_ｊ，ｍ２_ｊ，Ｌ_ｊ）
で表現する。ここでＬ_ｊはＮ_ｓ次元ベクトルで、各成分は区間［０，１］のランダム値をとるものとする。

次に応用例１と同様に、入力ベクトルＫ（ｗ_ｉ）で与えられた各索引語ｗ_ｉにつき、各入力点から最近接の参照点Ｕ_ｊ（ｗ_ｉ；ｔ）の座標をＴ_Ｆ回更新する。更新則も、例えば応用例１で用いた上記［数６］を用いる。

そして、各索引語ｗ_ｉにつき更新された最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）のうち、各索引語ｗ_ｉの入力ベクトルから最近接の参照点に基づいて、写像Ｒ_ｊ＝（ｒ１_ｊ（ｗ_ｉ），ｒ２_ｊ（ｗ_ｉ））を与える。Ｕ座標からＲ座標へと座標変換も、例えば応用例１で用いた上記［数７］を用いる。
ここで応用例１と異なる点は、応用例１では最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）が２次元であったのに対し、本応用例４では最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）は２＋Ｎ_ｓ次元である点である。しかし本応用例４においても、最終ステップの参照点Ｕ_ｊ（ｗ_ｉ；Ｔ_Ｆ）のうち２つの成分ｍ１_ｊ（ｗ_ｉ；Ｔ_Ｆ）、ｍ２_ｊ（ｗ_ｉ；Ｔ_Ｆ）のみを用い、２次元の写像Ｒ_ｊを得るので、上記［数７］の変換式をそのまま用いることができる。こうして得られる写像Ｒ_ｊが、特徴索引語の座標値（Ｘ_ｉ，Ｙ_ｉ）に基づき写像された新たな座標値（Ｘ′，Ｙ′）となる。

本応用例４では、入力ベクトルに共起度を用いた成分を加えているので、共起度の類似する特徴索引語ｗ_ｉ同士では参照点Ｕ_ｊ（ｗ_ｉ；ｔ）の更新過程が類似の挙動を示す。このため、Ｒ座標上に写像したときに、共起度の類似する特徴索引語同士は、共起度を考慮しない応用例１〜３のような場合に比べて近い位置に写像されることになる。
但し、本実施例の主目的は共起度又はその類似性そのものを示すことではなく、むしろＩＤＦ（Ｐ）とＩＤＦ（Ｓ）の関係を用いて調査対象文書の特徴を分析することに重きがあるので、最終的な結果に共起度が及ぼす影響は小さくてよい。上記［数１１］において共起度ベクトルＶ_ｉの各成分を求める際に次元数Ｎ_ｓの平方根で除したのはこのためである。なお、上記［数１０］においてτ＝１としても良いが、このように次元数Ｎ_ｓの平方根で除しているので、τ＝１／２の場合とあまり変わらない結果となる。

図３２は、一例として、図１１の各索引語の座標点に対し、上述した共起度を加えた２＋Ｎ_ｓ次元ベクトルを用いた変換処理を行った結果を示す図である。この変換によって得た各座標点は、直線ａ−ａと、直線ｂ−ｂにより分けられる４つの長方形の領域に配置される。上記応用例１の結果である図２７と比較すると、図２７では例えば特徴索引語「料金」が一般語領域に分類され、特徴索引語「所望」が類似文書群規定語領域に分類されたのに対し、図３２では特徴索引語「料金」が類似文書群規定語領域に分類され、特徴索引語「所望」が一般語領域に分類された。このように図３２では、調査対象文書の特徴をより把握し易い分類が実現された。

＜７−５．自己組織化マップの応用例５＞
上述の自己組織化マップの応用例１〜４により、各索引語がどの領域に属するかが明確になるので、そのデータを実施例１のような索引語リストやコメントの自動生成に用いることができる。例えば、自己組織化マップの応用例１〜４により得られた索引語のデータと、図１２，図１４，図１６の索引語リストを生成するためのデータとをＡＮＤ検索することにより、各領域に属する索引語を適切なものに絞り込むことができる。

なお、以上の実施例１〜４では、最も好ましい例として類似文書群Ｓを比較対象文書群Ｐの中から選出する場合を説明したが、類似文書群Ｓの選出元となる選出源文書群は、比較対象文書群Ｐ以外の文書群であってもよい。この場合、類似文書群Ｓは比較対象文書群Ｐの部分集合ではなくなるので、実施例３のスケール変換等をしても索引語の存在領域の境界線が垂直にはならない可能性がある。また、類似文書群Ｓを選出するための選出源文書群を、比較対象文書群Ｐとは別に入力する必要が生じる。しかし、それ以外は上記各実施例において説明したのと同様の作用及び効果を奏することができる。

＜８．実施例５：図３３〜図３７（索引語位置付けデータの集約）＞
次に、文書分布による文書特徴の分析及び文書群の性格付けについて説明する。実施例１〜４までは索引語分布による文書ｄの性格付けを行うものであるのに対し、本実施例は索引語情報（ミクロ情報）を文書情報（マクロ情報）に集約するとともに、調査対象を複数の文書からなる文書群に拡張する。調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付けや、調査対象文書群全体としての傾向を専門性や独創性といった観点から分析することのできる文書の特徴分析装置は、これまで知られておらず、本実施例はそれを実現するものである。
本実施例の文書特徴分析装置は、以下に説明する他は実施例１〜４の特徴索引語抽出装置と同様の構成を有する。以下では実施例１の特徴索引語抽出装置との相違点を主として説明する。

特徴索引語のマップ上の分布により調査対象文書の性格を分析する代わりに、本実施例の文書特徴分析装置により大きな観測スケールを導入して、文書の分布により調査対象文書群を分析するには、次の置き換えを行なえばよい：
索引語 → 調査対象文書群の各文書；
索引語の（ＩＤＦ（Ｐ），ＩＤＦ（Ｓ））ベクトル → 調査対象文書群の各文書における索引語の（ＩＤＦ（Ｐ），ＩＤＦ（Ｓ））ベクトルの平均；
調査対象文書ｄ → 調査対象文書群；
類似文書群Ｓ → 調査対象文書群と共通の属性を有する文書群である同類文書群Ｓ。

ここでは例として、調査対象文書群を１つの調査対象企業の文書群とし、同類文書群Ｓを当該企業と同じ業界に属する企業群の文書群とした場合について説明する。
本実施例でも特許文書を例にとると、例えば比較対象文書群Ｐを全特許文書群とし、調査対象企業と同業界に属する企業群の特許文書群である同類文書群Ｓを選出する。そして、調査対象企業の文書ｄについて、索引語のそれぞれにつきＰ及びＳにおけるＩＤＦ演算をし、各文書ｄにおけるそれらの平均値などによる中心点を算出し、この値をもって各文書ｄのＸＹ座標とする。当該企業の文書ｄの座標をＸＹ平面にマップすると、当該企業の文書分布が得られる。

＜８−１．実施例５の構成及び作用＞
図３３は、実施例５の文書特徴分析装置のハードウェア構成を示す図である。図３４は、当該装置の処理装置１の動作を示すフローチャートであり、図３５は、当該装置の出力装置４におけるマップ出力の動作を示すフローチャートである。

実施例１の類似文書群Ｓと異なり実施例５の同類文書群Ｓは類似度に基づいて選出されるものではない。よって図３３に示すように、図２の類似度演算部１５０は不要であり、従って図２のＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１も不要である。同様に、図３４に示すように、図４の類似度演算ステップＳ１５０は不要であり、図４のＴＦ（ｄ）演算ステップＳ１２１、ＴＦ（Ｐ）演算ステップＳ１４１も不要である。

同類文書群Ｓの選出は、入力装置２の抽出条件その他入力部２３０で入力された条件に従い、例えば以下のように行う。すなわち、業界分類から調査対象企業と同業界の企業を検索する場合は、まず条件記録部３１０に、主要企業名及びそれらの「標準産業分類」又はその他の業界分類を記憶させておく。そして、同業界企業検索部１５５により調査対象企業と同業界に属する企業名を検索する。検索された企業名をキーとして、同類文書群Ｓ選出部１６０が比較対象文書群Ｐの書誌データを対象に検索することで、同類文書群Ｓを選出する。
なお、同類文書群Ｓ選出部１６０は、上記同業界の文書群から更に一定条件で絞り込んで、同類文書群Ｓとしても良い。

同類文書群Ｓ選出部１６０は、こうして選出された同類文書群Ｓを索引語（Ｓ）抽出部１７０等に出力する。索引語（Ｓ）抽出部１７０は、同類文書群Ｓの入力を受けたら索引語（Ｓ）を抽出し、ＩＤＦ（Ｓ）演算部１７１等に送る。ＩＤＦ（Ｐ）演算部１４２及びＩＤＦ（Ｓ）演算部１７１の演算結果をもとに、中心点算出部１７３で中心点の算出を行う。

また、実施例５は文書分布マップの出力を主目的としている。実施例１のようなリスト出力を行わない場合は、図３３に示すように図２のリスト出力条件読み出し部４２０、リスト用データ取り込み部４２２は不要である。同様に、図３５に示すように図５のリスト出力条件読み出しステップＳ４２０からリスト生成ステップＳ４２３までの各ステップも不要である。実施例１のようなコメント出力を行わない場合は、図２のコメント追記条件読み出し部４３０、コメント追記部４３２は不要である。同様に、図５のコメント追記条件読み出しステップＳ４３０からコメント生成ステップＳ４３３までの各ステップも不要である。

調査対象企業の各文書における中心点の座標値は、各索引語ｗ_ｉの座標値に、ＴＦ重率：
ρ（ｗ_ｉ）＝ＴＦ（ｗ_ｉ；ｄ）／Σ ＴＦ（ｗ_ｉ；ｄ）
で重み付けをした平均値であることが望ましいが、これに限られるものではなく単純平均値を用いてもよい。

調査対象企業の文書数が膨大にある場合、代表的な文書に絞ってマップに出力する方が調査対象企業の文書群としての傾向を把握し易くする上で好ましい。そこで、調査対象文書群の中から、当該調査対象文書群に対して類似性の高い文書と、当該調査対象文書群に対して類似性の低い文書とを文書抽出部１８０にて抽出して出力する。

調査対象文書群に対する各文書の類似性の判定は、例えば、各文書ｄにつき、各索引語ｗ_ｉで調査対象文書群を検索したときのヒット文書数ＤＦ（ｗ_ｉ，Ｅ０）の平均値（１／ｄ_Ｎ）｛ＤＦ（ｗ_１，Ｅ０）＋ＤＦ（ｗ_２，Ｅ０）＋・・・＋ＤＦ（ｗ_ｄＮ，Ｅ０）｝を算出し、この平均値の高い文書（ｄ_Ｎは当該文書ｄ内の索引語数）を「類似」、低い文書を「非類似」とする。抽出の方法としては、例えば上記平均値の昇順及び降順の一定数を抽出する方法、また例えば上記平均値を調査対象文書群の文書数で除したものをＺとしたときに、「全Ｚの平均値＋全Ｚの標準偏差」以上のＺをとる文書と、「全Ｚの平均値−全Ｚの標準偏差」以下のＺをとる文書とを抽出する方法などが考えられる。

ここで述べた類似性の判定による代表的文書への絞り込みは、調査対象文書群を絞り込むのに使うほか、同類文書群Ｓを選出する際の絞り込みにも使うことができる。すなわち、同業界の文書群の各文書につき、各索引語で上記同業界の文書群を検索したときのヒット文書数の平均値を算出し、この平均値の高い（類似）文書及び低い（非類似）文書に絞り込んで同類文書群Ｓとして選出する。なお、同類文書群Ｓを選出する際の絞り込みは、類似性の判定によるほか、同業界の文書群から無作為抽出することにより行っても良いし、ＩＰＣで絞り込んでも良い。

＜８−２．マップ出力例＞
図３６は、調査対象文書群である企業１社の全文書のうち、類似性の高い文書２０件、及び類似性の低い文書２０件について、業界内における位置付けによる文書特徴を示した図である。この図は、本発明における企業の文書特徴表現図に相当する。図３６では、各文書の中心値として、単純平均値を使った。該企業の文書ｄをＩＤＦ平面図にマップすると、企業の文書の分布が得られる。

こうして得られたマップでは、直線Ｙ＝（β_２／β_１）Ｘより上の領域に、殆どの文書の座標が分布する（β_１は比較対象文書群Ｐの文書数Ｎに基づくＸ座標の最大値lnＮ、β_２は同類文書群Ｓの文書数Ｎ′に基づくＹ座標の最大値lnＮ′である）。そのうちＹ＝Ｘより左上の領域には独創的着目語の多い文書が現れ、Ｘ＝β_１−β_２より右の領域には専門語の多い文書が現れる。その間の領域には標準的な文書が現れるので、どの領域に文書が多く分布するかにより、企業の文書の傾向を把握することができる。

Ｙ＝Ｘより左上の領域に現れる文書が独創的着目語の多い文書であると評価できる理由を説明する。同類文書群Ｓに大量の文書を加える時のＤＦ値変化は、ＤＦ値の増加率が文書数の増加率と同等であるものと、ＤＦ値が殆ど変化しないものと、ＤＦ値が急激に増加するものと、の三種類に分類される。それぞれの場合のＩＤＦ変化は、順に、変化なし、増加、減少、となるので、同類文書群Ｓに大量の文書を加えたときのＩＤＦ平面上の索引語分布は、直線Ｙ＝Ｘ方向へ移動し易い傾向を持つ。ここでは各文書での平均をとっているので、一層直線Ｙ＝Ｘ方向へと近づく傾向が現れる。この傾向は、Ｙ＝Ｘより上方の領域には独創的着目語の多い文書が現れるということを示唆する。
また、Ｘ＝β_１−β_２より右の領域に現れる文書が専門語の多い文書であると評価できる理由を説明する。類似文書群規定語領域ｃの索引語座標と一般語領域ｄに属する索引語座標の平均をとった場合、類似文書規定語領域ｃの端点Ｃ（β_１−β_２，０）のＸ座標値がおよそ最大値であると考えられる。従って、Ｘ＝β_１−β_２より右の領域には標準的な文書は現れず、専門語の多い文書であると評価できる。
以上より、残りのＹ≦Ｘで且つＸ≦β_１−β_２の領域が、標準的な文書の領域となる。

また、直線Ｙ＝（β_２／β_１）Ｘより上の領域に、殆どの文書の座標が分布する理由を説明する。各文書の中心値の座標は索引語の平均値をとっていることから、一様性の仮定（ＤＦ（Ｐ）＝Ｎ／ｋ、ＤＦ（Ｓ）＝Ｎ′／ｋ、ｋ≧１）をとることができる。この一様性の仮定と平面座標の定義（Ｘ，Ｙ）＝（＜ＩＤＦ（Ｐ）＞_ｗ，＜ＩＤＦ（Ｓ）＞_ｗ）とから、Ｙ＝（β_２／β_１）Ｘ＋（α／β_１）lnｋが導かれる。これより、ｋ≧１を満たすｋに対してＹ≧（β_２／β_１）Ｘが成立する。

以上説明した傾向によれば、本実施例の文書特徴分析装置を利用して、人間が調査対象文書群や同類文書群などの内容を一切読むことなく、調査対象文書の大まかな位置付けや傾向を分析することができる。すなわち、調査対象文書群である企業の文書群のうち、特定の文書が業界において標準的な文書か、専門的性格を持つ文書か、或いは独創的性格を持つ文書かを知ることができる。また、調査対象文書群である企業の文書群のうち、標準的な文書を検出したり、専門的性格を持つ文書を検出したり、又は独創的性格を持つ文書を検出したりすることもできる。更に、調査対象文書群全体としての傾向を、標準的文書の多い文書群、独創的性質を持つ文書の多い文書群、或いは専門的性質を持つ文書の多い文書群というように評価することができる。

また、図３６では、調査対象文書群のうち、類似性の高い文書２０件、及び類似性の低い文書２０件を抽出してマップ出力している。このような抽出により、調査対象文書群に対する類似性が低く、且つ同類文書群Ｓに対する独創的性質又は専門的性質の高い文書は、特に独自性の高い文書だという評価をすることも可能である。また、調査対象文書群に対する類似性が低くても、同類文書群Ｓに対しては独創的性質又は専門的性質の低い、或いは標準的な文書は、既成概念や公知技術の組合せの可能性があるという評価も可能である。

図３７は、調査対象文書群として同業界に属する３社の文書群を選び、各社の文書特徴を示した図である。これらを比較すると、Ａ社、Ｃ社の文書には専門語の多い文書が多い傾向が見られ、Ｂ社の文書には独創的着目語の多い文書が多い傾向が見られる。この図は、本発明における企業の文書特徴表現図に相当する。このように調査対象文書群として複数の文書群を分析し、文書群相互の比較をすることで、文書群全体としての傾向をより的確に評価することができる。

＜８−３．実施例５の変形例１（同類文書群の選出）＞
以上の例では同類文書群Ｓとして調査対象企業と同業界に属する企業の文書群又はこれを更に絞り込んだ文書群を用いた場合を説明したが、同類文書群Ｓはこれに限られるものではない。例えば、調査対象企業の文書群と同分野に属する文書群をＩＰＣなどにより検索して同類文書群Ｓとしても良い。

ＩＰＣにより同分野に属する文書群を検索する場合は、図３３の処理装置１において、図示しないＩＰＣ抽出部を設け、このＩＰＣ抽出部により、調査対象企業の全特許文書の書誌データからＩＰＣを抽出する。多数のＩＰＣが抽出される場合は、該当文書数の最も多いＩＰＣを、上位所定数のみ抽出する。そして、抽出されたＩＰＣをキーとして、同類文書群Ｓ選出部１６０が比較対象文書群Ｐの書誌データを対象に検索することで、同類文書群Ｓを選出する。かかる選出条件は、例えば入力装置２の抽出条件その他入力部２３０で入力する。

こうして選出された同類文書群Ｓを用いることにより、調査対象企業の文書群について同一分野内の文書群における位置付けや傾向を分析することができる。

＜８−４．実施例５の変形例２（調査対象文書群の取り方１）＞
以上の例では調査対象文書群として調査対象企業の文書群を用いた場合を説明したが、調査対象文書群はこれに限られるものではない。例えば、不特定多数の特許文書群のうち同分野に属する文書群をＩＰＣなどにより検索して調査対象文書群としても良い。

例えば、調査対象文書群として、2000年に特許出願され、あるＩＰＣを付与された文書群を分析する場合を考える。同類文書群Ｓとして、例えば1980〜1999年に特許出願され、上記ＩＰＣと同じＩＰＣを付与された文書群を選出する。他の条件は上記と同じとして調査対象文書群を分析する。

これにより、当該ＩＰＣを付与された技術分野における2000年の出願動向が、過去20年と比べて独創的な方向にシフトしたのか、専門的な方向にシフトしたのか、標準的と言える範囲にとどまるのか、を評価することができる。また、当該ＩＰＣを付与された技術分野における2000年の出願のうち、特定の出願が過去20年の出願に対して独創的性質を持つのか、専門的性質を持つのか、標準的と言える範囲にとどまるのか、を評価することができる。また、当該ＩＰＣを付与された技術分野における2000年の出願の中から、過去20年の出願に対して独創的性質を持つ出願、専門的性質を持つ出願、或いは標準的と言える出願を検出することもできる。

更に、当該ＩＰＣを付与された技術分野における2000年の出願の分析結果を、他の調査対象文書群を用いた分析結果と比較することもできる。
例えば、調査対象文書群及び同類文書群Ｓの出願時期を上記と同じ2000年及び1980〜1999年とし、別のＩＰＣについて同様の分析を行う。こうして異なるＩＰＣ同士で比較することにより、技術の入れ替わりが激しい分野、成熟した分野等の評価をすることができる。
また例えば、調査対象文書群として、2001年に特許出願され、あるＩＰＣを付与された文書群を用い、同類文書群Ｓとして、1981年〜2000年に特許出願され、上記ＩＰＣと同じＩＰＣを付与された文書群を用いて分析する。この分析結果と、上記2000年を調査対象とした場合の分析結果とを比較する。これにより、同一技術分野における2000年の出願動向と2001年の出願動向とを比較することもできる。

＜８−５．実施例５の変形例３（調査対象文書群の取り方２）＞
また例えば、調査対象文書群として、あるＩＰＣ（例えばサブグループまで指定：A61K6/05など）を付与された文書群を分析する場合を考える。同類文書群Ｓとして、当該ＩＰＣの上位階層に相当するＩＰＣ（例えばメイングループまで指定：A61K6/など）を付与された文書群を選出する。他の条件は上記と同じとして調査対象文書群を分析する。

これにより、調査対象文書群のうち特定の文書が、上位階層ＩＰＣの文書群に対して特異な性質（独創語が多い、専門語が多い等）を有する文書なのか、或いは標準的と言える範囲にとどまる文書なのかを評価することができる。また、調査対象文書群の中から、上位階層ＩＰＣの文書群に対して特異な性質（独創語が多い、専門語が多い等）を有する文書を検出し、或いは標準的な性質を有する文書を検出することができる。

Claims

調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群の選出元となる選出源文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、
前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、
を備えた、索引語抽出装置。
請求項１において、
前記選出源文書群として前記比較対象文書群を用いる、索引語抽出装置。
請求項１又は請求項２において、
前記類似文書群選出手段は、
前記調査対象文書及び前記選出源文書群の各文書について、当該文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記選出源文書群における出現頻度の関数値を成分とするベクトルを算出し、
前記調査対象文書について算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記選出源文書群から選出して、類似文書群とする、索引語抽出装置。
請求項１乃至請求項３の何れか一項において、
前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力する、索引語抽出装置。
請求項１乃至請求項３の何れか一項において、
前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語と、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語と、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語と、をそれぞれ出力する、索引語抽出装置。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、
各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力する出力手段と、
を備えた、索引語抽出装置。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、
各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語と、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語と、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語と、をそれぞれ出力する出力手段と、
を備えた、索引語抽出装置。
請求項１乃至請求項７の何れか一項において、
前記比較対象文書群又は前記類似文書群における出現頻度の関数値は、当該出現頻度の逆数に、前記比較対象文書群又は前記類似文書群の総文書数を乗じたものの対数である、索引語抽出装置。
請求項１乃至請求項８の何れか一項において、
前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、前記索引語を配置し出力する、索引語抽出装置。
請求項４乃至請求項８の何れか一項において、
前記出力手段は、前記第１グループの索引語と、前記第２グループの索引語と、前記第３グループの索引語とを、それぞれリストして出力する、索引語抽出装置。
請求項４乃至請求項８の何れか一項において、
前記出力手段は、前記第１グループの索引語と、前記第２グループの索引語と、前記第３グループの索引語とを用いて、当該調査対象文書の解説文を自動生成して出力する、索引語抽出装置。
請求項１乃至請求項８の何れか一項において、
前記類似文書群の各文書は、前記比較対象文書群に含まれており、
前記出力手段は、前記比較対象文書群における出現頻度の関数値を、さらに変換して座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、前記索引語を配置し出力するものであって、
前記変換は、前記類似文書群が前記比較対象文書群の部分集合であることによる、前記索引語の前記座標上における存在可能領域の境界線が、前記第１軸と垂直に近づくように変換するものである、索引語抽出装置。
請求項１２において、
前記変換は、前記類似文書群における出現頻度との関数によって与えられる変換である、索引語抽出装置。
請求項１乃至請求項１３の何れか一項において、
前記調査対象文書内の各索引語の、当該調査対象文書における出現頻度を算出する索引語頻度算出手段を更に備え、
前記出力手段は、前記調査対象文書内の各索引語の当該調査対象文書における出現頻度を反映して出力する、索引語抽出装置。
請求項１乃至請求項８の何れか一項において、
前記出力手段は、各索引語につき、
前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記類似文書群における出現頻度の関数値を前記座標の第２軸にとった場合に、
前記座標上の複数の基準点のうち当該索引語に最も近い基準点に更に近づくように配置して座標上に出力する、索引語抽出装置。
請求項１乃至請求項８の何れか一項において、
座標上に複数の基準点の座標を設定する基準点設定手段と、
各索引語につき、前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記類似文書群における出現頻度の関数値を前記座標の第２軸にとった場合に、前記複数の基準点のうち当該索引語に最も近い基準点の座標データを、当該索引語に更に近づくように、所定回数にわたり更新する手段と、
前記更新された基準点に基づいて、当該索引語を配置する座標を算出する座標算出手段と、
を更に備え、
前記出力手段は、前記座標算出手段により算出された座標に基づいて、各索引語を前記座標に配置して出力する、索引語抽出装置。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群の選出元となる選出源文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出ステップと、
前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力ステップと、
を備えた、索引語抽出方法。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出ステップと、
各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力する出力ステップと、
を備えた、索引語抽出方法。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群の選出元となる選出源文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出ステップと、
前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力ステップと、
をコンピュータに実行させる、索引語抽出プログラム。
調査対象文書、前記調査対象文書と比較される比較対象文書群、前記調査対象文書に類似する類似文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出ステップと、
各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力する出力ステップと、
をコンピュータに実行させる、索引語抽出プログラム。
調査対象文書内の索引語について、
前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第２軸にとって配置した、調査対象文書の性格表現図。
調査対象文書内の索引語を配置した、調査対象文書の性格表現図であって、
第１エリアに、前記調査対象文書と比較される比較対象文書群においても、前記調査対象文書群に類似する類似文書群においても、出現頻度の低い第１グループの索引語を配置し、
第２エリアに、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語を配置し、
第３エリアに、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語を配置した、調査対象文書の性格表現図。
調査対象文書内の索引語を配置した、調査対象文書の性格表現図であって、
第３エリアに、前記調査対象文書と比較される比較対象文書群においても前記調査対象文書群に類似する類似文書群においても出現頻度の高い第４グループの索引語よりも、前記比較対象文書群における出現頻度が低い第３グループの索引語を配置し、
第２エリアに、前記第４グループの索引語よりも前記類似文書群における出現頻度が低い第２グループの索引語を配置し、
第１エリアに、前記第３グループの索引語よりも前記類似文書群における出現頻度が低く且つ前記第２グループの索引語よりも前記比較対象文書群における出現頻度が低い第１グループの索引語を配置した、調査対象文書の性格表現図。
複数の調査対象文書を含む調査対象文書群、各調査対象文書と比較される比較対象文書群、前記調査対象文書群と共通の属性を有する同類文書群、を入力する入力手段と、
前記各調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値、を算出する第３出現頻度算出手段と、
前記抽出された索引語の、前記同類文書群における出現頻度の関数値、を算出する第４出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値との組合せに基づき、前記各調査対象文書における中心点を算出する中心点算出手段と、
前記各調査対象文書における前記中心点のデータを出力する出力手段と、
を備えた、文書特徴分析装置。
請求項２４において、
各調査対象文書における前記中心点の算出は、
各索引語についての、前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値とに基づく各索引語の座標値に、当該文書内の索引語頻度値合計に対する各索引語の索引語頻度値の比で重み付けをした平均値である索引語座標の加重平均値を算出することによって行う、文書特徴分析装置。
請求項２４又は請求項２５において、
前記調査対象文書群のうち、当該文書群に対して類似性の高い文書と、当該文書群に対して類似性の低い文書とを抽出して前記中心点のデータを出力する、文書特徴分析装置。
複数の調査対象文書を含む調査対象文書群、各調査対象文書と比較される比較対象文書群、前記調査対象文書群と共通の属性を有する同類文書群、を入力する入力ステップと、
前記各調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値、を算出する第３出現頻度算出ステップと、
前記抽出された索引語の、前記同類文書群における出現頻度の関数値、を算出する第４出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値との組合せに基づき、前記各調査対象文書における中心点を算出する中心点算出ステップと、
前記各調査対象文書における前記中心点のデータを出力する出力ステップと、
を備えた、文書特徴分析方法。
複数の調査対象文書を含む調査対象文書群、各調査対象文書と比較される比較対象文書群、前記調査対象文書群と共通の属性を有する同類文書群、を入力する入力ステップと、
前記各調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値、を算出する第３出現頻度算出ステップと、
前記抽出された索引語の、前記同類文書群における出現頻度の関数値、を算出する第４出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記同類文書群における出現頻度の関数値との組合せに基づき、前記各調査対象文書における中心点を算出する中心点算出ステップと、
前記各調査対象文書における前記中心点のデータを出力する出力ステップと、
をコンピュータに実行させる、文書特徴分析プログラム。
調査対象文書群に含まれる複数の調査対象文書について、各調査対象文書と比較される比較対象文書群に対する位置づけを座標の第１軸にとり、前記調査対象文書群と共通の属性を有する同類文書群に対する位置づけを前記座標の第２軸にとって配置した、調査対象文書の文書特徴表現図であって、
前記座標における前記各調査対象文書の座標値は、
各調査対象文書内の各索引語の前記比較対象文書群における出現頻度の関数値と、各索引語の前記同類文書群における出現頻度の関数値と、を成分とする索引語座標値の、各調査対象文書における中心点とした、調査対象文書の文書特徴表現図。