JPWO2006115228A1

JPWO2006115228A1 - 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Info

Publication number: JPWO2006115228A1
Application number: JP2007514696A
Authority: JP
Inventors: 博昭増山; 晴正佐藤; 多一伊藤
Original assignee: 株式会社アイ・ピー・ビー
Priority date: 2005-04-21
Filing date: 2006-04-21
Publication date: 2008-12-18
Also published as: WO2006115228A1

Abstract

調査対象文書ｄ内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、比較対象文書群Ｐにおける出現頻度の関数値ＩＤＦ(Ｐ)を算出する第１出現頻度算出手段と、調査対象文書ｄのデータに基づき、比較対象文書群Ｐの中から調査対象文書ｄに類似する類似文書群Ｓを選出する類似文書群選出手段と、前記抽出された索引語の、類似文書群Ｓにおける出現頻度の関数値ＩＤＦ(Ｓ)を算出する第２出現頻度算出手段と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各出現頻度の関数値の組合せに基づき、各索引語とその位置づけ及びその時系列変化のデータとを出力する出力手段と、を備える。これにより、文書を読まずに調査対象文書の性格及びその時間的推移の的確な把握を可能にする。

Description

本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の性格又は文書群に対する位置付け及びその時系列変化を的確に分析することを可能にする、索引語の自動抽出装置、抽出プログラム、抽出方法、及び抽出された索引語を用いた性格表現図に関するものである。
また、本発明は文書の特徴分析装置に係わり、特に調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付け及びその時系列変化や、調査対象文書群全体としての特色を分析できるようにする文書の特徴分析装置、分析プログラム、分析方法、及び文書特徴表現図に関するものである。

特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書群から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。例えば、特開平１１−７３４１５号公報「類似文書検索装置及び類似文書検索方法」（特許文献１）においては、調査対象の文書に含まれる索引語を他の文書群に含まれる索引語と比較し、類似する索引語の種類目や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。

しかし、類似文書は検索されても、それだけでは調査対象の文書の性格或いは文書群での位置付け及びその時系列変化を知ることはできない。調査対象の文書の性格又は文書群での位置付け及びその時系列変化を知るためには、検索結果の類似文書を読み込んだ上で、読み込んだ類似文書を前提として調査対象文書の評価をしなければならなかった。

一方、文書の特徴そのものを自動抽出するものとして、例えば特開平１１−３４５２３９号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」（特許文献２）が存在する。この公報においては、「標準文書集合」から検索により「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特徴情報を抽出している。
具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この技術は、大量の情報の中からユーザが有益な情報を見つけ出して取捨選択することを容易にする点で有益である。
特開平１１−７３４１５号公報「類似文書検索装置及び類似文書検索方法」特開平１１−３４５２３９号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」

しかし、上記特開平１１−３４５２３９号公報（特許文献２）に記載の技術では例えば「桜の花見」など特定のテーマを決めてからこれに合致する「対象文書集合」を抽出する。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象となる各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定のテーマが予め決まっていないと「個別文書」を決定することさえできない。従ってこの公報に記載の技術では、特定の調査対象文書が与えられたときにしかその性格を分析することはできない。

そこで、本出願人は、本出願の優先日において未公開の国際特許出願番号ＰＣＴ／ＪＰ２００４／０１５０８２において、
調査対象文書、前記調査対象文書と比較され、又、前記調査対象文書に類似する類似文書群の選出元となる比較対象文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、
前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、
を備えた、索引語抽出装置
を提案した。

これにより、調査対象文書があたえられたときにその性格の的確な把握ができることとなった。

更に、この索引語抽出装置について、
前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、前記索引語を配置し出力する
ことを提案した。

これにより、座標上に配置された索引語の位置により、各索引語の位置付けを視覚的に把握することができることとなった。

しかしながら、座標上に配置された索引語の位置は、各索引語の所与の解析時点における平均的或いは集計された結果の値であって、座標上に配置された索引語の位置の時間的推移が位置の変化として座標上に表現されて、その索引語の性格の時間的推移を定量的に知る、ということができなかった。

本発明の課題は、調査対象文書が与えられればそれだけで、その性格の的確な把握を可能にするだけでなく、その性格の時間的推移を定量的に知ることを可能にする、索引語抽出装置を提供することである。

上記課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、前記調査対象文書のデータに基づき、前記比較対象文書群の中から前記類似文書群を選出する類似文書群選出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出手段と、前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出手段と、前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力手段と、を備えている。

本発明は、出現頻度の関数値を各索引語における組合せで観察することにより、調査対象文書が与えられればそれだけで、その性格の的確な把握を可能にするだけでなく、その性格の時間的推移を定量的に知ることを可能にするものである。

本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群から類似文書群を選出する処理、比較対象文書群又は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のために人間が文書内容を読む必要はまったくない。

特に、調査対象文書のデータに基づいて類似文書群を、時系列に属する各期間ごとに新たに選出し、この類似文書群における出現頻度の関数値と、比較対象文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置付け及びその時系列変化データとを出力するので、調査対象文書の性格を精度よく分析することができる。

上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容については格別の制約はなく、例えばこれらが同一の文書群であっても良いし、異なる文書群であってもよい。また、これらの文書群の何れか又は双方が、ある文書群から無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全特許文書（公開特許公報など）を、比較対象文書群とすることができる。

上記調査対象文書は、１文書でも複数の文書でもよい。複数の文書をまとめて調査対象文書とする場合は、個々の調査対象文書の性格というよりは、文書群としての性格を示すことになる。

上記索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り出すことにより行う。単語の切り出し方に特段の制約はなく、例えば従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除いて意味ある品詞を抽出する方法でも良いし、索引語の辞書（シソーラス）のデータベースを事前に保持し、該データベースから得られる索引語を利用する方法でもよい。

索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数（文書頻度ＤＦ）を用いるが、これに限られるものではなく、例えば当該索引語がヒットした延べ回数でもよい。

出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すべてを出力しても良いし、文書の性格を強く示す一部の索引語のみを出力しても良い。また、出力手段により索引語とともに出力される位置付け及びその時系列変化データは、比較対象文書群及び類似文書群における出現頻度の関数値をそのままの形で出力しても良いし、これに基づいて座標上に索引語を配置した図として出力しても良いし、上記出現頻度の関数値に基づいてグループ分けされた索引語のリストとして出力しても良い。

上記索引語抽出装置において、前記類似文書群選出手段は、前記調査対象文書の各文書について、当該文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記比較対象文書群における出現頻度の関数値を成分とするベクトルを算出し、前記調査対象文書について算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記比較対象文書群から選出して、類似文書群とすることが望ましい。

類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保することができる。また、例えばＩＰＣ（国際特許分類）等の一致により類似文書群を選出する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる。
従って、上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至Tanimoto相関（類似度）などベクトル成分間の積の関数を用いても良いし、ベクトル間の距離（非類似度）などベクトル成分間の差の関数を用いてもよい。

上記索引語抽出装置において、前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第１グループの索引語と、前記第１グループの索引語よりも前記比較対象文書群における出現頻度が高い第２グループの索引語と、前記第１グループの索引語よりも前記類似文書群における出現頻度が高い第３グループの索引語と、をそれぞれ出力することが望ましい。

従って、比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値とを用いて、第１〜第３グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。

例えば上記第１グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語（専門語）であると評価できる。
また例えばここでいう第２グループには、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語（独創的着目語）が含まれる。
また例えばここでいう第３グループには、類似文書群を特徴付ける語（類似文書群規定語）が含まれる。例えば技術文書を調査対象とした場合であれば、この第３グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。

上記索引語抽出装置において、比較対象文書群における出現頻度の関数値及びその時系列変化量と、類似文書群における出現頻度の関数値及びその時系列変化量とを用いて、第１〜第３グループの索引語及びその時系列変化量をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えば、各索引語の時間的推移の方向を見れば、文書群の性格の時間的推移の方向性が分かる。

本発明の性格表現図は、調査対象文書内の索引語について、前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第１軸にとり、前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第２軸にとって配置し、前記各索引語の位置データの時系列変化量及び時系列変化方向を表示して、それぞれ出力するので、座標上に配置表示された索引語の位置及びその時系列変化により、各索引語の位置付け及びその時間的推移を視覚的に把握できる結果、調査対象文書の性格を的確に分析することができる。
座標系としては、第１軸としてＸ軸（横軸）、第２軸としてＹ軸（縦軸）を用いるが、これに限らず例えば３次元座標を用いて、時間或いは上記以外の指標をＺ軸にとってもよい。

本発明によれば、第１に、調査対象文書が与えられたときにその性格及び時系列変化を的確に表現できるようにする索引語抽出装置を提供することができる。
また第２に、調査対象文書の性格を多面的に分析できるようにする索引語抽出装置及び性格表現図を提供することができる。
また第３に、調査対象文書群に含まれる調査対象文書の、比較対象文書群に対する大まかな位置付け及びその時系列変化や、調査対象文書群全体としての傾向を分析できるようにする文書特徴分析装置及び文書特徴表現図を提供することができる。

本発明の一実施形態に係る特徴索引語抽出装置のハードウェア構成を示す図。上記特徴索引語抽出装置における構成と機能を詳細に説明する図。処理装置１の動作を示すフローチャート。入力条件設定画面の表示例を示す図。入力条件設定画面の表示例を示す図。選出条件設定画面の表示例を示す図。出力条件設定画面の表示例を示す図。特徴索引語の出力マップ（頻度平面図）の性質を説明するための概念図。特徴索引語の出力マップ（頻度平面図）の補正を説明するための概念図。特徴索引語の出力マップ（頻度平面図と位置の変化量）の原理（三角形モデル）を説明するための概念図。特徴索引語の出力マップ（頻度平面図）の１９９３年までの表示例。特徴索引語の出力マップ（頻度平面図）の１９９４年までの表示例。特徴索引語の出力マップ（頻度平面図と位置の変化量）の１９９３年から１９９４年への位置とその変化量を示す表示例。特徴索引語の出力リスト（頻度平面図と位置の変化量）の１９９３年から１９９４年への位置とその変化量を示す例。特徴索引語の出力マップ（頻度平面図）のモーメント分布図の表示例。特徴索引語の出力マップ（頻度平面図）の流速分布図の表示例。特徴索引語についてモーメント(m,κ)を標準化した座標の分布図。台形モデルのｚ面におけるＭ＝ａの流線図。台形モデルに基づく（ｍ、κ）分布図（モーメント分布図）。台形モデルに基づく（m|V|、κ|V|）分布図（流速分布図）。五角形モデルのｚ面におけるＭ＝ａの流線図。五角形モデルに基づく（ｍ、κ）分布図（モーメント分布図）。五角形モデルに基づく（m|V|、κ|V|）分布図（流速分布図）。

符号の説明

１：処理装置、２：入力装置、３：記録装置、４：出力装置、
１１０：調査対象文書ｄ読み出し部、１２０：索引語（ｄ）抽出部、１２１：ＴＦ（ｄ）演算部、１３０：比較対象文書群Ｐ読み出し部、１４０：索引語（Ｐ）抽出部、１４１：ＴＦ（Ｐ）演算部、１４２：ＩＤＦ（Ｐ）演算部、１５０：類似度演算部、１６０：類似文書群Ｓ選出部、１７０：索引語（Ｓ）抽出部、１７１：ＩＤＦ（Ｓ）演算部、１８０：特徴索引語抽出部、１９０：時系列分類部、１９１：位置データ補正部、１９２：位置・変化量算出部、
ａ：独創語的着目語領域、ｂ：専門語領域、ｃ：類似文書群規定語領域、ｄ：一般語領域。

以下、本発明の実施の形態を、図面を参照して詳細に説明する。

＜１．語彙の説明等＞
本明細書の中で使用する語彙を定義或いは説明する。
本明細書の中で、「文書」とは、特許公開公報、特許公報、学術論文などのことであり、特に、技術情報であることが望ましいが、これに限らない。文書がコンピュータで判読できるものであれば、特に規定しない。もっともコンピュータで判読できなくても事前に人間などが判読してテキストファイルなどに変換しておけば同じことである。図面なども、少なくとも装置などの部品の名称などがデータになっていれば、本明細書の文書に含めてよい。
尚、本明細書の文書には、例えば、公開日或いは発行日など、時間（年、月、日、時刻など）を識別するデータが含まれている必要がある。
文書の形式は、例えば、特許公開公報、特許公報、学術論文などの全文でももちろん良いし、要約や特許請求の範囲などだけの一部の文章でも、或いはメモの状態や箇条書きのものでも構わない。

「調査対象文書ｄ」：調査に係る、ある案件。例えば、特許第何号公報などの文書、或いはその集合。
「比較対象文書群Ｐ」：調査対象文書ｄと比較する対象の文書の集合。例えば、ある国及び期間における特許文書（公開特許公報など）のすべて、又はそこから無作為抽出された文書の集合である。ここでは調査対象文書ｄを含む場合について説明するが含んでいなくてもよい。
「比較対象文書群Ｐ’」：調査対象文書ｄと比較する対象の、別の文書の集合。例えば、第１所定期間の比較対象文書群に対する、第２の所定期間の比較対象文書群。
「類似文書群Ｓ」：調査対象文書ｄに類似な文書の集合。ここではｄを含む場合について説明するが含んでいなくてもよい。また比較対象文書群Ｐの中から選出される場合について説明する。

各図の中の構成要素に付してある、ｄ或いは（ｄ）、Ｐ或いは（Ｐ）、又はＳ或いは（Ｓ）は、それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降判別しやすいように構成要素や動作にも付する。例えば、索引語（ｄ）とは、調査対象文書ｄの索引語を意味する。
「ＴＦ演算」とはTerm Frequencyの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度（索引語頻度）の計算である。
「ＤＦ演算」とはDocument Frequencyの計算のことであり、ある文書に含まれる索引語で検索対象文書群から検索したときのヒット文書数（文書頻度）の計算である。
「ＩＤＦ演算」とは、例えばＤＦ演算結果の逆数、或いは逆数に検索対象文書群であるＰないしＳの文書数を乗じたものの対数などの計算である。
ここで、ＩＤＦ（Ｐ）などの算出に、対数としてここでは自然対数を用いたが、これに限らず常用対数等を用いてもよい。

以降の説明を簡素にするため、略号を決める。
ｄ：調査対象文書。
ｐ：比較対象文書群Ｐに属する文書。
Ｎ：比較対象文書群Ｐの全文書数。
Ｎ′：類似文書群Ｓの文書の数。
ＴＦ（ｄ）：ｄの索引語による、ｄの中での出現頻度。
ＴＦ（Ｐ）：ｐの索引語による、ｐの中での出現頻度。
ＤＦ（Ｐ）：ｄ又はｐの索引語による、Ｐの中での文書頻度。
ＤＦ（Ｓ）：ｄの索引語による、Ｓの中での文書頻度。
ＩＤＦ（Ｐ）：ＤＦ（Ｐ）の逆数×文書数の対数：ln［Ｎ／ＤＦ（Ｐ）］。
ＩＤＦ（Ｓ）：ＤＦ（Ｓ）の逆数×文書数の対数：ln［Ｎ′／ＤＦ（Ｓ）］。
ＴＦＩＤＦ：ＴＦとＩＤＦとの積。文書の索引語ごとに演算される。
「類似度（類似率）」：調査対象文書ｄと、比較対象文書群Ｐに属する或る文書ｐとの類似の程度。

「索引語」とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出してもよいし、又索引語の辞書（シソーラス）のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。

「第１所定期間」とは、調査対象文書ｄを含む比較対象文書群Ｐに付属或いは識別する年月日データなどの時間データを含む期間。例えば、比較対象文書群Ｐが、１９９３年から２００３年迄に発行された特許公開公報群（約４５０万件）ならば、第１所定期間は、１９９３年から２００３年迄を指す。
「第２所定期間」とは、調査対象文書ｄを含む別の比較対象文書群Ｐ’に付属或いは識別する年月日データなどの時間データを含む期間。例えば、比較対象文書群Ｐ’が１９９３年から２００４年迄に発行された特許公開公報群（約５００万件）ならば、第２所定期間は、１９９３年から２００４年迄を指す。
尚、第２所定期間の開始時間は、第１所定期間の開始時間と一致していることが望ましい。
「第１所定期間の特徴索引語及びその位置データ」とは、第１所定期間内の調査対象文書ｄを含む比較対象文書群Ｐから求めた、特徴索引語及びその位置データである。
「第２所定期間の特徴索引語及びその位置データ」とは、第２所定期間内の調査対象文書ｄを含む比較対象文書群Ｐ’から求めた、特徴索引語及びその位置データである。

＜２．索引語抽出装置の構成：図１、図２＞
図１は本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図である。

同図に示すように、本実施形態の索引語抽出装置は、ＣＰＵ（中央演算装置）およびメモリ（記録装置）などから構成される処理装置１、キーボード（手入力器具）などの入力機能である入力装置２、文書データや条件や処理装置１による作業結果などを格納する記録機能である記録装置３、および索引語の抽出結果などをマップやリストなどで表示などする出力機能である出力装置４から構成される。

記録装置３は、条件記録機能や、作業結果格納機能や、文書格納機能を持っており、それらと外部データベースから取得した文書などを保存する内部データベース３０を含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のＩＰＤＬや、株式会社パトリスでサービスしているＰＡＴＯＬＩＳなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許ＪＰ−ＲＯＭなどのデータを自前で格納したデータベース、文書を格納したＦＤ（フレキシブルディスク）、ＣＤＲＯＭ（コンパクトディスク）、ＭＯ（光磁気ディスク）、ＤＶＤ（デジタル多用途ディスク）などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むＯＣＲ（光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

図１及び図２において、処理装置１、入力装置２、記録装置３、および出力装置４の間で信号やデータをやり取りする通信機能としては、ＵＳＢ（ユニバーサルシステムバス）ケーブルなどで直接接続してもよいし、ＬＡＮ（ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納したＦＤ、ＣＤＲＯＭ、ＭＯ、ＤＶＤなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

次に、図２により本発明に係る一実施形態の索引語抽出装置における機能を詳しく説明する。

＜２−１．処理装置１の詳細＞
図２の処理装置１において、調査対象文書ｄ読み出し部１１０は、内部データベース３０に記録された条件に基づいて、調査対象の文書を、内部データベース３０より読み出す。読み出された調査対象文書ｄは、索引語（ｄ）抽出部１２０に送られる。索引語（ｄ）抽出部１２０は、調査対象文書ｄ読み出し部１１０で得られた文書から索引語の抽出を行なう。

ＴＦ（ｄ）演算部１２１は、前記調査対象文書ｄについての前記索引語（ｄ）抽出部１２０の作業結果を、ＴＦ演算する。得られたＴＦ（ｄ）のデータは、類似度演算部１５０に送られる。

比較対象文書群Ｐ読み出し部１３０は、内部データベース３０に記録された条件に基づいて、比較対象となる複数の文書を、内部データベース３０より読み出す。読み出された比較対象文書群Ｐは、索引語（Ｐ）抽出部１４０に送られる。索引語（Ｐ）抽出部１４０は、内部データベース３０に記録された条件に基づいて、比較対象文書群Ｐ読み出し部１３０で得られた文書から索引語の抽出を行ない、ＴＦ（Ｐ）演算部１４１及びＩＤＦ（Ｐ）演算部１４２に送られる。

ＴＦ（Ｐ）演算部１４１は、内部データベース３０に記録された比較対象文書群Ｐについての索引語（Ｐ）抽出部１４０の作業結果を、ＴＦ演算する。得られたＴＦ（Ｐ）のデータは、類似度演算部１５０に送られる。

ＩＤＦ（Ｐ）演算部１４２は、内部データベース３０に記録された比較対象文書群Ｐについての索引語（Ｐ）抽出部１４０の作業結果を、ＩＤＦ演算する。得られたＩＤＦ（Ｐ）のデータは、類似度演算部１５０に及び特徴索引語抽出部１８０に送られる。

類似度演算部１５０は、内部データベース３０に記録された条件に基づいて、ＴＦ（ｄ）演算部１２１、ＴＦ（Ｐ）演算部１４１、及びＩＤＦ（Ｐ）演算部１４２の演算結果から、比較対象文書群Ｐの文書それぞれの、調査対象文書ｄに対する類似度を演算する。得られた類似度は、比較対象文書群Ｐのそれぞれの文書に類似度データとして付され、類似文書群Ｓ選出部１６０に送られる。

類似度演算部１５０における類似度の演算は、各文書の索引語毎に、例えばＴＦ（ｄ）ＩＤＦ（Ｐ）演算などの計算がなされ、比較対象文書群Ｐの文書それぞれの、調査対象文書ｄに対する類似度が計算される。ＴＦＩＤＦ演算とは、ＴＦ演算結果とＩＤＦ演算結果の積である。類似度の演算方法は後で詳しく述べる。

類似文書群Ｓ選出部１６０は、類似度演算部１５０の結果から比較対象文書群Ｐの類似度演算結果を得て、内部データベース３０に記録された条件に基づいて類似文書群Ｓを選出する。類似文書群Ｓの選出は、例えば類似度の高い順に文書をソートし、条件に記された必要な数だけ、例えば類似度の高い順に３０００個だけ選出する。選出された類似文書群Ｓは、索引語（Ｓ）抽出部１７０に送られる。

索引語（Ｓ）抽出部１７０は、類似文書群Ｓ選出部１６０の類似文書群Ｓから、内部データベース３０に記録された条件に基づいて、索引語（Ｓ）を抽出する。抽出された索引語（Ｓ）は、内部データベース３０及び直接ＩＤＦ（Ｓ）演算部１７１に送られる。

ＩＤＦ（Ｓ）演算部１７１は、索引語（Ｓ）抽出部１７０から索引語（Ｓ）を得て、この索引語（Ｓ）を、内部データベース３０に記録された条件に基づいてＩＤＦ演算する。得られたＩＤＦ（Ｓ）は、内部データベース３０特徴索引語抽出部１８０に送られる。

特徴索引語抽出部１８０は、ＩＤＦ（Ｓ）演算部１７１の結果及びＩＤＦ（Ｐ）演算部１４２の結果から、内部データベース３０に記録された条件に記された必要な数だけ、或いは同条件に基づいた計算結果により選ばれた数だけ、索引語（ｄ）を抽出する。ここで抽出された索引語を「特徴索引語」と称することにする。抽出された特徴索引語（ｄ）は、内部データベース３０或いは直接、時系列分類部１９０に送られる。

時系列分類部１９０では、特徴索引語抽出部１８０の結果が、第１所定期間の特徴索引語及びその位置データであるか、第２所定期間における特徴索引語及びその位置データであるか、が判断される。

特徴索引語抽出部１８０の結果が、第１所定期間の特徴索引語及びその位置データの場合には、位置データ補正部１９１を経由して直接位置・変化量算出部１９２に送られると同時に、内部データベース３０を経由して比較対象文書群Ｐ読み出し部１３０に戻され、比較対象文書群Ｐに、ある期間の経過後においてデータが追加された新たな比較対象文書群Ｐ’に基づく特徴索引語及びその位置データを算出する。
特徴索引語抽出部１８０の結果が、第２所定期間の特徴索引語及びその位置データの場合は位置データ補正部１９１に送られる。

位置データ補正部１９１は、第１所定期間の特徴索引語及びその位置データに対して、ある期間経過後の文書が追加された新たな比較対象文書群Ｐ’に基づき算出された第２所定期間の特徴索引語及びその位置データを、第１所定期間の特徴索引語及びその位置データのものと正しく比較できるようにするために、新たな比較対象文書群Ｐ’の全文書数Ｎ’を比較対象文書群Ｐの全文書数Ｎに合わせて、補正する。そして位置・変化量算出部１９２に送られる。

位置・変化量算出部１９２は、特徴索引語抽出部１８０により算出された第１所定期間の特徴索引語及びその位置データと、同じ特徴索引語の位置データ補正部１９１により補正された第２所定期間の特徴索引語及びその位置データとから、それらの変化量を算出し、内部データベース３０に格納する。

＜３．索引語の抽出動作、及びその位置・変化量算出動作：図３＞
図３は、処理装置１の動作を示すフローチャートである。まず初期化（ステップＳ１０１）のあと、内部データベース３０に記録された条件に基づいて、内部データベース３０から読み出す文書を、調査対象文書ｄと比較対象文書群Ｐに区別する（ステップＳ１０２）。読み出す文書が調査対象文書ｄであるとき、調査対象文書ｄ読み出し部１１０において調査対象文書を内部データベース３０より読み出す（ステップＳ１１０）。次に、索引語（ｄ）抽出部１２０において調査対象文書ｄの索引語抽出を行なう（ステップＳ１２０）。引き続き、抽出された索引語の各々について、ＴＦ（ｄ）演算部１２１においてＴＦ演算をする（ステップＳ１２１）。

一方ステップＳ１０２で、読み出す文書が比較対象文書群Ｐであるとき、内部データベース３０から比較対象文書群Ｐを読み出す（ステップＳ１３０）。次に、索引語（Ｐ）抽出部１４０において比較対象文書群Ｐの索引語抽出を行なう（ステップＳ１４０）。引き続き、抽出された索引語の各々について、ＴＦ（Ｐ）演算部１４１においてＴＦ演算をする（ステップＳ１４１）とともに、ＩＤＦ（Ｐ）演算部１４２においてＩＤＦ演算をする（ステップＳ１４２）。

次に、ＴＦ（ｄ）演算部１２１の出力のＴＦ（ｄ）演算結果と、ＴＦ（Ｐ）演算部１４１の出力のＴＦ（Ｐ）演算結果、及びＩＤＦ（Ｐ）演算部１４２の出力のＩＤＦ（Ｐ）演算結果を基に、類似度演算部１５０により、類似度の演算を行なう（ステップＳ１５０）。この類似度の演算は、入力装置２から入力された条件に基づき、類似度算出のための類似度算出モジュールを内部データベース３０から呼び出してきて実行する。

類似度演算の具体的な一例を説明すると以下の通りである。今、ｄを調査対象文書とし、ｐを比較対象文書群Ｐの個々の文書とする。これら文書ｄ及びｐに対する演算の結果、文書ｄから切り出された索引語を「赤」「青」「黄」とする。また、文書ｐから切り出された索引語を「赤」「白」とする。その場合、文書ｄ中の索引語の索引語頻度をＴＦ（ｄ）とし、文書ｐ中の索引語の索引語頻度をＴＦ（Ｐ）とし、比較対象文書群Ｐから得た索引語の文書頻度をＤＦ（Ｐ）とし、全文書数を５０とする。

このとき、例えば、

であるとする。ＴＦ＊ＩＤＦ（Ｐ）を各文書の索引語毎に計算して、ベクトル表現を算出する。この結果は文書ベクトルｄ及びｐについて、

となる。

このベクトルｄ及びｐ間の余弦（又は距離）の関数を取れば、文書ベクトルｄ及びｐ間の類似度（又は非類似度）が得られる。なお、ベクトル間の余弦（類似度）は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離（非類似度）は値が小さいほどやはり類似度合いが高いことを意味する。得られた類似度は、内部データベース３０に格納されるとともに、類似文書群Ｓ選出部１６０に送られる。

次に、類似文書群Ｓ選出部１６０により、ステップＳ１５０にて類似度演算した文書を類似度の順に並べ替え、入力する抽出条件に沿った数の類似文書群Ｓを選出する（ステップＳ１６０）。

次に、類似文書群Ｓの索引語（Ｓ）抽出部１７０により、ステップＳ１６０にて選出した類似文書群Ｓの索引語（Ｓ）を抽出する（ステップＳ１７０）。

次に、索引語（ｄ）の各々について、ＩＤＦ（Ｓ）演算部１７１により、類似文書群ＳにおけるＩＤＦ演算をする（ステップＳ１７１）。

次に、ステップＳ１７１によるＩＤＦ（Ｓ）演算の結果と、ステップＳ１４２によるＩＤＦ（Ｐ）演算の結果とから、特徴索引語を抽出する（ステップＳ１８０）。

次に、ステップＳ１９０による時系列分類にて、ステップＳ１８０の特徴索引語抽出の結果が、第１所定期間の特徴索引語及びその位置データであるか、第２所定期間の特徴索引語及びその位置データであるか、が判断される。

ステップＳ１８０の特徴索引語抽出の結果が、第１所定期間の特徴索引語及びその位置データである場合は、ステップ１９１の位置データ補正部を経由してステップ１９２の位置・変化量の算出部に送られると同時に、内部データベース３０を経由して比較対象文書群Ｐ読み出し部１３０に戻され、比較対象文書群Ｐにある期間経過後のデータが追加された新たな比較対象文書群Ｐ’に基づく特徴索引語及びその位置データを算出する（ステップＳ１９０）。

次に、ステップＳ１８０の特徴索引語抽出の結果が、第２所定期間の特徴索引語及びその位置データである場合は、ステップＳ１９１により特徴索引語の位置データ補正が行われる。比較対象文書群Ｐにある期間経過後の文書が追加された新たな比較対象文書群Ｐ’に基づき算出された第２所定期間の特徴索引語及びその位置データを、第１所定期間の特徴索引語及びその位置データのものと比較するために、比較対象文書群Ｐの全文書数Ｎに合わせて、補正される（ステップＳ１９１）。そして位置・変化量算出部１９２に送られる。

位置・変化量算出部１９２は、第１所定期間の特徴索引語及びその位置データに対して、補正した第２所定期間の特徴索引語及びその位置データが、どれだけ変化しているかを算出する。
尚、変化量はただ２つの位置データの差分又は、索引語を流体とみなした時のその位置における流れ（動き）の速度を考慮した変化量である。これら、算出された位置及び変化量が出力装置４に送られる（ステップ１９２）。

尚、任意の第１所定期間及び第２所定期間に対して、上記のステップを反復して出力してもよい。

＜３−１．入力画面：図４〜図７＞
図４は、調査対象文書ｄの入力条件設定画面の表示例を示す図である。
図４においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」の中から「調査対象文書」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウインドの「自社ＤＢ１」「自社ＤＢ２」「特許庁ＩＰＤＬ」「ＰＡＴＯＬＩＳ」「他商用ＤＢ１」「他商用ＤＢ２」「ＦＤ」「ＣＤ」「ＭＯ」「ＤＶＤ」「その他」などの中から「ＦＤ」を選び、更に「ＦＤ」の「文書１」「文書２」「文書３」「文書４」「文書５」「文書６」などの中から「文書３」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、入力される。
図示はしていないが、第１所定期間及び第２所定期間の入力、または期間差分間隔と解析する時間列の個数などの入力がされる。

図５は、比較対象文書群Ｐの入力条件設定画面の表示例を示す図である。図７においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」などの中から「比較対象文書群」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウインドの「請求項」「従来技術」「発明の課題」「手段・効果」「実施例」「図の説明」「図面」「要約」「書誌事項」「経過情報」「登録情報」「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウインドで前述と同じ項目の中から「自社ＤＢ１」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、入力される。

図６は、索引語抽出条件および類似文書群選出条件の設定画面の表示例を示す図である。図６においては、「索引語抽出条件」のウインドの「自社キーワード切出１」「自社キーワード切出２」「商用キーワード切出１」「商用キーワード切出２」などの中から「自社キーワード切出１」を選び、次に「類似度算出方法」のウインドの「類似度１」「類似度２」「類似度３」「類似度４」「類似度５」「類似度６」などの中から「類似度１」を選び、次に「類似文書選出」のウインドの「類似文書数」「非類似文書数」などの中から「類似文書数」を選び、更に「上位１００件」「上位１０００件」「上位３０００件」「上位５０００件」「数値入力」などの中から「上位３０００件」を選んだ状態の例が示されている。この例のような抽出条件設定画面における設定条件が、入力される。

図７は、特徴索引語抽出装置の出力条件設定画面の表示例を示す図である。図７においては、「マップ算出方法」のウインドの「Ｘ軸」に「Ｘ軸：比較対象文書群ＩＤＦ」及び「Ｙ軸」に「Ｙ軸：類似文書群ＩＤＦ」を選び、次に「マップ」のウインドの「マップ１枚」「マップ２枚」「マップ１枚・リスト付」「マップ２枚・リスト付」「マップ１枚・コメント付」「マップ２枚・コメント付」「マップ１・リスト・コメント付」「マップ２・リスト・コメント付」などの中から「マップ１枚」を選び、次に「出力データ」のウインドの「独創的着目語」「専門語」「類似文書群規定語」などの中から「独創的着目語」を選び、更に「なし」「上位５個」「上位１０個」「上位１５個」「上位２０個」「数値入力」などの中から「上位２０個」を選んだ状態の例が示されている。次に「コメント」のウインドの枠内の「（自由記入）」には無記入にした。こうして出力条件が入力される。

＜４．実施例１＞
まず、第１所定期間の特徴索引語及びその位置データの頻度平面図を描く。

＜４−１．マップの性質：図８＞
図８は、実施例１の索引語抽出装置により出力したマップの性質を説明するための概念図である。このマップは、調査対象文書ｄの索引語（ｄ）のうち特徴索引語抽出部１８０で抽出された索引語を出力し、表示機能により表現するものである。マップは、特徴索引語の各々について、それぞれ、横軸の値に比較対象文書群ＰにおけるＩＤＦ（Ｐ）演算部１４２の演算結果を、縦軸の値に類似文書群ＳにおけるＩＤＦ（Ｓ）演算部１７１の演算結果を取って、頻度平面上に配置したものである。

図８において、Ｘ−Ｙ平面は、Ｘ軸がＩＤＦ（Ｐ）の値で、Ｙ軸がＩＤＦ（Ｓ）の値で作る平面である。比較対象文書群Ｐの文書数をＮ、類似文書群Ｓの文書数をＮ′とすれば、ＩＤＦ（Ｐ）の最大値β_１＝lnＮ、ＩＤＦ（Ｓ）の最大値β_２＝lnＮ′である。
平面の原点をＤとする。Ｙ＝Ｘの直線と、Ｙ＝β_２の線との交点をＡとする。Ｙ＝β_２の線と、Ｘ＝β_１の線の交点をＢとする。Ｙ−β_２＝Ｘ−β_１の直線がＸ軸を切る点をＣとする。従って、四角形ＡＢＣＤは、平行四辺形である。α＝β_１−β_２＝ln（Ｎ／Ｎ′）とすると、平行四辺形ＡＢＣＤの各頂点の値は、それぞれ、Ｄ＝（０，０）、Ｂ＝（β_１，β_２）、Ａ＝（β_２，β_２）、Ｃ＝（α，０）である。

線分ＡＢは、Ｙ＝β_２、線分ＡＤは、Ｙ＝Ｘの直線である。線分ＢＣは、Ｙ−β_２＝Ｘ−β_１の直線である。線分ＤＣは、Ｙ＝０の直線である。

図８において、Ｘ座標はＩＤＦ（Ｐ）の値であり、Ｘの値が０付近すなわちＤ付近は、比較対象文書群Ｐのほとんどに存在する索引語が配置される領域である。Ｘ座標がβ_１＝lnＮの内側は、比較対象文書群Ｐにもほとんど存在しない索引語の領域で、Ｘ座標がα＝ln（Ｎ／Ｎ′）の内側すなわちＣの内側は、比較対象文書群Ｐにも類似文書群Ｓの文書数Ｎ′相当の数が存在する索引語の領域である。一方、Ｙ座標はＩＤＦ（Ｓ）の値であり、Ｙの値が０付近すなわちＤ付近は、類似文書群Ｓのほとんどに存在する索引語の領域である。Ｙ座標がβ_２＝lnＮ′の線分ＡＢの内側は、類似文書群Ｓの中にはほとんど存在せず、ほぼ調査対象文書ｄにしか存在しない索引語の領域である。

図８において、比較対象文書群Ｐにおける文書頻度ＤＦ（Ｐ）が小さい、即ち珍しい索引語は、ＩＤＦ（Ｐ）が大きいため、図８上の右側に現れる。ＤＦ（Ｐ）が大きい、即ち頻繁に用いられる索引語は、ＩＤＦ（Ｐ）が小さいため、図８上のＹ軸の近くに現れる。従って、比較対象文書群Ｐにおいて珍しい索引語ほど右に現れ、比較対象文書群Ｐにおいて頻繁に用いられる索引語ほど左に現れる。二次元平面上では類似文書群Ｓが比較対象文書群Ｐの部分集合であることによる制限が課せられるため、図８の右側では線分ＢＣで切られる領域内部にしか索引語の点は存在しない。

同様に、類似文書群Ｓにおける文書頻度ＤＦ（Ｓ）が１件しかない索引語、即ち調査対象文書ｄ自身にしか含まれていない索引語は、ＩＤＦ（Ｓ）が大きいため、図８上のＢＡ線上に現れる。ＤＦ（Ｓ）が１より大きいと、索引語はＢＡ線より下に位置する。逆に、類似文書群Ｓの全ての文書に存在する索引語は、ＩＤＦ（Ｓ）＝０のため、図８上のＤＣ線上、すなわちｙ＝０の線上に現れる。従って、Ｓにおいて珍しい索引語ほど上に現れ、Ｓにおいて頻繁に用いられる索引語ほど下に現れる。

ここで線分ＢＣは次により導出される。類似文書群Ｓが比較対象文書群Ｐの部分集合であることより、
ＤＦ（Ｐ）≧ＤＦ（Ｓ）
である。また、ＩＤＦの上記定義より、
ＤＦ（Ｐ）＝Ｎ exp［−ＩＤＦ（Ｐ）］、
ＤＦ（Ｓ）＝Ｎ′exp［−ＩＤＦ（Ｓ）］
である。これらの関係式より、境界線の式としてＹ＝Ｘ−α、即ちＹ−β_２＝Ｘ−β_１が得られる。

類似文書群Ｓの文書数に依存せず、一様に含まれる索引語の場合、その索引語は図８の線分ＤＡ（直線Ｙ＝Ｘ）上に現れる。ここで一様とは、計測対象とする文書群Ｑの文書数ＮＱを変化させる時、
ＤＦ（Ｑ）＝ＮＱ／ｋ（ｋは１より大なる定数）
が成立するＱを一様又は空間一様性のある文書群、また、その様な性質を持つ索引語を、空間一様性を持つ索引語と呼ぶ。Ｑ＝Ｐ，Ｓに対して一様性を仮定すると、
lnｋ＝ln［Ｎ／ＤＦ（Ｐ）］＝ln［Ｎ′／ＤＦ（Ｓ）］
より、直線Ｙ＝Ｘが得られる。

実際には、多くの索引語は類似文書群Ｓよりも膨大な文書群である比較対象文書群Ｐにおいても頻出するから、線分ＤＡの下方領域に出現するのが普通であり、特異なものだけがこの線分の上側に浮かび上がることになる。このうち特に、図８内の線分ＢＡの半分位の高さより上側の領域にあっては、比較対象文書群Ｐにおいては珍しくないが、類似文書群Ｓにおいては珍しい索引語が出現する。この傾向によりＡ付近の領域は独創的着目語領域と言ってよい。

図８において、線分ＡＤ左方の充分外側の領域にも索引語の点は存在可能であるが、次のことを考え合わせると、該領域を索引語の点の非存在領域として扱っても、調査対象文書ｄの性質解読に支障を来たすものではない。すなわち、該領域は、独創的着目語領域Ａの遠方の領域なので、もし出現したとしても、かなり特異な索引語であること、Ｙ軸近傍にはＤＦ（Ｓ）≧ＤＦ（Ｐ）−Ｎ＋Ｎ′の制限から導かれる存在限界線：
Ｙ＝−ln（γexp(−Ｘ) −γ＋１）、但しγ＝Ｎ／Ｎ′
があり、同線に近いこと、観測的事実として、類似文書群Ｓの類似度が十分高い場合には該領域には索引語が観測されなかったことなどをあわせて、事実上、非存在領域と帰結される。

以上のように、調査対象文書ｄから抽出された特徴索引語は、図８の頻度平面の右に行くほど比較対象文書群Ｐでの文書頻度は低く、上に行くほど類似文書群Ｓでの文書頻度が低い。そこで、図８における各領域には、次のような性質を持つ索引語が配置されるため、該頻度平面上の点の分布状況から、調査対象文書ｄの、比較対象文書群Ｐの位置付け及びその時系列変化や性格を読み取ることができる。

専門語領域ｂ：比較対象文書群Ｐにおいても類似文書群Ｓにおいても使用頻度の低い索引語が現れる領域。すなわち調査対象文書ｄに含まれる高度に専門的な内容、又はこれに直結する概念を記述する索引語の出現する領域。本発明の第１エリアに含まれる。第１エリアの領域に出現する索引語の中でも、隅にある索引語ほど、専門性が高いと云える。

独創的着目語領域ａ：比較対象文書群Ｐにおける出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す索引語の出現する領域。本発明の第２エリアに含まれる。第２エリアの領域に出現する索引語の中でも、隅にある索引語ほど、独創性が高いと云える。

類似文書群規定語領域ｃ：類似文書群Ｓでほとんどの文書が持ち、従って比較対象文書群Ｐにおいてもそれに相当する数の文書が持っている、類似文書群Ｓの性質を表わすのに極めて自然な索引語が現れる領域。例えば技術文書を調査対象とした場合であれば、この類似文書群規定語を見れば、類似文書群Ｓ及び調査対象文書ｄの技術分野を知ることができる。本発明の第３エリアに含まれる。

一般語領域ｄ：比較対象文書群Ｐと類似文書群Ｓの両方において頻出する索引語が現れる領域。比較対象文書群Ｐとの比較において調査対象文書ｄの性格を分析する際には、重要度が低いことが多い。

＜４−２．頻度平面図上の位置データの時系列変化量の算出＞
２つの頻度平面図(索引語の性格表現図)、すなわち第１所定期間の特徴索引語及びその位置データの頻度平面図上の、第２所定期間の特徴索引語及びその位置データの移動を計算する。

頻度平面図上の特徴索引語の位置の一定時間経過後の移動量、移動方向、移動速度は定義できる。但し、単純な移動距離による比較評価では、頻度平面図の境界付近や、領域の性格などを考慮できないので、適切な値が得られない。
そこで定量的な移動量、移動方向、移動速度などの表現を求めるために、各特徴索引語の移動の様子が如何なる運動に従っているのかを考慮する必要がある。

頻度平面上で、概念的に流れの強度を考えてみると、独創的着目語領域付近では単純な移動量が大きい(流速が大)からといって、文書頻度そのものが大きく増加している訳ではなく、流れの強度は小さいと考えられる。一方、一般語領域付近においては、移動量は小さいが、文書頻度の増加が比較的大きく(流速が大)、領域の性格(独創性及び専門性への寄与の低さ)を考慮すれば、流れの強度が小さいと考えるのが自然である。
従って、流れの強度によって移動の強さを定量的に表現できれば、強度変化を時系列または索引語間で比較することが可能となる。

この様な流速と強度との関係は、流体の運動法則と類似しており、この類似性に着目すれば、移動量、移動方向、移動速度などによって定量的に表現できることがわかる。

流体運動の記述は、連続方程式や運動方程式など幾つかの基本原理を満たす必要があり、一般にその解は複雑だが、ここでは扱いの最も簡単な非圧縮性完全流体のポテンシャル問題を解くことを用い、流れの強度によって特徴索引語の移動の強さを定量的に表現する。ポテンシャル流には速度を決定する速度ポテンシャルが存在し、このポテンシャルによって流速と流線が決定される。指定点から湧き出し、指定点に流入するポテンシャル流(強度パラメータは未定)を座標変換によって指定の領域内に写像して速度函数を求め、写像面に対応する性格表現図から計測した速度と比較することによって強度パラメータを決定する。

以降の説明のため、ここで記法、Ｔ（ｋ）、Ｔ’（ｋ）を定める（但し、ｋ≦β_２）。（図９及び図１０参照）
T'(k): 直線 y＝β_２と直線 y＝x＋k （k 実数）との交点。
従って、A＝T'(0), B＝T'(−α) .
T(k): 直線 y＝x＋k の y 軸切片。従って、原点 D＝T(0) .
E: 直線 y＝β_２の y 軸切片。
F: 直線 y＝x＋k の x 軸切片。

＜４−３．流速観測法＞
特徴索引語 w の或る時刻 t での文書群 A における頻度平面図上の位置データ IDF(w,A(t); t) 及びその時間的変化を考える。
A は比較対象文書群Ｐ、または、類似文書群Ｓである。先ず、時刻 t の瞬間においては、
従来通りの静止状態の観測に基づいて、A の文書数 N(A) を定数として含む座標値
(X,Y)＝(X(w;t), Y(w;t))＝(IDF(w,P(t); t), IDF(w,S(t); t))・・・(式1.1)
或いは、一般に広義の変換
G :(X,Y) → ( g_１(X,Y;t), g_２(X,Y; t))
によって、特徴索引語による頻度平面図が描かれる。

次に、一定時刻Δt だけ経過した、t の変化 t → t＋Δt から、
単位時間当たりの特徴索引語 g_ｉ (i＝1,2) の位置データの変化量は次のようになる。
Δg_ｉ(t)/Δt ＝{ g_ｉ(t＋Δt)−g_ｉ(t) }/Δt .
これが、頻度平面図 G における特徴索引語 w の移動分である。

＜４−４．頻度平面図の境界壁の変化の補正＞
特徴索引語の位置データの時間による移動量を計算する場合、特徴索引語が描かれている元の頻度平面図の境界壁が変化してしまうと、境界壁の移動に伴なう流れの変化を考慮する必要があり、上述の移動分では誤認のおそれがある。そこで、頻度平面図の境界壁の変化を補正し、時間変化があっても境界壁が変化しないように頻度平面図及びその中の特徴索引語の位置データを変換する。

領域の境界線(壁)が i=1,2 の各方向にΔU_ｉだけ移動する場合は、壁の移動速度ΔU/Δt を差し引いて、w の移動速度を定義する：
V_Ｇ(w, t)＝(u(w,t), v(w,t)) ＝ (Δg_ｉ(t)−ΔU_ｉ)/Δt.・・・(式1.2)

例えば、変換 G が、狭義の単純線型写像の場合、特に、(式1.1) の場合を考える。
以下、表記の簡単のため、X 及び Y を X(A) と表し、索引語 w 依存性の表記を省略するものとする。
Δt を計測単位時間にとれば移動分は、
ΔX(A; t)/Δt＝ ln[ N(A; t＋Δt)/N(A; t) ] −ln[ DF(A; t＋Δt)/DF(A; t) ]
であり、X(A) 方向の壁の移動分は N(A; t) →N(A; t＋Δt) を考慮して、
ΔU＝β_ｉ(t＋Δt) − β_ｉ(t) ＝ ln N(A; t＋Δt) − ln N(A; t) .
従って、索引語の移動速度 V_G の A成分は
V_G (A) ＝−Ln[ DF(A;t＋Δt)/DF(A; t) ]
で与えられる。
特に、A＝P の場合は、DF(P; t＋Δt)＝DF(P; t)＋ΔDF(P; t); ΔDF(P; t)≧0 が厳密に成立するので、
V_G (P)＝−Ln [ 1＋ΔDF(P; t)/DF(P; t)] ,
であり、更に DF(P; t) ≫ΔDF(P; t) の時、
V_G (P)≒−ΔDF(P;t)/DF(P; t)
であるから、DF(P; t) の相対伸び率を表す。負号が付いているのは、座標値の方向を DF が減少する方向にとっていることに由来する。A=S の場合についても、Sを構成する文書群が著しく変化しない場合は、同様なことが成立し、結局V_ＧはDFの相対伸び率の非線形拡張に相当する量になっている。

尚、壁の移動速度を相殺せずに観測する場合は、索引語の移動速度が境界上では壁の移動速度に一致するという境界条件（粘着条件）を満たす必要があるので、粘性流体の扱いとなる。
粘性の影響は境界付近だけに留まり、境界層外部では粘性を無視した完全流体の記述でよい。

図９は、特徴索引語の位置データ補正を説明するための概念図である。簡単のためx方向のみ図示する。ステップＳ１８０の特徴索引語抽出の結果が、第２所定期間の特徴索引語及びその位置データである場合は、ステップＳ１９１により特徴索引語の位置データ補正が行われる。第１所定期間の特徴索引語及びその位置データの場合は、比較対象文書群Ｐに、ある期間経過後の文書が追加された新たな比較対象文書群Ｐ’に基づき算出された第２所定期間の特徴索引語及びその位置データを追加する。第２所定期間の特徴索引語及びその位置データを第１所定期間の特徴索引語及びその位置データと比較するために、比較対象文書群Ｐ’の全文書数をＮに合わせて補正する。

＜５−１．マップ出力例１：図１１〜図１３（太陽電池）＞
図１１は、実施例１の特徴索引語抽出装置において、調査対象文書ｄとして「太陽電池」に関する公開特許公報を１件選んだときの、第１所定期間を１９９０年から１９９３年に、第２所定期間を１９９０年から１９９４年として指定した、マップ表示の具体例である。
このマップは本発明の頻度平面図に相当する（以下のマップも同様）。比較対象文書群Ｐ及び比較対象文書群Ｐ’の選出源として、過去１０年間の特許公報及び公開特許公報約４６４万件を選び、抽出内容には特許請求の範囲と要約を選び、索引語抽出は自社キーワード切り出し１（市販の索引語切出しツール）を選び、類似度算出方法には、文書ベクトルの成分ごとにＴＦＩＤＦを計算し調査対象文書ｄと比較対象文書群Ｐのそれぞれとの余弦を計算する方法を選び、類似文書群Ｓ選出には類似度の上位３０００件を選び、マップ算出方法にはＸ軸：比較対象文書群Ｐに対するＩＤＦと、Ｙ軸：類似文書群Ｓに対するＩＤＦを選び、マップ出力位置にマップ１枚を選んだ結果、表示されたものである。

図１１においては、比較対象文書群として１９９３年までの公開特許公報の中で、調査対象文書ｄとして「特開平０５−＊＊＊１２３号」を選んだ。図１２においては、調査対象文書ｄは当然同じだが、比較対象文書群として１９９４年までの公開特許公報を扱った。

図１１から、図８にて示した独創的着目語領域ａには、「曇」「想定」「普及」「当日」「雨天」「促進」などの特徴索引語を見つけ、同じく専門語領域ｂには、「賄」「曇天」などの特徴索引語を見つけ、又同じく類似文書群規定語領域ｃには、「電池」「太陽」「発電」「電力」などの特徴索引語を見つけることができる。

図１２でも、それぞれの領域における特徴索引語は、頻度平面上の位置は違うが、索引語自体はほとんど同じものを見つけた。

図１３は、本発明の頻度平面図上の特徴索引語の位置データの時系列変化量を表したもので、図１２を図１１と重ねるために境界壁を補正し、変化量を線分で結んで示したものである。
図１３によれば、各索引語の位置の変化方向及び変化量がわかる。例えば、「重層」という索引語は１９９３年から１９９４年にかけて縦軸（ＩＤＦ（Ｓ））の値が低下している。このことから、「重層」という索引語は、太陽電池に関する調査対象文書ｄの類似分野において一般化されつつあることが推測できる。
また例えば、ある索引語が図８に示す各領域の１つから他の領域に向かって移動している場合には、時間経過によるその索引語の性質の変化を読み取ることができる。
また、索引語の位置の変化を見ることにより、調査対象文書ｄの性格の変化も知ることができる。例えば、第１所定期間の文書を比較対象文書群Ｐとしたときには独創的着目語領域ａや専門語領域ｂに位置していた（調査対象文書ｄを特徴付けていた）索引語が、第２所定期間の文書を比較対象文書群Ｐとしたときには一般語領域ｄ或いは類似文書群規定語領域ｃへ近づく方向へ移動していた場合、調査対象文書ｄは、もはや当該索引語によって特徴付けられる文書ではなくなりつつあるということができる。一方、逆に一般語領域ｄ或いは類似文書群規定語領域ｃより遠ざかる方向へ移動した場合は、調査対象文書ｄは、当該索引語によって特徴付けられる文書という性格が強くなっているということができる。
また、多数の索引語が、図８に示す各領域の１つから他の領域に、例えば一般語領域ｄに向かって移動している場合には、調査対象文書ｄは、一般的な内容の文書に変化しつつあるということができる。

＜５−２．リスト出力例１：図１４（太陽電池）＞
図１４は、図１１〜図１３と同じ調査対象文書及び比較対象文書群に関する、特徴索引語抽出装置のリスト出力の具体例である。
独創的着目語領域ａの「曇」「想定」「普及」「当日」「雨天」「促進」などの特徴索引語、
専門語領域ｂの「賄」「曇天」などの特徴索引語、
類似文書群規定語領域ｃの「電池」「太陽」「発電」「電力」などの特徴索引語、
についてのそれぞれの１９９３年と１９９４年の補正された位置データ及び位置の変化量を見つけることができる。図中でNIDFはＰ方向の補正データ、Ｖ_Ｘ、或いはＶ_Ｙはそれぞれ、Ｖ_Ｇ(Ｐ)、或いはＶ_Ｇ(Ｓ)を表している。

各領域において出力すべき索引語は、例えば次のように求められる。
各領域に応じて変換Ｍ：（Ｘ，Ｙ）→（Ｘ′，Ｙ′）が与えられる時、
（ｓ/100） Exp［Ｙ′］＜２
なる点を、Ｘ′で降順に抽出する。但し、
（ｐ/100） Exp［Ｘ′］≧２
なる点に限る。

各領域から抽出するための上記変換Ｍ（Ｘ′，Ｙ′）は次で与えられる：
独創的着目語領域ａ………（Ｘ，Ｘ−Ｙ）、
専門語領域ｂ………………（Ｙ，Ｙ−Ｘ＋α）、
類似文書群規定語領域ｃ…（Ｘ，Ｙ）、
一般語領域ｄ………………（Ｙ−Ｘ＋α，Ｙ）。
但し、α＝ln（Ｎ／Ｎ′）。

例えば類似文書群規定語を抽出する場合は、比較対象文書群Ｐにおける文書数Ｎに対する文書頻度ＤＦ（Ｐ）の割合がｐ／２（％）以下で、且つ類似文書群Ｓにおける文書数Ｎ′に対する文書頻度ＤＦ（Ｓ）の割合が、ｓ／２（％）を超える索引語が抽出されることになる。図１２では、ｐ＝ｓ＝２５として索引語を抽出した。
独創的着目語、専門語及び一般語に対する変換値（Ｘ′，Ｙ′）はそれぞれ類似文書群規定語領域ｃ付近に写像したものであるので、同様の抽出条件を用いることにより各領域の索引語が抽出される。

なお、抽出条件は上記に限らず、例えば、
ＰＤＦ（ｗｉ，Ｐ）＝（ｐ/100）Exp［Ｘ′］−１、
ＰＤＦ（ｗｉ，Ｓ）＝（ｓ/100）Exp［Ｙ′］−１
とおいて、
ＰＤＦ（ｗｉ，Ｐ）≧１のとき、
Ｘ″＝lnＰＤＦ（ｗｉ，Ｐ）、
０＜ＰＤＦ（ｗｉ，Ｐ）＜１のとき、
Ｘ″＝−１、
ＰＤＦ（ｗｉ，Ｐ）≦０のとき、
Ｘ″＝−２
のように離散化し（Ｙ′についても同様）、Ｙ″＜０且つＸ″≧０なる索引語を、Ｘ″値
の降順に抽出しても同様の結果を得ることができる。

＜６．ポテンシャル流＞
索引語の密度変化の伝播速度∞（密度一定）を仮定し、非圧縮性流体であると仮定する（類似を考える）。
ポテンシャル流は粘性の有無に関係なく流体の運動方程式の解になっており、上記事情を考慮すれば非圧縮性完全流体のポテンシャル流のモデルを考えることが第一義的となる。以下では、複素数z＝X＋iY を考え、流れのポテンシャルモデルは境界の形に依存して各論となる。

＜６−１．モデル設定＞
索引語が B から湧き出し、C または T'(k) 近傍で流速が小さく、最終的に F または D へと流入していく澱み流のモデルを考える。境界設定により下記の様な模型が考えられる。
(i) 5角形モデル
境界が5角形領域 T'TDCB (k＝β_２の場合は台形領域 EDCB) 。
(ii) 台形モデル
台形領域 EDCB (5角形モデルにおいて、k＝β_２とする場合)。
(iii) 平行四辺形モデル
平行四辺形領域 T'FCB の場合。流入点を D の代わりに F とする。
(iv) 3角形分割モデル
四辺形領域 T'FCB を 2 つの三角形領域 △FCB と△T'FB とに分割し、点B に湧き出し、点 F に吸い込みを設けたポテンシャル流。

３角形分割モデルに関しては、以下の注意点が存在する。
注意点1：不要語領域の速度増大を抑制するが、2つの三角形の接続線上では速度が不連続であり、物理的には固定壁を設けることに相当する。但し、四辺形 T'FCB が菱形（即ち、△CBF が二等辺三角形）の場合に限り連続となり、固定壁を除くことが可能である。
注意点２： △T'BC と△T'FC に分割し、B 及び F に湧き出し、C に吸い込みを設けるなど、他の分割も可能である。

上記の様な 2頂点に湧き出し(吸い込み)を持つ多角形領域内の流線又は等ポテンシャル線は、Schwarz-Christoffel(SC)変換によって求められることが知られている。
手順は、最初に望みの z 面の多角形領域を写像とする様な原平面ζからの座標変換を求め、次にζ面の複素速度ポテンシャルに座標変換を適用し、望む z 面領域でのポテンシャルを得る。

以下では、先ず最も簡単な 3角形モデルによって原理説明を行い、その後、平行四辺形モデル、台形モデル、一般形の順に拡張を説明する。

＜６−２．座標変換＞
頂点 V_１が複素 z 平面の実数軸上の値 c2 に位置し、3 頂点 V_１, V_２, V_３の内角が各々 α_ｉπ (i＝1,2,3,α_１＋α_２＋α_３＝1) である三角形領域 △V_１ V_２ V_３を実現する変換ζ→ z は、SC 変換公式に従って一般に

と表現される。ζ平面の座標設定の仕方には原点位置、実数軸の方向、座標単位長さの3つの任意自由度が存在するが、ζ_１を原点におき、ζ_２−ζ_１の方向を実数軸に、単位長さを|ζ_２−ζ_１|＝1と規格化すれば、上記任意性は一般性を失わずに固定され、ζ_１＝0, ζ_２＝1 と選ぶことができる（これらの自由度は、z 平面において回転拡大因子 c1 と平行移動因子 c2 によって復活させることが可能である）。

ここで、回転拡大因子 c1 を任意定数ａを用いて

と再定義すれば、SC 公式(2.1) は不完全ベータ函数 Β(a,b;z) を用いて次の様に積分され

となり、頂点 V_ｉの z 座標は V_１＝f(ζ_１), V_２＝f(ζ_２), V_３＝f(ζ_３) で与えられる。
但し、p(ζ)＝ζ(ζ_３−1)/(ζ_３−ζ) であり、F21 は Gauss の超幾何函数である。

これにより各頂点の座標値及び関係式、
f(ζ_１)＝f(0)＝c2 ,
f(ζ_２)＝f(1)＝c2＋a Β(α_１,α_２) ,
f(ζ_３)＝c2＋a Β(α_１,α_３)Exp[iπα_１] ,
f(ζ_３)−f(1)＝−a Β(α_２,α_３) Exp[−iπα_２] ,
が導かれ、辺 V_１V_２, V_２V_３, V_３V_１の長さ L_１, L_２, L_３は
L_１＝|f(1)−f(0)|＝a Β(α_１,α_２) ,
L_２＝|f(ζ_３)−f(1)|＝a Β(α_２,α_３) ,
L_３＝|f(0)−f(ζ_３)|＝aΒ(α_３, α_１),
となることが示される。ここで、Β(α，β)はベータ函数である。

同様に、辺 V_３V_１を共有して平行四辺形をなす合同な三角形に対しては、
c1 → c1 Exp[iπ],
c2→ (f(0)−f(0)Exp[iπ])＋(Exp[iπ]f(0)−Exp[iπ]f(ζ_３))
と選べば f(ζ) によって変換が決まり、
z＝−f(ζ)＋f(ζ_3)＋f(0)
と表されるが、この f 及びζは上半平面(Imζ＞0)または3点{ζ_１, ζ_２, ζ_３} を通る円Γ内部でのみ定義されており、このままではζ平面における流れの原像が不自然な形となる。

この問題を解決するには、合同三角形の原像を下半ζ平面(またはΓ外部)に求めればよく、変換p(ζ)→1/p(ζ) に応答した置換
f(ζ)≡F(p) → Exp[2πiα_１] F(1/p)
を行って、
z＝g(ζ)＝−Exp[2πiα_１]F(1/p)＋f(ζ_３)＋f(0), (Im p＜0 )
とするのがよい (回転因子 Exp[2πiα_１] はζの変換において右辺に位相因子Exp[2πi] を乗じることに対応する)。

この変換は、上記の注意点１で指摘の通り、特にα_１＝α_３であれば、ζ_３＝∞ の時、g(ζ)＝f(ζ) が成立し、ζ面及びz 面上での連続性が保たれる。

また、f(ζ) の微分係数は、(式2.1) により、

となる。

△FCB 及び △T'FB を与える SC 変換 f(ζ) 及び g(ζ) は、上の結果にα_２＝3/4, c2＝−k を代入して (簡単化及び例示のためζ_３＝∞と固定)、

となる。

係数 a は辺長の関係式
L_１＝|FC|＝aΒ(α_１, 3/4)＝α＋k,
L_２＝|CB|＝aΒ(α_３, 3/4) ＝β_２√2,
L_３＝|BF|＝aΒ(α_３, α_１)
から、a＝(α＋k)/Β(α_１, 3/4)＝β_２√2/Ｂ(α_３, 3/4)
と決定され、切片 k を与えれば α_１従って α_３及び a が全て一斉に固定される（つまり、a, k, α_１, α_３のうちどれかを固定すれば全ての値が矛盾なく固定される）。

＜６−３．予備知識＞
ζ面上でポテンシャル流を与えれば、SC 変換によって z 面上の流線が得られる。

速度ベクトル U＝(u,v) ＝q Exp[iθ] が、勾配 U＝gradΦ によって与えられる流れをポテンシャル流と呼び（Φは速度ポテンシャル）、流線は流れの函数Ψが一定値をとる線で与えられる。渦なしの非圧縮2次元流の場合は、Φ及びΨは調和函数(△Φ＝△Ψ＝0 の解)であり、複素速度ポテンシャル W(z)＝Φ＋iΨ によって、
複素速度 V*(z)＝dW(z)/dz ＝u−iv （速度 V(z) の複素共役）が与えられる。

非圧縮流の湧き出し(吸い込み)ポテンシャルは、
W(z)＝m/(2π) Ln(z−z_ａ) (m＞0: 湧き出し、m＜0: 吸い込み)
で与えられる(W の n 階微分をとれば、n＋1 重極による湧き出し流を表す)。

また、回転流のポテンシャルは
W(z)＝−iκ/(2π) Ln (z−z_ａ) （κ＞0: 反時計回り、κ＜0: 時計回り）
であり、z_ａは湧き出し点または回転中心の位置を表し、係数 m 及びκはそれぞれ流量 Q と循環Γの強さを表す。これらの線型結合をとればモーメント M (M＝m−iκ) の湧き出し循環流
W(z)＝M ln (z−z_ａ)
を表し、この場合でも極座標表示 z＝z_ａ＋r Exp[iθ] をとると、
Φ＝(m ln r ＋κθ)/(2π), Ψ＝(mθ−κln r)/(2π)
となるから、流量 Q 及び循環Γは、湧き出し点を囲む閉曲線 C に沿う積分により
Q＝∫_ＣdΨ＝ m, Γ＝∫_ＣdΦ＝κ の様に与えられる。

＜６−４．３角形モデルへの適用＞
３角形モデルの場合、ζ面の原点にモーメント M (m＜0) の湧き出しポテンシャルを置けば、△FCB の頂点 F においてポテンシャル値 M Lnζ の吸い込み循環流が、同様にモーメントM (m＞0) の湧き出しポテンシャルを置けば、△T'FB の頂点 B においてポテンシャル値 M Lnζの湧き出し循環流が対応する。

従って、湧き出しポテンシャルとして頂点 V_１に
W(z)＝M Lnζ
の形を与える時、任意の三角形に対して複素速度は (式2.2) を用いて次の様に計算される：

△FCB の場合、これに α_２＝3/4,ζ_３＝∞ を代入すれば、

△T'FB の場合は M の符号を逆転 (M → −M) するだけでよい。(仮に分割壁に向かう循環流を考えるなら、△T'FB においてκの符号を保ち、m→−m とするだけでよい)。
このようにして、ζ平面の流れの情報は z 平面上の流れ情報に変換される。
参考までに、図１０にz 面における M＝a の流線(Ψ一定, α_１＝α_３) の様子を示す。

＜６−５．数値計算＞
実際の観測面は z 平面なので、z 面からのζ面への変換が必要である。等角変換なので逆写像は必ず存在し、形式的には
Arg(z＋k)＜πα_１ ⇒ ζ＝f^−１(z)
Arg(z＋k)＞πα_１ ⇒ ζ＝g^−１(z)＝f^−１( Exp[−2πiα_１]{f(∞)−k−z} )
と表すことができるが、一般に数値計算では、整数 j, k を用いてζ面の座標を離散的な格子座標ζ(j,k) で表現し、変換 f(ζ) によって z 面上の格子点z(j,k)＝f(ζ(j,k))を 1:1 で対応させることによって逆変換を求めるのが普通である（g(ζ) も同様）。
即ち、z 面上の任意に与えられた点 z に対して最近接格子点 z(j,k) を検索する:

ここで、整数 j_ｉはζ面上での検索領域の有効サイズ L_ｉと分割間隔Δ_ｉに対して、区間 0≦ j_ｉ≦ L_ｉ/Δ_ｉの範囲内をとる様に原点を選んでおく。
これにより与えられた L_ｉ及び Δ_ｉの下で、任意の z に対して (j,k) 座標値が決定され、対応するζの離散値 ζ(j, k) が決まる。

通常、離散格子は、流線、等ポテンシャル線に沿う直交曲線座標に基づくのが良く、例えば上記ポテンシャルの場合は平面極座標に基づいて、
ζ(j, k)＝Exp[jΔ_１＋i kΔ_２]
と与えるのが便利である。以上の処方により、任意の z に対して、座標、ポテンシャル、速度の離散値
z(j,k), ζ(j,k), W(j,k)＝W(z(j,k)), V(j,k)＝V(z(j,k))
が決定される。但し、モーメント M の値は、この段階ではまだ任意である。

＜６−６．流量と循環の強さ＞
点 z 上の索引語 w に対して、移動速度の観測値 V_Ｇ, 単位モーメント当たりのポテンシャル (M＝1) による流速 V, 複素モーメント M をそれぞれ、V_Ｇ＝(u,v) , V＝(a,b) ,M＝m−iκ とすれば、
V_Ｇ＝(m＋iκ)V ------ (式3.1)
を解くことによって、これまで任意としてきた流量と循環の強さ m 及び κ が求められる。但し、V_Ｇ≠0 且つ V＝∞の場合は、V とV_Ｇのなす角δを 0 に選ぶものとする。δを用いれば、m及びκは、
m＝(|V_Ｇ|/|V|)cosδ, κ＝(|V_Ｇ|/|V|)sinδ
で与えられる。全ての w について M が同一値であれば、全域で厳密にポテンシャル流が実現していることになる。
現実には、夫々の w についてまちまちの値となるので、(式3.1) は局所的な関係式として理解する必要がある。こうすることによって、索引語の時系流れの全貌、各索引語の (m,κ) 座標や、その平均値をグラフ表示したり、時系列表示することにより、定量及び定性両面からの時系比較分析を行うことが可能となる。

図１５ではモーメント変化の大きい索引語が、又、図１６では流速変化の大きい索引語が、それぞれ補助曲線の外側に出現する傾向が見える。
（図１５）：(m,κ) 平面（モーメント分布図）。補助曲線は原点を中心とし √(m^２＋κ^２) の平均値を半径とする円となる。
（図１６）：(m,κ) 平面の各点に流速 |V| を乗じた平面 (m|V|, κ|V|)（流速分布図）。補助曲線は、|V|√(m^２＋κ^２) の平均値を半径とする円である。
これら図１５及び図１６においては、流線に沿った方向成分m又はm|V|が横軸に、流線に直交する方向成分κ又はκ|V|が縦軸に表れている。
図１０に示す流線は専門語領域ｂから一般語領域ｄへ向かっているので、流線に沿った方向成分m又はm|V|の値が大きい索引語は、一般語領域ｄに向かう流れの強度或いは移動速度が大きい索引語ということができる。また、流線に直行する方向成分κ又はκ|V|の値が正で絶対値の大きい索引語は、独創的着目語領域ａに向かう流れの強度或いは移動速度が大きい索引語ということができ、流線に直行する方向成分κ又はκ|V|の値が負で絶対値の大きい索引語は、類似文書群規定語領域ｃに向かう流れの強度或いは移動速度が大きい索引語ということができる。従って、各索引語が、一般語の方向、独創的着目語の方向又は類似文書群規定語の方向に、どの位の流れの強度或いは移動速度で移動しているかを定量的に把握することができる。
これら図１５及び図１６によれば、各索引語の流れの強度と移動方向、或いは各索引語の移動速度と移動方向が、図１３に示されるような見かけ上の移動量や移動方向に関わらず、更に、図８に示す各領域の何れに位置するかに関わらず、定量的に把握できるので、調査対象文書内の索引語の位置づけ、ひいては調査対象文書の性格が、どの方向へどのように変化しているかを定量的に分析することができる。

これらの分布図は、座標を標準化したものであってもよい。例えば、図17 は、各索引語についてモーメント(m,κ)を標準化した座標
m_std ＝(m−)/σ_ｍ, κ_std ＝(κ−<κ>)/σ_κ
の分布図である。ただし、, σ_ｘは変数 x の索引語点に関する平均と標準偏差を表す。
モーメント変化が平均よりも大きな索引語は補助曲線の右側外部に現われ、変化が平均よりも小さな索引語は補助曲線の左側外部に出現する傾向がある。
（図17）標準化モーメント（m_std,κ_std）の分布図。補助曲線は原点を中心とする楕円で、元の(m,κ)平面ではマハラノビス距離が一定値（Ｒ_Ｍ）の円を表す。

＜６−７．その他のモデル＞
(式2.2)の様に座標変換の函数形 z＝f(ζ) さえ求めれば、測定原理は上述の３角形分割モデルと同様なので、以下では座標変換のみ示す。

＜６−７−１．平行四辺形モデル＞
一般に、平行四辺形の頂点 V_ｊ(j＝1,2,3,4) は、その内角α_ｊが条件
α_１＋α_２＋α_３＋α_４＝2, ---------(式4.1)
α_１＝α_３, α_２＝α_４, α_１＋α_２＝1 , ---------(式4.2)
を満たす様に配置されなければならない。
平行四辺形 FCB T' では、V_ｊ (j＝1,2,3,4)
を F, C, B, T' の順に選べばこの配置を満足する。

今、条件(4.1) だけを課して複素積分 (2.1) を4 因子に拡張し、

と選ぶとき、その積分は Appell の2 変数越幾何函数 F1(a; b1; b2; c; x, y) (文献 [1][2] 参照) を用いて、

と求積できる。この結果において、条件(式4.2) を代入すると、

特に、p(ζ_４)＝−1 (i.e., ζ_４＝ζ_３/(2−ζ_３) )と選ぶ時、これは 2辺の等長条件|V_１V_２|＝|V_１V_４| に等しく、α_１＝2α'_１と置いて p(ζ)→√p(ζ)とすれば、変換 (式4.4) は 3角形モデル(菱形の場合:α'_１＝α'_３) の座標変換 (式2.2) を再現する。
文献[1] 日本数学会, 岩波数学辞典第3版, 超幾何関数 264,岩波書店 (2002).
文献[2] P.Appell, Sur les fonctions hypergeometriques deplusieurs variables,
Memoir. Sci.Math., Gauthier-Villars, (1925).

＜６−７−２．台形モデル DCBE＞
台形 DCBE の場合、V_ｊ (j＝1,2,3,4) を D, C,B , Eの順に選べば、α_ｊに対する条件は、
α_１＋α_２＋α_３＋α_４＝1 ,
α_１＝α_４＝1/2, α_２＋α_３＝1 ,
となる。(式4.3) において、これらの条件を課せば、(式4.3) は、
z＝c2＋(a/α_１) [p(ζ)/ζ_４]^(1/2)
×F1(1/2; α_３; 1/2;3/2; p(ζ), p(ζ)/p(ζ_４)) .
である。

図１８は、台形モデルのｚ面におけるＭ＝ａの流線図である。
図１９は、台形モデルに基づく（ｍ、κ）分布図（モーメント分布図）である。
図２０は、台形モデルに基づく（m|V|、κ|V|）分布図（流速分布図）である。

＜６−７−３．五角形モデル＞
五角形領域DCBT'T の頂点 V_ｊ (j＝1,2,3,4,5) を D,C, B, T', T の順に選ぶと、その内角α_ｊ (j＝1,2,3,4,5) は以下の条件に従う。
α_１＋α_２＋α_３＋α_４＋α_５＝3, ---------(式5.1)
α_１＝1/2, α_２＝α_４＝α_５＝3/4, α_３＝1/4. ---------(式5.2)
今、条件(式5.1) だけを課して複素積分 (式2.1) を 5 因子に拡張し、
ζ_１＝0, ζ_２＝1,ζ_３＝∞,

と選ぶとき、その積分は Appell-Lauricella のn−2 変数超幾何関数

（文献 [1] [2] 参照）を用いて、n＝5 の場合に

と求積できる。この結果において、条件(式5.2) を代入すると、
z ＝c2＋2a√p(ζ) F(1/2; 1/4; 1/4; 1/4; 3/2; p(ζ), p(ζ)/p(ζ_４), p(ζ)/p(ζ_５)) .

図２１は、五角形モデルのｚ面におけるＭ＝ａの流線図である。
図２２は、五角形モデルに基づく（ｍ、κ）分布図（モーメント分布図）である。
図２３は、五角形モデルに基づく（m|V|、κ|V|）分布図（流速分布図）である。

同様に、n角形では、座標変換

を導くことができ、同様なモーメント分布図や流速分布図を作成することができる。

Claims

調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出手段と、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出手段と、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出手段と、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力手段と、
を備えた、索引語抽出装置。
請求項１において、前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記類似文書群における出現頻度の関数値を前記座標の第２軸にとって、
前記索引語の位置、及び前記各索引語の位置の時系列変化量並びに時系列変化方向を表示しそれぞれ出力する、索引語抽出装置。
請求項１において、
前記時系列変化算出手段は、更に、
前記各索引語の位置の時系列変化量及び時系列変化方向に基づいて、各索引語の時系列変化を、所定の流線に沿った方向成分と当該流線に交差する方向成分とに分けて各方向成分の時系列変化量を算出し、
前記出力手段は、
前記所定の流線に沿った方向成分の時系列変化量を座標の第１軸にとり、
前記流線に交差する方向成分の時系列変化量を前記座標の第２軸にとり、
前記各索引語を表示しそれぞれ出力する、索引語抽出装置。
請求項１乃至請求項３の何れか一項において、
前記比較対象文書群又は前記類似文書群における出現頻度の関数値は、当該出現頻度の逆数に、前記比較対象文書群又は前記類似文書群の総文書数を乗じたものの対数である、
索引語抽出装置。
請求項１乃至請求項４の何れか一項において、
前記各索引語の位置データの時系列変化量及び時系列変化方向を、流体力学モデルの流体のポテンシャル変化に基づいて算出する、索引語抽出装置。
調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力ステップと、
前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出ステップと、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出ステップと、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出ステップと、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出ステップと、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出ステップと、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力ステップと、
を備えた、索引語抽出方法。
調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力機能と、
前記調査対象文書内の索引語を抽出する索引語抽出機能と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第１出現頻度算出機能と、
前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出機能と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第２出現頻度算出機能と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出機能と、
前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出機能と、
前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力機能と、
をコンピュータに実行させる、索引語抽出プログラム。
調査対象文書内の索引語について、
前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第１軸にとり、
前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第２軸にとって配置し、
前記索引語とその位置のデータ、その時系列変化量及び時系列変化方向を表した、
調査対象文書の性格表現図。
調査対象文書内の索引語について、
所定の流線に沿った方向成分の時系列変化量を座標の第１軸にとり、
前記流線に交差する方向成分の時系列変化量を前記座標の第２軸にとり、
前記各索引語を表示した、
調査対象文書の性格表現図。