JPWO2006115228A1 - 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 - Google Patents

調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 Download PDF

Info

Publication number
JPWO2006115228A1
JPWO2006115228A1 JP2007514696A JP2007514696A JPWO2006115228A1 JP WO2006115228 A1 JPWO2006115228 A1 JP WO2006115228A1 JP 2007514696 A JP2007514696 A JP 2007514696A JP 2007514696 A JP2007514696 A JP 2007514696A JP WO2006115228 A1 JPWO2006115228 A1 JP WO2006115228A1
Authority
JP
Japan
Prior art keywords
index word
document
document group
target document
appearance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007514696A
Other languages
English (en)
Inventor
博昭 増山
博昭 増山
晴正 佐藤
晴正 佐藤
多一 伊藤
多一 伊藤
Original Assignee
株式会社アイ・ピー・ビー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社アイ・ピー・ビー filed Critical 株式会社アイ・ピー・ビー
Publication of JPWO2006115228A1 publication Critical patent/JPWO2006115228A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

調査対象文書d内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、比較対象文書群Pにおける出現頻度の関数値IDF(P)を算出する第1出現頻度算出手段と、調査対象文書dのデータに基づき、比較対象文書群Pの中から調査対象文書dに類似する類似文書群Sを選出する類似文書群選出手段と、前記抽出された索引語の、類似文書群Sにおける出現頻度の関数値IDF(S)を算出する第2出現頻度算出手段と、各索引語についての、前記算出された比較対象文書群及び類似文書群における各出現頻度の関数値の組合せに基づき、各索引語とその位置づけ及びその時系列変化のデータとを出力する出力手段と、を備える。これにより、文書を読まずに調査対象文書の性格及びその時間的推移の的確な把握を可能にする。

Description

本発明は、調査対象文書中の索引語の抽出に係わり、特に調査対象文書の性格又は文書群に対する位置付け及びその時系列変化を的確に分析することを可能にする、索引語の自動抽出装置、抽出プログラム、抽出方法、及び抽出された索引語を用いた性格表現図に関するものである。
また、本発明は文書の特徴分析装置に係わり、特に調査対象文書群に含まれる調査対象文書の、他の文書群に対する大まかな位置付け及びその時系列変化や、調査対象文書群全体としての特色を分析できるようにする文書の特徴分析装置、分析プログラム、分析方法、及び文書特徴表現図に関するものである。
特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書群から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。例えば、特開平11−73415号公報「類似文書検索装置及び類似文書検索方法」(特許文献1)においては、調査対象の文書に含まれる索引語を他の文書群に含まれる索引語と比較し、類似する索引語の種類目や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。
しかし、類似文書は検索されても、それだけでは調査対象の文書の性格或いは文書群での位置付け及びその時系列変化を知ることはできない。調査対象の文書の性格又は文書群での位置付け及びその時系列変化を知るためには、検索結果の類似文書を読み込んだ上で、読み込んだ類似文書を前提として調査対象文書の評価をしなければならなかった。
一方、文書の特徴そのものを自動抽出するものとして、例えば特開平11−345239号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」(特許文献2)が存在する。この公報においては、「標準文書集合」から検索により「対象文書集合」を抽出し、この「対象文書集合」を構成する各「個別文書」の特徴情報を抽出している。
具体的には、「対象文書集合」を「標準文書集合」に対して特徴付ける『対象文書集合全体特徴』を算出するとともに、「対象文書集合」中の各「個別文書」を他の個別文書に対して特徴付ける『個別文書特徴』を算出する。そして、これら『対象文書集合全体特徴』と『個別文書特徴』に基づいて、各「個別文書」の特徴情報を出力する。この技術は、大量の情報の中からユーザが有益な情報を見つけ出して取捨選択することを容易にする点で有益である。
特開平11−73415号公報「類似文書検索装置及び類似文書検索方法」 特開平11−345239号公報「文書情報抽出方法及び装置及び文書情報抽出プログラムを格納した記憶媒体」
しかし、上記特開平11−345239号公報(特許文献2)に記載の技術では例えば「桜の花見」など特定のテーマを決めてからこれに合致する「対象文書集合」を抽出する。そしてこの「対象文書集合」が抽出されることで初めて、特徴情報の抽出対象となる各「個別文書」が決定される。すなわち、「対象文書集合」やそれを抽出する特定のテーマが予め決まっていないと「個別文書」を決定することさえできない。従ってこの公報に記載の技術では、特定の調査対象文書が与えられたときにしかその性格を分析することはできない。
そこで、本出願人は、本出願の優先日において未公開の国際特許出願番号PCT/JP2004/015082において、
調査対象文書、前記調査対象文書と比較され、又、前記調査対象文書に類似する類似文書群の選出元となる比較対象文書群、を入力する入力手段と、
前記調査対象文書内の索引語を抽出する索引語抽出手段と、
前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現頻度算出手段と、
前記調査対象文書のデータに基づき、前記選出源文書群の中から前記類似文書群を選出する類似文書群選出手段と、
前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第2出現頻度算出手段と、
各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置づけデータとを出力する出力手段と、
を備えた、索引語抽出装置
を提案した。
これにより、調査対象文書があたえられたときにその性格の的確な把握ができることとなった。
更に、この索引語抽出装置について、
前記出力手段は、
前記比較対象文書群における出現頻度の関数値を座標の第1軸にとり、
前記類似文書群における出現頻度の関数値を前記座標の第2軸にとって、前記索引語を配置し出力する
ことを提案した。
これにより、座標上に配置された索引語の位置により、各索引語の位置付けを視覚的に把握することができることとなった。
しかしながら、座標上に配置された索引語の位置は、各索引語の所与の解析時点における平均的或いは集計された結果の値であって、座標上に配置された索引語の位置の時間的推移が位置の変化として座標上に表現されて、その索引語の性格の時間的推移を定量的に知る、ということができなかった。
本発明の課題は、調査対象文書が与えられればそれだけで、その性格の的確な把握を可能にするだけでなく、その性格の時間的推移を定量的に知ることを可能にする、索引語抽出装置を提供することである。
上記課題を解決するため、本発明の索引語抽出装置は、調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力手段と、前記調査対象文書内の索引語を抽出する索引語抽出手段と、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現頻度算出手段と、前記調査対象文書のデータに基づき、前記比較対象文書群の中から前記類似文書群を選出する類似文書群選出手段と、前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第2出現頻度算出手段と、各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出手段と、前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出手段と、前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力手段と、を備えている。
本発明は、出現頻度の関数値を各索引語における組合せで観察することにより、調査対象文書が与えられればそれだけで、その性格の的確な把握を可能にするだけでなく、その性格の時間的推移を定量的に知ることを可能にするものである。
本発明によれば、調査対象文書内の索引語を抽出する処理、比較対象文書群から類似文書群を選出する処理、比較対象文書群又は類似文書群における出現頻度の関数値を算出する処理等は、すべてコンピュータで行われるので、各処理のために人間が文書内容を読む必要はまったくない。
特に、調査対象文書のデータに基づいて類似文書群を、時系列に属する各期間ごとに新たに選出し、この類似文書群における出現頻度の関数値と、比較対象文書群における出現頻度の関数値との組合せに基づき、各索引語とその位置付け及びその時系列変化データとを出力するので、調査対象文書の性格を精度よく分析することができる。
上記比較対象文書群は、検索処理可能なデータである必要はあるが、内容については格別の制約はなく、例えばこれらが同一の文書群であっても良いし、異なる文書群であってもよい。また、これらの文書群の何れか又は双方が、ある文書群から無作為抽出されたものでも良いし、一定条件のもとで全件抽出されたものでもよい。典型例としては、ある国及び期間における全特許文書(公開特許公報など)を、比較対象文書群とすることができる。
上記調査対象文書は、1文書でも複数の文書でもよい。複数の文書をまとめて調査対象文書とする場合は、個々の調査対象文書の性格というよりは、文書群としての性格を示すことになる。
上記索引語抽出手段による索引語の抽出は、文書の全部又は一部から単語を切り出すことにより行う。単語の切り出し方に特段の制約はなく、例えば従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除いて意味ある品詞を抽出する方法でも良いし、索引語の辞書(シソーラス)のデータベースを事前に保持し、該データベースから得られる索引語を利用する方法でもよい。
索引語の文書群における出現頻度としては、例えば、当該文書群を検索対象とし、ある索引語で検索したときのヒット文書数(文書頻度DF)を用いるが、これに限られるものではなく、例えば当該索引語がヒットした延べ回数でもよい。
出力手段による索引語の出力は、索引語抽出手段により抽出された索引語すべてを出力しても良いし、文書の性格を強く示す一部の索引語のみを出力しても良い。また、出力手段により索引語とともに出力される位置付け及びその時系列変化データは、比較対象文書群及び類似文書群における出現頻度の関数値をそのままの形で出力しても良いし、これに基づいて座標上に索引語を配置した図として出力しても良いし、上記出現頻度の関数値に基づいてグループ分けされた索引語のリストとして出力しても良い。
上記索引語抽出装置において、前記類似文書群選出手段は、前記調査対象文書の各文書について、当該文書に含まれる各索引語の当該文書における出現頻度の関数値又は各索引語の前記比較対象文書群における出現頻度の関数値を成分とするベクトルを算出し、前記調査対象文書について算出された前記ベクトルに対する類似度合いの高いベクトルをもつ文書を前記比較対象文書群から選出して、類似文書群とすることが望ましい。
類似文書群の選出を各文書のベクトルに基づいて行うので、高い信頼性を確保することができる。また、例えばIPC(国際特許分類)等の一致により類似文書群を選出する場合と異なり、類似度合いの高い順に何件という形での件数指定も自在にできる。
従って、上記ベクトルの類似度合いの判定は、ベクトル間の余弦乃至Tanimoto相関(類似度)などベクトル成分間の積の関数を用いても良いし、ベクトル間の距離(非類似度)などベクトル成分間の差の関数を用いてもよい。
上記索引語抽出装置において、前記出力手段は、各算出手段の結果に基づき、前記比較対象文書群においても前記類似文書群においても出現頻度の低い第1グループの索引語と、前記第1グループの索引語よりも前記比較対象文書群における出現頻度が高い第2グループの索引語と、前記第1グループの索引語よりも前記類似文書群における出現頻度が高い第3グループの索引語と、をそれぞれ出力することが望ましい。
従って、比較対象文書群における出現頻度の関数値と、類似文書群における出現頻度の関数値とを用いて、第1〜第3グループの索引語をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えば上記第1グループの索引語は、調査対象文書に含まれる専門的な内容、又はこれに直結する概念を表現する語(専門語)であると評価できる。
また例えばここでいう第2グループには、比較対象文書群における出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す語(独創的着目語)が含まれる。
また例えばここでいう第3グループには、類似文書群を特徴付ける語(類似文書群規定語)が含まれる。例えば技術文書を調査対象とした場合であれば、この第3グループの索引語を見れば、類似文書群及び調査対象文書の技術分野を知ることができる。
上記索引語抽出装置において、比較対象文書群における出現頻度の関数値及びその時系列変化量と、類似文書群における出現頻度の関数値及びその時系列変化量とを用いて、第1〜第3グループの索引語及びその時系列変化量をそれぞれ出力することにより、調査対象文書の性格を多面的に分析することができる。
例えば、各索引語の時間的推移の方向を見れば、文書群の性格の時間的推移の方向性が分かる。
本発明の性格表現図は、調査対象文書内の索引語について、前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第1軸にとり、前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第2軸にとって配置し、前記各索引語の位置データの時系列変化量及び時系列変化方向を表示して、それぞれ出力するので、座標上に配置表示された索引語の位置及びその時系列変化により、各索引語の位置付け及びその時間的推移を視覚的に把握できる結果、調査対象文書の性格を的確に分析することができる。
座標系としては、第1軸としてX軸(横軸)、第2軸としてY軸(縦軸)を用いるが、これに限らず例えば3次元座標を用いて、時間或いは上記以外の指標をZ軸にとってもよい。
本発明によれば、第1に、調査対象文書が与えられたときにその性格及び時系列変化を的確に表現できるようにする索引語抽出装置を提供することができる。
また第2に、調査対象文書の性格を多面的に分析できるようにする索引語抽出装置及び性格表現図を提供することができる。
また第3に、調査対象文書群に含まれる調査対象文書の、比較対象文書群に対する大まかな位置付け及びその時系列変化や、調査対象文書群全体としての傾向を分析できるようにする文書特徴分析装置及び文書特徴表現図を提供することができる。
本発明の一実施形態に係る特徴索引語抽出装置のハードウェア構成を示す図。 上記特徴索引語抽出装置における構成と機能を詳細に説明する図。 処理装置1の動作を示すフローチャート。 入力条件設定画面の表示例を示す図。 入力条件設定画面の表示例を示す図。 選出条件設定画面の表示例を示す図。 出力条件設定画面の表示例を示す図。 特徴索引語の出力マップ(頻度平面図)の性質を説明するための概念図。 特徴索引語の出力マップ(頻度平面図)の補正を説明するための概念図。 特徴索引語の出力マップ(頻度平面図と位置の変化量)の原理(三角形モデル)を説明するための概念図。 特徴索引語の出力マップ(頻度平面図)の1993年までの表示例。 特徴索引語の出力マップ(頻度平面図)の1994年までの表示例。 特徴索引語の出力マップ(頻度平面図と位置の変化量)の1993年から1994年への位置とその変化量を示す表示例。 特徴索引語の出力リスト(頻度平面図と位置の変化量)の1993年から1994年への位置とその変化量を示す例。 特徴索引語の出力マップ(頻度平面図)のモーメント分布図の表示例。 特徴索引語の出力マップ(頻度平面図)の流速分布図の表示例。 特徴索引語についてモーメント(m,κ)を標準化した座標の分布図。 台形モデルのz面におけるM=aの流線図。 台形モデルに基づく(m、κ)分布図(モーメント分布図)。 台形モデルに基づく(m|V|、κ|V|)分布図(流速分布図)。 五角形モデルのz面におけるM=aの流線図。 五角形モデルに基づく(m、κ)分布図(モーメント分布図)。 五角形モデルに基づく(m|V|、κ|V|)分布図(流速分布図)。
符号の説明
1:処理装置、2:入力装置、3:記録装置、4:出力装置、
110:調査対象文書d読み出し部、120:索引語(d)抽出部、121:TF(d)演算部、130:比較対象文書群P読み出し部、140:索引語(P)抽出部、141:TF(P)演算部、142:IDF(P)演算部、150:類似度演算部、160:類似文書群S選出部、170:索引語(S)抽出部、171:IDF(S)演算部、180:特徴索引語抽出部、190:時系列分類部、191:位置データ補正部、192:位置・変化量算出部、
a:独創語的着目語領域、b:専門語領域、c:類似文書群規定語領域、d:一般語領域。
以下、本発明の実施の形態を、図面を参照して詳細に説明する。

<1.語彙の説明等>
本明細書の中で使用する語彙を定義或いは説明する。
本明細書の中で、「文書」とは、特許公開公報、特許公報、学術論文などのことであり、特に、技術情報であることが望ましいが、これに限らない。文書がコンピュータで判読できるものであれば、特に規定しない。もっともコンピュータで判読できなくても事前に人間などが判読してテキストファイルなどに変換しておけば同じことである。図面なども、少なくとも装置などの部品の名称などがデータになっていれば、本明細書の文書に含めてよい。
尚、本明細書の文書には、例えば、公開日或いは発行日など、時間(年、月、日、時刻など)を識別するデータが含まれている必要がある。
文書の形式は、例えば、特許公開公報、特許公報、学術論文などの全文でももちろん良いし、要約や特許請求の範囲などだけの一部の文章でも、或いはメモの状態や箇条書きのものでも構わない。

「調査対象文書d」:調査に係る、ある案件。例えば、特許第何号公報などの文書、或いはその集合。
「比較対象文書群P」:調査対象文書dと比較する対象の文書の集合。例えば、ある国及び期間における特許文書(公開特許公報など)のすべて、又はそこから無作為抽出された文書の集合である。ここでは調査対象文書dを含む場合について説明するが含んでいなくてもよい。
「比較対象文書群P’」:調査対象文書dと比較する対象の、別の文書の集合。例えば、第1所定期間の比較対象文書群に対する、第2の所定期間の比較対象文書群。
「類似文書群S」:調査対象文書dに類似な文書の集合。ここではdを含む場合について説明するが含んでいなくてもよい。また比較対象文書群Pの中から選出される場合について説明する。
各図の中の構成要素に付してある、d或いは(d)、P或いは(P)、又はS或いは(S)は、それぞれ調査対象文書、比較対象文書群、又は類似文書群の意味であり、以降判別しやすいように構成要素や動作にも付する。例えば、索引語(d)とは、調査対象文書dの索引語を意味する。
「TF演算」とはTerm Frequencyの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度(索引語頻度)の計算である。
「DF演算」とはDocument Frequencyの計算のことであり、ある文書に含まれる索引語で検索対象文書群から検索したときのヒット文書数(文書頻度)の計算である。
「IDF演算」とは、例えばDF演算結果の逆数、或いは逆数に検索対象文書群であるPないしSの文書数を乗じたものの対数などの計算である。
ここで、IDF(P)などの算出に、対数としてここでは自然対数を用いたが、これに限らず常用対数等を用いてもよい。
以降の説明を簡素にするため、略号を決める。
d :調査対象文書。
p :比較対象文書群Pに属する文書。
N :比較対象文書群Pの全文書数。
N′:類似文書群Sの文書の数。
TF(d):dの索引語による、dの中での出現頻度。
TF(P):pの索引語による、pの中での出現頻度。
DF(P):d又はpの索引語による、Pの中での文書頻度。
DF(S):dの索引語による、Sの中での文書頻度。
IDF(P):DF(P)の逆数×文書数の対数:ln[N/DF(P)]。
IDF(S):DF(S)の逆数×文書数の対数:ln[N′/DF(S)]。
TFIDF:TFとIDFとの積。文書の索引語ごとに演算される。
「類似度(類似率)」:調査対象文書dと、比較対象文書群Pに属する或る文書pとの類似の程度。
「索引語」とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出してもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。
「第1所定期間」とは、調査対象文書dを含む比較対象文書群Pに付属或いは識別する年月日データなどの時間データを含む期間。例えば、比較対象文書群Pが、1993年から2003年迄に発行された特許公開公報群(約450万件)ならば、第1所定期間は、1993年から2003年迄を指す。
「第2所定期間」とは、調査対象文書dを含む別の比較対象文書群P’に付属或いは識別する年月日データなどの時間データを含む期間。例えば、比較対象文書群P’が1993年から2004年迄に発行された特許公開公報群(約500万件)ならば、第2所定期間は、1993年から2004年迄を指す。
尚、第2所定期間の開始時間は、第1所定期間の開始時間と一致していることが望ましい。
「第1所定期間の特徴索引語及びその位置データ」とは、第1所定期間内の調査対象文書dを含む比較対象文書群Pから求めた、特徴索引語及びその位置データである。
「第2所定期間の特徴索引語及びその位置データ」とは、第2所定期間内の調査対象文書dを含む比較対象文書群P’から求めた、特徴索引語及びその位置データである。
<2.索引語抽出装置の構成:図1、図2>
図1は本発明の一実施形態に係る索引語抽出装置のハードウェア構成を示す図である。
同図に示すように、本実施形態の索引語抽出装置は、CPU(中央演算装置)およびメモリ(記録装置)などから構成される処理装置1、キーボード(手入力器具)などの入力機能である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録機能である記録装置3、および索引語の抽出結果などをマップやリストなどで表示などする出力機能である出力装置4から構成される。
記録装置3は、条件記録機能や、作業結果格納機能や、文書格納機能を持っており、それらと外部データベースから取得した文書などを保存する内部データベース30を含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フレキシブルディスク)、CDROM(コンパクトディスク)、MO(光磁気ディスク)、DVD(デジタル多用途ディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
図1及び図2において、処理装置1、入力装置2、記録装置3、および出力装置4の間で信号やデータをやり取りする通信機能としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし、LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
次に、図2により本発明に係る一実施形態の索引語抽出装置における機能を詳しく説明する。
<2−1.処理装置1の詳細>
図2の処理装置1において、調査対象文書d読み出し部110は、内部データベース30に記録された条件に基づいて、調査対象の文書を、内部データベース30より読み出す。読み出された調査対象文書dは、索引語(d)抽出部120に送られる。索引語(d)抽出部120は、調査対象文書d読み出し部110で得られた文書から索引語の抽出を行なう。
TF(d)演算部121は、前記調査対象文書dについての前記索引語(d)抽出部120の作業結果を、TF演算する。得られたTF(d)のデータは、類似度演算部150に送られる。
比較対象文書群P読み出し部130は、内部データベース30に記録された条件に基づいて、比較対象となる複数の文書を、内部データベース30より読み出す。読み出された比較対象文書群Pは、索引語(P)抽出部140に送られる。索引語(P)抽出部140は、内部データベース30に記録された条件に基づいて、比較対象文書群P読み出し部130で得られた文書から索引語の抽出を行ない、TF(P)演算部141及びIDF(P)演算部142に送られる。
TF(P)演算部141は、内部データベース30に記録された比較対象文書群Pについての索引語(P)抽出部140の作業結果を、TF演算する。得られたTF(P)のデータは、類似度演算部150に送られる。
IDF(P)演算部142は、内部データベース30に記録された比較対象文書群Pについての索引語(P)抽出部140の作業結果を、IDF演算する。得られたIDF(P)のデータは、類似度演算部150に及び特徴索引語抽出部180に送られる。
類似度演算部150は、内部データベース30に記録された条件に基づいて、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142の演算結果から、比較対象文書群Pの文書それぞれの、調査対象文書dに対する類似度を演算する。得られた類似度は、比較対象文書群Pのそれぞれの文書に類似度データとして付され、類似文書群S選出部160に送られる。
類似度演算部150における類似度の演算は、各文書の索引語毎に、例えばTF(d)IDF(P)演算などの計算がなされ、比較対象文書群Pの文書それぞれの、調査対象文書dに対する類似度が計算される。TFIDF演算とは、TF演算結果とIDF演算結果の積である。類似度の演算方法は後で詳しく述べる。
類似文書群S選出部160は、類似度演算部150の結果から比較対象文書群Pの類似度演算結果を得て、内部データベース30に記録された条件に基づいて類似文書群Sを選出する。類似文書群Sの選出は、例えば類似度の高い順に文書をソートし、条件に記された必要な数だけ、例えば類似度の高い順に3000個だけ選出する。選出された類似文書群Sは、索引語(S)抽出部170に送られる。
索引語(S)抽出部170は、類似文書群S選出部160の類似文書群Sから、内部データベース30に記録された条件に基づいて、索引語(S)を抽出する。抽出された索引語(S)は、内部データベース30及び直接IDF(S)演算部171に送られる。
IDF(S)演算部171は、索引語(S)抽出部170から索引語(S)を得て、この索引語(S)を、内部データベース30に記録された条件に基づいてIDF演算する。得られたIDF(S)は、内部データベース30特徴索引語抽出部180に送られる。
特徴索引語抽出部180は、IDF(S)演算部171の結果及びIDF(P)演算部142の結果から、内部データベース30に記録された条件に記された必要な数だけ、或いは同条件に基づいた計算結果により選ばれた数だけ、索引語(d)を抽出する。ここで抽出された索引語を「特徴索引語」と称することにする。抽出された特徴索引語(d)は、内部データベース30或いは直接、時系列分類部190に送られる。
時系列分類部190では、特徴索引語抽出部180の結果が、第1所定期間の特徴索引語及びその位置データであるか、第2所定期間における特徴索引語及びその位置データであるか、が判断される。
特徴索引語抽出部180の結果が、第1所定期間の特徴索引語及びその位置データの場合には、位置データ補正部191を経由して直接位置・変化量算出部192に送られると同時に、内部データベース30を経由して比較対象文書群P読み出し部130に戻され、比較対象文書群Pに、ある期間の経過後においてデータが追加された新たな比較対象文書群P’に基づく特徴索引語及びその位置データを算出する。
特徴索引語抽出部180の結果が、第2所定期間の特徴索引語及びその位置データの場合は位置データ補正部191に送られる。
位置データ補正部191は、第1所定期間の特徴索引語及びその位置データに対して、ある期間経過後の文書が追加された新たな比較対象文書群P’に基づき算出された第2所定期間の特徴索引語及びその位置データを、第1所定期間の特徴索引語及びその位置データのものと正しく比較できるようにするために、新たな比較対象文書群P’の全文書数N’を比較対象文書群Pの全文書数Nに合わせて、補正する。そして位置・変化量算出部192に送られる。
位置・変化量算出部192は、特徴索引語抽出部180により算出された第1所定期間の特徴索引語及びその位置データと、同じ特徴索引語の位置データ補正部191により補正された第2所定期間の特徴索引語及びその位置データとから、それらの変化量を算出し、内部データベース30に格納する。
<3.索引語の抽出動作、及びその位置・変化量算出動作:図3>
図3は、処理装置1の動作を示すフローチャートである。まず初期化(ステップS101)のあと、内部データベース30に記録された条件に基づいて、内部データベース30から読み出す文書を、調査対象文書dと比較対象文書群Pに区別する(ステップS102)。読み出す文書が調査対象文書dであるとき、調査対象文書d読み出し部110において調査対象文書を内部データベース30より読み出す(ステップS110)。次に、索引語(d)抽出部120において調査対象文書dの索引語抽出を行なう(ステップS120)。引き続き、抽出された索引語の各々について、TF(d)演算部121においてTF演算をする(ステップS121)。
一方ステップS102で、読み出す文書が比較対象文書群Pであるとき、内部データベース30から比較対象文書群Pを読み出す(ステップS130)。次に、索引語(P)抽出部140において比較対象文書群Pの索引語抽出を行なう(ステップS140)。引き続き、抽出された索引語の各々について、TF(P)演算部141においてTF演算をする(ステップS141)とともに、IDF(P)演算部142においてIDF演算をする(ステップS142)。
次に、TF(d)演算部121の出力のTF(d)演算結果と、TF(P)演算部141の出力のTF(P)演算結果、及びIDF(P)演算部142の出力のIDF(P)演算結果を基に、類似度演算部150により、類似度の演算を行なう(ステップS150)。この類似度の演算は、入力装置2から入力された条件に基づき、類似度算出のための類似度算出モジュールを内部データベース30から呼び出してきて実行する。
類似度演算の具体的な一例を説明すると以下の通りである。今、dを調査対象文書とし、pを比較対象文書群Pの個々の文書とする。これら文書d及びpに対する演算の結果、文書dから切り出された索引語を「赤」「青」「黄」とする。また、文書pから切り出された索引語を「赤」「白」とする。その場合、文書d中の索引語の索引語頻度をTF(d)とし、文書p中の索引語の索引語頻度をTF(P)とし、比較対象文書群Pから得た索引語の文書頻度をDF(P)とし、全文書数を50とする。
このとき、例えば、
Figure 2006115228
であるとする。TF*IDF(P)を各文書の索引語毎に計算して、ベクトル表現を算出する。この結果は文書ベクトルd及びpについて、
Figure 2006115228
となる。
このベクトルd及びp間の余弦(又は距離)の関数を取れば、文書ベクトルd及びp間の類似度(又は非類似度)が得られる。なお、ベクトル間の余弦(類似度)は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離(非類似度)は値が小さいほどやはり類似度合いが高いことを意味する。得られた類似度は、内部データベース30に格納されるとともに、類似文書群S選出部160に送られる。
次に、類似文書群S選出部160により、ステップS150にて類似度演算した文書を類似度の順に並べ替え、入力する抽出条件に沿った数の類似文書群Sを選出する(ステップS160)。
次に、類似文書群Sの索引語(S)抽出部170により、ステップS160にて選出した類似文書群Sの索引語(S)を抽出する(ステップS170)。
次に、索引語(d)の各々について、IDF(S)演算部171により、類似文書群SにおけるIDF演算をする(ステップS171)。
次に、ステップS171によるIDF(S)演算の結果と、ステップS142によるIDF(P)演算の結果とから、特徴索引語を抽出する(ステップS180)。
次に、ステップS190による時系列分類にて、ステップS180の特徴索引語抽出の結果が、第1所定期間の特徴索引語及びその位置データであるか、第2所定期間の特徴索引語及びその位置データであるか、が判断される。
ステップS180の特徴索引語抽出の結果が、第1所定期間の特徴索引語及びその位置データである場合は、ステップ191の位置データ補正部を経由してステップ192の位置・変化量の算出部に送られると同時に、内部データベース30を経由して比較対象文書群P読み出し部130に戻され、比較対象文書群Pにある期間経過後のデータが追加された新たな比較対象文書群P’に基づく特徴索引語及びその位置データを算出する(ステップS190)。
次に、ステップS180の特徴索引語抽出の結果が、第2所定期間の特徴索引語及びその位置データである場合は、ステップS191により特徴索引語の位置データ補正が行われる。比較対象文書群Pにある期間経過後の文書が追加された新たな比較対象文書群P’に基づき算出された第2所定期間の特徴索引語及びその位置データを、第1所定期間の特徴索引語及びその位置データのものと比較するために、比較対象文書群Pの全文書数Nに合わせて、補正される(ステップS191)。そして位置・変化量算出部192に送られる。
位置・変化量算出部192は、第1所定期間の特徴索引語及びその位置データに対して、補正した第2所定期間の特徴索引語及びその位置データが、どれだけ変化しているかを算出する。
尚、変化量はただ2つの位置データの差分又は、索引語を流体とみなした時のその位置における流れ(動き)の速度を考慮した変化量である。これら、算出された位置及び変化量が出力装置4に送られる(ステップ192)。
尚、任意の第1所定期間及び第2所定期間に対して、上記のステップを反復して出力してもよい。
<3−1.入力画面:図4〜図7>
図4は、調査対象文書dの入力条件設定画面の表示例を示す図である。
図4においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」の中から「調査対象文書」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウインドの「自社DB1」「自社DB2」「特許庁IPDL」「PATOLIS」「他商用DB1」「他商用DB2」「FD」「CD」「MO」「DVD」「その他」などの中から「FD」を選び、更に「FD」の「文書1」「文書2」「文書3」「文書4」「文書5」「文書6」などの中から「文書3」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、入力される。
図示はしていないが、第1所定期間及び第2所定期間の入力、または期間差分間隔と解析する時間列の個数などの入力がされる。
図5は、比較対象文書群Pの入力条件設定画面の表示例を示す図である。図7においては、「対象文書」のウインドの「調査対象文書」と「比較対象文書群」などの中から「比較対象文書群」を選び、次に「文書内容」のウインドの「公開特許」「登録特許」「実用新案」「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウインドの「請求項」「従来技術」「発明の課題」「手段・効果」「実施例」「図の説明」「図面」「要約」「書誌事項」「経過情報」「登録情報」「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウインドで前述と同じ項目の中から「自社DB1」を選んだ状態の例が示されている。この例のような入力条件設定画面における設定条件が、入力される。
図6は、索引語抽出条件および類似文書群選出条件の設定画面の表示例を示す図である。図6においては、「索引語抽出条件」のウインドの「自社キーワード切出1」「自社キーワード切出2」「商用キーワード切出1」「商用キーワード切出2」などの中から「自社キーワード切出1」を選び、次に「類似度算出方法」のウインドの「類似度1」「類似度2」「類似度3」「類似度4」「類似度5」「類似度6」などの中から「類似度1」を選び、次に「類似文書選出」のウインドの「類似文書数」「非類似文書数」などの中から「類似文書数」を選び、更に「上位100件」「上位1000件」「上位3000件」「上位5000件」「数値入力」などの中から「上位3000件」を選んだ状態の例が示されている。この例のような抽出条件設定画面における設定条件が、入力される。
図7は、特徴索引語抽出装置の出力条件設定画面の表示例を示す図である。図7においては、「マップ算出方法」のウインドの「X軸」に「X軸:比較対象文書群IDF」及び「Y軸」に「Y軸:類似文書群IDF」を選び、次に「マップ」のウインドの「マップ1枚」「マップ2枚」「マップ1枚・リスト付」「マップ2枚・リスト付」「マップ1枚・コメント付」「マップ2枚・コメント付」「マップ1・リスト・コメント付」「マップ2・リスト・コメント付」などの中から「マップ1枚」を選び、次に「出力データ」のウインドの「独創的着目語」「専門語」「類似文書群規定語」などの中から「独創的着目語」を選び、更に「なし」「上位5個」「上位10個」「上位15個」「上位20個」「数値入力」などの中から「上位20個」を選んだ状態の例が示されている。次に「コメント」のウインドの枠内の「(自由記入)」には無記入にした。こうして出力条件が入力される。
<4.実施例1>
まず、第1所定期間の特徴索引語及びその位置データの頻度平面図を描く。
<4−1.マップの性質:図8>
図8は、実施例1の索引語抽出装置により出力したマップの性質を説明するための概念図である。このマップは、調査対象文書dの索引語(d)のうち特徴索引語抽出部180で抽出された索引語を出力し、表示機能により表現するものである。マップは、特徴索引語の各々について、それぞれ、横軸の値に比較対象文書群PにおけるIDF(P)演算部142の演算結果を、縦軸の値に類似文書群SにおけるIDF(S)演算部171の演算結果を取って、頻度平面上に配置したものである。
図8において、X−Y平面は、X軸がIDF(P)の値で、Y軸がIDF(S)の値で作る平面である。比較対象文書群Pの文書数をN、類似文書群Sの文書数をN′とすれば、IDF(P)の最大値β=lnN、IDF(S)の最大値β=lnN′である。
平面の原点をDとする。Y=Xの直線と、Y=βの線との交点をAとする。Y=βの線と、X=βの線の交点をBとする。Y−β=X−βの直線がX軸を切る点をCとする。従って、四角形ABCDは、平行四辺形である。α=β−β=ln(N/N′)とすると、平行四辺形ABCDの各頂点の値は、それぞれ、D=(0,0)、B=(β,β)、A=(β,β)、C=(α,0)である。
線分ABは、Y=β、線分ADは、Y=Xの直線である。線分BCは、Y−β=X−βの直線である。線分DCは、Y=0の直線である。
図8において、X座標はIDF(P)の値であり、Xの値が0付近すなわちD付近は、比較対象文書群Pのほとんどに存在する索引語が配置される領域である。X座標がβ=lnNの内側は、比較対象文書群Pにもほとんど存在しない索引語の領域で、X座標がα=ln(N/N′)の内側すなわちCの内側は、比較対象文書群Pにも類似文書群Sの文書数N′相当の数が存在する索引語の領域である。一方、Y座標はIDF(S)の値であり、Yの値が0付近すなわちD付近は、類似文書群Sのほとんどに存在する索引語の領域である。Y座標がβ=lnN′の線分ABの内側は、類似文書群Sの中にはほとんど存在せず、ほぼ調査対象文書dにしか存在しない索引語の領域である。
図8において、比較対象文書群Pにおける文書頻度DF(P)が小さい、即ち珍しい索引語は、IDF(P)が大きいため、図8上の右側に現れる。DF(P)が大きい、即ち頻繁に用いられる索引語は、IDF(P)が小さいため、図8上のY軸の近くに現れる。従って、比較対象文書群Pにおいて珍しい索引語ほど右に現れ、比較対象文書群Pにおいて頻繁に用いられる索引語ほど左に現れる。二次元平面上では類似文書群Sが比較対象文書群Pの部分集合であることによる制限が課せられるため、図8の右側では線分BCで切られる領域内部にしか索引語の点は存在しない。
同様に、類似文書群Sにおける文書頻度DF(S)が1件しかない索引語、即ち調査対象文書d自身にしか含まれていない索引語は、IDF(S)が大きいため、図8上のBA線上に現れる。DF(S)が1より大きいと、索引語はBA線より下に位置する。逆に、類似文書群Sの全ての文書に存在する索引語は、IDF(S)=0 のため、図8上のDC線上、すなわちy=0 の線上に現れる。従って、Sにおいて珍しい索引語ほど上に現れ、Sにおいて頻繁に用いられる索引語ほど下に現れる。
ここで線分BCは次により導出される。類似文書群Sが比較対象文書群Pの部分集合であることより、
DF(P)≧DF(S)
である。また、IDFの上記定義より、
DF(P)=N exp[−IDF(P)]、
DF(S)=N′exp[−IDF(S)]
である。これらの関係式より、境界線の式としてY=X−α、即ちY−β=X−β が得られる。
類似文書群Sの文書数に依存せず、一様に含まれる索引語の場合、その索引語は図8の線分DA(直線Y=X)上に現れる。ここで一様とは、計測対象とする文書群Qの文書数NQを変化させる時、
DF(Q)=NQ/k(kは1より大なる定数)
が成立するQを一様又は空間一様性のある文書群、また、その様な性質を持つ索引語を、空間一様性を持つ索引語と呼ぶ。Q=P,Sに対して一様性を仮定すると、
lnk=ln[N/DF(P)]=ln[N′/DF(S)]
より、直線Y=Xが得られる。
実際には、多くの索引語は類似文書群Sよりも膨大な文書群である比較対象文書群Pにおいても頻出するから、線分DAの下方領域に出現するのが普通であり、特異なものだけがこの線分の上側に浮かび上がることになる。このうち特に、図8内の線分BAの半分位の高さより上側の領域にあっては、比較対象文書群Pにおいては珍しくないが、類似文書群Sにおいては珍しい索引語が出現する。この傾向によりA付近の領域は独創的着目語領域と言ってよい。
図8において、線分AD左方の充分外側の領域にも索引語の点は存在可能であるが、次のことを考え合わせると、該領域を索引語の点の非存在領域として扱っても、調査対象文書dの性質解読に支障を来たすものではない。すなわち、該領域は、独創的着目語領域Aの遠方の領域なので、もし出現したとしても、かなり特異な索引語であること、Y軸近傍にはDF(S)≧DF(P)−N+N′の制限から導かれる存在限界線:
Y=−ln(γexp(−X) −γ+1)、但しγ=N/N′
があり、同線に近いこと、観測的事実として、類似文書群Sの類似度が十分高い場合には該領域には索引語が観測されなかったことなどをあわせて、事実上、非存在領域と帰結される。
以上のように、調査対象文書dから抽出された特徴索引語は、図8の頻度平面の右に行くほど比較対象文書群Pでの文書頻度は低く、上に行くほど類似文書群Sでの文書頻度が低い。そこで、図8における各領域には、次のような性質を持つ索引語が配置されるため、該頻度平面上の点の分布状況から、調査対象文書dの、比較対象文書群Pの位置付け及びその時系列変化や性格を読み取ることができる。
専門語領域b:比較対象文書群Pにおいても類似文書群Sにおいても使用頻度の低い索引語が現れる領域。すなわち調査対象文書dに含まれる高度に専門的な内容、又はこれに直結する概念を記述する索引語の出現する領域。本発明の第1エリアに含まれる。第1エリアの領域に出現する索引語の中でも、隅にある索引語ほど、専門性が高いと云える。
独創的着目語領域a:比較対象文書群Pにおける出現頻度の高さの割には、類似分野ではあまり着目されていなかった概念を示す索引語の出現する領域。本発明の第2エリアに含まれる。第2エリアの領域に出現する索引語の中でも、隅にある索引語ほど、独創性が高いと云える。
類似文書群規定語領域c:類似文書群Sでほとんどの文書が持ち、従って比較対象文書群Pにおいてもそれに相当する数の文書が持っている、類似文書群Sの性質を表わすのに極めて自然な索引語が現れる領域。例えば技術文書を調査対象とした場合であれば、この類似文書群規定語を見れば、類似文書群S及び調査対象文書dの技術分野を知ることができる。本発明の第3エリアに含まれる。
一般語領域d:比較対象文書群Pと類似文書群Sの両方において頻出する索引語が現れる領域。比較対象文書群Pとの比較において調査対象文書dの性格を分析する際には、重要度が低いことが多い。
<4−2.頻度平面図上の位置データの時系列変化量の算出>
2つの頻度平面図(索引語の性格表現図)、すなわち第1所定期間の特徴索引語及びその位置データの頻度平面図上の、第2所定期間の特徴索引語及びその位置データの移動を計算する。
頻度平面図上の特徴索引語の位置の一定時間経過後の移動量、移動方向、移動速度は定義できる。但し、単純な移動距離による比較評価では、頻度平面図の境界付近や、領域の性格などを考慮できないので、適切な値が得られない。
そこで定量的な移動量、移動方向、移動速度などの表現を求めるために、各特徴索引語の移動の様子が如何なる運動に従っているのかを考慮する必要がある。
頻度平面上で、概念的に流れの強度を考えてみると、独創的着目語領域付近では単純な移動量が大きい(流速が大)からといって、文書頻度そのものが大きく増加している訳ではなく、流れの強度は小さいと考えられる。一方、一般語領域付近においては、移動量は小さいが、文書頻度の増加が比較的大きく(流速が大)、領域の性格(独創性及び専門性への寄与の低さ)を考慮すれば、流れの強度が小さいと考えるのが自然である。
従って、流れの強度によって移動の強さを定量的に表現できれば、強度変化を時系列または索引語間で比較することが可能となる。
この様な流速と強度との関係は、流体の運動法則と類似しており、この類似性に着目すれば、移動量、移動方向、移動速度などによって定量的に表現できることがわかる。
流体運動の記述は、連続方程式や運動方程式など幾つかの基本原理を満たす必要があり、一般にその解は複雑だが、ここでは扱いの最も簡単な非圧縮性完全流体のポテンシャル問題を解くことを用い、流れの強度によって特徴索引語の移動の強さを定量的に表現する。ポテンシャル流には速度を決定する速度ポテンシャルが存在し、このポテンシャルによって流速と流線が決定される。指定点から湧き出し、指定点に流入するポテンシャル流(強度パラメータは未定)を座標変換によって指定の領域内に写像して速度函数を求め、写像面に対応する性格表現図から計測した速度と比較することによって強度パラメータを決定する。
以降の説明のため、ここで記法、T(k)、T’(k)を定める(但し、k≦β)。(図9及び図10参照)
T'(k): 直線 y=βと直線 y=x+k (k 実数)との交点。
従って、A=T'(0), B=T'(−α) .
T(k): 直線 y=x+k の y 軸切片。従って、原点 D=T(0) .
E: 直線 y=β の y 軸切片。
F: 直線 y=x+k の x 軸切片。
<4−3.流速観測法>
特徴索引語 w の或る時刻 t での文書群 A における頻度平面図上の位置データ IDF(w,A(t); t) 及びその時間的変化を考える。
A は比較対象文書群P、または、類似文書群S である。先ず、時刻 t の瞬間においては、
従来通りの静止状態の観測に基づいて、A の文書数 N(A) を定数として含む座標値
(X,Y)=(X(w;t), Y(w;t))=(IDF(w,P(t); t), IDF(w,S(t); t))・・・(式1.1)
或いは、一般に広義の変換
G :(X,Y) → ( g(X,Y;t), g(X,Y; t))
によって、特徴索引語による頻度平面図が描かれる。
次に、一定時刻Δt だけ経過した、t の変化 t → t+Δt から、
単位時間当たりの特徴索引語 g (i=1,2) の位置データの変化量は次のようになる。
Δg(t)/Δt ={ g(t+Δt)−g(t) }/Δt .
これが、頻度平面図 G における特徴索引語 w の移動分である。
<4−4.頻度平面図の境界壁の変化の補正>
特徴索引語の位置データの時間による移動量を計算する場合、特徴索引語が描かれている元の頻度平面図の境界壁が変化してしまうと、境界壁の移動に伴なう流れの変化を考慮する必要があり、上述の移動分では誤認のおそれがある。そこで、頻度平面図の境界壁の変化を補正し、時間変化があっても境界壁が変化しないように頻度平面図及びその中の特徴索引語の位置データを変換する。
領域の境界線(壁)が i=1,2 の各方向にΔU だけ移動する場合は、壁の移動速度ΔU/Δt を差し引いて、w の移動速度を定義する:
V(w, t)=(u(w,t), v(w,t)) = (Δg(t)−ΔU)/Δt.・・・(式1.2)
例えば、変換 G が、狭義の単純線型写像の場合、特に、(式1.1) の場合を考える。
以下、表記の簡単のため、X 及び Y を X(A) と表し、索引語 w 依存性の表記を省略するものとする。
Δt を計測単位時間にとれば移動分は、
ΔX(A; t)/Δt= ln[ N(A; t+Δt)/N(A; t) ] −ln[ DF(A; t+Δt)/DF(A; t) ]
であり、X(A) 方向の壁の移動分は N(A; t) →N(A; t+Δt) を考慮して、
ΔU=β(t+Δt) − β(t) = ln N(A; t+Δt) − ln N(A; t) .
従って、索引語の移動速度 VG の A成分は
VG (A) =−Ln[ DF(A;t+Δt)/DF(A; t) ]
で与えられる。
特に、A=P の場合は、DF(P; t+Δt)=DF(P; t)+ΔDF(P; t); ΔDF(P; t)≧0 が厳密に成立するので、
VG (P)=−Ln [ 1+ΔDF(P; t)/DF(P; t)] ,
であり、更に DF(P; t) ≫ΔDF(P; t) の時、
VG (P)≒−ΔDF(P;t)/DF(P; t)
であるから、DF(P; t) の相対伸び率を表す。負号が付いているのは、座標値の方向を DF が減少する方向にとっていることに由来する。A=S の場合についても、Sを構成する文書群が著しく変化しない場合は、同様なことが成立し、結局VはDFの相対伸び率の非線形拡張に相当する量になっている。
尚、壁の移動速度を相殺せずに観測する場合は、索引語の移動速度が境界上では壁の移動速度に一致するという境界条件(粘着条件)を満たす必要があるので、粘性流体の扱いとなる。
粘性の影響は境界付近だけに留まり、境界層外部では粘性を無視した完全流体の記述でよい。
図9は、特徴索引語の位置データ補正を説明するための概念図である。簡単のためx方向のみ図示する。ステップS180の特徴索引語抽出の結果が、第2所定期間の特徴索引語及びその位置データである場合は、ステップS191により特徴索引語の位置データ補正が行われる。第1所定期間の特徴索引語及びその位置データの場合は、比較対象文書群Pに、ある期間経過後の文書が追加された新たな比較対象文書群P’に基づき算出された第2所定期間の特徴索引語及びその位置データを追加する。第2所定期間の特徴索引語及びその位置データを第1所定期間の特徴索引語及びその位置データと比較するために、比較対象文書群P’の全文書数をNに合わせて補正する。
<5−1.マップ出力例1:図11〜図13(太陽電池)>
図11は、実施例1の特徴索引語抽出装置において、調査対象文書dとして「太陽電池」に関する公開特許公報を1件選んだときの、第1所定期間を1990年から1993年に、第2所定期間を1990年から1994年として指定した、マップ表示の具体例である。
このマップは本発明の頻度平面図に相当する(以下のマップも同様)。比較対象文書群P及び比較対象文書群P’の選出源として、過去10年間の特許公報及び公開特許公報約464万件を選び、抽出内容には特許請求の範囲と要約を選び、索引語抽出は自社キーワード切り出し1(市販の索引語切出しツール)を選び、類似度算出方法には、文書ベクトルの成分ごとにTFIDFを計算し調査対象文書dと比較対象文書群Pのそれぞれとの余弦を計算する方法を選び、類似文書群S選出には類似度の上位3000件を選び、マップ算出方法にはX軸:比較対象文書群Pに対するIDFと、Y軸:類似文書群Sに対するIDFを選び、マップ出力位置にマップ1枚を選んだ結果、表示されたものである。
図11においては、比較対象文書群として1993年までの公開特許公報の中で、調査対象文書dとして「特開平05−***123号」を選んだ。図12においては、調査対象文書dは当然同じだが、比較対象文書群として1994年までの公開特許公報を扱った。
図11から、図8にて示した独創的着目語領域aには、「曇」「想定」「普及」「当日」「雨天」「促進」などの特徴索引語を見つけ、同じく専門語領域bには、「賄」「曇天」などの特徴索引語を見つけ、又同じく類似文書群規定語領域cには、「電池」「太陽」「発電」「電力」などの特徴索引語を見つけることができる。
図12でも、それぞれの領域における特徴索引語は、頻度平面上の位置は違うが、索引語自体はほとんど同じものを見つけた。
図13は、本発明の頻度平面図上の特徴索引語の位置データの時系列変化量を表したもので、図12を図11と重ねるために境界壁を補正し、変化量を線分で結んで示したものである。
図13によれば、各索引語の位置の変化方向及び変化量がわかる。例えば、「重層」という索引語は1993年から1994年にかけて縦軸(IDF(S))の値が低下している。このことから、「重層」という索引語は、太陽電池に関する調査対象文書dの類似分野において一般化されつつあることが推測できる。
また例えば、ある索引語が図8に示す各領域の1つから他の領域に向かって移動している場合には、時間経過によるその索引語の性質の変化を読み取ることができる。
また、索引語の位置の変化を見ることにより、調査対象文書dの性格の変化も知ることができる。例えば、第1所定期間の文書を比較対象文書群Pとしたときには独創的着目語領域aや専門語領域bに位置していた(調査対象文書dを特徴付けていた)索引語が、第2所定期間の文書を比較対象文書群Pとしたときには一般語領域d或いは類似文書群規定語領域cへ近づく方向へ移動していた場合、調査対象文書dは、もはや当該索引語によって特徴付けられる文書ではなくなりつつあるということができる。一方、逆に一般語領域d或いは類似文書群規定語領域cより遠ざかる方向へ移動した場合は、調査対象文書dは、当該索引語によって特徴付けられる文書という性格が強くなっているということができる。
また、多数の索引語が、図8に示す各領域の1つから他の領域に、例えば一般語領域dに向かって移動している場合には、調査対象文書dは、一般的な内容の文書に変化しつつあるということができる。
<5−2.リスト出力例1:図14(太陽電池)>
図14は、図11〜図13と同じ調査対象文書及び比較対象文書群に関する、特徴索引語抽出装置のリスト出力の具体例である。
独創的着目語領域aの「曇」「想定」「普及」「当日」「雨天」「促進」などの特徴索引語、
専門語領域bの「賄」「曇天」などの特徴索引語、
類似文書群規定語領域cの「電池」「太陽」「発電」「電力」などの特徴索引語、
についてのそれぞれの1993年と1994年の補正された位置データ及び位置の変化量を見つけることができる。図中でNIDFはP方向の補正データ、V、或いはVはそれぞれ、V(P)、或いはV(S)を表している。
各領域において出力すべき索引語は、例えば次のように求められる。
各領域に応じて変換M:(X,Y)→(X′,Y′)が与えられる時、
(s/100) Exp[Y′]<2
なる点を、X′で降順に抽出する。但し、
(p/100) Exp[X′]≧2
なる点に限る。
各領域から抽出するための上記変換M(X′,Y′)は次で与えられる:
独創的着目語領域a………(X,X−Y)、
専門語領域b………………(Y,Y−X+α)、
類似文書群規定語領域c…(X,Y)、
一般語領域d………………(Y−X+α,Y)。
但し、α=ln(N/N′)。
例えば類似文書群規定語を抽出する場合は、比較対象文書群Pにおける文書数Nに対する文書頻度DF(P)の割合がp/2(%)以下で、且つ類似文書群Sにおける文書数N′に対する文書頻度DF(S)の割合が、s/2(%)を超える索引語が抽出されることになる。図12では、p=s=25として索引語を抽出した。
独創的着目語、専門語及び一般語に対する変換値(X′,Y′)はそれぞれ類似文書群規定語領域c付近に写像したものであるので、同様の抽出条件を用いることにより各領域の索引語が抽出される。
なお、抽出条件は上記に限らず、例えば、
PDF(wi,P)=(p/100)Exp[X′]−1、
PDF(wi,S)=(s/100)Exp[Y′]−1
とおいて、
PDF(wi,P)≧1のとき、
X″=lnPDF(wi,P)、
0<PDF(wi,P)<1のとき、
X″=−1、
PDF(wi,P)≦0のとき、
X″=−2
のように離散化し(Y′についても同様)、Y″<0且つX″≧0なる索引語を、X″値
の降順に抽出しても同様の結果を得ることができる。
<6.ポテンシャル流>
索引語の密度変化の伝播速度∞(密度一定)を仮定し、非圧縮性流体であると仮定する(類似を考える)。
ポテンシャル流は粘性の有無に関係なく流体の運動方程式の解になっており、上記事情を考慮すれば非圧縮性完全流体のポテンシャル流のモデルを考えることが第一義的となる。以下では、複素数z=X+iY を考え、流れのポテンシャルモデルは境界の形に依存して各論となる。
<6−1.モデル設定>
索引語が B から湧き出し、C または T'(k) 近傍で流速が小さく、最終的に F または D へと流入していく澱み流のモデルを考える。境界設定により下記の様な模型が考えられる。
(i) 5角形モデル
境界が5角形領域 T'TDCB (k=β の場合は台形領域 EDCB) 。
(ii) 台形モデル
台形領域 EDCB (5角形モデルにおいて、k=β とする場合)。
(iii) 平行四辺形モデル
平行四辺形領域 T'FCB の場合。流入点を D の代わりに F とする。
(iv) 3角形分割モデル
四辺形領域 T'FCB を 2 つの三角形領域 △FCB と△T'FB とに分割し、点B に湧き出し、点 F に吸い込みを設けたポテンシャル流。
3角形分割モデルに関しては、以下の注意点が存在する。
注意点1:不要語領域の速度増大を抑制するが、2つの三角形の接続線上では速度が不連続であり、物理的には固定壁を設けることに相当する。但し、四辺形 T'FCB が菱形(即ち、△CBF が二等辺三角形)の場合に限り連続となり、固定壁を除くことが可能である。
注意点2: △T'BC と△T'FC に分割し、B 及び F に湧き出し、C に吸い込みを設けるなど、他の分割も可能である。
上記の様な 2頂点に湧き出し(吸い込み)を持つ多角形領域内の流線又は等ポテンシャル線は、Schwarz-Christoffel(SC)変換によって求められることが知られている。
手順は、最初に望みの z 面の多角形領域を写像とする様な原平面ζからの座標変換を求め、次にζ面の複素速度ポテンシャルに座標変換を適用し、望む z 面領域でのポテンシャルを得る。
以下では、先ず最も簡単な 3角形モデルによって原理説明を行い、その後、平行四辺形モデル、台形モデル、一般形の順に拡張を説明する。
<6−2.座標変換>
頂点 V が複素 z 平面の実数軸上の値 c2 に位置し、3 頂点 V, V, V の内角が各々 απ (i=1,2,3,α+α+α=1) である三角形領域 △V V V を実現する変換ζ→ z は、SC 変換公式に従って一般に
Figure 2006115228
と表現される。ζ平面の座標設定の仕方には原点位置、実数軸の方向、座標単位長さの3つの任意自由度が存在するが、ζ を原点におき、ζ−ζ の方向を実数軸に、単位長さを|ζ−ζ|=1と規格化すれば、上記任意性は一般性を失わずに固定され、ζ=0, ζ=1 と選ぶことができる(これらの自由度は、z 平面において回転拡大因子 c1 と平行移動因子 c2 によって復活させることが可能である)。
ここで、回転拡大因子 c1 を任意定数aを用いて
Figure 2006115228
と再定義すれば、SC 公式(2.1) は不完全ベータ函数 Β(a,b;z) を用いて次の様に積分され
Figure 2006115228
となり、頂点 Vの z 座標は V=f(ζ), V=f(ζ), V=f(ζ) で与えられる。
但し、p(ζ)=ζ(ζ−1)/(ζ−ζ) であり、F21 は Gauss の超幾何函数である。
これにより各頂点の座標値及び関係式、
f(ζ)=f(0)=c2 ,
f(ζ)=f(1)=c2+a Β(α) ,
f(ζ)=c2+a Β(α)Exp[iπα] ,
f(ζ)−f(1)=−a Β(α) Exp[−iπα] ,
が導かれ、辺 VV, VV, VVの長さ L, L, L
L=|f(1)−f(0)|=a Β(α) ,
L=|f(ζ)−f(1)|=a Β(α) ,
L=|f(0)−f(ζ)|=aΒ(α, α),
となることが示される。ここで、Β(α,β)はベータ函数である。
同様に、辺 VVを共有して平行四辺形をなす合同な三角形に対しては、
c1 → c1 Exp[iπ],
c2→ (f(0)−f(0)Exp[iπ])+(Exp[iπ]f(0)−Exp[iπ]f(ζ))
と選べば f(ζ) によって変換が決まり、
z=−f(ζ)+f(ζ_3)+f(0)
と表されるが、この f 及びζは上半平面(Imζ>0)または3点{ζ, ζ, ζ} を通る円Γ内部でのみ定義されており、このままではζ平面における流れの原像が不自然な形となる。
この問題を解決するには、合同三角形の原像を下半ζ平面(またはΓ外部)に求めればよく、変換p(ζ)→1/p(ζ) に応答した置換
f(ζ)≡F(p) → Exp[2πiα] F(1/p)
を行って、
z=g(ζ)=−Exp[2πiα]F(1/p)+f(ζ)+f(0), (Im p<0 )
とするのがよい (回転因子 Exp[2πiα] はζの変換において右辺に位相因子Exp[2πi] を乗じることに対応する)。
この変換は、上記の注意点1で指摘の通り、特にα=αであれば、ζ=∞ の時、g(ζ)=f(ζ) が成立し、ζ面及びz 面上での連続性が保たれる。
また、f(ζ) の微分係数は、(式2.1) により、
Figure 2006115228
となる。
△FCB 及び △T'FB を与える SC 変換 f(ζ) 及び g(ζ) は、上の結果にα=3/4, c2=−k を代入して (簡単化及び例示のためζ=∞と固定)、
Figure 2006115228
となる。
係数 a は辺長の関係式
L=|FC|=aΒ(α, 3/4)=α+k,
L=|CB|=aΒ(α, 3/4) =β√2,
L=|BF|=aΒ(α, α)
から、a=(α+k)/Β(α, 3/4)=β√2/B(α, 3/4)
と決定され、切片 k を与えれば α従って α及び a が全て一斉に固定される(つまり、a, k, α, αのうちどれかを固定すれば全ての値が矛盾なく固定される)。
<6−3.予備知識>
ζ面上でポテンシャル流を与えれば、SC 変換によって z 面上の流線が得られる。
速度ベクトル U=(u,v) =q Exp[iθ] が、勾配 U=gradΦ によって与えられる流れをポテンシャル流と呼び(Φは速度ポテンシャル)、流線は流れの函数Ψが一定値をとる線で与えられる。渦なしの非圧縮2次元流の場合は、Φ及びΨは調和函数(△Φ=△Ψ=0 の解)であり、複素速度ポテンシャル W(z)=Φ+iΨ によって、
複素速度 V*(z)=dW(z)/dz =u−iv (速度 V(z) の複素共役)が与えられる。
非圧縮流の湧き出し(吸い込み)ポテンシャルは、
W(z)=m/(2π) Ln(z−z) (m>0: 湧き出し、m<0: 吸い込み)
で与えられる(W の n 階微分をとれば、n+1 重極による湧き出し流を表す)。
また、回転流のポテンシャルは
W(z)=−iκ/(2π) Ln (z−z) (κ>0: 反時計回り、κ<0: 時計回り)
であり、zは湧き出し点または回転中心の位置を表し、係数 m 及びκはそれぞれ流量 Q と循環Γの強さを表す。これらの線型結合をとればモーメント M (M=m−iκ) の湧き出し循環流
W(z)=M ln (z−z)
を表し、この場合でも極座標表示 z=z+r Exp[iθ] をとると、
Φ=(m ln r +κθ)/(2π), Ψ=(mθ−κln r)/(2π)
となるから、流量 Q 及び循環Γは、湧き出し点を囲む閉曲線 C に沿う積分により
Q=∫dΨ= m, Γ=∫dΦ=κ の様に与えられる。
<6−4.3角形モデルへの適用>
3角形モデルの場合、ζ面の原点にモーメント M (m<0) の湧き出しポテンシャルを置けば、△FCB の 頂点 F においてポテンシャル値 M Lnζ の吸い込み循環流が、同様にモーメントM (m>0) の湧き出しポテンシャルを置けば、△T'FB の頂点 B においてポテンシャル値 M Lnζの湧き出し循環流が対応する。
従って、湧き出しポテンシャルとして頂点 V
W(z)=M Lnζ
の形を与える時、任意の三角形に対して複素速度は (式2.2) を用いて次の様に計算される:
Figure 2006115228
△FCB の場合、これに α=3/4,ζ=∞ を代入すれば、
Figure 2006115228
△T'FB の場合は M の符号を逆転 (M → −M) するだけでよい。(仮に分割壁に向かう循環流を考えるなら、△T'FB においてκの符号を保ち、m→−m とするだけでよい)。
このようにして、ζ平面の流れの情報は z 平面上の流れ情報に変換される。
参考までに、図10にz 面における M=a の流線(Ψ一定, α=α) の様子を示す。
<6−5.数値計算>
実際の観測面は z 平面なので、z 面からのζ面への変換が必要である。等角変換なので逆写像は必ず存在し、形式的には
Arg(z+k)<πα ⇒ ζ=f−1(z)
Arg(z+k)>πα ⇒ ζ=g−1(z)=f−1( Exp[−2πiα]{f(∞)−k−z} )
と表すことができるが、一般に数値計算では、整数 j, k を用いてζ面の座標を離散的な格子座標ζ(j,k) で表現し、変換 f(ζ) によって z 面上の格子点z(j,k)=f(ζ(j,k))を 1:1 で対応させることによって逆変換を求めるのが普通である(g(ζ) も同様)。
即ち、z 面上の任意に与えられた点 z に対して最近接格子点 z(j,k) を検索する:
Figure 2006115228
ここで、整数 j はζ面上での検索領域の有効サイズ Lと分割間隔Δに対して、区間 0≦ j≦ Lの範囲内をとる様に原点を選んでおく。
これにより与えられた L及び Δの下で、任意の z に対して (j,k) 座標値が決定され、対応するζの離散値 ζ(j, k) が決まる。
通常、離散格子は、流線、等ポテンシャル線に沿う直交曲線座標に基づくのが良く、例えば上記ポテンシャルの場合は平面極座標に基づいて、
ζ(j, k)=Exp[jΔ+i kΔ]
と与えるのが便利である。以上の処方により、任意の z に対して、座標、ポテンシャル、速度の離散値
z(j,k), ζ(j,k), W(j,k)=W(z(j,k)), V(j,k)=V(z(j,k))
が決定される。但し、モーメント M の値は、この段階ではまだ任意である。
<6−6.流量と循環の強さ>
点 z 上の索引語 w に対して、移動速度の観測値 V, 単位モーメント当たりのポテンシャル (M=1) による流速 V, 複素モーメント M をそれぞれ、V=(u,v) , V=(a,b) ,M=m−iκ とすれば、
V=(m+iκ)V ------ (式3.1)
を解くことによって、これまで任意としてきた流量と循環の強さ m 及び κ が求められる。但し、V≠0 且つ V=∞の場合は、V とV のなす角δを 0 に選ぶものとする。δを用いれば、m及びκは、
m=(|V|/|V|)cosδ, κ=(|V|/|V|)sinδ
で与えられる。全ての w について M が同一値であれば、全域で厳密にポテンシャル流が実現していることになる。
現実には、夫々の w についてまちまちの値となるので、(式3.1) は局所的な関係式として理解する必要がある。こうすることによって、索引語の時系流れの全貌、各索引語の (m,κ) 座標や、その平均値をグラフ表示したり、時系列表示することにより、定量及び定性両面からの時系比較分析を行うことが可能となる。
図15ではモーメント変化の大きい索引語が、又、図16では流速変化の大きい索引語が、それぞれ補助曲線の外側に出現する傾向が見える。
(図15):(m,κ) 平面(モーメント分布図)。補助曲線は原点を中心とし √(m+κ) の平均値を半径とする円となる。
(図16):(m,κ) 平面の各点に 流速 |V| を乗じた平面 (m|V|, κ|V|)(流速分布図) 。補助曲線は、|V|√(m+κ) の平均値を半径とする円である。
これら図15及び図16においては、流線に沿った方向成分m又はm|V|が横軸に、流線に直交する方向成分κ又はκ|V|が縦軸に表れている。
図10に示す流線は専門語領域bから一般語領域dへ向かっているので、流線に沿った方向成分m又はm|V|の値が大きい索引語は、一般語領域dに向かう流れの強度或いは移動速度が大きい索引語ということができる。また、流線に直行する方向成分κ又はκ|V|の値が正で絶対値の大きい索引語は、独創的着目語領域aに向かう流れの強度或いは移動速度が大きい索引語ということができ、流線に直行する方向成分κ又はκ|V|の値が負で絶対値の大きい索引語は、類似文書群規定語領域cに向かう流れの強度或いは移動速度が大きい索引語ということができる。従って、各索引語が、一般語の方向、独創的着目語の方向又は類似文書群規定語の方向に、どの位の流れの強度或いは移動速度で移動しているかを定量的に把握することができる。
これら図15及び図16によれば、各索引語の流れの強度と移動方向、或いは各索引語の移動速度と移動方向が、図13に示されるような見かけ上の移動量や移動方向に関わらず、更に、図8に示す各領域の何れに位置するかに関わらず、定量的に把握できるので、調査対象文書内の索引語の位置づけ、ひいては調査対象文書の性格が、どの方向へどのように変化しているかを定量的に分析することができる。
これらの分布図は、座標を標準化したものであってもよい。例えば、図17 は、各索引語についてモーメント(m,κ)を標準化した座標
mstd =(m−)/σ, κstd =(κ−<κ>)/σκ
の分布図である。ただし、, σ は変数 x の索引語点に関する平均と標準偏差を表す。
モーメント変化が平均よりも大きな索引語は補助曲線の右側外部に現われ、変化が平均よりも小さな索引語は補助曲線の左側外部に出現する傾向がある。
(図17)標準化モーメント(mstdstd)の分布図。補助曲線は原点を中心とする楕円で、元の(m,κ)平面ではマハラノビス距離が一定値(R)の円を表す。
<6−7.その他のモデル>
(式2.2)の様に座標変換の函数形 z=f(ζ) さえ求めれば、測定原理は上述の3角形分割モデルと同様なので、以下では座標変換のみ示す。
<6−7−1.平行四辺形モデル>
一般に、平行四辺形の頂点 V(j=1,2,3,4) は、その内角α が条件
α+α+α+α=2, ---------(式4.1)
α=α, α=α, α+α=1 , ---------(式4.2)
を満たす様に配置されなければならない。
平行四辺形 FCB T' では、V (j=1,2,3,4)
を F, C, B, T' の順に選べばこの配置を満足する。
今、条件(4.1) だけを課して複素積分 (2.1) を4 因子に拡張し、
Figure 2006115228
と選ぶとき、その積分は Appell の2 変数越幾何函数 F1(a; b1; b2; c; x, y) (文献 [1][2] 参照) を用いて、
Figure 2006115228
と求積できる。この結果において、条件(式4.2) を代入すると、
Figure 2006115228
特に、p(ζ)=−1 (i.e., ζ=ζ/(2−ζ) )と選ぶ時、これは 2辺の等長条件|VV|=|VV| に等しく、α=2α' と置いて p(ζ)→√p(ζ)とすれば、変換 (式4.4) は 3角形モデル(菱形の場合:α'=α') の座標変換 (式2.2) を再現する。
文献[1] 日本数学会, 岩波数学辞典 第3版, 超幾何関数 264,岩波書店 (2002).
文献[2] P.Appell, Sur les fonctions hypergeometriques deplusieurs variables,
Memoir. Sci.Math., Gauthier-Villars, (1925).
<6−7−2.台形モデル DCBE>
台形 DCBE の場合、V (j=1,2,3,4) を D, C,B , Eの順に選べば、αに対する条件は、
α+α+α+α=1 ,
α=α=1/2, α+α=1 ,
となる。(式4.3) において、これらの条件を課せば、(式4.3) は、
z=c2+(a/α) [p(ζ)/ζ](1/2)
×F1(1/2; α; 1/2;3/2; p(ζ), p(ζ)/p(ζ)) .
である。
図18は、台形モデルのz面におけるM=aの流線図である。
図19は、台形モデルに基づく(m、κ)分布図(モーメント分布図)である。
図20は、台形モデルに基づく(m|V|、κ|V|)分布図(流速分布図)である。
<6−7−3.五角形モデル>
五角形領域DCBT'T の頂点 V (j=1,2,3,4,5) を D,C, B, T', T の順に選ぶと、その内角α (j=1,2,3,4,5) は以下の条件に従う。
α+α+α+α+α=3, ---------(式5.1)
α=1/2, α=α=α=3/4, α=1/4. ---------(式5.2)
今、条件(式5.1) だけを課して複素積分 (式2.1) を 5 因子に拡張し、
ζ=0, ζ=1,ζ=∞,
Figure 2006115228
と選ぶとき、その積分は Appell-Lauricella のn−2 変数超幾何関数
Figure 2006115228
(文献 [1] [2] 参照)を用いて、n=5 の場合に
Figure 2006115228
と求積できる。この結果において、条件(式5.2) を代入すると、
z =c2+2a√p(ζ) F(1/2; 1/4; 1/4; 1/4; 3/2; p(ζ), p(ζ)/p(ζ), p(ζ)/p(ζ)) .
図21は、五角形モデルのz面におけるM=aの流線図である。
図22は、五角形モデルに基づく(m、κ)分布図(モーメント分布図)である。
図23は、五角形モデルに基づく(m|V|、κ|V|)分布図(流速分布図)である。
同様に、n角形では、座標変換
Figure 2006115228
を導くことができ、同様なモーメント分布図や流速分布図を作成することができる。

Claims (9)

  1. 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力手段と、
    前記調査対象文書内の索引語を抽出する索引語抽出手段と、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現頻度算出手段と、
    前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出手段と、
    前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第2出現頻度算出手段と、
    各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出手段と、
    前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出手段と、
    前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力手段と、
    を備えた、索引語抽出装置。
  2. 請求項1において、前記出力手段は、
    前記比較対象文書群における出現頻度の関数値を座標の第1軸にとり、
    前記類似文書群における出現頻度の関数値を前記座標の第2軸にとって、
    前記索引語の位置、及び前記各索引語の位置の時系列変化量並びに時系列変化方向を表示しそれぞれ出力する、索引語抽出装置。
  3. 請求項1において、
    前記時系列変化算出手段は、更に、
    前記各索引語の位置の時系列変化量及び時系列変化方向に基づいて、各索引語の時系列変化を、所定の流線に沿った方向成分と当該流線に交差する方向成分とに分けて各方向成分の時系列変化量を算出し、
    前記出力手段は、
    前記所定の流線に沿った方向成分の時系列変化量を座標の第1軸にとり、
    前記流線に交差する方向成分の時系列変化量を前記座標の第2軸にとり、
    前記各索引語を表示しそれぞれ出力する、索引語抽出装置。
  4. 請求項1乃至請求項3の何れか一項において、
    前記比較対象文書群又は前記類似文書群における出現頻度の関数値は、当該出現頻度の逆数に、前記比較対象文書群又は前記類似文書群の総文書数を乗じたものの対数である、
    索引語抽出装置。
  5. 請求項1乃至請求項4の何れか一項において、
    前記各索引語の位置データの時系列変化量及び時系列変化方向を、流体力学モデルの流体のポテンシャル変化に基づいて算出する、索引語抽出装置。
  6. 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力ステップと、
    前記調査対象文書内の索引語を抽出する索引語抽出ステップと、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現頻度算出ステップと、
    前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出ステップと、
    前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第2出現頻度算出ステップと、
    各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出ステップと、
    前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出ステップと、
    前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力ステップと、
    を備えた、索引語抽出方法。
  7. 調査対象文書、前記調査対象文書と比較される比較対象文書群、を入力する入力機能と、
    前記調査対象文書内の索引語を抽出する索引語抽出機能と、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現頻度算出機能と、
    前記調査対象文書のデータに基づき、前記比較対象文書群の中から類似文書群を選出する類似文書群選出機能と、
    前記抽出された索引語の、前記類似文書群における出現頻度の関数値を算出する第2出現頻度算出機能と、
    各索引語についての、前記算出された前記比較対象文書群における出現頻度の関数値と前記類似文書群における出現頻度の関数値との組合せに基づき、各索引語の位置の関数値を算出する位置算出機能と、
    前記各索引語の位置における、位置の時系列変化量及び時系列変化方向を算出する時系列変化算出機能と、
    前記各索引語と、その位置のデータ、その時系列変化量及びその時系列変化方向を出力する出力機能と、
    をコンピュータに実行させる、索引語抽出プログラム。
  8. 調査対象文書内の索引語について、
    前記調査対象文書と比較される比較対象文書群における出現頻度の関数値を座標の第1軸にとり、
    前記調査対象文書に類似する類似文書群における出現頻度の関数値を前記座標の第2軸にとって配置し、
    前記索引語とその位置のデータ、その時系列変化量及び時系列変化方向を表した、
    調査対象文書の性格表現図。
  9. 調査対象文書内の索引語について、
    所定の流線に沿った方向成分の時系列変化量を座標の第1軸にとり、
    前記流線に交差する方向成分の時系列変化量を前記座標の第2軸にとり、
    前記各索引語を表示した、
    調査対象文書の性格表現図。
JP2007514696A 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置 Pending JPWO2006115228A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005123568 2005-04-21
JP2005123568 2005-04-21
PCT/JP2006/308474 WO2006115228A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Publications (1)

Publication Number Publication Date
JPWO2006115228A1 true JPWO2006115228A1 (ja) 2008-12-18

Family

ID=37214843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007514696A Pending JPWO2006115228A1 (ja) 2005-04-21 2006-04-21 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置

Country Status (2)

Country Link
JP (1) JPWO2006115228A1 (ja)
WO (1) WO2006115228A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7818278B2 (en) 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
CN105574105B (zh) * 2015-12-14 2019-05-28 北京锐安科技有限公司 一种文本分类模型的确定方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4010711B2 (ja) * 1999-06-30 2007-11-21 株式会社ジャストシステム ターム評価プログラムを記憶した記憶媒体
NZ541411A (en) * 2002-12-27 2007-08-31 Intellectual Property Bank Technology evaluating device, technology evaluating program, and technology evaluating method

Also Published As

Publication number Publication date
WO2006115228A1 (ja) 2006-11-02

Similar Documents

Publication Publication Date Title
Lloyd Spatial data analysis: an introduction for GIS users
US8243988B1 (en) Clustering images using an image region graph
JPWO2005038672A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
Younis et al. Detection and annotation of plant organs from digitised herbarium scans using deep learning
US9443023B2 (en) Searching and classifying information about geographic objects within a defined area of an electronic map
JPWO2006112507A1 (ja) 調査対象文書の索引語抽出装置及び文書特徴分析装置
JP3488063B2 (ja) 情報分類方法、装置及びシステム
JP2008287328A (ja) 評価装置及び方法ならびにコンピュータプログラム
Assa et al. Displaying data in multidimensional relevance space with 2D visualization maps
Zeybek Inlier point preservation in outlier points removed from the ALS point cloud
JPWO2006115228A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
KR20190023503A (ko) 이미지 기반 특허 검색 장치
Bespalov and et al. Scale-space representation and classification of 3d models
Cinque et al. A multidimensional image browser
Song Bibliomapper: A cluster-based information visualization technique
KR101078978B1 (ko) 문서 분류 시스템
Deniziak et al. World wide web CBIR searching using query by approximate shapes
Yan et al. Multilevel Robustness for 2D Vector Field Feature Tracking, Selection and Comparison
Lapatta Ecotourism recommendations based on sentiments using skyline query and apache-spark
Oanta et al. Study regarding the spline interpolation accuracy of the experimentally acquired data
Hyun et al. Image recommendation for automatic report generation using semantic similarity
Bhandari et al. Enhanced Apriori Algorithm model in course suggestion system
Choi et al. Developing an alias management method based on word similarity measurement for POI application
CN107423349A (zh) 一种全文搜索的方法及系统
Meng et al. IPKB: a digital library for invertebrate paleontology