JPWO2006048998A1

JPWO2006048998A1 - キーワード抽出装置

Info

Publication number: JPWO2006048998A1
Application number: JP2006542917A
Authority: JP
Inventors: 博昭増山; 晴正佐藤; 浅田　誠; 誠浅田; 和巳蓮子; 任晃堀田
Original assignee: 株式会社アイ・ピー・ビー
Priority date: 2004-11-05
Filing date: 2005-10-11
Publication date: 2008-05-22
Also published as: KR20070084004A; CN101069177A; WO2006048998A1; US20080195595A1; EP1830281A1

Abstract

キーワード抽出装置は、複数の文書Ｄからなる文書群Ｅに含まれる索引語ｗのうち前記文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段３０と、前記高頻度語を、前記文書群Ｅにおける前記索引語ｗの各々との文書単位での共起有無に基づく共起度Ｃに基づいてクラスタリングするクラスタリング手段５０と、前記索引語ｗのうち、より多くのクラスタｇに属する高頻度語と共起し、且つより多くの文書Ｄにおいて前記高頻度語と共起するものを、より高く評価したスコアｋｅｙ（ｗ）を個々の索引語ｗにつき算出するスコア算出手段７０と、前記スコアに基づいてキーワードを抽出するキーワード抽出手段９０と、を備える。これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出する。

Description

本発明は、複数の文書からなる文書群から、当該文書群の主題を表現するキーワードを、コンピュータにより自動抽出する技術に係り、特にキーワードの抽出装置、抽出方法及び抽出プログラムに関する。

特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書の検索や分析を行うために、文書の特徴を表すキーワードを自動抽出する技術が知られている。

例えば、大澤幸生ら著「KeyGraph：語の共起グラフの分割・統合によるキーワード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁（1999年2月）（非特許文献１）には、文書の主張を表すキーワードを抽出する方法が開示されている。この方法では先ず、当該文書での出現回数の上位語（HighFreq）を抽出する。そして、HighFreq同士のセンテンス単位での共起有無に基づいて、当該文書における共起度を算出し、共起度の高いHighFreq同士の組合せを「土台」とする。共起度が高くないHighFreq同士は別々の土台に属することになる。更に、各土台中の語とのセンテンス単位での共起有無に基づいて、土台中の語との共起度を算出し、この土台中の語との共起度に基づいて、これら土台たちに支えられて文章を統合する語（屋根）を抽出する。

大澤幸生ら著「KeyGraph：語の共起グラフの分割・統合によるキーワード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁（1999年2月）

しかし、上記非特許文献１に記載の技術は、複数の文書からなる文書群の特徴を表すキーワードを抽出するものではない。特に、上記非特許文献１に記載の技術は、１つの文書は著者独自の考えを主張するために書かれ、その主張を目指して一つの流れを形成するという前提に立っているので、複数の独立文書からなる文書群に適用することは不可能である。

本発明の課題は、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することである。
また、本発明の別の課題は、複数の文書からなる文書群の特徴を表すキーワードを複数の観点から自動抽出し、文書群の特性を立体的に理解できるようにすることである。

（１）本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
前記文書群のデータから索引語を抽出する索引語抽出手段と、
前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、
前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、
前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、
前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、
前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができる。特に、高頻度語を、前記文書群における前記索引語の各々との文書単位での共起有無に基づく共起度に基づいて分類して、クラスタを生成し、より多くのクラスタに属する高頻度語と共起し、且つより多くの文書において共起する索引語を高く評価してキーワードを抽出することにより、文書群の特徴を的確に表したキーワードを抽出することができる。

ここでいう高頻度語の抽出は、前記文書群のデータから抽出された索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語を所定数抽出することにより行う。このような重みとしては、前記文書群における出現頻度の高さそのものを示すＧＦ（Ｅ）（後述）でもよいし、ＧＦ（Ｅ）を変数として含む関数値でもよい。
また、高頻度語と前記索引語の各々との共起度に基づいて前記高頻度語を分類するには、例えば、各高頻度語について、ｐ個の索引語の各々との共起度を成分とするｐ次元ベクトルを作成する。そして、クラスタリング手段により、各高頻度語についての上記ｐ次元ベクトルの類似度合い（類似度又は非類似度）に基づくクラスタ分析を行う。
また、より多くの前記クラスタに属する高頻度語と共起する索引語を高く評価する方法としては、例えば、すべてのクラスタ（後述の土台）についての、各索引語とクラスタ内高頻度語との共起度（索引語−土台共起度（後述））の積を含む多項式で導出される値を、各索引語のスコアとすることが考えられる。また、より多くの文書において前記高頻度語と共起する索引語を高く評価する方法としては、例えば、文書群に属するすべての文書についての、各索引語と高頻度語との文書単位での共起有無（１若しくは０又はこれに所定の重みをつけたもの）の和（索引語−土台共起度Ｃｏ（ｗ，ｇ）（後述）を算出するための共起度Ｃ（ｗ，ｗ’）（後述）、或いは、索引語−土台共起度Ｃｏ’(ｗ，ｇ)（後述））を変数として含む関数値を、各索引語のスコアとすることが考えられる。このようにして、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものをより高く評価したスコアとしては、後述のｋｅｙ（ｗ）、Ｓｋｅｙ（ｗ）が考えられる。

（２）上記各キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低い索引語を、より高く評価したスコアであることが望ましい。
これにより、分析対象の文書群に特有の索引語を高く評価してキーワードを抽出することができる。
ここでいう文書集団における出現頻度としては、例えば後述のＤＦ（Ｐ）が挙げられる。具体的には、例えばＤＦ（Ｐ）の逆数、或いはＤＦ（Ｐ）の逆数×文書集団の文書数、或いはこれらのうち何れかの対数を、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対して加え、或いは乗じることが考えられる。ＤＦ（Ｐ）の低い索引語を高く評価したスコアとしては、後述のＳｋｅｙ（ｗ）が挙げられる。

（３）上記キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアであることが望ましい。
これにより、文書群の内容をより的確に表したキーワードを抽出することができる。
ここでいう文書群における出現頻度としては、例えば後述のＧＦ（Ｅ）が挙げられる。具体的には、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対し、ＧＦ（Ｅ）を乗じ、或いは加えることが考えられる。ＧＦ（Ｅ）の高い索引語を高く評価したスコアとしては、後述のＳｋｅｙ（ｗ）が挙げられる。

（４）上記各キーワード抽出装置において、前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定しても良い。
これにより、文書群の内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを抽出することができる。
ここでいう文書群における出現頻度としては、例えば後述のＤＦ（Ｅ）が挙げられる。

（５）上記キーワード抽出装置において、前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出することが望ましい。
これにより、文書群の内容を的確に表したキーワードを抽出することができる。

（６）上記キーワード抽出装置において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出することが望ましい。
スコア算出手段によるスコアが高く、且つ集中度算出手段による集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。
この場合の個々の文書群は、例えば文書群集団をクラスタリングして得たものとすることができる。

（７）上記キーワード抽出装置において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群につき算出されたシェアを評価に加えてキーワードを抽出することが望ましい。
スコア算出手段によるスコアが高く、且つシェア算出手段によるシェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの（主要語）として位置づけることができる。

（８）上記キーワード抽出装置において、
各索引語について、分析対象である前記文書群と他の文書群とを備えた文書群集団での出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって、前記文書群集団における各索引語の独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出することが望ましい。
文書群集団での出現頻度の逆数の値が大きいことは、この文書群集団では珍しい語であることを意味する。この、文書群集団では珍しい語のうち、文書群集団を含む大文書集団での出現頻度の逆数の値が小さい語は、他分野では良く使われているとしても当該文書群集団に係る分野で用いることに独創性があるということができる。
スコア算出手段によるスコアが高く、且つ独創度算出手段による独創度が高い語は、当該分野では独創的な観点を表す語として位置づけることができる。
ここで、出現頻度の逆数の関数値としては、例えば、当該文書群内の全索引語で規格化したＩＤＦ（逆文書頻度）を用いることができる。

（９）本発明の他のキーワード抽出装置は、
複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、
前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される二乗和が低い語は、複数の文書群全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。一方、シェア算出手段により算出される比が高い語は、分析対象の文書群でのシェアが高い語であるから、分析対象の文書群をよく説明できるもの（主要語）として位置づけることができる。これら算出手段による算出結果を組合せることによって、２つの観点からキーワードをカテゴライズすることができ、文書群の特性を立体的に理解できるようになる。

（１０）上記キーワード抽出装置において、
各索引語について、前記文書群集団での出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づいてキーワードを抽出することが望ましい。
上記集中度及びシェアに加え、独創度算出手段により算出された独創度を組合せることによって、３つの観点からキーワードをカテゴライズすることができ、文書群の特性を立体的に理解できるようになる。

（１１）また、本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
（ａ）各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出手段、
（ｂ）各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段、
（ｃ）各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段、及び
（ｄ）各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、
のうち何れか２つ以上の手段と、
前記何れか２つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか２つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される集中度、シェア算出手段により算出されるシェア、独創度算出手段により算出される独創度、及び出現頻度算出手段により算出される出現頻度の関数値のうち少なくとも２つの組合せに基づいて、キーワードをカテゴライズして抽出するので、文書群の特性を立体的に理解できるようになる。

（１２）上記キーワード抽出装置において、
前記キーワード抽出手段は、
前記分析対象の文書群における出現頻度の関数値が所定の閾値以上である索引語を前記分析対象の文書群における重要語と判定し、
前記分析対象の文書群における前記重要語のうち、前記集中度が所定の閾値以下である索引語を前記分析対象の文書群における技術領域語と判定し、
前記分析対象の文書群における前記技術領域語以外の前記重要語のうち、前記分析対象の文書群におけるシェアが所定の閾値以上である索引語を前記分析対象の文書群における主要語と判定し、
前記分析対象の文書群における前記技術領域語及び前記主要語以外の前記重要語のうち、前記独創度が所定の閾値以上である索引語を前記分析対象の文書群における独創語と判定し、
前記キーワードをカテゴライズして抽出することが望ましい。
これにより、キーワードの具体的な位置付けが明瞭になり、文書群の特徴を容易に理解することができるようになる。

（１３）上記キーワード抽出装置において、
前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度（ＩＤＦ）を、分析対象である前記文書群の全索引語で規格化したものであり、
前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度（ＩＤＦ）を、前記分析対象である前記文書群の全索引語で規格化したものであることが望ましい。
これにより、文書群で出現する索引語の独創度を的確に評価することができるようになる。

（１４）また本発明は、上記各装置によって実行される方法と同じ工程を備えたキーワード抽出方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできるキーワード抽出プログラムである。このプログラムは、ＦＤ、ＣＤＲＯＭ、ＤＶＤなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。

本発明によれば、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することができる。

本発明の第１実施形態に係るキーワード抽出装置のハードウェア構成を示す図。第１実施形態のキーワード抽出装置における構成と機能を詳細に説明する図。第１実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャート。本発明の第２実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。第２実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャート。本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図。本発明の第３実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。第３実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャート。

符号の説明

１：処理装置、２：入力装置、３：記録装置、４：出力装置、
２０：索引語抽出部（索引語抽出手段）、３０：高頻度語抽出部（高頻度語抽出手段）、４０：高頻度語−索引語共起度算出部（高頻度語−索引語共起度算出手段）、５０：クラスタリング部（クラスタリング手段）、７０：ｋｅｙ（ｗ）算出部（スコア算出手段）、８０：Ｓｋｅｙ（ｗ）算出部（スコア算出手段）、９０：キーワード抽出部（キーワード抽出手段）、１４０：ラベル抽出部（キーワード抽出手段）

以下、本発明の実施の形態を、図面を参照して詳細に説明する。

＜１．語彙の説明等＞
本明細書の中で使用する語彙を説明する。
類似度合い：比較される対象間の類似度又は非類似度。比較される対象をそれぞれベクトル表現し、ベクトル間の余弦乃至Tanimoto相関（類似度の一例）などベクトル成分間の積の関数を用いて表現する方法、ベクトル間の距離（非類似度の一例）などベクトル成分間の差の関数を用いて表現する方法がある。
索引語：文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなく、従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書（シソーラス）のデータベースを事前に保持し該データベースから得られる索引語を利用する方法でもよい。
高頻度語：索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む重みが大きい、所定個数の語。例えば、索引語の重みとしてＧＦ（Ｅ）（後述）又はＧＦ（Ｅ）を変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出する。

以降の説明を簡素にするため、略号を決める。
Ｅ：分析対象の文書群。文書群Ｅとしては、例えば、多数の文書を類似度に基づいてクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群Ｅを複数備えた文書群集団Ｓにおける各文書群を表示するときはＥ_ｕ（ｕ＝１，２，・・・，ｎ。ｎは文書群の数。）と表示する。
Ｓ：文書群Ｅを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に類似する３００件の特許文書で構成される。
Ｐ：文書群Ｅを含み、且つ文書群集団Ｓを含む文書集団（大文書集団）である全文書。全文書Ｐとしては、特許文献についての分析であれば、例えば日本国内で過去１０年間に発行されたすべての公開特許公報及び登録実用新案公報約５００万件を用いる。
Ｎ（Ｅ）又はＮ（Ｐ）：文書群Ｅ又は文書集団Ｐに含まれる文書の数。
Ｄ、Ｄ_ｋ又はＤ_１〜Ｄ_Ｎ（Ｅ）：文書群Ｅに含まれる個々の文書。
Ｗ：文書群Ｅに含まれる索引語の総数。
ｗ、ｗ_ｉ、ｗ_ｊ：文書群Ｅに含まれる個々の索引語（ｉ＝１，・・・，Ｗ、ｊ＝１，・・・，Ｗ）。
Σ_{｛条件Ｈ｝}：条件Ｈを満たす範囲で和をとることを意味する。
Π_{｛条件Ｈ｝}：条件Ｈを満たす範囲で積をとることを意味する。

β（ｗ，Ｄ）：文書Ｄにおける索引語ｗの重み
Ｃ（ｗ_ｉ，ｗ_ｊ）：索引語の文書単位での共起有無に基づいて算出される文書群での共起度。索引語ｗ_ｉと索引語ｗ_ｊの１つの文書Ｄにおける共起有無（１又は０）を、（β（ｗ_ｉ，Ｄ）及びβ（ｗ_ｊ，Ｄ）により重み付けの上で）文書群Ｅに属するすべての文書Ｄについて合計したもの。
ｇ又はｇ_ｈ：高頻度語のうち各索引語との共起度が類似するもの同士で構成される「土台」。土台数＝ｂ（ｈ＝１，２，・・・，ｂ）。
Ｃｏ（ｗ，ｇ）：索引語−土台共起度。索引語ｗと、土台ｇに属する高頻度語ｗ’との共起度Ｃ（ｗ，ｗ’）を、土台ｇに属するすべてのｗ’（但しｗを除く。）につき合計したもの。

ａ_ｋ：文書Ｄ_ｋのタイトル（題名）。
ｓ：タイトルａ_ｋ（ｋ＝１，・・・，Ｎ（Ｅ））の文字列連結。
ｘ_ｋ：題名出現率。題名和ｓの中での各題名ａ_ｋの（文書数Ｎ（Ｅ）に対する）出現率である。
ｍ_ｋ：各題名ａ_ｋにおいて出現した索引語ｗ_ｖ（題名用語）の種数。
ｆ_ｋ：題名用語についての、題名和ｓ中での（文書数Ｎ（Ｅ）に対する）出現率。
ｙ_ｋ：題名用語出現率平均。題名用語出現率ｆ_ｋを、各題名ａ_ｋに出現した索引語ｗ_ｖ（題名用語）の種数ｍ_ｋで除したものである。
τ_ｋ：タイトルスコア。ラベル（後述）の抽出順位を決めるために、文書群Ｅに属する各文書のタイトルごとに算出する。
Ｔ_１、Ｔ_２、・・・：タイトルスコアτ_ｋ降順で抽出されるタイトル（題名）。
κ ：キーワード適合度。ラベル（後述）の抽出個数を決めるために算出するもので、文書群Ｅに対するキーワードの占有度を示す。

ＴＦ（Ｄ）又はＴＦ（ｗ，Ｄ）：索引語ｗによる、文書Ｄの中での出現頻度（索引語頻度；Term Frequency）。
ＤＦ（Ｐ）又はＤＦ（ｗ，Ｐ）：索引語ｗによる、母集団である全文書Ｐの中での文書頻度（Document Frequency）。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。
ＤＦ（Ｅ）又はＤＦ（ｗ，Ｅ）：索引語ｗによる、文書群Ｅでの文書頻度。
ＤＦ（ｗ，Ｄ）：索引語ｗによる、文書Ｄでの文書頻度、すなわち、索引語ｗが文書Ｄに含まれていれば１、含まれていなければ０となる。
ＩＤＦ（Ｐ）又はＩＤＦ（ｗ，Ｐ）： “ＤＦ（Ｐ）の逆数×全文書の総文書数Ｎ（Ｐ）”の対数。例えば、ln（Ｎ（Ｐ）／ＤＦ（Ｐ））。
ＧＦ（Ｅ）又はＧＦ（ｗ，Ｅ）：索引語ｗによる、文書群Ｅの中での出現頻度（大域的頻度；Global Frequency）。
ＴＦ＊ＩＤＦ（Ｐ）：ＴＦ（Ｄ）とＩＤＦ（Ｐ）との積。文書の索引語ごとに演算される。
ＧＦ（Ｅ）＊ＩＤＦ（Ｐ）：ＧＦ（Ｅ）とＩＤＦ（Ｐ）との積。文書の索引語ごとに演算される。

＜２．第１実施形態の構成＞
図１は本発明の第１実施形態に係るキーワード抽出装置のハードウェア構成を示す図である。同図に示すように、本実施形態のキーワード抽出装置は、ＣＰＵ（中央演算装置）およびメモリ（記録装置）などから構成される処理装置１、キーボード（手入力器具）などの入力手段である入力装置２、文書データや条件や処理装置１による作業結果などを格納する記録手段である記録装置３、および抽出されたキーワードを表示又は印刷等する出力手段である出力装置４から構成される。

図２は第１実施形態のキーワード抽出装置における構成と機能を詳細に説明する図である。

処理装置１は、文書読み出し部１０、索引語抽出部２０、高頻度語抽出部３０、高頻度語−索引語共起度算出部４０、クラスタリング部５０、索引語−土台共起度算出部６０、ｋｅｙ（ｗ）算出部７０、Ｓｋｅｙ（ｗ）算出部８０、キーワード抽出部９０、を備えている。

記録装置３は、条件記録部３１０、作業結果格納部３２０、文書格納部３３０などから構成される。文書格納部３３０は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館のＩＰＤＬや、株式会社パトリスでサービスしているＰＡＴＯＬＩＳなどの文書データベースを意味する。又内部データベースとは、販売されている例えば特許ＪＰ−ＲＯＭなどのデータを自前で格納したデータベース、文書を格納したＦＤ（フレキシブルディスク）、ＣＤ（コンパクトディスク）ＲＯＭ、ＭＯ（光磁気ディスク）、ＤＶＤ（デジタルビデオディスク）などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むＯＣＲ（光学的情報読み取り装置）などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

図１及び図２において、処理装置１、入力装置２、記録装置３、および出力装置４の間で信号やデータをやり取りする通信手段としては、ＵＳＢ（ユニバーサルシステムバス）ケーブルなどで直接接続してもよいし、ＬＡＮ（ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納したＦＤ、ＣＤＲＯＭ、ＭＯ、ＤＶＤなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

＜２−１．入力装置２の詳細＞
次に、図２により上記のキーワード抽出装置における構成と機能を詳しく説明する。
入力装置２では、文書の読み出し条件、高頻度語抽出条件、クラスタリング条件、樹状図作成条件、樹状図切断条件、スコア算出条件、キーワード出力条件などの入力を受け付ける。これら入力された条件は、記録装置３の条件記録部３１０へ送られて格納される。

＜２−２．処理装置１の詳細＞
文書読み出し部１０は、記録装置３の条件記録部３１０に格納された読み出し条件に従って、分析対象となる複数の文書Ｄ_１〜Ｄ_Ｎ（Ｅ）からなる文書群Ｅを記録装置３の文書格納部３３０から読み出す。読み出された文書群のデータは、索引語抽出部２０に直接送られてそこでの処理に用いられる他、記録装置３の作業結果格納部３２０に送られて格納される。
なお、文書読み出し部１０から索引語抽出部２０或いは作業結果格納部３２０に送られるデータは、読み出された文書群Ｅの文書データを含むすべてのデータであっても良い。また、これら文書群Ｅに属する各々の文書Ｄを特定する書誌データ（例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部３３０から各文書Ｄのデータを読み出せばよい。

索引語抽出部２０は、文書読み出し部１０で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部３０に直接送られてそこでの処理に用いられる他、記録装置３の作業結果格納部３２０に送られて格納される。

高頻度語抽出部３０は、索引語抽出部２０で抽出された各文書の索引語に基づき、記録装置３の条件記録部３１０に格納された高頻度語抽出条件に従って、文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Ｅにおける出現回数であるＧＦ（Ｅ）を算出する。また更に各索引語のＩＤＦ（Ｐ）を算出し、ＧＦ（Ｅ）との積であるＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を算出するのが好ましい。次に、算出された各索引語の重みであるＧＦ（Ｅ）或いはＧＦ（Ｅ）＊ＩＤＦ（Ｐ）の上位所定個数の索引語を、高頻度語として抽出する。
抽出された高頻度語のデータは、高頻度語−索引語共起度算出部４０に直接送られてそこでの処理に用いられる他、記録装置３の作業結果格納部３２０に送られて格納される。また、上記算出した各索引語のＧＦ（Ｅ）及び算出することが好ましいとされた各索引語のＩＤＦ（Ｐ）についても、記録装置３の作業結果格納部３２０に送られて格納されることが好ましい。

高頻度語−索引語共起度算出部４０は、高頻度語抽出部３０にて抽出された各高頻度語と、上記索引語抽出部２０にて抽出され作業結果格納部３２０に格納された各索引語との文書単位での共起有無に基づいて、文書群Ｅにおける共起度を算出する。索引語がｐ個、そのうち高頻度語がｑ個抽出されたとすれば、ｐ行ｑ列の行列データとなる。
高頻度語−索引語共起度算出部４０で算出された共起度のデータは、クラスタリング部５０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

クラスタリング部５０は、高頻度語−索引語共起度算出部４０で算出された共起度データに基づき、記録装置３の条件記録部３１０に格納されたクラスタリング条件に従って、ｑ個の高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、ｑ個の高頻度語の各々について、各索引語との共起度の類似度合い（類似度又は非類似度）を演算する。この類似度合いの演算は、入力装置２から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部３１０から呼び出してきて実行する。また、類似度合いの演算は、例えば上記ｐ行ｑ列の共起度データの例で言えば、比較対象となる高頻度語の各々についてのｐ次元列ベクトル間の余弦又は距離に基づいて行うことができる（ベクトル空間法）。なお、ベクトル間の余弦（類似度）は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離（非類似度）は値が小さいほど類似度合いが高いことを意味する。また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。

次に、類似度合いの演算結果に基づき、記録装置３の条件記録部３１０に格納された樹状図作成条件に従って、高頻度語を樹状に結線した樹状図を作成する。樹状図としては、高頻度語間の非類似度を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。

次に、記録装置３の条件記録部３１０に記録された樹状図切断条件に従って、上記作成した樹状図を切断する。切断の結果、ｑ個の高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」ｇ_ｈ（ｈ＝１，２，・・・，ｂ）と呼ぶことにする。
クラスタリング部５０で形成された土台のデータは、索引語−土台共起度算出部６０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

索引語−土台共起度算出部６０は、索引語抽出部２０で抽出され記録装置３の作業結果格納部３２０に格納された各索引語について、クラスタリング部５０で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータはｋｅｙ（ｗ）算出部７０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

ｋｅｙ（ｗ）算出部７０は、索引語−土台共起度算出部６０で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるｋｅｙ（ｗ）を算出する。算出されたｋｅｙ（ｗ）のデータはＳｋｅｙ（ｗ）算出部８０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

Ｓｋｅｙ（ｗ）算出部８０は、ｋｅｙ（ｗ）算出部７０で算出された各索引語のｋｅｙ（ｗ）スコア、高頻度語抽出部３０で算出され記録装置３の作業結果格納部３２０に格納された各索引語のＧＦ（Ｅ）及び各索引語のＩＤＦ（Ｐ）に基づき、Ｓｋｅｙ（ｗ）スコアを算出する。算出されたＳｋｅｙ（ｗ）のデータはキーワード抽出部９０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

キーワード抽出部９０は、Ｓｋｅｙ（ｗ）算出部８０で算出された各索引語のＳｋｅｙ（ｗ）スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する。抽出されたキーワードのデータは、記録装置３の作業結果格納部３２０に送られて格納され、必要に応じて出力装置４にて出力される。

＜２−３．記録装置３の詳細＞
図２の記録装置３において、条件記録部３１０は、入力装置２から得られた条件などの情報を記録し、処理装置１の要求に基づき、必要なデータを送る。作業結果格納部３２０は、処理装置１における各構成要素の作業結果を格納し、処理装置１の要求に基づき、必要なデータを送る。文書格納部３３０は、入力装置２或いは処理装置１の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。

＜２−４．出力装置４の詳細＞
図２の出力装置４は、処理装置１のキーワード抽出部９０で抽出され記録装置３の作業結果格納部３２０に格納された文書群のキーワードを出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。

＜３．第１実施形態の作用＞
図３は第１実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャートである。

＜３−１．文書読み出し＞
まず、文書読み出し部１０において、分析対象となる複数の文書Ｄ_１〜Ｄ_Ｎ（Ｅ）からなる文書群Ｅを記録装置３の文書格納部３３０から読み出す（ステップＳ１０）。

＜３−２．索引語抽出＞
次に、索引語抽出部２０において、文書読み出しステップＳ１０で読み出された文書群から、各文書の索引語を抽出する（ステップＳ２０）。各文書の索引語データは、例えば、文書群Ｅに含まれる索引語の各文書Ｄ内における出現回数（索引語頻度ＴＦ（Ｄ））の関数値を成分とするベクトルで表現することができる。

＜３−３．高頻度語抽出＞
次に、高頻度語抽出部３０において、索引語抽出ステップＳ２０で抽出された各文書の索引語データに基づき、文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Ｅにおける出現回数であるＧＦ（Ｅ）を算出する（ステップＳ３０）。各索引語のＧＦ（Ｅ）を算出するには、上記索引語抽出ステップＳ２０において算出した各索引語の各文書における索引語頻度ＴＦ（Ｄ）を、文書群Ｅに属する文書Ｄ_１〜Ｄ_Ｎ（Ｅ）について合計すればよい。

説明をわかり易くするために、６個の文書Ｄ_１〜Ｄ_６からなる文書群Ｅに合計１４個の索引語ｗ_１〜ｗ_１４が含まれる場合のＴＦ（Ｄ）及びＧＦ（Ｅ）の仮想事例を次の表に示す。以下の説明において、この仮想事例を適宜参照する。

次に、算出された各索引語のＧＦ（Ｅ）に基づき、出現頻度上位の索引語を所定個数抽出する（ステップＳ３１）。高頻度語の抽出数は例えば１０語とする。この場合、例えば１０語目と１１語目が同順位であれば、１１語目も高頻度語として抽出する。
高頻度語の抽出にあたっては、更に各索引語のＩＤＦ（Ｐ）を算出してＧＦ（Ｅ）＊ＩＤＦ（Ｐ）の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例による以下の説明においては、簡単のためＧＦ（Ｅ）上位７語を高頻度語とすることにする。すなわち、索引語ｗ_１〜索引語ｗ_７が高頻度語として抽出される。

なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であれば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考えられる。
〔キーワードとして意味をなさないもの〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徴
〔キーワードとして重要性が低い語・単位記号・ローマ数字〕
全体、範囲、種、類、系、用、％、ｍｍ、ｍｌ、ｎｍ、μｍなど
ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを与えることは自由である。

＜３−４．高頻度語−索引語共起度算出＞
次に、高頻度語−索引語共起度算出部４０において、上記高頻度語抽出ステップＳ３１にて抽出された各高頻度語と、上記索引語抽出ステップＳ２０にて抽出された各索引語との共起度を算出する（ステップＳ４０）。

索引語ｗ_ｉと索引語ｗ_ｊとの文書群Ｅにおける共起度Ｃ（ｗ_ｉ，ｗ_ｊ）は、例えば次の式により算出する。

ここでβ（ｗ_ｉ，Ｄ）は文書Ｄにおける索引語ｗ_ｉの重みであり、
β（ｗ_ｉ，Ｄ）＝１
β（ｗ_ｉ，Ｄ）＝ＴＦ（ｗ_ｉ，Ｄ）
β（ｗ_ｉ，Ｄ）＝ＴＦ（ｗ_ｉ，Ｄ）×ＩＤＦ（ｗ_ｉ，Ｐ）
等が考えられる。

ＤＦ（ｗ_ｉ，Ｄ）は文書Ｄに索引語ｗ_ｉが含まれていれば１、含まれていなければ０となるから、ＤＦ（ｗ_ｉ，Ｄ）×ＤＦ（ｗ_ｊ，Ｄ）は、索引語ｗ_ｉと索引語ｗ_ｊが１つの文書Ｄにおいて共起していれば１、共起していなければ０となる。これを、（β（ｗ_ｉ，Ｄ）及びβ（ｗ_ｊ，Ｄ）により重み付けの上で）文書群Ｅに属するすべての文書Ｄについて合計したものが、索引語ｗ_ｉと索引語ｗ_ｊとの共起度Ｃ（ｗ_ｉ，ｗ_ｊ）である。

なお、上記［数１］の類似例として、［β（ｗ_ｉ，Ｄ）×β（ｗ_ｊ，Ｄ）］の代わりに、索引語ｗ_ｉと索引語ｗ_ｊとのセンテンス内共起有無に基づいて算出した文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）を用いても良い。文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）は、例えば以下の式により算出する。

ここでsenは文書Ｄにおける各センテンスを意味するものとする。［ＴＦ（ｗ_ｉ，sen）×ＴＦ（ｗ_ｊ，sen）］は、あるセンテンス内に索引語ｗ_Ｉとｗ_ｊが共起していれば１以上の値を返し、共起していなければ０を返す。これを文書Ｄにおけるすべてのセンテンスsenにつき合計したものが、文書Ｄにおける共起度ｃ（ｗ_ｉ，ｗ_ｊ）である。

上記の仮想事例に基づいて、上記［数１］により、重みβ（ｗ_ｉ，Ｄ）＝１として共起度を算出すると以下の通りである。まず、同じ索引語である索引語ｗ_１と索引語ｗ_１は、文書Ｄ_１〜文書Ｄ_３の計３文書において共起していると言うことができ、共起度Ｃ（ｗ_１，ｗ_１）＝３である。また、索引語ｗ_２と索引語ｗ_１は、文書Ｄ_１及び文書Ｄ_３の計２文書において共起しており、共起度Ｃ（ｗ_２，ｗ_１）＝２である。以下同様にして、索引語ｗ_１〜ｗ_１４の何れか１つと高頻度語ｗ_１〜ｗ_７の何れか１つとの組すべてについて共起度Ｃ（ｗ_ｉ，ｗ_ｊ）を算出すると、次の表のような１４行７列の行列データが得られる。

＜３−５．クラスタリング＞
次に、クラスタリング部５０において、高頻度語−索引語共起度算出ステップＳ４０で算出された共起度データに基づき、上記高頻度語をクラスタ分析する。

クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との共起度の類似度合い（類似度又は非類似度）を演算する（ステップＳ５０）。

上記仮想事例において、類似度合いとして、高頻度語ｗ_１〜ｗ_７の各々についての１４次元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りである。

表の左下半部は右上半部と重複するので省略している。この表によると、例えば高頻度語ｗ_１〜高頻度語ｗ_４は、それらの何れの組合せでも相関係数が0.8を超えている。また高頻度語ｗ_５〜高頻度語ｗ_７は、それらの何れの組合せでも相関係数が0.8を超えている。逆に、高頻度語ｗ_１〜高頻度語ｗ_４の何れかと高頻度語ｗ_５〜高頻度語ｗ_７の何れかとの組合せでは、相関係数がすべて0.8未満となっている。

次に、類似度合いの演算結果に基づき、高頻度語を樹状に結線した樹状図を作成する（ステップＳ５１）。
樹状図としては、高頻度語間の非類似度を結合位置の高さ（結合距離）に反映させたデンドログラムを作成することが望ましい。デンドログラムの作成原理を簡単に説明すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小（類似度が最大）の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語間の非類似度に基づいて更新する。更新方法としては例えば公知のWard法などを用いる。

次に、クラスタリング部５０において、上記作成した樹状図を切断する（ステップＳ５２）。例えばデンドログラムにおける結合距離をｄとしたときの＜ｄ＞＋δσ_ｄの位置で切断する。ここで＜ｄ＞はｄの平均値、σ_ｄはｄの標準偏差である。δは−３≦δ≦３の範囲で与え、好ましくはδ＝０とする。
切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされ、各クラスタに属する高頻度語群からなる「土台」ｇ_ｈ（ｈ＝１，２，・・・，ｂ）が形成される。同じ土台ｇ_ｈに属する高頻度語は、索引語との共起度の類似度が高く、異なる土台ｇ_ｈに属する高頻度語は、索引語との共起度の類似度が低いことになる。

樹状図とその切断過程については上記の仮想事例による説明を省略するが、高頻度語ｗ_１〜高頻度語ｗ_４からなる土台ｇ_１と、高頻度語ｗ_５〜高頻度語ｗ_７からなる土台ｇ_２という２つの土台（土台数ｂ＝２）が形成されたものとする。

＜３−６．索引語−土台共起度算出＞
次に、索引語−土台共起度算出部６０において、上記索引語抽出ステップＳ２０で抽出された各索引語について、クラスタリングステップＳ５３で形成された各土台との共起度（索引語−土台共起度）Ｃｏ（ｗ，ｇ）を算出する（ステップＳ６０）。

索引語−土台共起度Ｃｏ（ｗ，ｇ）は、例えば、次の式により算出する。

ここでｗ’は、ある土台ｇに属する高頻度語であり、かつ共起度Ｃｏ（ｗ，ｇ）の計測対象である索引語ｗ以外のものをいう。索引語ｗと土台ｇとの共起度Ｃｏ（ｗ，ｇ）は、ｗ’すべてについての、ｗとの共起度Ｃ（ｗ，ｗ’）の合計である。

例えば上記の仮想事例において、索引語ｗ_１と土台ｇ_１との共起度Ｃｏ（ｗ_１，ｇ_１）は、
Ｃｏ（ｗ_１，ｇ_１）＝Ｃ（ｗ_１，ｗ_２）＋Ｃ（ｗ_１，ｗ_３）＋Ｃ（ｗ_１，ｗ_４）
であり、上の表２より、この値は、２＋３＋３＝８となる。
また、索引語ｗ_１と土台ｇ_２との共起度Ｃｏ（ｗ_１，ｇ_２）は、
Ｃｏ（ｗ_１，ｇ_２）＝Ｃ（ｗ_１，ｗ_５）＋Ｃ（ｗ_１，ｗ_６）＋Ｃ（ｗ_１，ｗ_７）＝１＋１＋０＝２となる。
同様にして、すべての索引語ｗについて土台ｇ_１，ｇ_２との共起度を算出すると、次の表のようになる。

なお、索引語−土台共起度は、上記Ｃｏ（ｗ，ｇ）に限らず、次の式により算出しても良い。

ここでΘ（Ｘ）は、Ｘ＞０なら１を返し、Ｘ≦０なら０を返す関数である。Θ（Σ_{｛ｗ’∈ｇ，ｗ’≠ｗ｝}ＤＦ(ｗ’，Ｄ)）は、土台ｇに属する何れかの高頻度語であってかつ共起度の計測対象索引語ｗ以外の語ｗ’が、文書Ｄに１つでも含まれていれば１を返し、まったく含まれていなければ０を返すことになる。ＤＦ（ｗ，Ｄ）は共起度の計測対象索引語ｗが、文書Ｄに１つでも含まれていれば１を返し、まったく含まれていなければ０を返す。ＤＦ（ｗ，Ｄ）にΘ（Ｘ）を乗じることで、ｗと土台ｇに属する何れかのｗ’とが文書Ｄにおいて共起していれば１を返し、共起していなければ０を返すことになる。これに、上で定義した重みβ（ｗ，Ｄ）を乗じ、さらに文書群Ｅに属するすべての文書Ｄについて合計したものが、Ｃｏ'（ｗ，ｇ）である。

上記［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）は、ｗとｗ’のＤ内での共起有無（１又は０）をすべてのＥについて重みβ（ｗ，Ｄ）×β（ｗ’，Ｄ）付きで合計（Ｃ（ｗ，ｗ’））し、これをｇ内のｗ’について合計した。これに対し、上記［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）は、ｗとｇ内の何れかのｗ’のＤ内での共起有無（１又は０）をすべてのＥについて重みβ（ｗ，Ｄ）付きで合計した。
従って、いずれの場合でも、より多くの文書Ｄで高頻度語と共起した方が、より大きい索引語−土台共起度が得られる。また、［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）は索引語ｗと共起する土台ｇ内のｗ’の数の多寡により増減するものであるのに対し、［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）は索引語ｗと共起する土台ｇ内のｗ’の存否により増減するもので、共起するｗ’の多寡は無関係である。［数３］の索引語−土台共起度Ｃｏ（ｗ，ｇ）を用いる場合は重みβ（ｗ，Ｄ）＝１とするのが好ましく、［数４］の索引語−土台共起度Ｃｏ'（ｗ，ｇ）を用いる場合は重みβ（ｗ，Ｄ）＝ＴＦ（ｗ，Ｄ）とするのが好ましい。

＜３−７．ｋｅｙ（ｗ）算出＞
次に、ｋｅｙ（ｗ）算出部７０において、上記索引語−土台共起度算出ステップＳ６０で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるｋｅｙ（ｗ）を算出する（ステップＳ７０）。

ｋｅｙ（ｗ）は、例えば、次の式により算出する。

ここで、Ｆ（ｇ_ｈ）＝Σ_{｛ｗ∈Ｅ｝}Ｃｏ（ｗ，ｇ_ｈ）と定義する。索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）の、全索引語ｗについての合計である。Ｃｏ（ｗ，ｇ_ｈ）をＦ（ｇ_ｈ）で除して１との差をとり、これをすべての土台ｇ_ｈ（ｈ＝１，２，・・・，ｂ）について乗じて１との差をとったものが、ｋｅｙ（ｗ）である。
なお、索引語−土台共起度として、ここでは上記［数３］のＣｏ（ｗ，ｇ）を用いたが、上記［数４］のＣｏ'（ｗ，ｇ）を用いてもよいことは上述の通りである。

例えば上記の仮想事例において、Ｆ（ｇ_ｈ）を算出すると、上記［表４］より、
Ｆ（ｇ₁）＝Ｃｏ（ｗ₁，ｇ₁）＋Ｃｏ（ｗ₂，ｇ₁）＋・・・＋Ｃｏ（ｗ₁₄，ｇ₁）＝８５
Ｆ（ｇ₂）＝Ｃｏ（ｗ₁，ｇ₂）＋Ｃｏ（ｗ₂，ｇ₂）＋・・・＋Ｃｏ（ｗ₁₄，ｇ₂）＝５９
となる。そこで、ｋｅｙ（ｗ）は、
ｋｅｙ（ｗ₁）＝１−（１−Ｃｏ（ｗ₁，ｇ₁）／８５）（１−Ｃｏ（ｗ₁，ｇ₂）／５９）
＝１−（１ − ８／８５）（１ − ２／５９）
＝0.125
ｋｅｙ（ｗ₂）＝１−（１−Ｃｏ（ｗ₂，ｇ₁）／８５）（１−Ｃｏ（ｗ₂，ｇ₂）／５９）
＝１−（１ − ８／８５）（１ − ４／５９）
＝0.156
以下同様に、すべての索引語についてｋｅｙ（ｗ）を算出すると、次の表の通りである。

この表の右端の欄はｋｅｙ（ｗ）の大きい順に並べた場合の順位を示している。

ｋｅｙ（ｗ）の特質を説明するために、［表１］と同じものに各索引語の文書頻度ＤＦ（Ｅ）と上記ｋｅｙ（ｗ）順位とを付記して次に示す。

この表からわかるように、ｋｅｙ（ｗ）の順位には文書群Ｅでの文書頻度ＤＦ（Ｅ）の順位の影響が大きい。例えば、ＤＦ（Ｅ）最多の索引語ｗ_８はｋｅｙ（ｗ）が第１位であり、ＤＦ（Ｅ）次点の索引語ｗ_４はｋｅｙ（ｗ）が第２位であり、以下索引語ｗ_３、ｗ_５、ｗ_６等がそれに続いている。
文書群Ｅでの文書頻度ＤＦ（Ｅ）が大きい索引語なら、より多くの文書において高頻度語と共起することができる。したがって、より大きい索引語−土台共起度Ｃｏ（ｗ，ｇ）又はＣｏ'（ｗ，ｇ）が得られる。ｋｅｙ（ｗ）の順位にＤＦ（Ｅ）の順位の影響が大きい理由はここにあると考えられる。
なお、共起度の算出に用いる重みβ（ｗ，Ｄ）をＴＦ（ｗ，Ｄ）とした場合には、ｋｅｙ（ｗ）の順位には文書群Ｅでの大域的頻度ＧＦ（Ｅ）の順位の影響が大きくなると考えられる。

また、［表２］及び［表６］で索引語ｗ_９〜ｗ_１４を比較するとわかるように、共起する高頻度語がより多くの土台にまたがっている方が、ｋｅｙ（ｗ）が大きい。例えば、索引語ｗ_１０〜ｗ_１３と共起する高頻度語は、２つの土台にまたがっているのに対し、索引語ｗ_９やｗ_１４と共起する高頻度語は、１つの土台に偏っている。そして、索引語ｗ_１０〜ｗ_１３の方が索引語ｗ_９やｗ_１４よりｋｅｙ（ｗ）が大きくなっている。

また、［表２］及び［表６］で索引語ｗ_１０〜ｗ_１３を比較するとわかるように、より多くの高頻度語と共起している方が、ｋｅｙ（ｗ）が大きい傾向がある。例えば、ｗ_１０〜ｗ_１３のうち、最も多くの高頻度語と共起しているｗ_１２は、それらのうちで最もｋｅｙ（ｗ）が大きく、その次に多くの高頻度語と共起しているｗ_１１は、その次にｋｅｙ（ｗ）が大きい。

なお、各索引語の評価スコアとして、上記ｋｅｙ（ｗ）の代わりに、次の式を用いても良い。

ここでΦは適当な規格化定数であり、例えばΦ＝Σ_ｈ＝１ ^ｂＦ（ｇ_ｈ）とする。Ｆ（ｇ_ｈ）は上記［数５］で定義した通りである。
ｋｅｙ'（ｗ）は、索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）の、全土台ｇ_ｈ（ｈ＝１，・・・，ｂ）における平均値を定数（１／Φ）倍したものである。

また、各索引語の評価スコアとして、上記ｋｅｙ（ｗ）の代わりに、次の式を用いても良い。

ｋｅｙ”(ｗ) は、索引語ｗと土台ｇ_ｈとの共起度Ｃｏ（ｗ，ｇ_ｈ）をＦ（ｇ_ｈ）で除して、全土台ｇ_ｈ（ｈ＝１，・・・，ｂ）における平均値をとったものである。
［数５］のｋｅｙ（ｗ）において積部分を展開し、高次の微小項Ｏ［（Ｃｏ（ｗ，ｇ_ｈ）／Ｆ（ｇ_ｈ））^２］を無視すると、
ｋｅｙ（ｗ）
＝１−［１−Ｃｏ(ｗ,ｇ_１)／Ｆ(ｇ_１)］×［１−Ｃｏ(ｗ,ｇ_２)／Ｆ(ｇ_２)］×・・・
≒１−１＋Ｃｏ(ｗ,ｇ_１)／Ｆ(ｇ_１) ＋Ｃｏ(ｗ,ｇ_２)／Ｆ(ｇ_２) ＋・・・
となるから、ｋｅｙ”(ｗ) ≒（１／ｂ）ｋｅｙ（ｗ）ということができる。

＜３−８．Ｓｋｅｙ（ｗ）算出＞
次にＳｋｅｙ（ｗ）算出部８０において、上記ｋｅｙ（ｗ）算出ステップＳ７０で算出された各索引語のｋｅｙ（ｗ）スコア、高頻度語抽出ステップＳ３１で算出された各索引語のＧＦ（Ｅ）及び各索引語のＩＤＦ（Ｐ）に基づき、Ｓｋｅｙ（ｗ）スコアを算出する（ステップＳ８０）。

Ｓｋｅｙ（ｗ）スコアは、次の式により算出する。

ＧＦ（ｗ，Ｅ）は文書群Ｅにおいて多く出現する語に対して大きな値が与えられるものであり、ＩＤＦ（Ｐ）は全文書Ｐにおいては珍しく文書群Ｅ特有の語に対して大きな値が与えられるものであり、ｋｅｙ（ｗ）は上記のようにＤＦ（Ｅ）の影響を受け、より多くの土台と共起する語に大きな値が与えられるスコアである。これらＧＦ（ｗ，Ｅ）、ＩＤＦ（Ｐ）及びｋｅｙ（ｗ）の値が大きいほどＳｋｅｙ（ｗ）は大きくなる。

索引語に対する重み付けとして良く用いられているＴＦ＊ＩＤＦは、索引語頻度ＴＦと、文書集団における索引語の出現確率ＤＦ(Ｐ)／Ｎ(Ｐ)の逆数の対数であるＩＤＦとの積である。ＩＤＦは文書集団において高確率で出現する索引語の寄与を小さく抑える効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることができる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持っている。次に説明するように、Ｓｋｅｙ（ｗ）スコアは、このような欠点を改善する効果を有するものである。

分析対象の文書群Ｅにおいて、索引語ｗを含む文書が出現する確率をＰ（Ａ）、土台（に属する索引語）を含む文書が出現する確率をＰ（Ｂ）、索引語ｗと土台をともに含む文書が出現する確率（＝文書内で共起する確率）をＰ（Ａ∩Ｂ）とすると、
Ｐ（Ａ）＝ＤＦ（ｗ，Ｅ）／Ｎ（Ｅ）
Ｐ（Ａ∩Ｂ）＝ｋｅｙ（ｗ）
で表せる。これより、文書群Ｅにおいて、索引語ｗを含む文書が選出された時に土台と共起する確率（条件付確率）は、

となる。更に、一様性の仮定（ＩＤＦ（Ｅ）＝ＩＤＦ（Ｐ））を考慮し、かつ上記条件付確率の対数をとると、

となる。この値は、ｋｅｙ（ｗ）＝１ならばＩＤＦ（Ｐ）に等しい。そして、ＤＦ→０の極限では、Ｎ（Ｐ）／ＤＦ（ｗ，Ｐ）→ ∞ 且つｋｅｙ（ｗ）→０なので、Ｎ（Ｐ）／ＤＦ（ｗ，Ｐ）とｋｅｙ（ｗ）の積をとることによって、ＤＦ値が小さいときにＩＤＦ値が特異的に跳ね上がるという上記の欠点を改善することができる。［数８］のＳｋｅｙ（ｗ）スコアは、ＧＦ（ｗ，Ｅ）と、上記［数１０］の ln ｋｅｙ（ｗ）＋ＩＤＦ（Ｐ）との積をとったものであるから、共起度によって補正されたＧＦ（Ｅ）＊ＩＤＦ（Ｐ）ということができる。

なお、［数８］によるＳｋｅｙ（ｗ）の算出において、［数５］のｋｅｙ（ｗ）の代わりに、［数６］のｋｅｙ'（ｗ）や［数７］のｋｅｙ”(ｗ) を用いても良いことは上記の通りである。
［数７］のｋｅｙ”(ｗ) を用いた場合のＳｋｅｙ（ｗ）スコアをＳｋｅｙ（ｋｅｙ”）と表記し、［数５］のｋｅｙ（ｗ）を用いた場合のＳｋｅｙ（ｗ）スコアをＳｋｅｙ（ｋｅｙ）と表記して両者を比較すると、
Ｓｋｅｙ（ｋｅｙ）−Ｓｋｅｙ（ｋｅｙ”）
＝ＧＦ（ｗ，Ｅ）×［ln ｋｅｙ(ｗ)−ln ｋｅｙ”(ｗ)］
≒ ＧＦ（ｗ，Ｅ）× ln ｂ
よって、［数７］のｋｅｙ”(ｗ) を用いたＳｋｅｙ（ｗ）と、［数５］のｋｅｙ（ｗ）を用いた場合のＳｋｅｙ（ｗ）の振る舞いは土台数ｂの違いを除いて本質的に合致し、土台数ｂが大きくない限りはＳｋｅｙ（ｗ）スコアの順位に大きな影響は及ぼさない。

＜３−９．キーワード抽出＞
次に、キーワード抽出部９０において、上記Ｓｋｅｙ（ｗ）算出ステップＳ８０で算出された各索引語のＳｋｅｙ（ｗ）スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する（ステップＳ９０）。

＜３−１０．第１実施形態の効果＞
本実施形態によれば、より多くの土台に属する高頻度語と共起し、且つより多くの文書において高頻度語と共起する索引語を高く評価してキーワードを抽出する。異なる土台に属する高頻度語は、各索引語との共起度が似ていないもの同士であるから、多くの土台と共起する索引語は、文書群Ｅの話題や主張のばらつきを橋渡しする語であるということができる。また、多くの文書において高頻度語と共起する索引語は、もともと文書群Ｅにおける文書頻度ＤＦ（Ｅ）が高く、文書群に共通の話題や主張を表す語であるということができる。このような索引語を高く評価することにより、複数の文書Ｄからなる文書群Ｅの特徴を的確に表したキーワードを自動抽出することができる。
また、重みβ（ｗ，Ｄ）＝１とすることにより、ｋｅｙ（ｗ）スコアに対するＤＦ（Ｅ）順位の影響が大きくなり、文書群Ｅ内の多数の文書に出現する語を高く評価してキーワードを抽出することができる。
また、文書群Ｅにおける出現頻度ＧＦ（Ｅ）と、全文書Ｐにおける文書頻度の逆数の対数であるＩＤＦ（Ｐ）を加味することにより、文書群Ｅで頻出する索引語や、文書群Ｅに特有の索引語を高く評価してキーワードを抽出することができる。

＜４．第２実施形態の構成＞
図４は本発明の第２実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第１実施形態に係る図２と同様の部分には同一の符号を付してその説明を省略する。

第２実施形態のキーワード抽出装置は、第１実施形態の構成要素に加え、タイトル抽出部１００、タイトルスコア算出部１１０、Ｓｋｅｙ（ｗ）上位語読み込み部１２０、ラベル個数決定部１３０、ラベル抽出部１４０を、処理装置１内に備えている。また、第１実施形態の構成要素のうちキーワード抽出部９０は設けられていなくてもよく、Ｓｋｅｙ（ｗ）算出部８０の算出結果はそのまま作業結果格納部３２０に格納される。

タイトル抽出部１００は、文書読み出し部１０で読み出され作業結果格納部３２０に格納された文書データから、各文書のタイトル（題名）を抽出する。例えば特許文書であれば「発明の名称」の記載内容を抽出する。抽出されたタイトルのデータは、タイトルスコア算出部１１０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

タイトルスコア算出部１１０は、タイトル抽出部１００で抽出された各文書のタイトルのデータと、上記索引語抽出部２０で抽出された文書群Ｅの索引語データとに基づいて、各文書のタイトルについてタイトルスコアτ_ｋを算出する。このタイトルスコアτ_ｋは、文書群Ｅの特徴を表すラベルとしての価値を示すスコアである。タイトルスコアτ_ｋの算出方法については後述する。算出されたタイトルスコアτ_ｋのデータは、ラベル抽出部１４０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

Ｓｋｅｙ（ｗ）上位語読込み部１２０は、上記Ｓｋｅｙ（ｗ）算出部８０で算出され作業結果格納部３２０に格納された各索引語ｗのＳｋｅｙ（ｗ）に基づき、Ｓｋｅｙ（ｗ）スコアの上位所定個数の索引語を抽出する。抽出個数は例えば１０個とする。抽出されたＳｋｅｙ（ｗ）上位語のデータは、ラベル個数決定部１３０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

ラベル個数決定部１３０は、Ｓｋｅｙ（ｗ）上位語読込み部１２０で抽出されたＳｋｅｙ（ｗ）上位語のデータに基づき、当該文書群Ｅについて、その内容統一性を示す指標であるキーワード適合度κを算出する。そして、このキーワード適合度κに基づき、抽出すべきラベル個数を決定する。キーワード適合度κの算出方法及びこれに基づくラベル個数の決定については後述する。決定されたラベル個数のデータは、ラベル抽出部１４０に直接送られてそこでの処理に用いられ、或いは記録装置３の作業結果格納部３２０に送られて格納される。

ラベル抽出部１４０は、タイトルスコア算出部１１０で算出された各タイトルのタイトルスコアτ_ｋに基づき、ラベル個数決定部１３０で決定された個数のタイトルを抽出して当該文書群Ｅのラベルとする。具体的には、タイトルスコアτ_ｋの降順にタイトルをソートし、上記決定された個数のタイトルを抽出する。
本第２実施形態においては、このラベルが本発明のキーワードに相当する。

＜５．第２実施形態の作用＞
図５は第２実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャートである。本第２実施形態によるキーワード抽出装置は、上記第１実施形態と同様の処理を経て、Ｓｋｅｙ（ｗ）を算出する（ステップＳ８０まで）。Ｓｋｅｙ（ｗ）を算出するまでの処理については図３と同様であるのでその説明を省略する。

＜５−１．タイトル抽出＞
第２実施形態のキーワード抽出装置は、Ｓｋｅｙ（ｗ）を算出した後、タイトル抽出部１００において、上記文書読み出しステップＳ１０で読み出された文書群Ｅに属する各文書Ｄ_ｋ（ｋ＝１，２，・・・，Ｎ（Ｅ））文書データから、各文書のタイトル（題名）ａ_ｋを抽出する（ステップＳ１００）。１つの文書Ｄ_ｋからは１つのタイトルが抽出されるので、文書数Ｎ（Ｅ）と同じ数のタイトルａ_ｋが抽出される。

更にタイトル抽出部１００は、各文書のタイトルａ_ｋから、文書群Ｅにおける題名の文字列連結（題名和）ｓを作成する。題名和ｓは以下の式で表せる。

ここで、strΠは文字列和を意味する。題名和ｓに対しては、分かち書きソフトウェアの仕様に応じて、予め符号の統一処理を行うことが望ましい。例えば、分かち書き処理で記号を削除してしまう場合には、前処理として、「−」（全角マイナス）、「―」（全角升目の棒）を「ー」（長音符号）に統一させておく。
そして、題名和ｓを分かち書きして得られる題名用語を索引語辞書とする。

なお、索引語辞書としては、題名和ｓから得られる索引語の代わりに、文書群Ｅの文書内容から分かち書きして得られる索引語を索引語辞書としても良い。また、そのうちキーワードスコアＳｋｅｙ（ｗ）の上位所定個数（例えば３０語）の索引語のみを索引語辞書としても良い。
索引語辞書を得る方法は以上のように幾つか考えられるが、こうして得られる文書群Ｅの索引語を以下では一般にｗ_ｖ（ｖ＝１，２，・・・，Ｗ’）で表すことにする。

＜５−２．タイトルスコア算出＞
次に、タイトルスコア算出部１１０において、各文書のタイトルについてタイトルスコアτ_ｋを算出する（ステップＳ１１０）。タイトルスコアτ_ｋの算出は、以下に説明する題名出現率ｘ_ｋと、題名用語出現率平均ｙ_ｋを用いて行う。

題名出現率ｘ_ｋ
各題名ａ_ｋについて、題名和ｓの中での（文書数Ｎ（Ｅ）に対する）出現率ｘ_ｋを求める。題名出現率ｘ_ｋは以下の式で与えられる。

題名用語出現率平均ｙ_ｋ
題名用語出現率平均ｙ_ｋを算出するために、まず、各題名ａ_ｋにおいて出現した索引語ｗ_ｖ（題名用語）の種数ｍ_ｋを求める。

ここで、Θ（Ｘ）は、Ｘ＞０なら１、Ｘ≦０なら０を返す関数である。Θ（ＴＦ（ｗ_ｖ，ａ_ｋ））で題名ａ_ｋにおける索引語ｗ_ｖの有無（１又は０）が求められる。これを全索引語ｗ_ｖ（ｖ＝１，２，・・・，Ｗ’）につき合計したものが、題名用語の種数ｍ_ｋである。

次に、各文書の題名ａ_ｋに出現した題名用語に関して、題名和ｓ中での（文書数Ｎ（Ｅ）に対する）出現率ｆ_ｋを求める。

ここで、題名和ｓ中での索引語ｗ_ｖの出現回数がＴＦ（ｗ_ｖ，ｓ）で与えられている。出現率ｆ_ｋは、索引語ｗ_ｖのうち、題名ａ_ｋに出現するもの（Θ（ＴＦ（ｗ_ｖ，ａ_ｋ））＝１である索引語ｗ_ｖ）のＴＦ（ｗ_ｖ，ｓ）だけを、重み（ＩＤＦ（ｗ_ｖ，Ｐ））つきで合計し、文書数Ｎ（Ｅ）で除したものである。

更に、長い題名が高ポイント化しやすくなるのを防止するため、題名用語出現率ｆ_ｋを、各題名ａ_ｋにおいて出現した索引語ｗ_ｖ（題名用語）の種数ｍ_ｋで除したものが、題名用語出現率の種数平均ｙ_ｋである。

タイトルスコアτ_ｋ
タイトルスコアτ_ｋは、上記題名出現率ｘ_ｋと、題名用語出現率平均ｙ_ｋの増加関数で求める。例えば、次式の相乗平均で求めるのが好ましい。

また、タイトルスコアτ_ｋは、次の式で求めても良い。

各タイトルａ_ｋについてタイトルスコアτ_ｋが求められたら、同一題名を名寄せする（同一題名が複数あれば１つ残して削除する）。そして、上記求めたタイトルスコアτ_ｋの降順にタイトルをソートし、各タイトルを、τ_ｋ上位からＴ_１，Ｔ_２，・・・とする。

＜５−３．Ｓｋｅｙ上位語読込み＞
次に、Ｓｋｅｙ（ｗ）上位語読込み部１２０において、Ｓｋｅｙ（ｗ）スコアの上位所定個数（ｔ個とする）の索引語を抽出する（ステップＳ１２０）。

＜５−４．ラベル個数決定＞
次に、ラベル個数決定部１３０において、当該文書群Ｅの内容統一性を示すキーワード適合度κを算出し、抽出すべきラベル個数を決定する（ステップＳ１３０）。

キーワード適合度κは、Ｓｋｅｙ（ｗ）スコアの上位所定個数（ｔ個）の索引語をｗ_ｒ（ｒ＝１，２，・・・，ｔ）とし、次の式で算出する。

すなわち、Ｓｋｅｙ（ｗ）スコアの上位ｔ個の索引語ｗ_ｒについて、文書群Ｅでの文書頻度ＤＦ（Ｅ）の平均（１／ｔ）Σ_ｒ＝１ ^ｔＤＦ（ｗ_ｒ，Ｅ）を求め、これを文書群Ｅの文書数Ｎ（Ｅ）で除したものが、キーワード適合度κである。
κはＳｋｅｙ（ｗ）によってキーワードだと評価された語の文書群Ｅにおける占有度を表す。文書群Ｅが１つの分野から構成されていれば、キーワードは互いに関連性の深いものばかりで多種多様になることはないので占有度は高い。これに対し、文書群Ｅが複数分野から構成されていれば、一分野あたりの文書数は少なくキーワードも多種多様となり、占有度が低くなる。従って、κの値が高ければ、文書群Ｅの内容の統一性が高く、κの値が低ければ、文書群Ｅは複数分野から構成されていると判断できる。

求められたキーワード適合度κの値に応じて、本第２実施形態において抽出されるキーワードであるラベルの個数及び出力態様を決定する。例えば、
(1) 0.55≦κ ならτ_ｋ最上位の「Ｔ₁」をそのままラベルとし、
(2) 0.35≦κ＜0.55 ならτ_ｋ最上位のＴ₁を用いて「Ｔ₁関連」とのラベルとし、
(3) 0.2 ＜κ＜0.35 ならτ_ｋ第二位のＴ₂までを用いて「Ｔ₁、Ｔ₂等」とのラベルとし、
(4) κ≦0.2 なら「その他」とのラベルとする。

なお、κの閾値は、この［0.55，0.35，0.2］のセットに限らず、他の値を選んでも良い。例えば、上記［数５］のｋｅｙ（ｗ）に代えて［数６］のｋｅｙ'（ｗ）を用いてＳｋｅｙ（ｗ）スコアを算出した場合は、上記のκ閾値セットに代えて、κ閾値セット［0.3，0.2，0.02］を用いるのが好ましい。

＜５−５．ラベル抽出＞
次に、ラベル抽出部１４０において、上記タイトルスコア算出ステップＳ１１０で算出された各タイトルのタイトルスコアτ_ｋと、上記ラベル個数決定ステップＳ１３０で決定されたラベル個数及び出力態様とに基づいて、ラベルを抽出する（ステップＳ１４０）。

＜５−６．第２実施形態の効果＞
本実施形態によれば、第１実施形態で算出したＳｋｅｙ（ｗ）スコアを利用し、Ｓｋｅｙ（ｗ）スコア上位の高頻度語の各文書における出現頻度に基づいてキーワード（ラベル）抽出個数を決定する。これにより、複数の文書Ｄからなる文書群Ｅの内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを自動抽出することができる。
また、各文書のタイトルにおける語の出現率に基づき、当該出現率が高い語を高く評価してキーワード（ラベル）を抽出するので、文書群の内容を的確に表したキーワードを抽出することができる。

＜６．具体例＞
第１実施形態及び第２実施形態によるキーワード抽出の具体例として、ある家庭用化学品メーカーを出願人とする過去１０年分の特許公報（出願公告公報又は特許掲載公報）約８５０件をクラスタ分析して得られた２７組の文書群につき、それぞれキーワードを抽出した例について説明する。

クラスタ分析は、上記約８５０件の文書をそれぞれ各文書内に含まれる索引語のＴＦ＊ＩＤＦ（Ｐ）を成分とするベクトルで表現し、これら文書ベクトル相互の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離をｄとしたときの＜ｄ＞＋σ_ｄの位置でデンドログラムを切断することによって行った。ここで＜ｄ＞はｄの平均値、σ_ｄはｄの標準偏差である。

こうして得られた２７組の文書群について、それぞれＳｋｅｙ（ｗ）上位３語を第１実施形態によるキーワードとした。また、キーワード適合度κを算出してこれに基づき第２実施形態によるラベルを生成した。なお、第２実施形態によるラベルを抽出するための索引語辞書は、上述のように題名和ｓを分かち書きして得られる題名用語を用いた。但し、文書群Ｅの文書内容から分かち書きして得られる索引語を用いた場合についてもラベルの生成を行い、題名和ｓを用いた場合と異なる結果が得られた場合は「※」印を付して併記した。
文書群の掲載順はキーワード適合度κの降順とし、ラベルの表現態様の違いを一見して理解できるようにした。

また、第１実施形態及び第２実施形態によるキーワード抽出とは別に、上記２７組の文書群を人間が読み込んで、各文書群に最適と思われるタイトルを付した。人間が付したタイトルと文書数Ｎ（Ｅ）及びキーワード適合度κは各文書群の冒頭に表示した。

（1）0.55≦κ
（1-1）う蝕予防剤（Ｎ（Ｅ）＝４，κ＝１．０）
ラベル「う蝕予防剤」
キーワード［蝕・ミュータンス・ストレプトコッカス］

（1-2）皮膚外用剤（Ｎ（Ｅ）＝６，κ＝０．９８３）
ラベル「皮膚外用剤」
キーワード［エラグ・ポリオキシプロピレン・ポリオキシエチレン］

（1-3）柔軟剤（Ｎ（Ｅ）＝１０，κ＝０．９７）
ラベル「柔軟剤組成物」
キーワード［分断・アルケニル・ヒドロキシアルキル］

（1-4）炭素微粉体の水スラリー用添加剤（Ｎ（Ｅ）＝７，κ＝０．８８５７）
ラベル「炭素微粉体の水スラリー用添加剤」
キーワード［モノマー・スルホン・必須］

（1-5）高嵩密度粒状洗剤（Ｎ（Ｅ）＝２１，κ＝０．８７６）
ラベル「高嵩密度粒状洗剤組成物」 ※ 粒状洗剤組成物
キーワード［脂肪酸・洗剤・嵩］

（1-6）水難溶性シート（Ｎ（Ｅ）＝６，κ＝０．８）
ラベル「水解性・吸水性シート状体」
キーワード［水難・カルボキシエチルセルロース・カルボキシメチルセルロース］

（1-7）水硬性無機質材料（Ｎ（Ｅ）＝９，κ＝０．７３３）
ラベル「水硬性無機質材料用配合剤」
キーワード［エマルジョン・転移・架橋］

（1-8）脱墨剤（Ｎ（Ｅ）＝１２，κ＝０．６５８３）
ラベル「フローテーション用脱墨剤」
キーワード［EO・PO・XO］

（1-9）高嵩密度粒状洗剤（Ｎ（Ｅ）＝２１，κ＝０．６５）
ラベル「高嵩密度洗剤組成物の製造方法」
キーワード［洗剤・嵩・捏］

（1-10）導電性樹脂（Ｎ（Ｅ）＝１３，κ＝０．６３８４）
ラベル「導電性樹脂組成物」
キーワード［ブラック・カーボン・練］

（1-11）セメント／セラミックス成形（Ｎ（Ｅ）＝２６，κ＝０．６３４６）
ラベル「セラミックス成形用バインダー」
キーワード［メタ・アクリル・クリル］

（1-12）高嵩密度粒状洗剤（Ｎ（Ｅ）＝２３，κ＝０．６２６）
ラベル「高嵩密度粒状洗剤組成物」
キーワード［ニオ・界面・洗剤］

（1-13）スルホン化（Ｎ（Ｅ）＝１１，κ＝０．５９０９）
ラベル「低分子量のスチレン系重合体の製造方法」
キーワード［スルホン・溶媒・スチレン］

（1-14）歯ブラシ（Ｎ（Ｅ）＝１１，κ＝０．５６３６）
ラベル「歯刷子」
キーワード［植毛・刷・刷毛］

（2）0.35≦κ＜0.55
（2-1）漂白剤（Ｎ（Ｅ）＝１０，κ＝０．４９）
ラベル「漂白剤組成物関連」
キーワード［漂白・洗剤・剤］

（2-2）義歯安定剤・義歯洗浄剤（Ｎ（Ｅ）＝１１，κ＝０．４１）
ラベル「義歯洗浄剤関連」
キーワード［義歯・ポリプロピレンオキサイド・配合］

（2-3）口腔用組成物（Ｎ（Ｅ）＝６２，κ＝０．３９５）
ラベル「口腔用組成物関連」
キーワード［口腔・組成・配合］

（2-4）キチン・キトサン（Ｎ（Ｅ）＝１３，κ＝０．３７６９）
ラベル「キチン又はキトサン類の精製法関連」
キーワード［キト・サン・キチン］

（2-5）カロチン（Ｎ（Ｅ）＝９，κ＝０．３６６６）
ラベル「カロチンの精製方法関連」 ※ 天然油脂の処理方法
キーワード［カロチン・濃縮・パームカロチン］

（3）0.2＜κ＜0.35
（3-1）毛髪化粧料／エアゾール化粧（Ｎ（Ｅ）＝１５，κ＝０．３４６６）
ラベル「化粧料・毛髪化粧料等」
キーワード［料・化粧・シリカビーズ］

（3-2）歯磨組成物（Ｎ（Ｅ）＝５６，κ＝０．３０７１）
ラベル「歯磨組成物・洗浄剤組成物等」
キーワード［歯磨・組成・重量］

（3-3）脂肪酸エステル・石鹸（Ｎ（Ｅ）＝３３，κ＝０．２６９６）
ラベル「石けん組成物・エステルの製造方法等」
キーワード［脂肪酸・エステル・石けん］

（3-4）毛髪化粧料関連（Ｎ（Ｅ）＝１０８，κ＝０．４３８）
ラベル「洗浄剤組成物・液体洗浄剤組成物等」
キーワード［炭素・アルキル・アルケニル］

（3-5）柔軟剤・液晶パネル洗浄剤他（Ｎ（Ｅ）＝３８，κ＝０．３８１）
ラベル「柔軟剤組成物・スプレー型撥水撥油剤組成物等」
キーワード［アルキレンオキシド・炭素・脂肪］

（3-6）洗浄剤一般（Ｎ（Ｅ）＝４１，κ＝０．３２９２）
ラベル「洗浄剤組成物・液体洗浄剤組成物等」
キーワード［界面・エアゾール・アニオン］

（3-7）口腔用組成物その他（Ｎ（Ｅ）＝６７，κ＝０．３１９４）
ラベル「口腔用組成物・分散剤等」 ※ 口腔用組成物・消臭剤組成物
キーワード［酸・塩・口腔］

（4）κ≦0.2
（4-1）その他（Ｎ（Ｅ）＝２２９，κ＝０．０１１）
ラベル「その他」
キーワード［文書・荷積・ムタン］

以上のように、第２実施形態による各文書群のラベルは、各文書群に人間が付したタイトルとほぼ一致する傾向が見られた。
また、第１実施形態による各文書群のキーワードは、発明対象についての一般的な名称にとどまらず、より具体的に技術内容を示す用語が選ばれた。

なお、異なる文書群につき同一のラベルが抽出されてしまった例（（1-5）と（1-12）につき「高嵩密度粒状洗剤組成物」、（3-4）と（3-6）につき「洗浄剤組成物・液体洗浄剤組成物等」）や、異なる文書群につき一部同一のラベルが抽出されてしまった例（（1-3）「柔軟剤組成物」に対し（3-5）「柔軟剤組成物・スプレー型撥水撥油剤組成物等」、（2-3）「口腔用組成物関連」に対し（3-7）「口腔用組成物・分散剤等」）もある。しかし、第１実施形態によるキーワード情報まで参照すれば、技術内容を明確に区別可能である。

また、使用した形態素解析ソフトの都合により、一見無意味な語が第１実施形態によるキーワードとして抽出されてしまった例（（1-11）につき「メタ」「クリル」、（1-12）につき「ニオ」、（2-4）につき「キト」「サン」）もある。しかし、これらの語は、抽出されるべき正しいキーワードの一部として出現していることに注目すべきである。これらの語を正しく抽出するためには、Ｓｋｅｙ（ｗ）算出後に、キーワード抽出部９０において統合語辞書フィルタを使用し、フィルタにマッチする順にＳｋｅｙ（ｗ）上位から抽出すればよい。ここに挙げた例では、（1-11）につき「メタクリル」、（1-12）につき「ノニオン」、（2-4）につき「キトサン」が抽出されることになる。

図６は、本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図である。この文書相関図は、上記具体例に示した２７組の文書群相互の内容的関係及び時間的関係を示している。

作成方法を概略のみ説明すると、まず、これら２７組の文書群それぞれにつき、各組に属する文書が持つ出願日データの平均値を算出して各組の時間データとした。次に、２７組のうち最も時間データの古い文書群（ここでは「（1-1）う蝕予防剤」であった。）を除外し、残り２６組の各文書群を、それぞれベクトル表現した。各組の文書群Ｅをベクトル表現するには、各組におけるＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を各索引語について算出し、これらＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を成分とする多次元ベクトルとした。
こうして作成された２６個のベクトル相互間の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離をｄとしたときの＜ｄ＞＋σ_ｄの位置でデンドログラムを切断してクラスタを抽出した。ここで＜ｄ＞はｄの平均値、σ_ｄはｄの標準偏差である。抽出されたクラスタの数（ここでは４つであった。）だけ、最古文書群「（1-1）う蝕予防剤」から枝線を引いた。
続いて各クラスタについて、上記と同様に、最古文書群（ここでは各クラスタについて「（1-4）炭素微粉体の水スラリー用添加剤」、「（2-4）キチン又はキトサン類の精製法関連」、「（2-5）カロチンの精製方法関連」、「（4-1）その他」が選ばれた。）の除外、デンドログラムの作成及びクラスタの抽出を行った。同様の操作をクラスタ内の文書群が３組以下になるまで繰り返した。文書群が３組以下となったクラスタについては、文書群の時間データの古い順で、これら文書群を一列に配置した。

こうして作成された文書相関図は、文書の内容に基づく分類が行われているとともに時間順に配置したものであり、調査対象となった家庭用化学品メーカーにおける開発トレンドの推移を分析するのに有用である。図６の参考例では、各組の文書群について本発明の第２実施形態の方法により抽出されたラベル（第１実施形態のキーワードでもよい。）を文書相関図に記入してあるので、開発トレンドの推移を一目で把握することができる。

＜７．第３実施形態の構成＞
本発明の第３実施形態は、複数の文書群Ｅ_ｕ（ｕ＝１，２，・・・，ｎ。ｎは文書群の数。）からなる文書群集団Ｓのデータを用いて、各分析対象の文書群Ｅ_ｕからキーワードを抽出するものである。複数の文書群Ｅ_ｕは、文書群集団Ｓをクラスタリングして得られた個々のクラスタとするのが好ましいが、逆に文書群Ｅ_ｕを複数集めて文書群集団Ｓを構成してもよい。

図７は本発明の第３実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第１実施形態に係る図２と同様の部分には同一の符号を付してその説明を省略する。
第３実施形態のキーワード抽出装置は、第１実施形態の構成要素に加え、評価値算出部２００、集中度算出部２１０、シェア算出部２２０、第１逆数算出部２３０、第２逆数算出部２４０、独創度算出部２５０、キーワード抽出部２６０を、処理装置１内に備えている。また、第１実施形態の構成要素のうちキーワード抽出部９０は設けられていなくてもよく、Ｓｋｅｙ（ｗ）算出部８０の算出結果はそのまま作業結果格納部３２０に格納される。

評価値算出部２００は、文書群Ｅ_ｕを複数備えた文書群集団Ｓに関し、索引語抽出部２０において抽出された各文書の索引語ｗ_ｉを作業結果格納部３２０から読み出す。或いは評価値算出部２００は、Ｓｋｅｙ（ｗ）算出部８０において各文書群Ｅ_ｕについてそれぞれ算出された索引語のＳｋｅｙ（ｗ）を作業結果格納部３２０から読み出す。必要に応じて、評価値算出部２００は、文書読み出し部１０により読み出された各文書群Ｅ_ｕのデータを作業結果格納部３２０から読み出し、その文書数Ｎ（Ｅ_ｕ）を計数してもよい。また、高頻度語抽出部３０における高頻度語抽出の過程で算出されたＧＦ（Ｅ_ｕ）やＩＤＦ（Ｐ）を作業結果格納部３２０から読み出してもよい。
そして、評価値算出部２００は、読み出した情報に基づき、各索引語ｗ_ｉの各文書群Ｅ_ｕにおける出現頻度に基づく評価値Ａ（ｗ_ｉ，Ｅ_ｕ）をそれぞれ算出する。算出された評価値は、作業結果格納部３２０に送られて格納され、或いは直接集中度算出部２１０及びシェア算出部２２０に送られてそこでの処理に用いられる。

集中度算出部２１０は、評価値算出部２００で算出された各索引語ｗ_ｉの各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、作業結果格納部３２０から読み出し、又は評価値算出部２００から直接受信する。
そして、集中度算出部２１０は、得られた評価値Ａ（ｗ_ｉ，Ｅ_ｕ）に基づき、各索引語ｗ_ｉについて、文書群集団Ｓでの各索引語ｗ_ｉの分布の集中度を算出する。この集中度は、各索引語ｗ_ｉについて、各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する全ての文書群Ｅ_ｕでの和を算出し、当該和に対する各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比を各文書群Ｅ_ｕについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団Ｓに属する全ての文書群Ｅ_ｕにおける和を算出することによって得られるものである。算出された集中度は、作業結果格納部３２０に送られて格納される。

シェア算出部２２０は、評価値算出部２００で算出された各索引語ｗ_ｉの各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、作業結果格納部３２０から読み出し、又は評価値算出部２００から直接受信する。
そして、シェア算出部２２０は、得られた評価値Ａ（ｗ_ｉ，Ｅ_ｕ）に基づき、各索引語ｗ_ｉについて、各文書群Ｅ_ｕでのシェアを算出する。このシェアは、分析対象の文書群Ｅ_ｕにおける各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する各文書群Ｅ_ｕから抽出された全ての索引語ｗ_ｉについての和を算出し、当該和に対する各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比を各索引語ｗ_ｉについて算出することによって得られるものである。算出された集中度は、作業結果格納部３２０に送られて格納される。

第１逆数算出部２３０は、文書群Ｅ_ｕを複数備えた文書群集団Ｓに関し、索引語抽出部２０において抽出された各文書の索引語ｗ_ｉを作業結果格納部３２０から読み出す。
そして、第１逆数算出部２３０は、読み出した文書群集団Ｓの各文書の索引語ｗ_ｉのデータに基づき、各索引語ｗ_ｉについての文書群集団Ｓでの出現頻度の逆数の関数値（例えば後述の規格化ＩＤＦ（Ｓ））を算出する。算出された文書群集団Ｓでの出現頻度の逆数の関数値は、作業結果格納部３２０に送られて格納され、或いは直接独創度算出部２５０に送られてそこでの処理に用いられる。

第２逆数算出部２４０は、文書群集団Ｓを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書Ｐを用いる。この場合、高頻度語抽出部３０における高頻度語抽出の過程で算出されたＩＤＦ（Ｐ）を作業結果格納部３２０から読み出し、その関数値（例えば後述の規格化ＩＤＦ（Ｐ））を算出する。算出された大文書集団Ｐでの出現頻度の逆数の関数値は、作業結果格納部３２０に送られて格納され、或いは直接独創度算出部２５０に送られてそこでの処理に用いられる。

独創度算出部２５０は、第１逆数算出部２３０及び第２逆数算出部２４０において算出された各出現頻度の逆数の関数値を、作業結果格納部３２０から読み出し、又は第１逆数算出部２３０及び第２逆数算出部２４０から直接受信する。また、高頻度語抽出部３０における高頻度語抽出の過程で算出されたＧＦ（Ｅ）を作業結果格納部３２０から読み出す。
そして、独創度算出部２５０は、第１逆数算出部２３０の算出結果から第２逆数算出部２４０の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第１逆数算出部２３０の算出結果から第２逆数算出部２４０の算出結果を減算したものに対し、第１逆数算出部２３０の算出結果と第２逆数算出部２４０の算出結果との和で除算したものでも良いし、各文書群Ｅ_ｕでのＧＦ（Ｅ_ｕ）を乗算したものでも良い。算出された独創度は、作業結果格納部３２０に送られて格納される。

キーワード抽出部２６０は、Ｓｋｅｙ（ｗ）算出部８０で算出されたＳｋｅｙ（ｗ）、集中度算出部２１０で算出された集中度、シェア算出部２２０で算出されたシェア及び独創度算出部２５０において算出された独創度の各データを、作業結果格納部３２０から読み出す。
そして、キーワード抽出部２６０は、上記読み出したＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標に基づき、キーワードを抽出する。キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによっても良いし、選択された複数の指標の組み合わせに基づいて、キーワードをカテゴライズして抽出してもよい。
抽出されたキーワードのデータは、記録装置３の作業結果格納部３２０に送られて格納され、必要に応じて出力装置４にて出力される。

＜８．第３実施形態の作用＞
図８は第３実施形態のキーワード抽出装置における処理装置１の動作手順を示すフローチャートである。本第３実施形態によるキーワード抽出装置は、複数の文書群Ｅ_ｕ（ｕ＝１，２，・・・，ｎ。ｎは文書群の数。）からなる文書群集団Ｓのデータを用いて、各分析対象の文書群Ｅ_ｕからキーワードを抽出する。複数の文書群Ｅ_ｕは、例えば、ある文書群集団Ｓをクラスタリングして得られた個々のクラスタとする。

まず、上記第１実施形態と同様の処理により、文書群集団Ｓに属する各文書群Ｅ_ｕについて、それぞれステップＳ１０からステップＳ８０までの処理を実行し、各文書群Ｅ_ｕにおける各索引語のＳｋｅｙ（ｗ）を算出する。Ｓｋｅｙ（ｗ）を算出するまでの処理については図３と同様であるのでその説明を省略する。

＜８−１．評価値算出＞
第３実施形態のキーワード抽出装置は、Ｓｋｅｙ（ｗ）を算出した後、評価値算出部２００において、各文書群Ｅ_ｕにおける上記索引語ｗ_ｉの出現頻度の関数値に基づく評価値Ａ（ｗ_ｉ，Ｅ_ｕ）を、各文書群Ｅ_ｕ及び各索引語ｗ_ｉにつき算出する（ステップＳ２００）。
評価値Ａ（ｗ_ｉ，Ｅ_ｕ）としては、例えば、上述のＳｋｅｙ（ｗ）をそのまま用いるか、Ｓｋｅｙ（ｗ）／Ｎ（Ｅ_ｕ）、或いはＧＦ（Ｅ）＊ＩＤＦ（Ｐ）を用いる。例えば、各文書群Ｅ_ｕ及び各索引語ｗ_ｉにつき、次のようなデータを得る。なお、説明の便宜上、索引語の種数Ｗ＝５とし、文書群数ｎ＝３とした。

＜８−２．集中度算出＞
次に集中度算出部２１０において、各索引語ｗ_ｉについて次のようにして集中度を算出する（ステップＳ２１０）。
まず、各索引語ｗ_ｉについて、各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓに属する全ての文書群Ｅ_ｕについての和Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）を算出し、当該和に対する各文書群Ｅ_ｕにおける評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比
Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）
を各文書群Ｅ_ｕ及び各索引語ｗ_ｉについて算出する。そして、各索引語ｗ_ｉについて、当該比の上記文書群集団Ｓに属する全ての文書群Ｅ_ｕにおける二乗和
Σ_ｕ＝１ ^ｎ｛Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｕ＝１ ^ｎＡ（ｗ_ｉ，Ｅ_ｕ）｝^２
が、索引語ｗ_ｉの文書群集団Ｓでの集中度となる。これを上表の例で示すと次のようになり、各索引語ｗ_ｉについて集中度が算出される。

＜８−３．シェア算出＞
次にシェア算出部２２０において、各索引語ｗ_ｉについて各文書群Ｅ_ｕでのシェアを次のようにして算出する（ステップＳ２２０）。
まず、各文書群Ｅ_ｕにおいて、各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の、上記文書群集団Ｓから抽出された全ての索引語ｗ_ｉについての和Σ_ｉ＝１ ^ＷＡ（ｗ_ｉ，Ｅ_ｕ）を算出する。そして、当該和に対する各索引語ｗ_ｉの評価値Ａ（ｗ_ｉ，Ｅ_ｕ）の比であるシェア
Ａ（ｗ_ｉ，Ｅ_ｕ）／Σ_ｉ＝１ ^ＷＡ（ｗ_ｉ，Ｅ_ｕ）
を算出する。これを上表の例で示すと次のようになり、各索引語ｗ_ｉについて各文書群Ｅ_ｕでのシェアが決定される。

＜８−４．独創度算出＞
次に、各索引語ｗ_ｉについて、次のようにして独創度の値を算出する。

まず、第１逆数算出部２３０において、各索引語ｗ_ｉについて、上記文書群集団Ｓでの出現頻度の逆数の関数値を算出する（ステップＳ２３０）。
文書群集団Ｓでの出現頻度としては例えば文書頻度ＤＦ（Ｓ）を用いる。出現頻度の逆数の関数値としては、文書群集団Ｓでの逆文書頻度ＩＤＦ（Ｓ）、或いは特に好ましい例としてＩＤＦ（Ｓ）を分析対象の文書群Ｅ_ｕから抽出された全索引語で規格化した値（規格化ＩＤＦ（Ｓ））を用いる。ここでＩＤＦ（Ｓ）は“ＤＦ（Ｓ）の逆数×文書群集団Ｓの文書数Ｎ（Ｓ）”の対数である。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで後述のＩＤＦ（Ｐ）との組み合わせによる独創度の算出を容易にするためである。

次に、第２逆数算出部２４０において、各索引語ｗ_ｉについて、上記文書群集団Ｓを含む大文書集団Ｐでの出現頻度の逆数の関数値を算出する（ステップＳ２４０）。
出現頻度の逆数の関数値としては、ＩＤＦ（Ｐ）或いは特に好ましい例としてＩＤＦ（Ｐ）を分析対象の文書群Ｅ_ｕから抽出された全索引語で規格化した値（規格化ＩＤＦ（Ｐ））を用いる。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで上記のＩＤＦ（Ｓ）との組み合わせによる独創度の算出を容易にするためである。

次に、独創度算出部２５０において、各索引語ｗ_ｉについて、｛ＩＤＦ（Ｓ）の関数値−ＩＤＦ（Ｐ）の関数値｝の関数値を、独創度として算出する（ステップＳ２５０）。独創度の算出にＩＤＦ（Ｓ）及びＩＤＦ（Ｐ）のみを用いる場合には、独創度は各索引語ｗ_ｉについて１つの値が算出される。文書群Ｅ_ｕで規格化した規格化ＩＤＦ（Ｓ）や規格化ＩＤＦ（Ｐ）を用いる場合や、別途ＧＦ（Ｅ_ｕ）等で重み付けする場合は、独創度は各文書群Ｅ_ｕについて、且つ各索引語ｗ_ｉについてそれぞれ算出される。
独創度は、特に、次式のＤＥＶで与えるのが好ましい。

ＤＥＶの第一ファクタである規格化ＧＦ（Ｅ_ｕ）は、分析対象の文書群Ｅ_ｕでの各索引語ｗ_ｉの大域的頻度ＧＦ（Ｅ_ｕ）を、分析対象文書群Ｅ_ｕから抽出された全索引語で規格化したものである。
規格化ＩＤＦ（Ｓ）＞０、且つ規格化ＩＤＦ（Ｐ）＞０となるような規格化をした場合、ＤＥＶの第二ファクタは、文書群集団ＳにおけるＩＤＦの規格化値が大文書集団ＰにおけるＩＤＦの規格化値より大きければ正、小さければ負となる。文書群集団ＳでのＩＤＦが大きいことは、この文書群集団Ｓでは珍しい語であることを意味する。この、文書群集団Ｓでは珍しい語のうち、文書群集団Ｓを含む大文書集団ＰでのＩＤＦが小さい語は、他分野では良く使われているとしても当該文書群集団Ｓに係る分野で用いることに独創性があるということができる。また、｛規格化ＩＤＦ（Ｓ）＋規格化ＩＤＦ（Ｐ）｝で除算しているので、ＤＥＶの第二ファクタは−１以上＋１以下の範囲となり、異なる文書群Ｅ_ｕ間での比較が容易となる。
また、ＤＥＶは規格化ＧＦ（Ｅ_ｕ）に比例するため、対象文書群での頻度の高い語程、高い数値ともなる。
特に、文書群集団Ｓが複数の文書群Ｅ_ｕ（ｕ＝１，２，・・・）からなる場合に、これら文書群Ｅ_ｕの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、当該文書群集団Ｓにおいて共通の索引語は下位に落ち、各文書群Ｅ_ｕに特徴的な語が各文書群Ｅ_ｕでの上位にくることになるため、文書群Ｅ_ｕごとの特徴を把握するのに有益である。

＜８−５．キーワードの抽出＞
次に、キーワード抽出部２６０において、以上のステップで得られたＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標から選択される２つ以上の指標に基づき、キーワードを抽出する（ステップＳ２６０）。
好ましくは、以上のＳｋｅｙ（ｗ）、集中度、シェア、独創度の４指標すべてを用いて、対象文書群Ｅ_ｕの索引語ｗ_ｉを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に好ましい分類方法は次の通りである。
まず、第一判定はＳｋｅｙ（ｗ）を用いる。各文書群Ｅ_ｕにおいて、Ｓｋｅｙ（ｗ）降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群Ｅ_ｕで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。
第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団Ｓにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群Ｅ_ｕの重要語から、上記の技術領域語と一致するキーワードを、その文書群Ｅ_ｕの「技術領域語」として分類する。
第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの（主要語）として位置づけることができる。そこで各文書群Ｅ_ｕにおいて、第二判定で分類されなかった重要語に対するシェア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
第四判定は独創度を用いる。各文書群Ｅ_ｕにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。
以上の判定を表にすると次のようになる。

以上の判定において、第一判定に用いる重要度の指標としてＳｋｅｙ（ｗ）を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、ＧＦ（Ｅ）＊ＩＤＦ（Ｐ）でもよい。
また、以上の判定において、重要度、集中度、シェア及び独創度の４指標を用いて分類したが、これらのうち任意の２つ以上の指標を用いることによっても、索引語の分類が可能である。

Claims

複数の文書からなる文書群からキーワードを抽出する装置であって、
前記文書群のデータから索引語を抽出する索引語抽出手段と、
前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、
前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、
前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、
前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、
前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
請求項１において、
前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低い索引語を、より高く評価したスコアである、キーワード抽出装置。
請求項１又は請求項２において、
前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアである、キーワード抽出装置。
請求項１乃至請求項３の何れか一項において、
前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定する、キーワード抽出装置。
請求項４において、
前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出する、キーワード抽出装置。
請求項１乃至請求項３の何れか一項において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出する、キーワード抽出装置。
請求項１乃至請求項３の何れか一項において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群につき算出されたシェアを評価に加えてキーワードを抽出する、キーワード抽出装置。
請求項１乃至請求項３の何れか一項において、
各索引語について、分析対象である前記文書群と他の文書群とを備えた文書群集団での出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって、前記文書群集団における各索引語の独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出する、キーワード抽出装置。
複数の文書からなる文書群からキーワードを抽出する装置であって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、
前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
請求項９において、
各索引語について、前記文書群集団での出現頻度の逆数の関数値を算出する第１逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第２逆数算出手段と、
前記第１逆数算出手段の算出結果から前記第２逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づいてキーワードを抽出する、キーワード抽出装置。
複数の文書からなる文書群からキーワードを抽出する装置であって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
（ａ）各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出手段、
（ｂ）各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段、
（ｃ）各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段、及び
（ｄ）各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、
のうち何れか２つ以上の手段と、
前記何れか２つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか２つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
請求項１１において、
前記キーワード抽出手段は、
前記分析対象の文書群における出現頻度の関数値が所定の閾値以上である索引語を前記分析対象の文書群における重要語と判定し、
前記分析対象の文書群における前記重要語のうち、前記集中度が所定の閾値以下である索引語を前記分析対象の文書群における技術領域語と判定し、
前記分析対象の文書群における前記技術領域語以外の前記重要語のうち、前記分析対象の文書群におけるシェアが所定の閾値以上である索引語を前記分析対象の文書群における主要語と判定し、
前記分析対象の文書群における前記技術領域語及び前記主要語以外の前記重要語のうち、前記独創度が所定の閾値以上である索引語を前記分析対象の文書群における独創語と判定し、
前記キーワードをカテゴライズして抽出する、キーワード抽出装置。
請求項８、１０、１１及び１２のうち何れか一項において、
前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度（ＩＤＦ）を、分析対象である前記文書群の全索引語で規格化したものであり、
前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度（ＩＤＦ）を、前記分析対象である前記文書群の全索引語で規格化したものである、キーワード抽出装置。
複数の文書からなる文書群からキーワードを抽出する方法であって、
前記文書群のデータから索引語を抽出する索引語抽出ステップと、
前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出ステップと、
前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出ステップと、
前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリングステップと、
前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出ステップと、
前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
複数の文書からなる文書群からキーワードを抽出する方法であって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出ステップと、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップと、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップと、
前記集中度算出ステップにより算出された集中度と、前記シェア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
複数の文書からなる文書群からキーワードを抽出する方法であって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
（ａ）各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出ステップ、
（ｂ）各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップ、
（ｃ）各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップ、及び
（ｄ）各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出ステップ、
のうち何れか２つ以上のステップと、
前記何れか２つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか２つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
複数の文書からなる文書群からキーワードを抽出するプログラムであって、
前記文書群のデータから索引語を抽出する索引語抽出ステップと、
前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出ステップと、
前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出ステップと、
前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリングステップと、
前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出ステップと、
前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。
複数の文書からなる文書群からキーワードを抽出するプログラムであって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出ステップと、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップと、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップと、
前記集中度算出ステップにより算出された集中度と、前記シェア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。
複数の文書からなる文書群からキーワードを抽出するプログラムであって、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
（ａ）各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出ステップ、
（ｂ）各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップ、
（ｃ）各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップ、及び
（ｄ）各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出ステップ、
のうち何れか２つ以上のステップと、
前記何れか２つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか２つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。