WO2006048998A1

WO2006048998A1 - キーワード抽出装置

Info

Publication number: WO2006048998A1
Application number: PCT/JP2005/018712
Authority: WO
Inventors: Hiroaki Masuyama; Haru-Tada Sato; Makoto Asada; Kazumi Hasuko; Hideaki Hotta
Original assignee: Intellectual Property Bank Corp.
Priority date: 2004-11-05
Filing date: 2005-10-11
Publication date: 2006-05-11
Also published as: US20080195595A1; EP1830281A1; JPWO2006048998A1; KR20070084004A; CN101069177A

Abstract

キーワード抽出装置は、複数の文書Ｄからなる文書群Ｅに含まれる索引語ｗのうち前記文書群Ｅにおける出現頻度の高さを評価に含む重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段３０と、前記高頻度語を、前記文書群Ｅにおける前記索引語ｗの各々との文書単位での共起有無に基づく共起度Ｃに基づいてクラスタリングするクラスタリング手段５０と、前記索引語ｗのうち、より多くのクラスタｇに属する高頻度語と共起し、且つより多くの文書Ｄにおいて前記高頻度語と共起するものを、より高く評価したスコアｋｅｙ（ｗ）を個々の索引語ｗにつき算出するスコア算出手段７０と、前記スコアに基づいてキーワードを抽出するキーワード抽出手段９０と、を備える。これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出する。

Description

明細書

キーワード抽出装置

技術分野

[0001] 本発明は、複数の文書からなる文書群から、当該文書群の主題を表現するキーヮードを、コンピュータにより自動抽出する技術に係り、特にキーワードの抽出装置、抽出方法及び抽出プログラムに関する。

背景技術

[0002] 特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書の検索や分析を行うために、文書の特徴を表すキーヮードを自動抽出する技術が知られて、る。

[0003] 例えば、大澤幸生ら著「KeyGraph:語の共起グラフの分割'統合によるキーワード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁（1999年 2月）（非特許文献 1)には、文書の主張を表すキーワードを抽出する方法が開示されている。この方法では先ず、当該文書での出現回数の上位語 (HighFreq)を抽出する。そして、 Hi ghFreq同士のセンテンス単位での共起有無に基づいて、当該文書における共起度を算出し、共起度の高い HighFreq同士の組合せを「土台」とする。共起度が高くない HighFreq同士は別々の土台に属することになる。更に、各土台中の語とのセンテンス単位での共起有無に基づいて、土台中の語との共起度を算出し、この土台中の語との共起度に基づいて、これら土台たちに支えられて文章を統合する語 (屋根)を抽出する。

[0004] 非特許文献 1：大澤幸生ら著「KeyGraph：語の共起グラフの分割 ·統合によるキーヮード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁（1999年 2月）発明の開示

発明が解決しょうとする課題

[0005] しかし、上記非特許文献 1に記載の技術は、複数の文書からなる文書群の特徴を表すキーワードを抽出するものではない。特に、上記非特許文献 1に記載の技術は、 1つの文書は著者独自の考えを主張するために書かれ、その主張を目指して一つの流れを形成するという前提に立っているので、複数の独立文書からなる文書群に適用することは不可能である。

[0006] 本発明の課題は、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することである。

また、本発明の別の課題は、複数の文書力もなる文書群の特徴を表すキーワードを複数の観点力自動抽出し、文書群の特性を立体的に理解できるようにすることである。

課題を解決するための手段

[0007] (1)本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、

前記文書群のデータから索引語を抽出する索引語抽出手段と、

前記索引語の各々にっき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語一索引語共起度算出手段と、

前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、

前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、

前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。

これにより、複数の文書力なる文書群の特徴を表すキーワードを自動抽出することができる。特に、高頻度語を、前記文書群における前記索引語の各々との文書単位での共起有無に基づく共起度に基づいて分類して、クラスタを生成し、より多くのクラスタに属する高頻度語と共起し、且つより多くの文書において共起する索引語を高く評価してキーワードを抽出することにより、文書群の特徴を的確に表したキーワードを抽出することができる。

[0008] ここでいう高頻度語の抽出は、前記文書群のデータ力抽出された索引語の各々にっき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語を所定数抽出することにより行う。このような重みとしては、前記文書群における出現頻度の高さそのものを示す GF (E) (後述)でもよいし、 GF (E)を変数として含む関数値でもよい。

また、高頻度語と前記索引語の各々との共起度に基づいて前記高頻度語を分類するには、例えば、各高頻度語について、 p個の索引語の各々との共起度を成分とする P次元ベクトルを作成する。そして、クラスタリング手段により、各高頻度語についての上記 p次元ベクトルの類似度合!ヽ (類似度又は非類似度）に基づくクラスタ分析を行う。

また、より多くの前記クラスタに属する高頻度語と共起する索引語を高く評価する方法としては、例えば、すべてのクラスタ (後述の土台）についての、各索引語とクラスタ内高頻度語との共起度 (索引語—土台共起度 (後述) )の積を含む多項式で導出される値を、各索引語のスコアとすることが考えられる。また、より多くの文書において前記高頻度語と共起する索引語を高く評価する方法としては、例えば、文書群に属するすべての文書についての、各索引語と高頻度語との文書単位での共起有無（1 若しくは 0又はこれに所定の重みをつけたもの）の和（索引語—土台共起度 Co (w, g ) (後述)を算出するための共起度 C (w, w' ) (後述)、或いは、索引語-土台共起度 Co' (w, g) (後述)）を変数として含む関数値を、各索引語のスコアとすることが考えられる。このようにして、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものをより高く評価したスコアとしては、後述の key(w)、 Skey(w)が考えられる。

[0009] (2)上記各キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低、索引語を、より高く評価したスコアであることが望ま、。これにより、分析対象の文書群に特有の索引語を高く評価してキーワードを抽出することがでさる。

ここでいう文書集団における出現頻度としては、例えば後述の DF (P)が挙げられる。具体的には、例えば DF (P)の逆数、或いは DF (P)の逆数 X文書集団の文書数、或いはこれらのうち何れかの対数を、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対して加え、或いは乗じることが考えられる。 DF (P)の低い索引語を高く評価したスコアとしては、後述の Skey(w)が挙げられる。

[0010] (3)上記キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアであることが望まし!/、。

これにより、文書群の内容をより的確に表したキーワードを抽出することができる。ここでいう文書群における出現頻度としては、例えば後述の GF (E)が挙げられる。具体的には、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対し、 GF (E)を乗じ、或いはカロえることが考えられる。 GF (E)の高い索引語を高く評価したスコアとしては、後述の S key(w)が挙げられる。

[0011] (4)上記各キーワード抽出装置において、前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定しても良い。

これにより、文書群の内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを抽出することができる。

ここでいう文書群における出現頻度としては、例えば後述の DF (E)が挙げられる。

[0012] (5)上記キーワード抽出装置において、前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出することが望まし、。これにより、文書群の内容を的確に表したキーワードを抽出することができる。

[0013] (6)上記キーワード抽出装置において、分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、

前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出することが望ま、。

スコア算出手段によるスコアが高ぐ且つ集中度算出手段による集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。

この場合の個々の文書群は、例えば文書群集団をクラスタリングして得たものとすることができる。

(7)上記キーワード抽出装置において、

分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群力抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群にっき算出されたシェアを評価に加えてキーワードを抽出することが望ましい。

スコア算出手段によるスコアが高ぐ且つシェア算出手段によるシェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの（主要語)として位置づけることができる。

[0015] (8)上記キーワード抽出装置において、

各索引語について、分析対象である前記文書群と他の文書群とを備えた文書群集団での出現頻度の逆数の関数値を算出する第 1逆数算出手段と、

各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第 2逆数算出手段と、

前記第 1逆数算出手段の算出結果から前記第 2逆数算出手段の算出結果を減算したものの関数値によって、前記文書群集団における各索引語の独創度を算出する独創度算出手段と、を更に備え、

前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出することが望ま、。

文書群集団での出現頻度の逆数の値が大きいことは、この文書群集団では珍しい語であることを意味する。この、文書群集団では珍しい語のうち、文書群集団を含む大文書集団での出現頻度の逆数の値力、さい語は、他分野では良く使われているとしても当該文書群集団に係る分野で用いることに独創性があるということができる。スコア算出手段によるスコアが高ぐ且つ独創度算出手段による独創度が高い語は、当該分野では独創的な観点を表す語として位置づけることができる。

ここで、出現頻度の逆数の関数値としては、例えば、当該文書群内の全索引語で規格ィ匕した IDF (逆文書頻度)を用いることができる。

[0016] (9)本発明の他のキーワード抽出装置は、

複数の文書力もなる文書群力もキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、

分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、

前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、

前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群力抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、

前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。

これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される二乗和が低い語は、複数の文書群全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。一方、シェア算出手段により算出される比が高い語は、分析対象の文書群でのシェアが高ヽ語であるから、分析対象の文書群をよく説明できるもの（主要語)として位置づけることができる。これら算出手段による算出結果を組合せることによって、 2 つの観点力もキーワードをカテゴライズすることができ、文書群の特性を立体的に理解でさるよう〖こなる。

(10)上記キーワード抽出装置において、

各索引語について、前記文書群集団での出現頻度の逆数の関数値を算出する第 1逆数算出手段と、

前記第 1逆数算出手段の算出結果から前記第 2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づ、てキーワードを抽出することが望まし、。

上記集中度及びシアに加え、独創度算出手段により算出された独創度を組合せることによって、 3つの観点からキーワードをカテゴライズすることができ、文書群の特性を立体的に理解できるようになる。

(11)また、本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、

(a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出手段、

(b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段、

(c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシアを算出するシア算出手段、及び

(d)各索引語について、前記文書群集団での出現頻度の逆数の関数値力前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、

のうち何れか 2つ以上の手段と、

前記何れか 2つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか 2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えている。

これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される集中度、シア算出手段により算出されるシア、独創度算出手段により算出される独創度、及び出現頻度算出手段により算出される出現頻度の関数値のうち少なくとも 2つの組合せに基づいて、キーワードをカテゴライズして抽出するので、文書群の特性を立体的に理解できるようになる。

[0019] (12)上記キーワード抽出装置において、

前記キーワード抽出手段は、

前記分析対象の文書群における出現頻度の関数値が所定の閾値以上である索引語を前記分析対象の文書群における重要語と判定し、

前記分析対象の文書群における前記重要語のうち、前記集中度が所定の閾値以下である索引語を前記分析対象の文書群における技術領域語と判定し、

前記分析対象の文書群における前記技術領域語以外の前記重要語のうち、前記分析対象の文書群におけるシェアが所定の閾値以上である索引語を前記分析対象の文書群における主要語と判定し、

前記分析対象の文書群における前記技術領域語及び前記主要語以外の前記重要語のうち、前記独創度が所定の閾値以上である索引語を前記分析対象の文書群における独創語と判定し、

前記キーワードをカテゴライズして抽出することが望ましい。

これにより、キーワードの具体的な位置付けが明瞭になり、文書群の特徴を容易に理解することができるよう〖こなる。

[0020] (13)上記キーワード抽出装置において、

前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度 (IDF)を、分析対象である前記文書群の全索引語で規格ィ匕したものであり、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度 (IDF)を、前記分析対象である前記文書群の全索引語で規格化したものであることが望まし、。

これにより、文書群で出現する索引語の独創度を的確に評価することができるようになる。

[0021] (14)また本発明は、上記各装置によって実行される方法と同じ工程を備えたキーワード抽出方法、並びに上記各装置によって実行される処理と同じ処理をコンビユータに実行させることのできるキーワード抽出プログラムである。このプログラムは、 FD、 CDROM、 DVDなどの記録媒体に記録されたものでもよぐネットワークで送受信されるものでもよヽ。

発明の効果

[0022] 本発明によれば、複数の文書力もなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することができる。

図面の簡単な説明

[0023] [図 1]本発明の第 1実施形態に係るキーワード抽出装置のハードウェア構成を示す図

[図 2]第 1実施形態のキーワード抽出装置における構成と機能を詳細に説明する図。

[図 3]第 1実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローテヤート。

圆 4]本発明の第 2実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。

[図 5]第 2実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローテヤート。

[図 6]本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図。

[図 7]本発明の第 3実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。

[図 8]第 3実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローテヤート。符号の説明

[0024] 1 :処理装置、 2 :入力装置、 3 :記録装置、4 :出力装置、

20 :索引語抽出部 (索引語抽出手段 )、30 :高頻度語抽出部 (高頻度語抽出手段）、 40 :高頻度語一索引語共起度算出部 (高頻度語一索引語共起度算出手段 )、 50 : クラスタリング部（クラスタリング手段）、 70 :key(w)算出部 (スコア算出手段）、 80 : S key(w)算出部 (スコア算出手段）、 90 :キーワード抽出部 (キーワード抽出手段）、 1 40：ラベル抽出部（キーワード抽出手段）

発明を実施するための最良の形態

[0025] 以下、本発明の実施の形態を、図面を参照して詳細に説明する。

[0026] < 1.語彙の説明等 >

本明細書の中で使用する語彙を説明する。

類似度合い：比較される対象間の類似度又は非類似度。比較される対象をそれぞれベクトル表現し、ベクトル間の余弦乃至 Tanimoto相関（類似度の一例）などべタトル成分間の積の関数を用いて表現する方法、べ外ル間の距離 (非類似度の一例）などベクトル成分間の差の関数を用いて表現する方法がある。

索引語：文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなぐ従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書 (シソーラス）のデータベースを事前に保持し該データべ一スから得られる索引語を利用する方法でもよい。

高頻度語：索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む重みが大きい、所定個数の語。例えば、索引語の重みとして GF (E) (後述)又は G F (E)を変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出する。

[0027] 以降の説明を簡素にするため、略号を決める。

E ：分析対象の文書群。文書群 Eとしては、例えば、多数の文書を類似度に基づいてクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群 Eを複数備えた文書群集団 Sにおける各文書群を表示するときは E (u= l, 2, · · · , n。 nは文書群の数。 )と表示する。

S ：文書群 Eを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に類似する 300件の特許文書で構成される。

P ：文書群 Eを含み、且つ文書群集団 Sを含む文書集団 (大文書集団)である全文書。全文書 Pとしては、特許文献についての分析であれば、例えば日本国内で過去 10年間に発行されたすベての公開特許公報及び登録実用新案公報約 500万件を用いる。

N(E)又は N(P) ：文書群 E又は文書集団 Pに含まれる文書の数。

D、 D又は D〜D ：文書群 Eに含まれる個々の文書。

k 1 N(E)

W ：文書群 Eに含まれる索引語の総数。

w、w、w: 文書群 Eに含まれる個々の索引語 (i=l, ···, WJ = 1, ',D。

∑ ：条件 Hを満たす範囲で和をとることを意味する。

(条件 H}

Π ：条件 Hを満たす範囲で積をとることを意味する。

(条件 H}

[0028] β (w, D)：文書 Dにおける索引語 wの重み

C(w, w)：索引語の文書単位での共起有無に基づいて算出される文書群での共起度。索引語 wと索引語 wの 1つの文書 Dにおける共起有無（1又は 0)を、 (β (w , D)及び |8 (w, D)により重み付けの上で)文書群 Εに属するすべての文書 Dについて合計したもの。

g又は g

h：高頻度語のうち各索引語との共起度が類似するもの同士で構成される「土台」。土台数 =b(h=l, 2, ···, b)。

Co(w, g)：索引語土台共起度。索引語 wと、土台 gに属する高頻度語 w'との共起度 C(w, w')を、土台 gに属するすべての w' (但し wを除く。）にっき合計したもの。

[0029] a：文書 Dのタイトル (題名）。

k k

s ：タイトル a (k=l, ···, N(E))の文字列連結。

k

x：題名出現率。題名和 sの中での各題名 aの（文書数 N (E)に対する）出現率で k k

ある。

m：各題名 aにおいて出現した索引語 w (題名用語)の種数。

k k v f ：題名用語についての、題名和 s中での（文書数 N(E)に対する）出現率。

k

y：題名用語出現率平均。題名用語出現率 f を、各題名 aに出現した索引語 w ( k k k v 題名用語)の種数 mで除したものである。

k

τ ：タイトルスコア。ラベル (後述）の抽出順位を決めるために、文書群 Εに属する k

各文書のタイトルごとに算出する。

T、 T、 · · ·：タイトルスコアて降順で抽出されるタイトル (題名）。

1 2 k

K ：キーワード適合度。ラベル (後述）の抽出個数を決めるために算出するもので、文書群 Eに対するキーワードの占有度を示す。

[0030] TF(D)又は TF(w, D): 索引語 wによる、文書 Dの中での出現頻度（索引語頻度； Term requencyノ。

DF(P)又は DF(w, P)：索引語 wによる、母集団である全文書 Pの中での文書頻度 (Document Frequency) ₀文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。

DF(E)又は DF(w, E)：索引語 wによる、文書群 Eでの文書頻度。

DF(w, D)：索引語 wによる、文書 Dでの文書頻度、すなわち、索引語 wが文書 D に含まれて、れば 1、含まれて!/、なければ 0となる。

IDF (P)又は IDF (w, P)： "DF (P)の逆数 X全文書の総文書数 N (P) "の対数。例えば、 ln(N(P)ZDF(P))。

GF(E)又は GF(w, E)：索引語 wによる、文書群 Eの中での出現頻度（大域的頻度； ulobal Frequency)。

TF*IDF(P)： TF(D)と IDF(P)との積。文書の索引語ごとに演算される。

GF(E) *IDF(P)： GF(E)と IDF(P)との積。文書の索引語ごとに演算される。

[0031] <2.第 1実施形態の構成 >

図 1は本発明の第 1実施形態に係るキーワード抽出装置のハードウェア構成を示す図である。同図に示すように、本実施形態のキーワード抽出装置は、 CPU (中央演算装置)およびメモリ (記録装置)などから構成される処理装置 1、キーボード (手入力器具)などの入力手段である入力装置 2、文書データや条件や処理装置 1による作業結果などを格納する記録手段である記録装置 3、および抽出されたキーワードを表示又は印刷等する出力手段である出力装置 4から構成される。

[0032] 図 2は第 1実施形態のキーワード抽出装置における構成と機能を詳細に説明する図である。

[0033] 処理装置 1は、文書読み出し部 10、索引語抽出部 20、高頻度語抽出部 30、高頻度語一索引語共起度算出部 40、クラスタリング部 50、索引語土台共起度算出部 6 0、 key(w)算出部 70、 Skey (w)算出部 80、キーワード抽出部 90、を備えている。

[0034] 記録装置 3は、条件記録部 310、作業結果格納部 320、文書格納部 330などから構成される。文書格納部 330は外部データベースや内部データベースを含んで、る。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館の IPDLや、株式会社パトリスでサービスして!/、る PATOLISなどの文書データべ一スを意味する。又内部データベースとは、販売されている例えば特許 JP— ROMなどのデータを自前で格納したデータベース、文書を格納した FD (フレキシブルディスク )、 CD (コンパクトディスク） ROM、 MO (光磁気ディスク）、 DVD (デジタルビデオディスク)などの媒体力読み出す装置、紙などに出力された或いは手書きされた文書を読み込む OCR (光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。

[0035] 図 1及び図 2において、処理装置 1、入力装置 2、記録装置 3、および出力装置 4の間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステムバス）ケーブルなどで直接接続してもよ、し、 LAN (ローカルエリヤネットワーク）などのネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 DV Dなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。

[0036] < 2— 1.入力装置 2の詳細 >

次に、図 2により上記のキーワード抽出装置における構成と機能を詳しく説明する。入力装置 2では、文書の読み出し条件、高頻度語抽出条件、クラスタリング条件、榭状図作成条件、榭状図切断条件、スコア算出条件、キーワード出力条件などの入力を受け付ける。これら入力された条件は、記録装置 3の条件記録部 310へ送られて格納される。

[0037] < 2— 2.処理装置 1の詳細 >

文書読み出し部 10は、記録装置 3の条件記録部 310に格納された読み出し条件に従って、分析対象となる複数の文書 D〜D からなる文書群 Eを記録装置 3の文書格納部 330から読み出す。読み出された文書群のデータは、索引語抽出部 20に直接送られてそこでの処理に用いられる他、記録装置 3の作業結果格納部 320に送られて格納される。

なお、文書読み出し部 10から索引語抽出部 20或いは作業結果格納部 320に送られるデータは、読み出された文書群 Eの文書データを含むすべてのデータであっても良い。また、これら文書群 Eに属する各々の文書 Dを特定する書誌データ (例えば特許文献であれば出願番号又は公開番号など）のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部 330から各文書 Dのデータを読み出せばよい。

[0038] 索引語抽出部 20は、文書読み出し部 10で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部 30に直接送られてそこでの処理に用いられる他、記録装置 3の作業結果格納部 320に送られて格納される。

[0039] 高頻度語抽出部 30は、索引語抽出部 20で抽出された各文書の索引語に基づき、記録装置 3の条件記録部 310に格納された高頻度語抽出条件に従って、文書群 E における出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。具体的には、まず、各索引語について、文書群 Eにおける出現回数である GF (E) を算出する。また更に各索引語の IDF (P)を算出し、 GF (E)との積である GF (E) * 1 DF (P)を算出するのが好ましい。次に、算出された各索引語の重みである GF (E) 或いは GF (E) * IDF (P)の上位所定個数の索引語を、高頻度語として抽出する。抽出された高頻度語のデータは、高頻度語-索引語共起度算出部 40に直接送られてそこでの処理に用いられる他、記録装置 3の作業結果格納部 320に送られて格納される。また、上記算出した各索引語の GF (E)及び算出することが好ましいとされた各索引語の IDF (P)についても、記録装置 3の作業結果格納部 320に送られて格納されることが好ましい。

[0040] 高頻度語-索引語共起度算出部 40は、高頻度語抽出部 30にて抽出された各高頻度語と、上記索引語抽出部 20にて抽出され作業結果格納部 320に格納された各索引語との文書単位での共起有無に基づいて、文書群 Eにおける共起度を算出する。索引語が P個、そのうち高頻度語が q個抽出されたとすれば、 p行 q列の行列データとなる。

高頻度語-索引語共起度算出部 40で算出された共起度のデータは、クラスタリング部 50に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0041] クラスタリング部 50は、高頻度語-索引語共起度算出部 40で算出された共起度データに基づき、記録装置 3の条件記録部 310に格納されたクラスタリング条件に従つて、 q個の高頻度語をクラスタ分析する。

クラスタ分析を行うためには、まず、 q個の高頻度語の各々について、各索引語との共起度の類似度合ヽ (類似度又は非類似度)を演算する。この類似度合、の演算は、入力装置 2から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部 310から呼び出してきて実行する。また、類似度合いの演算は、例えば上記 p行 q列の共起度データの例で言えば、比較対象となる高頻度語の各々につ、ての p次元列ベクトル間の余弦又は距離に基づ!/、て行うことができる（ベクトル空間法)。なお、べ外ル間の余弦 (類似度）は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離 (非類似度）は値が小さいほど類似度合いが高いことを意味する。また、べ外ル空間法に限らず、他の方法を用いて類似度を定義しても良い。

[0042] 次に、類似度合いの演算結果に基づき、記録装置 3の条件記録部 310に格納された榭状図作成条件に従って、高頻度語を榭状に結線した榭状図を作成する。榭状図としては、高頻度語間の非類似度を結合位置の高さ (結合距離)に反映させたデンドログラムを作成することが望まし、。

[0043] 次に、記録装置 3の条件記録部 310に記録された榭状図切断条件に従って、上記作成した榭状図を切断する。切断の結果、 q個の高頻度語が、各索引語との共起度の類似度合、に基づ、てクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」 g (h= l, 2, · · · , b)と呼ぶことにする。

h

クラスタリング部 50で形成された土台のデータは、索引語土台共起度算出部 60 に直接送られてそこでの処理に用いられ、或、は記録装置 3の作業結果格納部 320 に送られて格納される。

[0044] 索引語土台共起度算出部 60は、索引語抽出部 20で抽出され記録装置 3の作業結果格納部 320に格納された各索引語について、クラスタリング部 50で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータは k ey (w)算出部 70に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0045] key (w)算出部 70は、索引語-土台共起度算出部 60で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアである key (w)を算出する。算出された key (w)のデータは Skey (w)算出部 80に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0046] Skey (w)算出部 80は、 key (w)算出部 70で算出された各索引語の key (w)スコア、高頻度語抽出部 30で算出され記録装置 3の作業結果格納部 320に格納された各索引語の GF (E)及び各索引語の IDF (P)に基づき、 Skey (w)スコアを算出する。算出された Skey (w)のデータはキーワード抽出部 90に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0047] キーワード抽出部 90は、 Skey (w)算出部 80で算出された各索引語の Skey (w)スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する。抽出されたキーワードのデータは、記録装置 3の作業結果格納部 320に送られて格納され、必要に応じて出力装置 4にて出力される。

[0048] < 2— 3.記録装置 3の詳細 >

図 2の記録装置 3において、条件記録部 310は、入力装置 2から得られた条件などの情報を記録し、処理装置 1の要求に基づき、必要なデータを送る。作業結果格納部 320は、処理装置 1における各構成要素の作業結果を格納し、処理装置 1の要求に基づき、必要なデータを送る。文書格納部 330は、入力装置 2或いは処理装置 1 の要求に基づき、外部データベース或いは内部データベース力得た、必要な文書データを格納し、提供する。

< 2— 4.出力装置 4の詳細 >

図 2の出力装置 4は、処理装置 1のキーワード抽出部 90で抽出され記録装置 3の作業結果格納部 320に格納された文書群のキーワードを出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。

[0050] < 3.第 1実施形態の作用 >

図 3は第 1実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローチャートである。

[0051] < 3— 1.文書読み出し >

まず、文書読み出し部 10において、分析対象となる複数の文書 D〜D 力らなる文書群 Eを記録装置 3の文書格納部 330から読み出す (ステップ S 10)。

[0052] く 3— 2.索引語抽出 >

次に、索引語抽出部 20において、文書読み出しステップ S10で読み出された文書群から、各文書の索引語を抽出する (ステップ S20)。各文書の索引語データは、例えば、文書群 Eに含まれる索引語の各文書 D内における出現回数 (索引語頻度 TF ( D) )の関数値を成分とするベクトルで表現することができる。

[0053] < 3— 3.高頻度語抽出 >

次に、高頻度語抽出部 30において、索引語抽出ステップ S20で抽出された各文書の索引語データに基づき、文書群 Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。

具体的には、まず、各索引語について、文書群 Eにおける出現回数である GF (E) を算出する (ステップ S30)。各索引語の GF (E)を算出するには、上記索引語抽出ステツプ S20において算出した各索引語の各文書における索引語頻度 TF (D)を、文書群 Eに属する文書 D〜D について合計すればよい。

[0054] 説明をわかり易くするために、 6個の文書 D〜D力もなる文書群 Eに合計 14個の索引語 w〜w が含まれる場合の TF (D)及び GF (E)の仮想事例を次の表に示す。

1 14

以下の説明にお、て、この仮想事例を適宜参照する。

[表 1]

各索引語の T F ( D ) 及び G F ( E )

[0055] 次に、算出された各索引語の GF (E)に基づき、出現頻度上位の索引語を所定個数抽出する (ステップ S31)。高頻度語の抽出数は例えば 10語とする。この場合、例えば 10語目と 11語目が同順位であれば、 11語目も高頻度語として抽出する。

高頻度語の抽出にあたっては、更に各索引語の IDF (P)を算出して GF (E) * IDF (P)の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例による以下の説明にお、ては、簡単のため GF (E)上位 7語を高頻度語とすることにする。すなわち、索引語 w〜索引語 wが高頻度語として抽出される。

[0056] なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であれば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考えられる。〔キーワードとして意味をなさな、もの〕前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徴

〔キーワードとして重要性が低、語'単位記号 ·ローマ数字〕全体、範囲、種、類、系、用、％、 mm、 ml、 nm、 μ mなど

ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを与えることは自由である。

[0057] <3— 4.高頻度語一索引語共起度算出 >

次に、高頻度語-索引語共起度算出部 40において、上記高頻度語抽出ステップ S 31にて抽出された各高頻度語と、上記索引語抽出ステップ S 20にて抽出された各索引語との共起度を算出する (ステップ S40)。

[0058] 索引語 wと索引語 wとの文書群 Eにおける共起度 C(w, w)は、例えば次の式により算出する。

[数 1]

C (w； , w j ) = ∑ _[D≡E] [ （w i , D) X /8 (w ' , D) X D F (w i , D) X D F (w j , D)]

[0059] ここで 13 (w , D)は文書 Dにおける索引語 wの重みであり、

β (w , D)=l

β (w , D)=TF(w , D)

β (w , D) =TF(w , D) XIDF(w , P)

等が考えられる。

[0060] DF(w , D)は文書 Dに索引語 wが含まれていれば 1、含まれていなければ 0となる力ら、 DF(w, D) XDF(w, D)は、索引語 wと索引語 wが 1つの文書 Dにおいて共起していれば 1、共起していなければ 0となる。これを、（j8 (w, D)及び j8 (w, D)により重み付けの上で)文書群 Eに属するすべての文書 Dについて合計したもの力索引語 wと索引語 wとの共起度 C(w, w)である。

[0061] なお、上記 [数 1]の類似例として、 ίβ (w, Ό) X β (w, D)]の代わりに、索引語 w と索引語 wとのセンテンス内共起有無に基づいて算出した文書 Dにおける共起度 c ( w, w)を用いても良い。文書 Dにおける共起度 c(w, w)は、例えば以下の式により算出する。

[数 2]

c (w i , w j ) = ∑ _(seneD} [T F (w i , sen) x T F (w j , sen) ] ここで senは文書 Dにおける各センテンスを意味するものとする。 [TF(w, sen) XT

F(w, sen)]は、あるセンテンス内に索引語 wと wが共起していれば 1以上の値を返 j I j

し、共起していなければ 0を返す。これを文書 Dにおけるすべてのセンテンス senにつき合計したものが、文書 Dにおける共起度 c(w, w)である。

上記の仮想事例に基づいて、上記 [数 1]により、重み j8 (w, D) =1として共起度を算出すると以下の通りである。まず、同じ索引語である索引語 wと索引語 wは、文書 D〜文書 Dの計 3文書において共起していると言うことができ、共起度 C(w , w

1 3 1 1

) =3である。また、索引語 wと索引語 wは、文書 D及び文書 Dの計 2文書におい

2 1 1 3

て共起しており、共起度 C(w , w ) =2である。以下同様にして、索引語 w〜w の

2 1 1 14 何れか 1つと高頻度語 w〜wの何れか 1つとの組すべてについて共起度 C(w , w) を算出すると、次の表のような 14行 7列の行列データが得られる。

[表 2]

各高頻度語の各索引語との共起度

[0063] < 3- 5.クラスタリング〉

次に、クラスタリング部 50において、高頻度語—索引語共起度算出ステップ S40で算出された共起度データに基づき、上記高頻度語をクラスタ分析する。

[0064] クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との共起度の類似度合ヽ (類似度又は非類似度)を演算する (ステップ S50)。

[0065] 上記仮想事例において、類似度合いとして、高頻度語 w〜wの各々についての 1 4次元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りである。

[表 3] 共起度の類似度合い（相関係数)

表の左下半部は右上半部と重複するので省略している。この表によると、例えば高頻度語 w〜高頻度語 wは、それらの何れの組合せでも相関係数が 0.8を超えている

1 4

。また高頻度語 w〜高頻度語 wは、それらの何れの組合せでも相関係数力を超

5 7

えている。逆に、高頻度語 W〜高頻度語 Wの何れかと高頻度語 W〜高頻度語 Wの

1 4 5 7 何れかとの組合せでは、相関係数がすべて 0.8未満となって、る。

[0066] 次に、類似度合いの演算結果に基づき、高頻度語を榭状に結線した榭状図を作成する（ステップ S 51)。

榭状図としては、高頻度語間の非類似度を結合位置の高さ (結合距離)に反映させたデンドログラムを作成することが望ま、。デンドログラムの作成原理を簡単に説明すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小 (類似度が最大)の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、或いは結合体と結合体を、これらの非類似度の小さ、順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語間の非類似度に基づ、て更新する。更新方法としては例えば公知の Ward法などを用いる。

[0067] 次に、クラスタリング部 50において、上記作成した榭状図を切断する (ステップ S52 )。例えばデンドログラムにおける結合距離を dとしたときの <d>+ δ σ の位置で切 d

断する。ここで <d>は dの平均値、 σ は dの標準偏差である。 δは— 3≤ δ≤3の範 d

囲で与え、好ましくは δ =οとする。

切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされ、各クラスタに属する高頻度語群力もなる「土台」 g (h=l, 2, ···, b)が形 h

成される。同じ土台 g

hに属する高頻度語は、索引語との共起度の類似度が高ぐ異なる土台 g

hに属する高頻度語は、索引語との共起度の類似度が低いことになる。

[0068] 榭状図とその切断過程については上記の仮想事例による説明を省略するが、高頻度語 W〜高頻度語 Wからなる土台 gと、高頻度語 W〜高頻度語 Wからなる土台 g 1 4 1 5 7 2 という 2つの土台（土台数 b = 2)が形成されたものとする。

[0069] <3-6.索引語土台共起度算出 >

次に、索引語—土台共起度算出部 60において、上記索引語抽出ステップ S20で抽出された各索引語について、クラスタリングステップ S53で形成された各土台との共起度 (索引語—土台共起度) Co (w, g)を算出する (ステップ S60)。

[0070] 索引語土台共起度 Co (w, g)は、例えば、次の式により算出する。

[数 3]

C O (W， g ) = L _{w. e g, w' ≠w] C (w, w ) ここで w'は、ある土台 gに属する高頻度語であり、かつ共起度 Co (w, g)の計測対象である索引語 W以外のものをいう。索引語 wと土台 gとの共起度 Co (w, g)は、 w，すべてについての、 wとの共起度 C(w, w，）の合計である。

[0071] 例えば上記の仮想事例において、索引語 wと土台 gとの共起度 Co (w , g )は、し o(w , g ;=C(w , w )+し (w , wノ + C、w , w )

1 1 1 2 1 3 1 4

であり、上の表 2より、この値は、 2 + 3 + 3 = 8 となる。また、索引語 wと土台 gとの共起度 Co (w , g )は、

1 2 1 2

Co(w， g )=C(w， w )+C(w， w )+C(w， w )=1 + 1 + 0 = 2 となる。

1 2 1 5 1 6 1 7

同様にして、すべての索引語 wについて土台 g , gとの共起度を算出すると、次の

1 2

表のようになる。

[表 4]

索引語 wと土台 gの共起度 C o (w, g)

なお、索引語土台共起度は、上記 Co(w, g)に限らず、次の式により算出しても良い。

画

C o' (w, g) =∑ _(DeE} [β (w, D) x D F(w, D) Χ Θ (Σ _lw._eg, _w._≠wl D F (w ' , D) ) ] ここで Θ (X)は、 Χ>0なら 1を返し、 Χ≤0なら 0を返す関数である。 Θ (∑ , ,

tw ^g, w ≠w

DF(w' , D))は、土台 gに属する何れかの高頻度語であってかつ共起度の計測対象索引語 w以外の語 w'が、文書 Dに 1つでも含まれていれば 1を返し、まったく含まれていなければ 0を返すことになる。 DF (w, D)は共起度の計測対象索引語 w力文書 Dに 1つでも含まれていれば 1を返し、まったく含まれていなければ 0を返す。 DF ( w, D)に Θ (X)を乗じることで、 wと土台 gに属する何れかの w'とが文書 Dにおいて共起していれば 1を返し、共起していなければ 0を返すことになる。これに、上で定義した重み j8 (w, D)を乗じ、さらに文書群 Eに属するすべての文書 Dについて合計したものが、 Co' (w, g)である。

[0073] 上記 [数 3]の索引語土台共起度 Co (w, g)は、 wと w'の D内での共起有無（1又は 0)をすベての Eについて重み j8 (w, D) X j8 (w'， D)付きで合計（C (w, w' ) )し、これを g内の w'について合計した。これに対し、上記 [数 4]の索引語-土台共起度 Co' (w, g)は、 wと g内の何れかの w，の D内での共起有無（1又は 0)をすベての Eについて重み (w, D)付きで合計した。

従って、いずれの場合でも、より多くの文書 Dで高頻度語と共起した方が、より大きい索引語土台共起度が得られる。また、 [数 3]の索引語土台共起度 Co (w, g) は索引語 wと共起する土台 g内の w'の数の多寡により増減するものであるのに対し、 [数 4]の索引語-土台共起度 Co (w, g)は索引語 wと共起する土台 g内の w'の存否により増減するもので、共起する w'の多寡は無関係である。 [数 3]の索引語土台共起度 Co (w, g)を用いる場合は重み j8 (w, D) = lとするのが好ましぐ [数 4]の索引語—土台共起度 Co' (w, g)を用いる場合は重み j8 (w, D) =TF (w, D)とするのが好ましい。

[0074] く 3— 7. key(w)算出〉

次に、 key (w)算出部 70において、上記索引語—土台共起度算出ステップ S60で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアである key( w)を算出する (ステップ S70)。

[0075] key(w)は、例えば、次の式により算出する。

[数 5] k e y (w) = 1 ― TT ≤_h≤b] [ 1 — C o (w, g _h) / F ( g _h) ] ここで、 F (g ) =∑ Co (w, g )と定義する。索引語 wと土台 gとの共起度 Co (w h {w^E} h h

, g )の、全索引語 wについての合計である。 Co(w, g )を F(g )で除して 1との差を h h h

とり、これをすベての土台 g (h=l, 2, ···, b)について乗じて 1との差をとつたもの h

力 key (w)である。

なお、索引語—土台共起度として、ここでは上記 [数 3]の Co (w, g)を用いたが、上記 [数 4]の Co' (w, g)を用いてもょ、ことは上述の通りである。

例えば上記の仮想事例において、 F(g )を算出すると、上記 [表 4]より、

F(g)=Co(w, g)+Co(w, g)H hCo (w , g)=85

1 1 1 2 1 14 1

F(g)=Co(w, g)+Co(w, g)H hCo (w , g)=59

2 1 2 2 2 14 2

となる。そこで、 key(w)は、

key(w)=l-(l-Co (w , g )/85) (l-Co(w , g )/59)

1 1 1 1 2

=1一（1 一 8/85) (1 一 2/59)

= 0.125

key(w)=l-(l-Co (w , g )/85) (l-Co(w , g )/59)

2 2 1 2 2

=1一（1 一 8/85) (1 一 4/59)

= 0.156

以下同様に、すべての索引語について key (w)を算出すると、次の表の通りである。

[表 5]

索引語 k e y ( w) 順位

W！ 1 - (1 - 8/85) ( 1 - 2/59) 8

=0.125

W。 1 - (1 - 8/85) ( 1 - 4/59) 6

=0.156

W 3 1 - (1 - 1 0 8 5) ( 1 - 5/59) 3

=0.192

W 4 1 - (1 - 1 0ノ 85) ( 1 - 8/59) 2

= 0.237

w₅ 1 - (1 - 8Z85) ( 1 - 6/59) 4

=0.186

W 6 1 - (1 - 7/85) ( 1 - 6/59) 5

=0.176

W ₇ 1 - (1 - 4/85) ( 1 - 6/59) 7

=0.144

W 8 1 - (1 - 1 5 8 5) ( 1 - 1 1 /59) 1

=0.330

W g 1 - (1 - 4/85) ( 1 - 0/59) 1 4

= 0.047

1 o 1 - (1 - 3/85) ( 1 - 1 /59) 1 2

=0.052

W ! ! 1 - (1 - 4/85) ( 1 - 1 /59) 1 0

= 0.063

w ^ 2 1 - (1 - 3/85) ( 1 - 3/59) 9

= 0.084

^ 3 1 - (1 - 1 /85) ( 1 - 3/59) 1 1

= 0.062

1 4 1 - (1 - 0/85) ( 1 - 3/59) 1 3

= 0.051 この表の右端の欄は key (w)の大き、順に並べた場合の順位を示して、る。

key (w)の特質を説明するために、 [表 1]と同じものに各索引語の文書頻度 DF(E

)と上記 key (w)順位とを付記して次に示す。

[表 6] 各索引語の T F ( D ) 及び G F ( E ) 等

[0078] この表力もわ力るように、 key (w)の順位には文書群 Eでの文書頻度 DF (E)の順位の影響が大きい。例えば、 DF (E)最多の索引語 wは key (w)が第 1位であり、 DF (

8

E)次点の索引語 wは key (w)が第 2位であり、以下索引語 w、 w、 w等がそれに

4 3 5 6

続いている。

文書群 Eでの文書頻度 DF (E)が大きい索引語なら、より多くの文書において高頻度語と共起することができる。したがって、より大きい索引語一土台共起度 Co (w, g) 又は Co' (w, g)が得られる。 key (w)の順位に DF (E)の順位の影響が大きい理由はここにあると考えられる。

なお、共起度の算出に用いる重み j8 (w, D)を TF (w, D)とした場合には、 key(w )の順位には文書群 Eでの大域的頻度 GF (E)の順位の影響が大きくなると考えられる。

[0079] また、 [表 2]及び [表 6]で索引語 w〜w を比較するとわ力るように、共起する高頻

9 14

度語がより多くの土台にまたがつている方力 key(w)が大きい。例えば、索引語 w

10

〜w と共起する高頻度語は、 2つの土台にまたがっているのに対し、索引語 wや w

13 9 1 と共起する高頻度語は、 1つの土台に偏っている。そして、索引語 w 〜w の方が

4 10 13 索引語 wや w より key (w)が大きくなつている。 [0080] また、 [表 2]及び [表 6]で索引語 w 〜w を比較するとわ力るように、より多くの高

10 13

頻度語と共起している方力 key (w)が大きい傾向がある。例えば、 w 〜w のうち、

10 13 最も多くの高頻度語と共起している w は、それらのうちで最も key (w)が大きぐその

12

次に多くの高頻度語と共起して 1ヽる w は、その次に key (w)が大き、。

11

[0081] なお、各索引語の評価スコアとして、上記 key (w)の代わりに、次の式を用いても良い。

[数 6]

b

k e y' (w) = ( 1 X Φ) ( 1ズ b) x ∑ C o (w， g_h)

h = 1 ここで Φは適当な規格ィ匕定数であり、例えば Φ =∑ ^bF(g )とする。 F(g )は上

h=l h h 記 [数 5]で定義した通りである。

ke （w)は、索引語 wと土台 gとの共起度 Co (w, g )の、全土台 g (h=l, ···, b

h h h

)における平均値を定数（1ΖΦ)倍したものである。

[0082] また、各索引語の評価スコアとして、上記 key (w)の代わりに、次の式を用いても良い。

[数 7]

b

k e y" (w) 二（1 Zb) x ∑ [C o (w, g_h) / (g_h) ]

h = 1 key"(w)は、索引語 wと土台 gとの共起度 Co (w, g )を F(g )で除して、全土台 g

h h h h

(h=l, ···, b)における平均値をとつたものである。

[数 5]の key (w)において積部分を展開し、高次の微小項 0[(Co(w, g )/F(g )

h h

)²]を無視すると、

key (w)

= 1一 [ 1— Co(w,g )/F(g )] X [ 1— Co(w,g )/F(g )] X · · ·

1 1 2 2

^ 1 - l+Co(w,g )/F(g ) + Co(w,g )/F(g ) +···

1 1 2 2

となるから、 key"(w) = (1/b) key (w)ということができる。

[0083] く 3— 8. Skey(w)算出〉

次に Skey (w)算出部 80にお!/、て、上記 key (w)算出ステップ S70で算出された各索引語の key (w)スコア、高頻度語抽出ステップ S31で算出された各索引語の GF( E)及び各索引語の IDF (P)に基づき、 Skey(w)スコアを算出する (ステップ S80)。

[0084] Skey(w)スコアは、次の式により算出する。

[数 8]

S k e y (w) = G F (w, E) x In [ k e y (w) ÷ ( D F (w , Pレ N ( P ) ) ]

= G F (w， E) x [ I D F(P) + In k e y (w) ]

[0085] GF (w, E)は文書群 Eにお、て多く出現する語に対して大きな値が与えられるものであり、 IDF(P)は全文書 Pにおいては珍しく文書群 E特有の語に対して大きな値が与えられるものであり、 key(w)は上記のように DF(E)の影響を受け、より多くの土台と共起する語に大きな値が与えられるスコアである。これら GF(w, E)、 IDF(P)及び key (w)の値が大き!/、ほど Skey (w)は大きくなる。

[0086] 索引語に対する重み付けとして良く用いられている TF*IDFは、索引語頻度 TFと、文書集団における索引語の出現確率 DF(P)ZN(P)の逆数の対数である IDFとの積である。 IDFは文書集団において高確率で出現する索引語の寄与を小さく抑える効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることができる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持っている。次に説明するように、 Skey (w)スコアは、このような欠点を改善する効果を有するものである。

[0087] 分析対象の文書群 Eにおいて、索引語 wを含む文書が出現する確率を P(A)、土台（に属する索引語)を含む文書が出現する確率を P(B)、索引語 wと土台をともに含む文書が出現する確率（ =文書内で共起する確率)を P (A ΓΊ B)とすると、 P (A) = DF (w, E) Z N (E)

で表せる。これより、文書群 Eにおいて、索引語 wを含む文書が選出された時に土台と共起する確率 (条件付確率）は、

[数 9]

P (B I A) = P (A Π B) Z P (A)

= k e y (w) x N (E) D F (w， E) となる。更に、一様性の仮定 (IDF (E) =IDF(P))を考慮し、かつ上記条件付確率の対数をとると、

[数 10]

In P (B I A) 二 In [k e y (w) x N (P) / D F (w, P) ]

二 In k e y (w) + I D F (P) となる。この値は、 key (w) =1ならば IDF (P)に等しい。そして、 DF→0の極限では、 N(P) /DF(w, P)→∞且つ key(w)→0なので、 N(P)ZDF(w, P)と key(w)の積をとることによって、 DF値が小さいときに IDF値が特異的に跳ね上がるという上記の欠点を改善することができる。 [数 8]の Skey(w)スコアは、 GF(w, E)と、上記 [数 10]の In key(w) + IDF (P)との積をとつたものであるから、共起度によって補正された GF(E) *IDF(P)ということができる。

[0088] なお、 [数 8]による Skey(w)の算出において、 [数 5]の key (w)の代わりに、 [数 6] の key' (w)や [数 7]の key"(w)を用いても良!、ことは上記の通りである。

[数 7]の key"(w)を用いた場合の Skey(w)スコアを Skey(key")と表記し、 [数 5] の key (w)を用いた場合の Skey (w)スコアを Skey (key)と表記して両者を比較すると、

S ey (Key)― ¾key (key )

= GF、w, E) X [In key、w)— In key (wノ]

= GF(w, E) X In b

よって、 [数 7]の key" (w)を用いた Skey (w)と、 [数 5]の key (w)を用いた場合の S key (w)の振る舞いは土台数 bの違、を除、て本質的に合致し、土台数 bが大きくない限りは Skey (w)スコアの順位に大きな影響は及ぼさな!/、。

[0089] <3— 9.キーワード抽出 >

次に、キーワード抽出部 90において、上記 Skey (w)算出ステップ S80で算出された各索引語の Skey(w)スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する (ステップ S90)。

[0090] < 3— 10.第 1実施形態の効果 >

本実施形態によれば、より多くの土台に属する高頻度語と共起し、且つより多くの文書において高頻度語と共起する索引語を高く評価してキーワードを抽出する。異なる土台に属する高頻度語は、各索引語との共起度が似ていないもの同士であるから、多くの土台と共起する索引語は、文書群 Eの話題や主張のばらつきを橋渡しする語であるということができる。また、多くの文書において高頻度語と共起する索引語は、もともと文書群 Eにおける文書頻度 DF (E)が高ぐ文書群に共通の話題や主張を表す語であるということができる。このような索引語を高く評価することにより、複数の文書 D力なる文書群 Eの特徴を的確に表したキーワードを自動抽出することができる。

また、重み 13 (w, D) = 1とすることにより、 key(w)スコアに対する DF (E)順位の影響が大きくなり、文書群 E内の多数の文書に出現する語を高く評価してキーワードを抽出することができる。

また、文書群 Eにおける出現頻度 GF (E)と、全文書 Pにおける文書頻度の逆数の対数である IDF (P)を加味することにより、文書群 Eで頻出する索引語や、文書群 E に特有の索引語を高く評価してキーワードを抽出することができる。

[0091] <4.第 2実施形態の構成 >

図 4は本発明の第 2実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第 1実施形態に係る図 2と同様の部分には同一の符号を付してその説明を省略する。

[0092] 第 2実施形態のキーワード抽出装置は、第 1実施形態の構成要素に加え、タイトル抽出部 100、タイトルスコア算出部 110、 Skey(w)上位語読み込み部 120、ラベル個数決定部 130、ラベル抽出部 140を、処理装置 1内に備えている。また、第 1実施形態の構成要素のうちキーワード抽出部 90は設けられていなくてもよぐ Skey(w) 算出部 80の算出結果はそのまま作業結果格納部 320に格納される。

[0093] タイトル抽出部 100は、文書読み出し部 10で読み出され作業結果格納部 320に格納された文書データから、各文書のタイトル (題名）を抽出する。例えば特許文書であれば「発明の名称」の記載内容を抽出する。抽出されたタイトルのデータは、タイトルスコア算出部 110に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0094] タイトルスコア算出部 110は、タイトル抽出部 100で抽出された各文書のタイトルのデータと、上記索引語抽出部 20で抽出された文書群 Eの索引語データとに基づいて、各文書のタイトルについてタイトルスコア τ を算出する。このタイトルスコア τ は、

k k 文書群 Eの特徴を表すラベルとしての価値を示すスコアである。タイトルスコアての

k 算出方法については後述する。算出されたタイトルスコア τ のデータは、ラベル抽出

k

部 140に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0095] Skey (w)上位語読込み部 120は、上記 Skey (w)算出部 80で算出され作業結果格納部 320に格納された各索引語 wの Skey (w)に基づき、 Skey (w)スコアの上位所定個数の索引語を抽出する。抽出個数は例えば 10個とする。抽出された Skey (w )上位語のデータは、ラベル個数決定部 130に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0096] ラベル個数決定部 130は、 Skey (w)上位語読込み部 120で抽出された Skey (w) 上位語のデータに基づき、当該文書群 Eについて、その内容統一性を示す指標であるキーワード適合度 _κを算出する。そして、このキーワード適合度 _κに基づき、抽出すべきラベル個数を決定する。キーワード適合度 _κの算出方法及びこれに基づくラベル個数の決定については後述する。決定されたラベル個数のデータは、ラベル抽出部 140に直接送られてそこでの処理に用いられ、或いは記録装置 3の作業結果格納部 320に送られて格納される。

[0097] ラベル抽出部 140は、タイトルスコア算出部 110で算出された各タイトルのタイトルスコア τ に基づき、ラベル個数決定部 130で決定された個数のタイトルを抽出して k

当該文書群 Eのラベルとする。具体的には、タイトルスコア _τ の降順にタイトルをソー

k

トし、上記決定された個数のタイトルを抽出する。

本第 2実施形態においては、このラベルが本発明のキーワードに相当する。

[0098] < 5.第 2実施形態の作用 >

図 5は第 2実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローチャートである。本第 2実施形態によるキーワード抽出装置は、上記第 1実施形態と同様の処理を経て、 Skey (w)を算出する (ステップ S80まで)。 Skey (w)を算出するまでの処理については図 3と同様であるのでその説明を省略する。

[0099] < 5— 1.タイトル抽出 >

第 2実施形態のキーワード抽出装置は、 Skey (w)を算出した後、タイトル抽出部 1 00において、上記文書読み出しステップ S10で読み出された文書群 Eに属する各文書 D (k= l, 2, · · · , N (E) )文書データから、各文書のタイトル (題名） aを抽出する k k

(ステップ S100)。 1つの文書 D力は 1つのタイトルが抽出されるので、文書数 N (E k

)と同じ数のタイトル aが抽出される。

k

[0100] 更にタイトル抽出部 100は、各文書のタイトル aから、文書群 Eにおける題名の文字 k

列連結 (題名和） sを作成する。題名和 sは以下の式で表せる。

[数 11]

N C E)

s = str ιΤ a _k

k = 1 ここで、 strllは文字列和を意味する。題名和 sに対しては、分かち書きソフトウェアの仕様に応じて、予め符号の統一処理を行うことが望ましい。例えば、分かち書き処理で記号を削除してしまう場合には、前処理として、「一」（全角マイナス）、「一」（全角升目の棒)を「一」（長音符号)に統一させておく。

そして、題名和 sを分かち書きして得られる題名用語を索引語辞書とする。

[0101] なお、索引語辞書としては、題名和 sから得られる索引語の代わりに、文書群 Eの文書内容力も分かち書きして得られる索引語を索引語辞書としても良い。また、そのうちキーワードスコア Skey (w)の上位所定個数 (例えば 30語)の索引語のみを索引語辞書としても良い。

索引語辞書を得る方法は以上のように幾つか考えられるが、こうして得られる文書群 Eの索引語を以下では一般に w (v= l, 2, · · · , W' )で表すことにする。

[0102] く 5— 2.タイトルスコア算出〉

次に、タイトルスコア算出部 110において、各文書のタイトルについてタイトルスコア τ を算出する (ステップ SI 10)。タイトルスコア τ の算出は、以下に説明する題名出現率 xと、題名用語出現率平均 yを用いて行う。

[0103] 題名出現率 X

各題名 aについて、題名和 sの中での（文書数 N(E)に対する）出現率 Xを求める。題名出現率 Xは以下の式で与えられる。

[数 12]

X _k = ( 1ノ N(E)) T F (a _k, s) [0104] 題名用語出現率平均 y

題名用語出現率平均 yを算出するために、まず、各題名 aにおいて出現した索引語 w (題名用語)の種数 mを求める。

[数 13] m _k = ∑ Θ 、「 F 、w_v， a _k) ノここで、 0( ）は、〉0なら1、 ≤0なら0を返す関数でぁる。 0(TF(w, a ))で題名 aにおける索引語 wの有無（1又は 0)が求められる。これを全索引語 w (v=l,

2, · · ·, W')にっき合計したもの力題名用語の種数 mである。

[0105] 次に、各文書の題名 aに出現した題名用語に関して、題名和 s中での（文書数 N(E

)に対する）出現率 f を求める。

[数 14]

W

f _k = ( 1 /N (E)) ∑ T F (w_v, s) x I D F (w_v, P) x Θ (T F (w_v, a _k) ) ここで、題名和 s中での索引語 w_vの出現回数が TF(w , s)で与えられている。出現率 f は、索引語 wのうち、題名 aに出現するもの（@(TF(w , a ))=1である索引語 w )の TF(w , s)だけを、重み (IDF (w , Ρ))つきで合計し、文書数 Ν(Ε)で除したものである。

[0106] 更に、長い題名が高ポイントィ匕しゃすくなるのを防止するため、題名用語出現率 f を、各題名 aにおいて出現した索引語 w (題名用語)の種数 mで除したもの力題名用語出現率の種数平均 yである。 [数 15] y k = f k,m_k [0107] タイトルスコア _τ

k

タイトルスコア _τ は、上記題名出現率 Xと、題名用語出現率平均 yの増加関数で k k k

求める。例えば、次式の相乗平均で求めるのが好ましい。

[数 16] て k = ( X k X y J

[0108] また、タイトルスコア τ は、次の式で求めても良い。

k

[数 17] て _k， = ( x _k+ y _k) /2.

[0109] 各タイトル aについてタイトルスコア τ が求められたら、同一題名を名寄せする（同 k k

一題名が複数あれば 1つ残して削除する）。そして、上記求めたタイトルスコア τ の k 降順にタイトルをソートし、各タイトルを、 τ 上位から Τ , Τ , '"とする。

k 1 2

[0110] く 5— 3. Skey上位語読込み〉

次に、 Skey (w)上位語読込み部 120において、 Skey (w)スコアの上位所定個数（ t個とする）の索引語を抽出する (ステップ S120)。

[0111] <5— 4.ラベル個数決定 >

次に、ラベル個数決定部 130において、当該文書群 Eの内容統一性を示すキーヮード適合度 κを算出し、抽出すべきラベル個数を決定する (ステップ S130)。

[0112] キーワード適合度 κは、 Skey (w)スコアの上位所定個数 (t個）の索引語を w (r = 1, 2, ···, t)とし、次の式で算出する。

[数 18]

K = ( 1 ZN (E) ) ( 1 / t ) ∑ D F (w_r， E) すなわち、 Skey (w)スコアの上位 t個の索引語 wについて、文書群 Eでの文書頻度 DF (E)の平均（lZt)∑_{r= i}* DF (w_r, E)を求め、これを文書群 Eの文書数 N (E) で除したもの力キーワード適合度 κである。

κは Skey (w)によってキーワードだと評価された語の文書群 Eにおける占有度を表す。文書群 Eが 1つの分野から構成されていれば、キーワードは互いに関連性の深いものば力りで多種多様になることはないので占有度は高い。これに対し、文書群 Eが複数分野力構成されていれば、一分野あたりの文書数は少なくキーワードも多種多様となり、占有度が低くなる。従って、 κの値が高ければ、文書群 Eの内容の統一性が高ぐ κの値が低ければ、文書群 Eは複数分野力構成されていると判断できる。

[0113] 求められたキーワード適合度 κの値に応じて、本第 2実施形態において抽出されるキーワードであるラベルの個数及び出力態様を決定する。例えば、

(1) 0.55≤ κ なら τ 最上位の「Τ」をそのままラベルとし、

k 1

(2) 0.35≤ κく 0.55なら τ 最上位の Τを用いて「Τ関連」とのラベルとし、

k 1 1

(3) 0.2 < κく 0.35なら τ 第二位の Τまでを用いて「Τ、 Τ等」とのラベルとし、 k 2 1 2

(4) κ≤0.2 なら「その他」とのラベルとする。

[0114] なお、 κの閾値は、この [0.55, 0.35, 0.2]のセットに限らず、他の値を選んでも良い。例えば、上記 [数 5]の key (w)に代えて [数 6]の key' (w)を用いて Skey (w)スコアを算出した場合は、上記の κ閾値セットに代えて、 κ閾値セット [0.3, 0.2, 0.02]を用いるのが好ましい。

[0115] < 5— 5.ラベル抽出 >

次に、ラベル抽出部 140において、上記タイトルスコア算出ステップ S 110で算出された各タイトルのタイトルスコア τ と、上記ラベル個数決定ステップ S 130で決定され k

たラベル個数及び出力態様とに基づいて、ラベルを抽出する (ステップ S 140)。

[0116] < 5— 6.第 2実施形態の効果 >

本実施形態によれば、第 1実施形態で算出した Skey (w)スコアを利用し、 Skey (w )スコア上位の高頻度語の各文書における出現頻度に基づいてキーワード (ラベル）抽出個数を決定する。これにより、複数の文書 D力なる文書群 Eの内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを自動抽出することができる。

また、各文書のタイトルにおける語の出現率に基づき、当該出現率が高い語を高く評価してキーワード (ラベル)を抽出するので、文書群の内容を的確に表したキーヮードを抽出することができる。

[0117] < 6.具体例 >

第 1実施形態及び第 2実施形態によるキーワード抽出の具体例として、ある家庭用化学品メーカーを出願人とする過去 10年分の特許公報（出願公告公報又は特許掲載公報)約 850件をクラスタ分析して得られた 27組の文書群につき、それぞれキーヮードを抽出した例について説明する。

[0118] クラスタ分析は、上記約 850件の文書をそれぞれ各文書内に含まれる索引語の TF

* IDF (P)を成分とするベクトルで表現し、これら文書ベクトル相互の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離を dとしたときのく d > + σ の位置でデンドログラムを切断することによって行った。ここで < d >は dの d

平均値、 σ は dの標準偏差である。

d

[0119] こうして得られた 27組の文書群について、それぞれ Skey(w)上位 3語を第 1実施形態によるキーワードとした。また、キーワード適合度 κを算出してこれに基づき第 2 実施形態によるラベルを生成した。なお、第 2実施形態によるラベルを抽出するための索引語辞書は、上述のように題名和 sを分かち書きして得られる題名用語を用いた。但し、文書群 Eの文書内容力分かち書きして得られる索引語を用いた場合についてもラベルの生成を行い、題名和 sを用いた場合と異なる結果が得られた場合は厂※ 」印を付して併記した。

文書群の掲載順はキーワード適合度 _κの降順とし、ラベルの表現態様の違いを一見して理解でさるよう〖こした。

[0120] また、第 1実施形態及び第 2実施形態によるキーワード抽出とは別に、上記 27組の文書群を人間が読み込んで、各文書群に最適と思われるタイトルを付した。人間が付したタイトルと文書数 Ν (Ε)及びキーワード適合度 κは各文書群の冒頭に表示し (1)0.55≤ K

(1-1)う蝕予防剤 (N(E) =4, κ =1.0)

ラベル「う蝕予防剤」

キーワード [蝕 ·ミュータンス 'ストレプトコッカス]

(1-2)皮膚外用剤 (Ν(Ε)=6, κ =0.983)

ラベル「皮膚外用剤」

キーワード [ェラグ ·ポリオキシプロピレン'ポリオキシエチレン]

(1- 3)柔軟剤 (Ν(Ε)=10， κ =0.97)

ラベル「柔軟剤組成物」

キーワード [分断'アルケニル ·ヒドロキシアルキル]

(1-4)炭素微粉体の水スラリー用添加剤 (Ν(Ε)= 7, κ =0.8857)

ラベル「炭素微粉体の水スラリー用添加剤」

キーワード [モノマ^ ~· ·スルホン ·必須]

(1-5)高嵩密度粒状洗剤 (Ν(Ε)=21, κ =0.876)

ラベル「高嵩密度粒状洗剤組成物」 ※粒状洗剤組成物キーワード [脂肪酸'洗剤 ·嵩]

(1- 6)水難溶性シート (Ν(Ε)=6, κ =0.8)

ラベル「水解性 ·吸水性シート状体」

キーワード [水難 ·カルボキシェチルセルロース ·カルボキシメチルセルロース]

(1-7)水硬性無機質材料 (Ν (Ε) =9, κ

ラベル「水硬性無機質材料用配合剤」

キーワード [ェマルジヨン'転移 ·架橋] (ト 8)脱墨剤（N(E)=12, κ =0.6583)

ラベル「フローテーシヨン用脱墨剤」

キーワード [ΕΟ·Ρ〇·ΧΟ]

(1- 9)高嵩密度粒状洗剤 (Ν(Ε)=21, κ =0.65) ラベル「高嵩密度洗剤組成物の製造方法」キーワード [洗剤'嵩 '捏]

(1- 10)導電性榭脂（Ν(Ε)=13, κ =0.6384) ラベル「導電性榭脂組成物」

キーワード [ブラック 'カーボン ·練]

(1-11)セメント Ζセラミックス成形（Ν(Ε)= 26, κ =0. ラベル「セラミックス成形用バインダー」

キーワード [メタ ·アクリル ·クリル]

(1-12)高嵩密度粒状洗剤 (Ν(Ε)=23, κ =0.626) ラベル「高嵩密度粒状洗剤組成物」

キーワード [ニォ '界面 ·洗剤]

(ト 13)スルホンィ匕（Ν(Ε) =11, κ =0.5909) ラベル「低分子量のスチレン系重合体の製造方法」キーワード [スノレホン ·溶媒 ·スチレン]

(1-14)歯ブラシ（Ν(Ε)= 11, κ =0.5636)

ラベル「歯刷子」

キーワード [植毛'刷 '刷毛] (2) 0.35≤ Kく 0.55

(2-1)漂白剤 (N(E)=10, K =0.49)

ラベル「漂白剤組成物関連」

キーワード [漂白 '洗剤'剤]

(2-2)義歯安定剤 ·義歯洗浄剤 (Ν(Ε)=11， κ =0.41)

ラベル「義歯洗净剤関連」

キーワード [義歯 ·ポリプロピレンオキサイド ·配合]

(2-3)口腔用組成物（Ν(Ε)=62, κ =0. 395)

ラベル「口腔用糸且成物関連」

キーワード [口腔'組成 '配合]

(2- 4)キチン'キトサン（N(E) =13, κ =0. 3769)

ラベル「キチン又はキトサン類の精製法関連」

キーワード [キト'サン 'キチン]

(2— 5)カロチン（Ν(Ε)=9, κ =0. 3666)

ラベル「カロチンの精製方法関連」 ※天然油脂の処理方法キーワード [カロチン.濃縮.パームカロチン]

(3) 0.2< κ <0.35

(3-1)毛髪ィ匕粧料 Zエアゾールィ匕粧 (N(E)= 15, κ =0. 3466)

ラベル「化粧料 ·毛髪化粧料等」

キーワード [料'ィ匕粧 'シリカビーズ]

(3-2)歯磨組成物（Ν(Ε)=56, κ =0. 3071) ラベル「歯磨組成物 ·洗浄剤組成物等」

キーワード [歯磨 ·組成 ·重量]

(3- 3)脂肪酸エステル'石鹼 (Ν(Ε)=33, κ =0. 2696)

ラベル「石けん組成物 ·エステルの製造方法等」

キーワード [脂肪酸 ·エステル '石けん]

(3- 4)毛髪ィ匕粧料関連 (Ν(Ε)=108, κ =0.438)

ラベル「洗浄剤組成物 ·液体洗浄剤組成物等」

キーワード [炭素 ·アルキル ·ァルケ-ル]

(3- 5)柔軟剤 ·液晶パネル洗浄剤他 (Ν(Ε)=38, κ =0. 381)

ラベル「柔軟剤組成物'スプレー型撥水撥油剤組成物等」

キーワード [アルキレンォキシド '炭素 ·脂肪]

(3- 6)洗浄剤一般 (N(E) =41, κ =0. 3292)

ラベル「洗浄剤組成物 ·液体洗浄剤組成物等」

キーワード [界面 ·エアゾール ·ァ-オン]

(3- 7)口腔用組成物その他（Ν(Ε)=67, κ =0. 3194)

ラベル Γ口腔用組成物 ·分散剤等」 ※ 口腔用組成物 ·消臭剤組成物キーワード [酸.塩.口腔]

(4) κ≤0.2

(4- 1)その他（Ν(Ε)=229, κ =0. 011)

ラベル「その他」

キーワード [文書.荷積.ムタン] 以上のように、第 2実施形態による各文書群のラベルは、各文書群に人間が付したタイトルとほぼ一致する傾向が見られた。

また、第 1実施形態による各文書群のキーワードは、発明対象についての一般的な名称にとどまらず、より具体的に技術内容を示す用語が選ばれた。

[0123] なお、異なる文書群につき同一のラベルが抽出されてしまった例（（1-5)と（1-12) にっき「高嵩密度粒状洗剤組成物」、 (3-4)と (3-6)にっき「洗浄剤組成物'液体洗浄剤糸且成物等」）や、異なる文書群につき一部同一のラベルが抽出されてしまった例（（ 1-3)「柔軟剤組成物」に対し (3-5)「柔軟剤組成物 ·スプレー型撥水撥油剤組成物等」、（2-3)「口腔用組成物関連」に対し (3-7)「口腔用組成物 ·分散剤等」）もある。しかし、第 1実施形態によるキーワード情報まで参照すれば、技術内容を明確に区別可能である。

[0124] また、使用した形態素解析ソフトの都合により、一見無意味な語が第 1実施形態によるキーワードとして抽出されてしまった例（（1-11)にっき「メタ」「クリル」、（1-12)につき「二ォ」、（2- 4)にっき「キト」「サン」）もある。しかし、これらの語は、抽出されるべき正し、キーワードの一部として出現して、ることに注目すべきである。これらの語を正しく抽出するためには、 Skey(w)算出後に、キーワード抽出部 90において統合語辞書フィルタを使用し、フィルタにマッチする順に Skey (w)上位力も抽出すればよい。ここに挙げた例では、（1-11)にっき「メタクリル」、（1-12)にっき「ノ-オン」、 (2-4) にっき「キトサン」力 S抽出されること〖こなる。

[0125] 図 6は、本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図である。この文書相関図は、上記具体例に示した 27組の文書群相互の内容的関係及び時間的関係を示している。

[0126] 作成方法を概略のみ説明すると、まず、これら 27組の文書群それぞれにっき、各組に属する文書が持つ出願日データの平均値を算出して各組の時間データとした。次に、 27組のうち最も時間データの古い文書群 (ここでは「（ト 1)う蝕予防剤」であつた。）を除外し、残り 26組の各文書群を、それぞれベクトル表現した。各組の文書群 E をベクトル表現するには、各組における GF (E) * IDF (P)を各索引語について算出し、これら GF (E) * IDF (P)を成分とする多次元ベクトルとした。

こうして作成された 26個のベクトル相互間の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離を dとしたときの < d> + σ の位置でデン

d

ドログラムを切断してクラスタを抽出した。ここで < d>は dの平均値、 σ は dの標準偏

d

差である。抽出されたクラスタの数 (ここでは 4つであった。）だけ、最古文書群「（ト 1) う蝕予防剤」から枝線を引いた。

続いて各クラスタについて、上記と同様に、最古文書群 (ここでは各クラスタについて「（1-4)炭素微粉体の水スラリー用添加剤」、「 (2-4)キチン又はキトサン類の精製法関連」、「(2-5)カロチンの精製方法関連」、「(4-1)その他」が選ばれた。）の除外、デンドログラムの作成及びクラスタの抽出を行った。同様の操作をクラスタ内の文書群が 3組以下になるまで繰り返した。文書群が 3組以下となったクラスタについては、文書群の時間データの古い順で、これら文書群を一列に配置した。

[0127] こうして作成された文書相関図は、文書の内容に基づく分類が行われているとともに時間順に配置したものであり、調査対象となった家庭用化学品メーカーにおける開発トレンドの推移を分析するのに有用である。図 6の参考例では、各組の文書群について本発明の第 2実施形態の方法により抽出されたラベル (第 1実施形態のキーヮードでもよい。）を文書相関図に記入してあるので、開発トレンドの推移を一目で把握することができる。

[0128] < 7.第 3実施形態の構成 >

本発明の第 3実施形態は、複数の文書群 E (u= l, 2, · · · , n。nは文書群の数。）力もなる文書群集団 Sのデータを用いて、各分析対象の文書群 Eからキーワードを抽出するものである。複数の文書群 Eは、文書群集団 Sをクラスタリングして得られた個々のクラスタとするのが好ましいが、逆に文書群 Eを複数集めて文書群集団 Sを構成してちょい。

[0129] 図 7は本発明の第 3実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第 1実施形態に係る図 2と同様の部分には同一の符号を付してその説明を省略する。

第 3実施形態のキーワード抽出装置は、第 1実施形態の構成要素に加え、評価値算出部 200、集中度算出部 210、シェア算出部 220、第 1逆数算出部 230、第 2逆数算出部 240、独創度算出部 250、キーワード抽出部 260を、処理装置 1内に備えている。また、第 1実施形態の構成要素のうちキーワード抽出部 90は設けられていなくてもよく、 Skey (w)算出部 80の算出結果はそのまま作業結果格納部 320に格納される。

[0130] 評価値算出部 200は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽出部 20において抽出された各文書の索引語 wを作業結果格納部 320から読み出す。或いは評価値算出部 200は、 Skey (w)算出部 80において各文書群 Eについてそれぞれ算出された索引語の Skey (w)を作業結果格納部 320から読み出す。必要に応じて、評価値算出部 200は、文書読み出し部 10により読み出された各文書群 Eのデータを作業結果格納部 320から読み出し、その文書数 N (E )を計数してもよい。また、高頻度語抽出部 30における高頻度語抽出の過程で算出された GF (E )や IDF ( P)を作業結果格納部 320から読み出してもよ、。

そして、評価値算出部 200は、読み出した情報に基づき、各索引語 wの各文書群 Eにおける出現頻度に基づく評価値 A(w , E )をそれぞれ算出する。算出された評価値は、作業結果格納部 320に送られて格納され、或いは直接集中度算出部 210 及びシェア算出部 220に送られてそこでの処理に用いられる。

[0131] 集中度算出部 210は、評価値算出部 200で算出された各索引語 wの各文書群 E における評価値 A (w , E )を、作業結果格納部 320から読み出し、又は評価値算出部 200から直接受信する。

そして、集中度算出部 210は、得られた評価値 A (w , E )に基づき、各索引語 wについて、文書群集団 Sでの各索引語 wの分布の集中度を算出する。この集中度は、各索引語 wについて、各文書群 Eにおける評価値 A(w , E )の、上記文書群集団 S に属する全ての文書群 Eでの和を算出し、当該和に対する各文書群 Eにおける評価値 A (w , E )の比を各文書群 Eについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団 Sに属する全ての文書群 Eにおける和を算出すること〖こよって得られるものである。算出された集中度は、作業結果格納部 320に送られて格納される。

[0132] シェア算出部 220は、評価値算出部 200で算出された各索引語 wの各文書群 E における評価値 A (w , E )を、作業結果格納部 320から読み出し、又は評価値算出部 200から直接受信する。

そして、シェア算出部 220は、得られた評価値 A (w^ E_u)に基づき、各索引語 ^について、各文書群 Eでのシェアを算出する。このシェアは、分析対象の文書群 Eにおける各索引語 wの評価値 A(w , E )の、上記文書群集団 Sに属する各文書群 E 力抽出された全ての索引語 wについての和を算出し、当該和に対する各索引語 w の評価値 A (w , E )の比を各索引語 wについて算出することによって得られるものである。算出された集中度は、作業結果格納部 320に送られて格納される。

[0133] 第 1逆数算出部 230は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽出部 20において抽出された各文書の索引語 wを作業結果格納部 320から読み出す。そして、第 1逆数算出部 230は、読み出した文書群集団 Sの各文書の索引語 wのデータに基づき、各索引語 wについての文書群集団 Sでの出現頻度の逆数の関数値 (例えば後述の規格化 IDF (S) )を算出する。算出された文書群集団 Sでの出現頻度の逆数の関数値は、作業結果格納部 320に送られて格納され、或いは直接独創度算出部 250に送られてそこでの処理に用いられる。

[0134] 第 2逆数算出部 240は、文書群集団 Sを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書 Pを用いる。この場合、高頻度語抽出部 30における高頻度語抽出の過程で算出された IDF (P)を作業結果格納部 320 力も読み出し、その関数値 (例えば後述の規格ィ匕 IDF (P) )を算出する。算出された大文書集団 Pでの出現頻度の逆数の関数値は、作業結果格納部 320に送られて格納され、或いは直接独創度算出部 250に送られてそこでの処理に用いられる。

[0135] 独創度算出部 250は、第 1逆数算出部 230及び第 2逆数算出部 240において算出された各出現頻度の逆数の関数値を、作業結果格納部 320から読み出し、又は第 1 逆数算出部 230及び第 2逆数算出部 240から直接受信する。また、高頻度語抽出部 30における高頻度語抽出の過程で算出された GF (E)を作業結果格納部 320から

BJCみ出す。

そして、独創度算出部 250は、第 1逆数算出部 230の算出結果力も第 2逆数算出部 240の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第 1逆数算出部 230の算出結果力も第 2逆数算出部 240の算出結果を減算したものに対し、第 1逆数算出部 230の算出結果と第 2逆数算出部 240の算出結果との和で除算したものでも良、し、各文書群 E_uでの GF (E_u)を乗算したものでも良い。算出された独創度は、作業結果格納部 320に送られて格納される。

[0136] キーワード抽出部 260は、 Skey (w)算出部 80で算出された Skey(w)、集中度算出部 210で算出された集中度、シェア算出部 220で算出されたシェア及び独創度算出部 250において算出された独創度の各データを、作業結果格納部 320から読み出す。

そして、キーワード抽出部 260は、上記読み出した Skey(w)、集中度、シェア、独創度の 4指標から選択される 2つ以上の指標に基づき、キーワードを抽出する。キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内力否かによっても良いし、選択された複数の指標の組み合わせに基づ!/、て、キーワードをカテゴライズして抽出してもよ!/、。

抽出されたキーワードのデータは、記録装置 3の作業結果格納部 320に送られて格納され、必要に応じて出力装置 4にて出力される。

[0137] < 8.第 3実施形態の作用 >

図 8は第 3実施形態のキーワード抽出装置における処理装置 1の動作手順を示すフローチャートである。本第 3実施形態によるキーワード抽出装置は、複数の文書群 E (u= l, 2, · · · , n。nは文書群の数。）からなる文書群集団 Sのデータを用いて、各分析対象の文書群 Eカゝらキーワードを抽出する。複数の文書群 Eは、例えば、ある文書群集団 Sをクラスタリングして得られた個々のクラスタとする。

[0138] まず、上記第 1実施形態と同様の処理により、文書群集団 Sに属する各文書群 Eについて、それぞれステップ S10からステップ S80までの処理を実行し、各文書群 Eにおける各索引語の Skey(w)を算出する。 Skey(w)を算出するまでの処理については図 3と同様であるのでその説明を省略する。

[0139] < 8— 1.評価値算出 >

第 3実施形態のキーワード抽出装置は、 Skey(w)を算出した後、評価値算出部 20 0において、各文書群 Eにおける上記索引語 wの出現頻度の関数値に基づく評価値 A (w , E )を、各文書群 E及び各索引語 wにっき算出する (ステップ S200)。評価値 A(w , E )としては、例えば、上述の Skey(w)をそのまま用いる力、 Skey( w)/N(E )、或いは GF(E) * IDF (P)を用いる。例えば、各文書群 E及び各索引語 wにっき、次のようなデータを得る。なお、説明の便宜上、索引語の種数 W=5とし、文書群数 n= 3とした。

[表 7]

<8— 2.集中度算出 >

次に集中度算出部 210において、各索引語 ^について次のようにして集中度を算出する (ステップ S210)。

まず、各索引語 wについて、各文書群 Eにおける評価値 A(w, E )の、上記文書群集団 Sに属する全ての文書群 Eについての和∑ ⁿA(w, E )を算出し、当該和に対する各文書群 Eにおける評価値 A (w, E )の比

A(w, E )/∑ _ ⁿA(w, E )

を各文書群 E及び各索引語 wについて算出する。そして、各索引語 wについて、当該比の上記文書群集団 Sに属する全ての文書群 Eにおける二乗和

∑ _ ⁿ{A(w, E )/∑ _ ⁿA(w, E )}²

力索引語 ^の文書群集団 Sでの集中度となる。これを上表の例で示すと次のようになり、各索引語 wについて集中度が算出される。

[表 8]

索引語 w；の評価値の和に対する比

A (wい E„) ∑ _{u= 1} ³ A (wい E_u)

w ₁ W 2 w₃ W ₄ W 5 文書群 4/20 2/8 1 0/ 1 8 0/2 4/ 1 2

Ε₂ 1 2/20 2ノ 8 3ノ 1 8 0ノ 2 8/ 1 2

Ε₃ 4ノ 20 4ノ 8 5ノ 1 8 2ノ 2 0ノ 1 2 集中度 (16+144+16) (4+4+16)ノ (100+9+25) (0+0+4)ノ 4 (16+64+0)ノ

/400=0.44 64=0.38 /324=0.41 =1.00 144=0.56 < 8- 3.シェア算出 >

次にシェア算出部 220において、各索引語 ^について各文書群 E_uでのシェアを次のようにして算出する（ステップ S 220)。

まず、各文書群 Eにおいて、各索引語 wの評価値 A(w , E )の、上記文書群集団 S力も抽出された全ての索引語 wについての和∑ ^wA (w , E )を算出する。そして、当該和に対する各索引語 wの評価値 A(w , E )の比であるシェア

A(w , E ) /∑ ^WA(w , E )

を算出する。これを上表の例で示すと次のようになり、各索引語 wについて各文書群 Eでのシェアが決定される。

[表 9]

[0142] < 8— 4.独創度算出 >

次に、各索引語 _Wiについて、次のようにして独創度の値を算出する。

[0143] まず、第 1逆数算出部 230において、各索引語 _Wiについて、上記文書群集団 Sでの出現頻度の逆数の関数値を算出する (ステップ S 230)。

文書群集団 Sでの出現頻度としては例えば文書頻度 DF (S)を用いる。出現頻度の逆数の関数値としては、文書群集団 Sでの逆文書頻度 IDF (S)、或いは特に好ましい例として IDF (S)を分析対象の文書群 Eカゝら抽出された全索引語で規格ィ匕した値 (規格化 IDF (S) )を用いる。ここで IDF (S)は" DF (S)の逆数 X文書群集団 Sの文書数 N (S) "の対数である。規格ィ匕の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで後述の IDF (P)との組み合わせによる独創度の算出を容易にするためである。

[0144] 次に、第 2逆数算出部 240において、各索引語 wについて、上記文書群集団 Sを含む大文書集団 Pでの出現頻度の逆数の関数値を算出する (ステップ S 240)。出現頻度の逆数の関数値としては、 IDF (P)或いは特に好ま、例として IDF (P) を分析対象の文書群 E_uから抽出された全索引語で規格化した値 (規格化 IDF (P) ) を用いる。規格ィ匕の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで上記の IDF (S)との組み合わせによる独創度の算出を容易にするためである。

次に、独創度算出部 250において、各索引語 wについて、 {IDF (S)の関数値— I DF (P)の関数値 }の関数値を、独創度として算出する (ステップ S250)。独創度の算出に IDF (S)及び IDF (P)のみを用いる場合には、独創度は各索引語 wにつ、て 1 つの値が算出される。文書群 Eで規格化した規格化 IDF (S)や規格化 IDF (P)を用いる場合や、別途 GF (E )等で重み付けする場合は、独創度は各文書群 Eについて、且つ各索引語 wについてそれぞれ算出される。

独創度は、特に、次式の DEVで与えるのが好ましい。

[数 19] 規格化 IDF(S) 規格化 IDF(P)

DEV = 規格化 GF(Eu) X

規格化 IDF(S) +規格化 IDF(P)

DEVの第一ファクタである規格ィ匕 GF (E )は、分析対象の文書群 Eでの各索引語 wの大域的頻度 GF (E )を、分析対象文書群 Eカゝら抽出された全索引語で規格ィ匕したものである。

規格化 IDF (S) >0、且つ規格化 IDF (P) >0となるような規格ィ匕をした場合、 DEV の第二ファクタは、文書群集団 Sにおける IDFの規格ィ匕値が大文書集団 Pにおける I DFの規格ィ匕値より大きければ正、小さければ負となる。文書群集団 Sでの IDFが大きいことは、この文書群集団 Sでは珍しい語であることを意味する。この、文書群集団 Sでは珍しい語のうち、文書群集団 Sを含む大文書集団 Pでの IDFが小さい語は、他分野では良く使われているとしても当該文書群集団 Sに係る分野で用いることに独創性があるということができる。また、 {規格化 IDF (S) +規格化 IDF (P) }で除算しているので、 DEVの第二ファクタは 1以上 + 1以下の範囲となり、異なる文書群 E間での比較が容易となる。

また、 DEVは規格ィ匕 GF (E )に比例するため、対象文書群での頻度の高い語程、高い数値ともなる。特に、文書群集団 Sが複数の文書群 E_u(u= l, 2, · · ·)からなる場合に、これら文書群 Eの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、当該文書群集団 Sにおいて共通の索引語は下位に落ち、各文書群 Eに特徴的な語が各文書群 Eでの上位にくることになるため、文書群 Eごとの特徴を把握するのに有益である。

< 8- 5.キーワードの抽出 >

次に、キーワード抽出部 260において、以上のステップで得られた Skey(w)、集中度、シェア、独創度の 4指標から選択される 2つ以上の指標に基づき、キーワードを抽出する (ステップ S 260)。

好ましくは、以上の Skey(w)、集中度、シェア、独創度の 4指標すベてを用いて、対象文書群 Eの索引語 wを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に好ま、分類方法は次の通りである。

まず、第一判定は Skey(w)を用いる。各文書群 Eにおいて、 Skey(w)降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群 Eで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。

第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団 Sにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群 Eの重要語から、上記の技術領域語と一致するキーワードを、その文書群 Eの「技術領域語」として分類する第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの（主要語)として位置づけることができる。そこで各文書群 Eにおいて、第二判定で分類されな力つた重要語に対するシア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。第四判定は独創度を用いる。各文書群 Eにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。

以上の判定を表にすると次のようになる。

[表 10]

以上の判定にお!、て、第一判定に用いる重要度の指標として Skey (w)を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、 GF (E ) * IDF (P)でもよい。

また、以上の判定において、重要度、集中度、シェア及び独創度の 4指標を用いて分類したが、これらのうち任意の 2つ以上の指標を用いることによつても、索引語の分類が可能である。

Claims

請求の範囲

[1] 複数の文書力なる文書群力キーワードを抽出する装置であって、

前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。

[2] 請求項 1において、

前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低い索引語を、より高く評価したスコアである、キーワード抽出装置。

[3] 請求項 1又は請求項 2において、

前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアである、キーワード抽出装置

[4] 請求項 1乃至請求項 3の何れか一項において、

前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定する、キーヮード抽出装置。 [5] 請求項 4において、

前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出する、キーワード抽出装置。

[6] 請求項 1乃至請求項 3の何れか一項において、

分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、

前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出する、キーワード抽出装置。

[7] 請求項 1乃至請求項 3の何れか一項において、

分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群力抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群にっき算出されたシェアを評価に加えてキーワードを抽出する、キーワード抽出装置 [8] 請求項 1乃至請求項 3の何れか一項において、

前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出する、キーワード抽出装置。

[9] 複数の文書力なる文書群力キーワードを抽出する装置であって、

前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、

各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、

前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。 [10] 請求項 9において、

前記第 1逆数算出手段の算出結果から前記第 2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づいてキーワードを抽出する、キーワード抽出装置。

[11] 複数の文書力なる文書群力キーワードを抽出する装置であって、

(d)各索引語について、前記文書群集団での出現頻度の逆数の関数値力前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、のうち何れか 2つ以上の手段と、

前記何れか 2つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか 2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えたキーワード抽出装置。

[12] 請求項 11において、

前記キーワード抽出手段は、

前記キーワードをカテゴライズして抽出する、キーワード抽出装置。

[13] 請求項 8、 10、 11及び 12のうち何れか一項において、

前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度 (IDF)を、分析対象である前記文書群の全索引語で規格ィ匕したものであり、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度 (IDF)を、前記分析対象である前記文書群の全索引語で規格化したものである、キーワード抽出装置。

[14] 複数の文書力なる文書群力キーワードを抽出する方法であって、

前記文書群のデータから索引語を抽出する索引語抽出ステップと、

前記索引語の各々にっき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出ステツプと、

前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語一索引語共起度算出ステップと、

前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリングステップと、

前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索弓 I語につき算出するスコア算出ステップと、

前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。

複数の文書力なる文書群力キーワードを抽出する方法であって、

分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、

前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出ステップと、

各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップと、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群力抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップと、

前記集中度算出ステップにより算出された集中度と、前記シア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。 [16] 複数の文書力なる文書群力キーワードを抽出する方法であって、分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、

(a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出ステップ、

(b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップ、

(c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップ、及び

(d)各索引語について、前記文書群集団での出現頻度の逆数の関数値力前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出ステップ、

のうち何れか 2つ以上のステップと、

前記何れか 2つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシア、及び前記独創度、のうち何れか 2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。

[17] 複数の文書力もなる文書群力もキーワードを抽出するプログラムであって、

前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。

複数の文書力もなる文書群力もキーワードを抽出するプログラムであって、分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、

前記集中度算出ステップにより算出された集中度と、前記シア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。

のうち何れか 2つ以上のステップと、

前記何れか 2つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシア、及び前記独創度、のうち何れか 2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。