JPWO2006048998A1 - キーワード抽出装置 - Google Patents

キーワード抽出装置 Download PDF

Info

Publication number
JPWO2006048998A1
JPWO2006048998A1 JP2006542917A JP2006542917A JPWO2006048998A1 JP WO2006048998 A1 JPWO2006048998 A1 JP WO2006048998A1 JP 2006542917 A JP2006542917 A JP 2006542917A JP 2006542917 A JP2006542917 A JP 2006542917A JP WO2006048998 A1 JPWO2006048998 A1 JP WO2006048998A1
Authority
JP
Japan
Prior art keywords
document group
group
document
index word
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006542917A
Other languages
English (en)
Inventor
博昭 増山
博昭 増山
晴正 佐藤
晴正 佐藤
浅田 誠
誠 浅田
和巳 蓮子
和巳 蓮子
任晃 堀田
任晃 堀田
Original Assignee
株式会社アイ・ピー・ビー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社アイ・ピー・ビー filed Critical 株式会社アイ・ピー・ビー
Publication of JPWO2006048998A1 publication Critical patent/JPWO2006048998A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

キーワード抽出装置は、複数の文書Dからなる文書群Eに含まれる索引語wのうち前記文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段30と、前記高頻度語を、前記文書群Eにおける前記索引語wの各々との文書単位での共起有無に基づく共起度Cに基づいてクラスタリングするクラスタリング手段50と、前記索引語wのうち、より多くのクラスタgに属する高頻度語と共起し、且つより多くの文書Dにおいて前記高頻度語と共起するものを、より高く評価したスコアkey(w)を個々の索引語wにつき算出するスコア算出手段70と、前記スコアに基づいてキーワードを抽出するキーワード抽出手段90と、を備える。これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出する。

Description

本発明は、複数の文書からなる文書群から、当該文書群の主題を表現するキーワードを、コンピュータにより自動抽出する技術に係り、特にキーワードの抽出装置、抽出方法及び抽出プログラムに関する。
特許文書をはじめ技術的文書やその他の文書は日々新しく生み出され、膨大な数になっている。これらの文書の検索や分析を行うために、文書の特徴を表すキーワードを自動抽出する技術が知られている。
例えば、大澤幸生ら著「KeyGraph:語の共起グラフの分割・統合によるキーワード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁(1999年2月)(非特許文献1)には、文書の主張を表すキーワードを抽出する方法が開示されている。この方法では先ず、当該文書での出現回数の上位語(HighFreq)を抽出する。そして、HighFreq同士のセンテンス単位での共起有無に基づいて、当該文書における共起度を算出し、共起度の高いHighFreq同士の組合せを「土台」とする。共起度が高くないHighFreq同士は別々の土台に属することになる。更に、各土台中の語とのセンテンス単位での共起有無に基づいて、土台中の語との共起度を算出し、この土台中の語との共起度に基づいて、これら土台たちに支えられて文章を統合する語(屋根)を抽出する。
大澤幸生ら著「KeyGraph:語の共起グラフの分割・統合によるキーワード抽出」電子情報通信学会論文誌 Vol.J82-D-I, No.2, 391-400頁(1999年2月)
しかし、上記非特許文献1に記載の技術は、複数の文書からなる文書群の特徴を表すキーワードを抽出するものではない。特に、上記非特許文献1に記載の技術は、1つの文書は著者独自の考えを主張するために書かれ、その主張を目指して一つの流れを形成するという前提に立っているので、複数の独立文書からなる文書群に適用することは不可能である。
本発明の課題は、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することである。
また、本発明の別の課題は、複数の文書からなる文書群の特徴を表すキーワードを複数の観点から自動抽出し、文書群の特性を立体的に理解できるようにすることである。
(1)本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
前記文書群のデータから索引語を抽出する索引語抽出手段と、
前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、
前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、
前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、
前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、
前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができる。特に、高頻度語を、前記文書群における前記索引語の各々との文書単位での共起有無に基づく共起度に基づいて分類して、クラスタを生成し、より多くのクラスタに属する高頻度語と共起し、且つより多くの文書において共起する索引語を高く評価してキーワードを抽出することにより、文書群の特徴を的確に表したキーワードを抽出することができる。
ここでいう高頻度語の抽出は、前記文書群のデータから抽出された索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語を所定数抽出することにより行う。このような重みとしては、前記文書群における出現頻度の高さそのものを示すGF(E)(後述)でもよいし、GF(E)を変数として含む関数値でもよい。
また、高頻度語と前記索引語の各々との共起度に基づいて前記高頻度語を分類するには、例えば、各高頻度語について、p個の索引語の各々との共起度を成分とするp次元ベクトルを作成する。そして、クラスタリング手段により、各高頻度語についての上記p次元ベクトルの類似度合い(類似度又は非類似度)に基づくクラスタ分析を行う。
また、より多くの前記クラスタに属する高頻度語と共起する索引語を高く評価する方法としては、例えば、すべてのクラスタ(後述の土台)についての、各索引語とクラスタ内高頻度語との共起度(索引語−土台共起度(後述))の積を含む多項式で導出される値を、各索引語のスコアとすることが考えられる。また、より多くの文書において前記高頻度語と共起する索引語を高く評価する方法としては、例えば、文書群に属するすべての文書についての、各索引語と高頻度語との文書単位での共起有無(1若しくは0又はこれに所定の重みをつけたもの)の和(索引語−土台共起度Co(w,g)(後述)を算出するための共起度C(w,w’)(後述)、或いは、索引語−土台共起度Co’(w,g)(後述))を変数として含む関数値を、各索引語のスコアとすることが考えられる。このようにして、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものをより高く評価したスコアとしては、後述のkey(w)、Skey(w)が考えられる。
(2)上記各キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低い索引語を、より高く評価したスコアであることが望ましい。
これにより、分析対象の文書群に特有の索引語を高く評価してキーワードを抽出することができる。
ここでいう文書集団における出現頻度としては、例えば後述のDF(P)が挙げられる。具体的には、例えばDF(P)の逆数、或いはDF(P)の逆数×文書集団の文書数、或いはこれらのうち何れかの対数を、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対して加え、或いは乗じることが考えられる。DF(P)の低い索引語を高く評価したスコアとしては、後述のSkey(w)が挙げられる。
(3)上記キーワード抽出装置において、前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアであることが望ましい。
これにより、文書群の内容をより的確に表したキーワードを抽出することができる。
ここでいう文書群における出現頻度としては、例えば後述のGF(E)が挙げられる。具体的には、上述のより多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において共起するものを高く評価したスコアに対し、GF(E)を乗じ、或いは加えることが考えられる。GF(E)の高い索引語を高く評価したスコアとしては、後述のSkey(w)が挙げられる。
(4)上記各キーワード抽出装置において、前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定しても良い。
これにより、文書群の内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを抽出することができる。
ここでいう文書群における出現頻度としては、例えば後述のDF(E)が挙げられる。
(5)上記キーワード抽出装置において、前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出することが望ましい。
これにより、文書群の内容を的確に表したキーワードを抽出することができる。
(6)上記キーワード抽出装置において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出することが望ましい。
スコア算出手段によるスコアが高く、且つ集中度算出手段による集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。
この場合の個々の文書群は、例えば文書群集団をクラスタリングして得たものとすることができる。
(7)上記キーワード抽出装置において、
分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群につき算出されたシェアを評価に加えてキーワードを抽出することが望ましい。
スコア算出手段によるスコアが高く、且つシェア算出手段によるシェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づけることができる。
(8)上記キーワード抽出装置において、
各索引語について、分析対象である前記文書群と他の文書群とを備えた文書群集団での出現頻度の逆数の関数値を算出する第1逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第2逆数算出手段と、
前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって、前記文書群集団における各索引語の独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出することが望ましい。
文書群集団での出現頻度の逆数の値が大きいことは、この文書群集団では珍しい語であることを意味する。この、文書群集団では珍しい語のうち、文書群集団を含む大文書集団での出現頻度の逆数の値が小さい語は、他分野では良く使われているとしても当該文書群集団に係る分野で用いることに独創性があるということができる。
スコア算出手段によるスコアが高く、且つ独創度算出手段による独創度が高い語は、当該分野では独創的な観点を表す語として位置づけることができる。
ここで、出現頻度の逆数の関数値としては、例えば、当該文書群内の全索引語で規格化したIDF(逆文書頻度)を用いることができる。
(9)本発明の他のキーワード抽出装置は、
複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、
前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、
前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される二乗和が低い語は、複数の文書群全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。一方、シェア算出手段により算出される比が高い語は、分析対象の文書群でのシェアが高い語であるから、分析対象の文書群をよく説明できるもの(主要語)として位置づけることができる。これら算出手段による算出結果を組合せることによって、2つの観点からキーワードをカテゴライズすることができ、文書群の特性を立体的に理解できるようになる。
(10)上記キーワード抽出装置において、
各索引語について、前記文書群集団での出現頻度の逆数の関数値を算出する第1逆数算出手段と、
各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第2逆数算出手段と、
前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、
前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づいてキーワードを抽出することが望ましい。
上記集中度及びシェアに加え、独創度算出手段により算出された独創度を組合せることによって、3つの観点からキーワードをカテゴライズすることができ、文書群の特性を立体的に理解できるようになる。
(11)また、本発明のキーワード抽出装置は、複数の文書からなる文書群からキーワードを抽出する装置であって、以下の各手段を備えている。すなわち、
分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
(a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出手段、
(b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段、
(c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段、及び
(d)各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、
のうち何れか2つ以上の手段と、
前記何れか2つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えている。
これにより、複数の文書からなる文書群の特徴を表すキーワードを自動抽出し、文書群の特性を立体的に理解できるようにすることができる。特に、集中度算出手段により算出される集中度、シェア算出手段により算出されるシェア、独創度算出手段により算出される独創度、及び出現頻度算出手段により算出される出現頻度の関数値のうち少なくとも2つの組合せに基づいて、キーワードをカテゴライズして抽出するので、文書群の特性を立体的に理解できるようになる。
(12)上記キーワード抽出装置において、
前記キーワード抽出手段は、
前記分析対象の文書群における出現頻度の関数値が所定の閾値以上である索引語を前記分析対象の文書群における重要語と判定し、
前記分析対象の文書群における前記重要語のうち、前記集中度が所定の閾値以下である索引語を前記分析対象の文書群における技術領域語と判定し、
前記分析対象の文書群における前記技術領域語以外の前記重要語のうち、前記分析対象の文書群におけるシェアが所定の閾値以上である索引語を前記分析対象の文書群における主要語と判定し、
前記分析対象の文書群における前記技術領域語及び前記主要語以外の前記重要語のうち、前記独創度が所定の閾値以上である索引語を前記分析対象の文書群における独創語と判定し、
前記キーワードをカテゴライズして抽出することが望ましい。
これにより、キーワードの具体的な位置付けが明瞭になり、文書群の特徴を容易に理解することができるようになる。
(13)上記キーワード抽出装置において、
前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度(IDF)を、分析対象である前記文書群の全索引語で規格化したものであり、
前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度(IDF)を、前記分析対象である前記文書群の全索引語で規格化したものであることが望ましい。
これにより、文書群で出現する索引語の独創度を的確に評価することができるようになる。
(14)また本発明は、上記各装置によって実行される方法と同じ工程を備えたキーワード抽出方法、並びに上記各装置によって実行される処理と同じ処理をコンピュータに実行させることのできるキーワード抽出プログラムである。このプログラムは、FD、CDROM、DVDなどの記録媒体に記録されたものでもよく、ネットワークで送受信されるものでもよい。
本発明によれば、複数の文書からなる文書群の特徴を表すキーワードを自動抽出することができるキーワード抽出装置、抽出方法及び抽出プログラムを提供することができる。
本発明の第1実施形態に係るキーワード抽出装置のハードウェア構成を示す図。 第1実施形態のキーワード抽出装置における構成と機能を詳細に説明する図。 第1実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャート。 本発明の第2実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。 第2実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャート。 本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図。 本発明の第3実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図。 第3実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャート。
符号の説明
1:処理装置、2:入力装置、3:記録装置、4:出力装置、
20:索引語抽出部(索引語抽出手段)、30:高頻度語抽出部(高頻度語抽出手段)、40:高頻度語−索引語共起度算出部(高頻度語−索引語共起度算出手段)、50:クラスタリング部(クラスタリング手段)、70:key(w)算出部(スコア算出手段)、80:Skey(w)算出部(スコア算出手段)、90:キーワード抽出部(キーワード抽出手段)、140:ラベル抽出部(キーワード抽出手段)
以下、本発明の実施の形態を、図面を参照して詳細に説明する。
<1.語彙の説明等>
本明細書の中で使用する語彙を説明する。
類似度合い: 比較される対象間の類似度又は非類似度。比較される対象をそれぞれベクトル表現し、ベクトル間の余弦乃至Tanimoto相関(類似度の一例)などベクトル成分間の積の関数を用いて表現する方法、ベクトル間の距離(非類似度の一例)などベクトル成分間の差の関数を用いて表現する方法がある。
索引語: 文書の全部或いは一部から切り出される単語。単語の切り出し方に特段の制約はなく、従来から知られている方法や、例えば日本語文書であれば市販の形態素解析ソフトを活用して、助詞や接続詞を除き、意味ある品詞を抽出する方法でもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用する方法でもよい。
高頻度語: 索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む重みが大きい、所定個数の語。例えば、索引語の重みとしてGF(E)(後述)又はGF(E)を変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出する。
以降の説明を簡素にするため、略号を決める。
E : 分析対象の文書群。文書群Eとしては、例えば、多数の文書を類似度に基づいてクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群Eを複数備えた文書群集団Sにおける各文書群を表示するときはE(u=1,2,・・・,n。nは文書群の数。)と表示する。
S : 文書群Eを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に類似する300件の特許文書で構成される。
P : 文書群Eを含み、且つ文書群集団Sを含む文書集団(大文書集団)である全文書。全文書Pとしては、特許文献についての分析であれば、例えば日本国内で過去10年間に発行されたすべての公開特許公報及び登録実用新案公報約500万件を用いる。
N(E)又はN(P) : 文書群E又は文書集団Pに含まれる文書の数。
D、D又はD〜DN(E): 文書群Eに含まれる個々の文書。
W : 文書群Eに含まれる索引語の総数。
w、w、w: 文書群Eに含まれる個々の索引語(i=1,・・・,W、j=1,・・・,W)。
Σ{条件H}: 条件Hを満たす範囲で和をとることを意味する。
Π{条件H}: 条件Hを満たす範囲で積をとることを意味する。
β(w,D): 文書Dにおける索引語wの重み
C(w,w): 索引語の文書単位での共起有無に基づいて算出される文書群での共起度。索引語wと索引語wの1つの文書Dにおける共起有無(1又は0)を、(β(w,D)及びβ(w,D)により重み付けの上で)文書群Eに属するすべての文書Dについて合計したもの。
g又はg: 高頻度語のうち各索引語との共起度が類似するもの同士で構成される「土台」。土台数=b(h=1,2,・・・,b)。
Co(w,g): 索引語−土台共起度。索引語wと、土台gに属する高頻度語w’との共起度C(w,w’)を、土台gに属するすべてのw’(但しwを除く。)につき合計したもの。
: 文書Dのタイトル(題名)。
s : タイトルa(k=1,・・・,N(E))の文字列連結。
: 題名出現率。題名和sの中での各題名aの(文書数N(E)に対する)出現率である。
: 各題名aにおいて出現した索引語w(題名用語)の種数。
: 題名用語についての、題名和s中での(文書数N(E)に対する)出現率。
: 題名用語出現率平均。題名用語出現率fを、各題名aに出現した索引語w(題名用語)の種数mで除したものである。
τ: タイトルスコア。ラベル(後述)の抽出順位を決めるために、文書群Eに属する各文書のタイトルごとに算出する。
、T、・・・: タイトルスコアτ降順で抽出されるタイトル(題名)。
κ : キーワード適合度。ラベル(後述)の抽出個数を決めるために算出するもので、文書群Eに対するキーワードの占有度を示す。
TF(D)又はTF(w,D): 索引語wによる、文書Dの中での出現頻度(索引語頻度;Term Frequency)。
DF(P)又はDF(w,P): 索引語wによる、母集団である全文書Pの中での文書頻度(Document Frequency)。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。
DF(E)又はDF(w,E): 索引語wによる、文書群Eでの文書頻度。
DF(w,D): 索引語wによる、文書Dでの文書頻度、すなわち、索引語wが文書Dに含まれていれば1、含まれていなければ0となる。
IDF(P)又はIDF(w,P): “DF(P)の逆数×全文書の総文書数N(P)”の対数。例えば、ln(N(P)/DF(P))。
GF(E)又はGF(w,E): 索引語wによる、文書群Eの中での出現頻度(大域的頻度;Global Frequency)。
TF*IDF(P): TF(D)とIDF(P)との積。文書の索引語ごとに演算される。
GF(E)*IDF(P): GF(E)とIDF(P)との積。文書の索引語ごとに演算される。
<2.第1実施形態の構成>
図1は本発明の第1実施形態に係るキーワード抽出装置のハードウェア構成を示す図である。同図に示すように、本実施形態のキーワード抽出装置は、CPU(中央演算装置)およびメモリ(記録装置)などから構成される処理装置1、キーボード(手入力器具)などの入力手段である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録手段である記録装置3、および抽出されたキーワードを表示又は印刷等する出力手段である出力装置4から構成される。
図2は第1実施形態のキーワード抽出装置における構成と機能を詳細に説明する図である。
処理装置1は、文書読み出し部10、索引語抽出部20、高頻度語抽出部30、高頻度語−索引語共起度算出部40、クラスタリング部50、索引語−土台共起度算出部60、key(w)算出部70、Skey(w)算出部80、キーワード抽出部90、を備えている。
記録装置3は、条件記録部310、作業結果格納部320、文書格納部330などから構成される。文書格納部330は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば日本国特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売されている例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フレキシブルディスク)、CD(コンパクトディスク)ROM、MO(光磁気ディスク)、DVD(デジタルビデオディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きされた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
図1及び図2において、処理装置1、入力装置2、記録装置3、および出力装置4の間で信号やデータをやり取りする通信手段としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし、LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
<2−1.入力装置2の詳細>
次に、図2により上記のキーワード抽出装置における構成と機能を詳しく説明する。
入力装置2では、文書の読み出し条件、高頻度語抽出条件、クラスタリング条件、樹状図作成条件、樹状図切断条件、スコア算出条件、キーワード出力条件などの入力を受け付ける。これら入力された条件は、記録装置3の条件記録部310へ送られて格納される。
<2−2.処理装置1の詳細>
文書読み出し部10は、記録装置3の条件記録部310に格納された読み出し条件に従って、分析対象となる複数の文書D〜DN(E)からなる文書群Eを記録装置3の文書格納部330から読み出す。読み出された文書群のデータは、索引語抽出部20に直接送られてそこでの処理に用いられる他、記録装置3の作業結果格納部320に送られて格納される。
なお、文書読み出し部10から索引語抽出部20或いは作業結果格納部320に送られるデータは、読み出された文書群Eの文書データを含むすべてのデータであっても良い。また、これら文書群Eに属する各々の文書Dを特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部330から各文書Dのデータを読み出せばよい。
索引語抽出部20は、文書読み出し部10で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部30に直接送られてそこでの処理に用いられる他、記録装置3の作業結果格納部320に送られて格納される。
高頻度語抽出部30は、索引語抽出部20で抽出された各文書の索引語に基づき、記録装置3の条件記録部310に格納された高頻度語抽出条件に従って、文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Eにおける出現回数であるGF(E)を算出する。また更に各索引語のIDF(P)を算出し、GF(E)との積であるGF(E)*IDF(P)を算出するのが好ましい。次に、算出された各索引語の重みであるGF(E)或いはGF(E)*IDF(P)の上位所定個数の索引語を、高頻度語として抽出する。
抽出された高頻度語のデータは、高頻度語−索引語共起度算出部40に直接送られてそこでの処理に用いられる他、記録装置3の作業結果格納部320に送られて格納される。また、上記算出した各索引語のGF(E)及び算出することが好ましいとされた各索引語のIDF(P)についても、記録装置3の作業結果格納部320に送られて格納されることが好ましい。
高頻度語−索引語共起度算出部40は、高頻度語抽出部30にて抽出された各高頻度語と、上記索引語抽出部20にて抽出され作業結果格納部320に格納された各索引語との文書単位での共起有無に基づいて、文書群Eにおける共起度を算出する。索引語がp個、そのうち高頻度語がq個抽出されたとすれば、p行q列の行列データとなる。
高頻度語−索引語共起度算出部40で算出された共起度のデータは、クラスタリング部50に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
クラスタリング部50は、高頻度語−索引語共起度算出部40で算出された共起度データに基づき、記録装置3の条件記録部310に格納されたクラスタリング条件に従って、q個の高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、q個の高頻度語の各々について、各索引語との共起度の類似度合い(類似度又は非類似度)を演算する。この類似度合いの演算は、入力装置2から入力された条件に基づき、類似度算出のための類似度算出モジュールを条件記録部310から呼び出してきて実行する。また、類似度合いの演算は、例えば上記p行q列の共起度データの例で言えば、比較対象となる高頻度語の各々についてのp次元列ベクトル間の余弦又は距離に基づいて行うことができる(ベクトル空間法)。なお、ベクトル間の余弦(類似度)は値が大きいほど類似度合いが高いことを意味し、ベクトル間の距離(非類似度)は値が小さいほど類似度合いが高いことを意味する。また、ベクトル空間法に限らず、他の方法を用いて類似度を定義しても良い。
次に、類似度合いの演算結果に基づき、記録装置3の条件記録部310に格納された樹状図作成条件に従って、高頻度語を樹状に結線した樹状図を作成する。樹状図としては、高頻度語間の非類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。
次に、記録装置3の条件記録部310に記録された樹状図切断条件に従って、上記作成した樹状図を切断する。切断の結果、q個の高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」g(h=1,2,・・・,b)と呼ぶことにする。
クラスタリング部50で形成された土台のデータは、索引語−土台共起度算出部60に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
索引語−土台共起度算出部60は、索引語抽出部20で抽出され記録装置3の作業結果格納部320に格納された各索引語について、クラスタリング部50で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータはkey(w)算出部70に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
key(w)算出部70は、索引語−土台共起度算出部60で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるkey(w)を算出する。算出されたkey(w)のデータはSkey(w)算出部80に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
Skey(w)算出部80は、key(w)算出部70で算出された各索引語のkey(w)スコア、高頻度語抽出部30で算出され記録装置3の作業結果格納部320に格納された各索引語のGF(E)及び各索引語のIDF(P)に基づき、Skey(w)スコアを算出する。算出されたSkey(w)のデータはキーワード抽出部90に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
キーワード抽出部90は、Skey(w)算出部80で算出された各索引語のSkey(w)スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する。抽出されたキーワードのデータは、記録装置3の作業結果格納部320に送られて格納され、必要に応じて出力装置4にて出力される。
<2−3.記録装置3の詳細>
図2の記録装置3において、条件記録部310は、入力装置2から得られた条件などの情報を記録し、処理装置1の要求に基づき、必要なデータを送る。作業結果格納部320は、処理装置1における各構成要素の作業結果を格納し、処理装置1の要求に基づき、必要なデータを送る。文書格納部330は、入力装置2或いは処理装置1の要求に基づき、外部データベース或いは内部データベースから得た、必要な文書データを格納し、提供する。
<2−4.出力装置4の詳細>
図2の出力装置4は、処理装置1のキーワード抽出部90で抽出され記録装置3の作業結果格納部320に格納された文書群のキーワードを出力する。出力の形態としては、例えばディスプレイ装置への表示、紙などの印刷媒体への印刷、或いは通信手段を介してのネットワーク上のコンピュータ装置への送信などが挙げられる。
<3.第1実施形態の作用>
図3は第1実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャートである。
<3−1.文書読み出し>
まず、文書読み出し部10において、分析対象となる複数の文書D〜DN(E)からなる文書群Eを記録装置3の文書格納部330から読み出す(ステップS10)。
<3−2.索引語抽出>
次に、索引語抽出部20において、文書読み出しステップS10で読み出された文書群から、各文書の索引語を抽出する(ステップS20)。各文書の索引語データは、例えば、文書群Eに含まれる索引語の各文書D内における出現回数(索引語頻度TF(D))の関数値を成分とするベクトルで表現することができる。
<3−3.高頻度語抽出>
次に、高頻度語抽出部30において、索引語抽出ステップS20で抽出された各文書の索引語データに基づき、文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Eにおける出現回数であるGF(E)を算出する(ステップS30)。各索引語のGF(E)を算出するには、上記索引語抽出ステップS20において算出した各索引語の各文書における索引語頻度TF(D)を、文書群Eに属する文書D〜DN(E)について合計すればよい。
説明をわかり易くするために、6個の文書D〜Dからなる文書群Eに合計14個の索引語w〜w14が含まれる場合のTF(D)及びGF(E)の仮想事例を次の表に示す。以下の説明において、この仮想事例を適宜参照する。
Figure 2006048998
次に、算出された各索引語のGF(E)に基づき、出現頻度上位の索引語を所定個数抽出する(ステップS31)。高頻度語の抽出数は例えば10語とする。この場合、例えば10語目と11語目が同順位であれば、11語目も高頻度語として抽出する。
高頻度語の抽出にあたっては、更に各索引語のIDF(P)を算出してGF(E)*IDF(P)の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例による以下の説明においては、簡単のためGF(E)上位7語を高頻度語とすることにする。すなわち、索引語w〜索引語wが高頻度語として抽出される。
なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であれば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考えられる。
〔キーワードとして意味をなさないもの〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徴
〔キーワードとして重要性が低い語・単位記号・ローマ数字〕
全体、範囲、種、類、系、用、%、mm、ml、nm、μmなど
ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを与えることは自由である。
<3−4.高頻度語−索引語共起度算出>
次に、高頻度語−索引語共起度算出部40において、上記高頻度語抽出ステップS31にて抽出された各高頻度語と、上記索引語抽出ステップS20にて抽出された各索引語との共起度を算出する(ステップS40)。
索引語wと索引語wとの文書群Eにおける共起度C(w,w)は、例えば次の式により算出する。
Figure 2006048998
ここでβ(w,D)は文書Dにおける索引語wの重みであり、
β(w,D)=1
β(w,D)=TF(w,D)
β(w,D)=TF(w,D)×IDF(w,P)
等が考えられる。
DF(w,D)は文書Dに索引語wが含まれていれば1、含まれていなければ0となるから、DF(w,D)×DF(w,D)は、索引語wと索引語wが1つの文書Dにおいて共起していれば1、共起していなければ0となる。これを、(β(w,D)及びβ(w,D)により重み付けの上で)文書群Eに属するすべての文書Dについて合計したものが、索引語wと索引語wとの共起度C(w,w)である。
なお、上記[数1]の類似例として、[β(w,D)×β(w,D)]の代わりに、索引語wと索引語wとのセンテンス内共起有無に基づいて算出した文書Dにおける共起度c(w,w)を用いても良い。文書Dにおける共起度c(w,w)は、例えば以下の式により算出する。
Figure 2006048998
ここでsenは文書Dにおける各センテンスを意味するものとする。[TF(w,sen)×TF(w,sen)]は、あるセンテンス内に索引語wとwが共起していれば1以上の値を返し、共起していなければ0を返す。これを文書Dにおけるすべてのセンテンスsenにつき合計したものが、文書Dにおける共起度c(w,w)である。
上記の仮想事例に基づいて、上記[数1]により、重みβ(w,D)=1として共起度を算出すると以下の通りである。まず、同じ索引語である索引語wと索引語wは、文書D〜文書Dの計3文書において共起していると言うことができ、共起度C(w,w)=3である。また、索引語wと索引語wは、文書D及び文書Dの計2文書において共起しており、共起度C(w,w)=2である。以下同様にして、索引語w〜w14の何れか1つと高頻度語w〜wの何れか1つとの組すべてについて共起度C(w,w)を算出すると、次の表のような14行7列の行列データが得られる。
Figure 2006048998
<3−5.クラスタリング>
次に、クラスタリング部50において、高頻度語−索引語共起度算出ステップS40で算出された共起度データに基づき、上記高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との共起度の類似度合い(類似度又は非類似度)を演算する(ステップS50)。
上記仮想事例において、類似度合いとして、高頻度語w〜wの各々についての14次元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りである。
Figure 2006048998
表の左下半部は右上半部と重複するので省略している。この表によると、例えば高頻度語w〜高頻度語wは、それらの何れの組合せでも相関係数が0.8を超えている。また高頻度語w〜高頻度語wは、それらの何れの組合せでも相関係数が0.8を超えている。逆に、高頻度語w〜高頻度語wの何れかと高頻度語w〜高頻度語wの何れかとの組合せでは、相関係数がすべて0.8未満となっている。
次に、類似度合いの演算結果に基づき、高頻度語を樹状に結線した樹状図を作成する(ステップS51)。
樹状図としては、高頻度語間の非類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラムの作成原理を簡単に説明すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小(類似度が最大)の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語間の非類似度に基づいて更新する。更新方法としては例えば公知のWard法などを用いる。
次に、クラスタリング部50において、上記作成した樹状図を切断する(ステップS52)。例えばデンドログラムにおける結合距離をdとしたときの<d>+δσの位置で切断する。ここで<d>はdの平均値、σはdの標準偏差である。δは−3≦δ≦3の範囲で与え、好ましくはδ=0とする。
切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされ、各クラスタに属する高頻度語群からなる「土台」g(h=1,2,・・・,b)が形成される。同じ土台gに属する高頻度語は、索引語との共起度の類似度が高く、異なる土台gに属する高頻度語は、索引語との共起度の類似度が低いことになる。
樹状図とその切断過程については上記の仮想事例による説明を省略するが、高頻度語w〜高頻度語wからなる土台gと、高頻度語w〜高頻度語wからなる土台gという2つの土台(土台数b=2)が形成されたものとする。
<3−6.索引語−土台共起度算出>
次に、索引語−土台共起度算出部60において、上記索引語抽出ステップS20で抽出された各索引語について、クラスタリングステップS53で形成された各土台との共起度(索引語−土台共起度)Co(w,g)を算出する(ステップS60)。
索引語−土台共起度Co(w,g)は、例えば、次の式により算出する。
Figure 2006048998
ここでw’は、ある土台gに属する高頻度語であり、かつ共起度Co(w,g)の計測対象である索引語w以外のものをいう。索引語wと土台gとの共起度Co(w,g)は、w’すべてについての、wとの共起度C(w,w’)の合計である。
例えば上記の仮想事例において、索引語wと土台gとの共起度Co(w,g)は、
Co(w,g)=C(w,w)+C(w,w)+C(w,w
であり、上の表2より、この値は、2+3+3=8 となる。
また、索引語wと土台gとの共起度Co(w,g)は、
Co(w,g)=C(w,w)+C(w,w)+C(w,w)=1+1+0=2 となる。
同様にして、すべての索引語wについて土台g,gとの共起度を算出すると、次の表のようになる。
Figure 2006048998
なお、索引語−土台共起度は、上記Co(w,g)に限らず、次の式により算出しても良い。
Figure 2006048998
ここでΘ(X)は、X>0なら1を返し、X≦0なら0を返す関数である。Θ(Σ{w’∈g,w’≠w}DF(w’,D))は、土台gに属する何れかの高頻度語であってかつ共起度の計測対象索引語w以外の語w’が、文書Dに1つでも含まれていれば1を返し、まったく含まれていなければ0を返すことになる。DF(w,D)は共起度の計測対象索引語wが、文書Dに1つでも含まれていれば1を返し、まったく含まれていなければ0を返す。DF(w,D)にΘ(X)を乗じることで、wと土台gに属する何れかのw’とが文書Dにおいて共起していれば1を返し、共起していなければ0を返すことになる。これに、上で定義した重みβ(w,D)を乗じ、さらに文書群Eに属するすべての文書Dについて合計したものが、Co'(w,g)である。
上記[数3]の索引語−土台共起度Co(w,g)は、wとw’のD内での共起有無(1又は0)をすべてのEについて重みβ(w,D)×β(w’,D)付きで合計(C(w,w’))し、これをg内のw’について合計した。これに対し、上記[数4]の索引語−土台共起度Co'(w,g)は、wとg内の何れかのw’のD内での共起有無(1又は0)をすべてのEについて重みβ(w,D)付きで合計した。
従って、いずれの場合でも、より多くの文書Dで高頻度語と共起した方が、より大きい索引語−土台共起度が得られる。また、[数3]の索引語−土台共起度Co(w,g)は索引語wと共起する土台g内のw’の数の多寡により増減するものであるのに対し、[数4]の索引語−土台共起度Co'(w,g)は索引語wと共起する土台g内のw’の存否により増減するもので、共起するw’の多寡は無関係である。[数3]の索引語−土台共起度Co(w,g)を用いる場合は重みβ(w,D)=1とするのが好ましく、[数4]の索引語−土台共起度Co'(w,g)を用いる場合は重みβ(w,D)=TF(w,D)とするのが好ましい。
<3−7.key(w)算出>
次に、key(w)算出部70において、上記索引語−土台共起度算出ステップS60で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるkey(w)を算出する(ステップS70)。
key(w)は、例えば、次の式により算出する。
Figure 2006048998
ここで、F(g)=Σ{w∈E}Co(w,g)と定義する。索引語wと土台gとの共起度Co(w,g)の、全索引語wについての合計である。Co(w,g)をF(g)で除して1との差をとり、これをすべての土台g(h=1,2,・・・,b)について乗じて1との差をとったものが、key(w)である。
なお、索引語−土台共起度として、ここでは上記[数3]のCo(w,g)を用いたが、上記[数4]のCo'(w,g)を用いてもよいことは上述の通りである。
例えば上記の仮想事例において、F(g)を算出すると、上記[表4]より、
F(g1)=Co(w1,g1)+Co(w2,g1)+・・・+Co(w14,g1)=85
F(g2)=Co(w1,g2)+Co(w2,g2)+・・・+Co(w14,g2)=59
となる。そこで、key(w)は、
key(w1)=1−(1−Co(w1,g1)/85)(1−Co(w1,g2)/59)
=1−(1 − 8/85)(1 − 2/59)
=0.125
key(w2)=1−(1−Co(w2,g1)/85)(1−Co(w2,g2)/59)
=1−(1 − 8/85)(1 − 4/59)
=0.156
以下同様に、すべての索引語についてkey(w)を算出すると、次の表の通りである。
Figure 2006048998
この表の右端の欄はkey(w)の大きい順に並べた場合の順位を示している。
key(w)の特質を説明するために、[表1]と同じものに各索引語の文書頻度DF(E)と上記key(w)順位とを付記して次に示す。
Figure 2006048998
この表からわかるように、key(w)の順位には文書群Eでの文書頻度DF(E)の順位の影響が大きい。例えば、DF(E)最多の索引語wはkey(w)が第1位であり、DF(E)次点の索引語wはkey(w)が第2位であり、以下索引語w、w、w等がそれに続いている。
文書群Eでの文書頻度DF(E)が大きい索引語なら、より多くの文書において高頻度語と共起することができる。したがって、より大きい索引語−土台共起度Co(w,g)又はCo'(w,g)が得られる。key(w)の順位にDF(E)の順位の影響が大きい理由はここにあると考えられる。
なお、共起度の算出に用いる重みβ(w,D)をTF(w,D)とした場合には、key(w)の順位には文書群Eでの大域的頻度GF(E)の順位の影響が大きくなると考えられる。
また、[表2]及び[表6]で索引語w〜w14を比較するとわかるように、共起する高頻度語がより多くの土台にまたがっている方が、key(w)が大きい。例えば、索引語w10〜w13と共起する高頻度語は、2つの土台にまたがっているのに対し、索引語wやw14と共起する高頻度語は、1つの土台に偏っている。そして、索引語w10〜w13の方が索引語wやw14よりkey(w)が大きくなっている。
また、[表2]及び[表6]で索引語w10〜w13を比較するとわかるように、より多くの高頻度語と共起している方が、key(w)が大きい傾向がある。例えば、w10〜w13のうち、最も多くの高頻度語と共起しているw12は、それらのうちで最もkey(w)が大きく、その次に多くの高頻度語と共起しているw11は、その次にkey(w)が大きい。
なお、各索引語の評価スコアとして、上記key(w)の代わりに、次の式を用いても良い。
Figure 2006048998
ここでΦは適当な規格化定数であり、例えばΦ=Σh=1 F(g)とする。F(g)は上記[数5]で定義した通りである。
key'(w)は、索引語wと土台gとの共起度Co(w,g)の、全土台g(h=1,・・・,b)における平均値を定数(1/Φ)倍したものである。
また、各索引語の評価スコアとして、上記key(w)の代わりに、次の式を用いても良い。
Figure 2006048998
key”(w) は、索引語wと土台gとの共起度Co(w,g)をF(g)で除して、全土台g(h=1,・・・,b)における平均値をとったものである。
[数5]のkey(w)において積部分を展開し、高次の微小項O[(Co(w,g)/F(g))]を無視すると、
key(w)
=1−[1−Co(w,g)/F(g)]×[1−Co(w,g)/F(g)]×・・・
≒1−1+Co(w,g)/F(g) + Co(w,g)/F(g) +・・・
となるから、key”(w) ≒(1/b)key(w)ということができる。
<3−8.Skey(w)算出>
次にSkey(w)算出部80において、上記key(w)算出ステップS70で算出された各索引語のkey(w)スコア、高頻度語抽出ステップS31で算出された各索引語のGF(E)及び各索引語のIDF(P)に基づき、Skey(w)スコアを算出する(ステップS80)。
Skey(w)スコアは、次の式により算出する。
Figure 2006048998
GF(w,E)は文書群Eにおいて多く出現する語に対して大きな値が与えられるものであり、IDF(P)は全文書Pにおいては珍しく文書群E特有の語に対して大きな値が与えられるものであり、key(w)は上記のようにDF(E)の影響を受け、より多くの土台と共起する語に大きな値が与えられるスコアである。これらGF(w,E)、IDF(P)及びkey(w)の値が大きいほどSkey(w)は大きくなる。
索引語に対する重み付けとして良く用いられているTF*IDFは、索引語頻度TFと、文書集団における索引語の出現確率DF(P)/N(P)の逆数の対数であるIDFとの積である。IDFは文書集団において高確率で出現する索引語の寄与を小さく抑える効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることができる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持っている。次に説明するように、Skey(w)スコアは、このような欠点を改善する効果を有するものである。
分析対象の文書群Eにおいて、索引語wを含む文書が出現する確率をP(A)、土台(に属する索引語)を含む文書が出現する確率をP(B)、索引語wと土台をともに含む文書が出現する確率(=文書内で共起する確率)をP(A∩B)とすると、
P(A)=DF(w,E)/ N(E)
P(A∩B)=key(w)
で表せる。これより、文書群Eにおいて、索引語wを含む文書が選出された時に土台と共起する確率(条件付確率)は、
Figure 2006048998
となる。更に、一様性の仮定(IDF(E)=IDF(P))を考慮し、かつ上記条件付確率の対数をとると、
Figure 2006048998
となる。この値は、key(w)=1ならばIDF(P)に等しい。そして、DF→0の極限では、N(P)/DF(w,P)→ ∞ 且つ key(w)→0なので、N(P)/DF(w,P)とkey(w)の積をとることによって、DF値が小さいときにIDF値が特異的に跳ね上がるという上記の欠点を改善することができる。[数8]のSkey(w)スコアは、GF(w,E)と、上記[数10]の ln key(w)+ IDF(P)との積をとったものであるから、共起度によって補正されたGF(E)*IDF(P)ということができる。
なお、[数8]によるSkey(w)の算出において、[数5]のkey(w)の代わりに、[数6]のkey'(w)や[数7]のkey”(w) を用いても良いことは上記の通りである。
[数7]のkey”(w) を用いた場合のSkey(w)スコアをSkey(key”)と表記し、[数5]のkey(w)を用いた場合のSkey(w)スコアをSkey(key)と表記して両者を比較すると、
Skey(key)−Skey(key”)
= GF(w,E)×[ln key(w)−ln key”(w)]
≒ GF(w,E)× ln b
よって、[数7]のkey”(w) を用いたSkey(w)と、[数5]のkey(w)を用いた場合のSkey(w)の振る舞いは土台数bの違いを除いて本質的に合致し、土台数bが大きくない限りはSkey(w)スコアの順位に大きな影響は及ぼさない。
<3−9.キーワード抽出>
次に、キーワード抽出部90において、上記Skey(w)算出ステップS80で算出された各索引語のSkey(w)スコアの上位所定個数の索引語を、分析対象文書群のキーワードとして抽出する(ステップS90)。
<3−10.第1実施形態の効果>
本実施形態によれば、より多くの土台に属する高頻度語と共起し、且つより多くの文書において高頻度語と共起する索引語を高く評価してキーワードを抽出する。異なる土台に属する高頻度語は、各索引語との共起度が似ていないもの同士であるから、多くの土台と共起する索引語は、文書群Eの話題や主張のばらつきを橋渡しする語であるということができる。また、多くの文書において高頻度語と共起する索引語は、もともと文書群Eにおける文書頻度DF(E)が高く、文書群に共通の話題や主張を表す語であるということができる。このような索引語を高く評価することにより、複数の文書Dからなる文書群Eの特徴を的確に表したキーワードを自動抽出することができる。
また、重みβ(w,D)=1とすることにより、key(w)スコアに対するDF(E)順位の影響が大きくなり、文書群E内の多数の文書に出現する語を高く評価してキーワードを抽出することができる。
また、文書群Eにおける出現頻度GF(E)と、全文書Pにおける文書頻度の逆数の対数であるIDF(P)を加味することにより、文書群Eで頻出する索引語や、文書群Eに特有の索引語を高く評価してキーワードを抽出することができる。
<4.第2実施形態の構成>
図4は本発明の第2実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第1実施形態に係る図2と同様の部分には同一の符号を付してその説明を省略する。
第2実施形態のキーワード抽出装置は、第1実施形態の構成要素に加え、タイトル抽出部100、タイトルスコア算出部110、Skey(w)上位語読み込み部120、ラベル個数決定部130、ラベル抽出部140を、処理装置1内に備えている。また、第1実施形態の構成要素のうちキーワード抽出部90は設けられていなくてもよく、Skey(w)算出部80の算出結果はそのまま作業結果格納部320に格納される。
タイトル抽出部100は、文書読み出し部10で読み出され作業結果格納部320に格納された文書データから、各文書のタイトル(題名)を抽出する。例えば特許文書であれば「発明の名称」の記載内容を抽出する。抽出されたタイトルのデータは、タイトルスコア算出部110に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
タイトルスコア算出部110は、タイトル抽出部100で抽出された各文書のタイトルのデータと、上記索引語抽出部20で抽出された文書群Eの索引語データとに基づいて、各文書のタイトルについてタイトルスコアτを算出する。このタイトルスコアτは、文書群Eの特徴を表すラベルとしての価値を示すスコアである。タイトルスコアτの算出方法については後述する。算出されたタイトルスコアτのデータは、ラベル抽出部140に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
Skey(w)上位語読込み部120は、上記Skey(w)算出部80で算出され作業結果格納部320に格納された各索引語wのSkey(w)に基づき、Skey(w)スコアの上位所定個数の索引語を抽出する。抽出個数は例えば10個とする。抽出されたSkey(w)上位語のデータは、ラベル個数決定部130に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
ラベル個数決定部130は、Skey(w)上位語読込み部120で抽出されたSkey(w)上位語のデータに基づき、当該文書群Eについて、その内容統一性を示す指標であるキーワード適合度κを算出する。そして、このキーワード適合度κに基づき、抽出すべきラベル個数を決定する。キーワード適合度κの算出方法及びこれに基づくラベル個数の決定については後述する。決定されたラベル個数のデータは、ラベル抽出部140に直接送られてそこでの処理に用いられ、或いは記録装置3の作業結果格納部320に送られて格納される。
ラベル抽出部140は、タイトルスコア算出部110で算出された各タイトルのタイトルスコアτに基づき、ラベル個数決定部130で決定された個数のタイトルを抽出して当該文書群Eのラベルとする。具体的には、タイトルスコアτの降順にタイトルをソートし、上記決定された個数のタイトルを抽出する。
本第2実施形態においては、このラベルが本発明のキーワードに相当する。
<5.第2実施形態の作用>
図5は第2実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャートである。本第2実施形態によるキーワード抽出装置は、上記第1実施形態と同様の処理を経て、Skey(w)を算出する(ステップS80まで)。Skey(w)を算出するまでの処理については図3と同様であるのでその説明を省略する。
<5−1.タイトル抽出>
第2実施形態のキーワード抽出装置は、Skey(w)を算出した後、タイトル抽出部100において、上記文書読み出しステップS10で読み出された文書群Eに属する各文書D(k=1,2,・・・,N(E))文書データから、各文書のタイトル(題名)aを抽出する(ステップS100)。1つの文書Dからは1つのタイトルが抽出されるので、文書数N(E)と同じ数のタイトルaが抽出される。
更にタイトル抽出部100は、各文書のタイトルaから、文書群Eにおける題名の文字列連結(題名和)sを作成する。題名和sは以下の式で表せる。
Figure 2006048998
ここで、strΠは文字列和を意味する。題名和sに対しては、分かち書きソフトウェアの仕様に応じて、予め符号の統一処理を行うことが望ましい。例えば、分かち書き処理で記号を削除してしまう場合には、前処理として、「−」(全角マイナス)、「―」(全角升目の棒)を「ー」(長音符号)に統一させておく。
そして、題名和sを分かち書きして得られる題名用語を索引語辞書とする。
なお、索引語辞書としては、題名和sから得られる索引語の代わりに、文書群Eの文書内容から分かち書きして得られる索引語を索引語辞書としても良い。また、そのうちキーワードスコアSkey(w)の上位所定個数(例えば30語)の索引語のみを索引語辞書としても良い。
索引語辞書を得る方法は以上のように幾つか考えられるが、こうして得られる文書群Eの索引語を以下では一般にw(v=1,2,・・・,W’)で表すことにする。
<5−2.タイトルスコア算出>
次に、タイトルスコア算出部110において、各文書のタイトルについてタイトルスコアτを算出する(ステップS110)。タイトルスコアτの算出は、以下に説明する題名出現率xと、題名用語出現率平均yを用いて行う。
題名出現率x
各題名aについて、題名和sの中での(文書数N(E)に対する)出現率xを求める。題名出現率xは以下の式で与えられる。
Figure 2006048998
題名用語出現率平均y
題名用語出現率平均yを算出するために、まず、各題名aにおいて出現した索引語w(題名用語)の種数mを求める。
Figure 2006048998
ここで、Θ(X)は、X>0なら1、X≦0なら0を返す関数である。Θ(TF(w,a))で題名aにおける索引語wの有無(1又は0)が求められる。これを全索引語w(v=1,2,・・・,W’)につき合計したものが、題名用語の種数mである。
次に、各文書の題名aに出現した題名用語に関して、題名和s中での(文書数N(E)に対する)出現率fを求める。
Figure 2006048998
ここで、題名和s中での索引語wの出現回数がTF(w,s)で与えられている。出現率fは、索引語wのうち、題名aに出現するもの(Θ(TF(w,a))=1である索引語w)のTF(w,s)だけを、重み(IDF(w,P))つきで合計し、文書数N(E)で除したものである。
更に、長い題名が高ポイント化しやすくなるのを防止するため、題名用語出現率fを、各題名aにおいて出現した索引語w(題名用語)の種数mで除したものが、題名用語出現率の種数平均yである。
Figure 2006048998
タイトルスコアτ
タイトルスコアτは、上記題名出現率xと、題名用語出現率平均yの増加関数で求める。例えば、次式の相乗平均で求めるのが好ましい。
Figure 2006048998
また、タイトルスコアτは、次の式で求めても良い。
Figure 2006048998
各タイトルaについてタイトルスコアτが求められたら、同一題名を名寄せする(同一題名が複数あれば1つ残して削除する)。そして、上記求めたタイトルスコアτの降順にタイトルをソートし、各タイトルを、τ上位からT,T,・・・とする。
<5−3.Skey上位語読込み>
次に、Skey(w)上位語読込み部120において、Skey(w)スコアの上位所定個数(t個とする)の索引語を抽出する(ステップS120)。
<5−4.ラベル個数決定>
次に、ラベル個数決定部130において、当該文書群Eの内容統一性を示すキーワード適合度κを算出し、抽出すべきラベル個数を決定する(ステップS130)。
キーワード適合度κは、Skey(w)スコアの上位所定個数(t個)の索引語をw(r=1,2,・・・,t)とし、次の式で算出する。
Figure 2006048998
すなわち、Skey(w)スコアの上位t個の索引語wについて、文書群Eでの文書頻度DF(E)の平均(1/t)Σr=1 DF(w,E)を求め、これを文書群Eの文書数N(E)で除したものが、キーワード適合度κである。
κはSkey(w)によってキーワードだと評価された語の文書群Eにおける占有度を表す。文書群Eが1つの分野から構成されていれば、キーワードは互いに関連性の深いものばかりで多種多様になることはないので占有度は高い。これに対し、文書群Eが複数分野から構成されていれば、一分野あたりの文書数は少なくキーワードも多種多様となり、占有度が低くなる。従って、κの値が高ければ、文書群Eの内容の統一性が高く、κの値が低ければ、文書群Eは複数分野から構成されていると判断できる。
求められたキーワード適合度κの値に応じて、本第2実施形態において抽出されるキーワードであるラベルの個数及び出力態様を決定する。例えば、
(1) 0.55≦κ ならτ最上位の「T1」をそのままラベルとし、
(2) 0.35≦κ<0.55 ならτ最上位のT1を用いて「T1関連」とのラベルとし、
(3) 0.2 <κ<0.35 ならτ第二位のT2までを用いて「T1、T2等」とのラベルとし、
(4) κ≦0.2 なら「その他」とのラベルとする。
なお、κの閾値は、この[0.55,0.35,0.2]のセットに限らず、他の値を選んでも良い。例えば、上記[数5]のkey(w)に代えて[数6]のkey'(w)を用いてSkey(w)スコアを算出した場合は、上記のκ閾値セットに代えて、κ閾値セット[0.3,0.2,0.02]を用いるのが好ましい。
<5−5.ラベル抽出>
次に、ラベル抽出部140において、上記タイトルスコア算出ステップS110で算出された各タイトルのタイトルスコアτと、上記ラベル個数決定ステップS130で決定されたラベル個数及び出力態様とに基づいて、ラベルを抽出する(ステップS140)。
<5−6.第2実施形態の効果>
本実施形態によれば、第1実施形態で算出したSkey(w)スコアを利用し、Skey(w)スコア上位の高頻度語の各文書における出現頻度に基づいてキーワード(ラベル)抽出個数を決定する。これにより、複数の文書Dからなる文書群Eの内容統一性の程度に応じて、文書群の特徴を表す適切な個数のキーワードを自動抽出することができる。
また、各文書のタイトルにおける語の出現率に基づき、当該出現率が高い語を高く評価してキーワード(ラベル)を抽出するので、文書群の内容を的確に表したキーワードを抽出することができる。
<6.具体例>
第1実施形態及び第2実施形態によるキーワード抽出の具体例として、ある家庭用化学品メーカーを出願人とする過去10年分の特許公報(出願公告公報又は特許掲載公報)約850件をクラスタ分析して得られた27組の文書群につき、それぞれキーワードを抽出した例について説明する。
クラスタ分析は、上記約850件の文書をそれぞれ各文書内に含まれる索引語のTF*IDF(P)を成分とするベクトルで表現し、これら文書ベクトル相互の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離をdとしたときの<d>+σの位置でデンドログラムを切断することによって行った。ここで<d>はdの平均値、σはdの標準偏差である。
こうして得られた27組の文書群について、それぞれSkey(w)上位3語を第1実施形態によるキーワードとした。また、キーワード適合度κを算出してこれに基づき第2実施形態によるラベルを生成した。なお、第2実施形態によるラベルを抽出するための索引語辞書は、上述のように題名和sを分かち書きして得られる題名用語を用いた。但し、文書群Eの文書内容から分かち書きして得られる索引語を用いた場合についてもラベルの生成を行い、題名和sを用いた場合と異なる結果が得られた場合は「※」印を付して併記した。
文書群の掲載順はキーワード適合度κの降順とし、ラベルの表現態様の違いを一見して理解できるようにした。
また、第1実施形態及び第2実施形態によるキーワード抽出とは別に、上記27組の文書群を人間が読み込んで、各文書群に最適と思われるタイトルを付した。人間が付したタイトルと文書数N(E)及びキーワード適合度κは各文書群の冒頭に表示した。
(1)0.55≦κ
(1-1)う蝕予防剤(N(E)=4,κ=1.0)
ラベル「う蝕予防剤」
キーワード[蝕・ミュータンス・ストレプトコッカス]

(1-2)皮膚外用剤(N(E)=6,κ=0.983)
ラベル「皮膚外用剤」
キーワード[エラグ・ポリオキシプロピレン・ポリオキシエチレン]

(1-3)柔軟剤(N(E)=10,κ=0.97)
ラベル「柔軟剤組成物」
キーワード[分断・アルケニル・ヒドロキシアルキル]

(1-4)炭素微粉体の水スラリー用添加剤(N(E)=7,κ=0.8857)
ラベル「炭素微粉体の水スラリー用添加剤」
キーワード[モノマー・スルホン・必須]

(1-5)高嵩密度粒状洗剤(N(E)=21,κ=0.876)
ラベル「高嵩密度粒状洗剤組成物」 ※ 粒状洗剤組成物
キーワード[脂肪酸・洗剤・嵩]

(1-6)水難溶性シート(N(E)=6,κ=0.8)
ラベル「水解性・吸水性シート状体」
キーワード[水難・カルボキシエチルセルロース・カルボキシメチルセルロース]

(1-7)水硬性無機質材料(N(E)=9,κ=0.733)
ラベル「水硬性無機質材料用配合剤」
キーワード[エマルジョン・転移・架橋]

(1-8)脱墨剤(N(E)=12,κ=0.6583)
ラベル「フローテーション用脱墨剤」
キーワード[EO・PO・XO]

(1-9)高嵩密度粒状洗剤(N(E)=21,κ=0.65)
ラベル「高嵩密度洗剤組成物の製造方法」
キーワード[洗剤・嵩・捏]

(1-10)導電性樹脂(N(E)=13,κ=0.6384)
ラベル「導電性樹脂組成物」
キーワード[ブラック・カーボン・練]

(1-11)セメント/セラミックス成形(N(E)=26,κ=0.6346)
ラベル「セラミックス成形用バインダー」
キーワード[メタ・アクリル・クリル]

(1-12)高嵩密度粒状洗剤(N(E)=23,κ=0.626)
ラベル「高嵩密度粒状洗剤組成物」
キーワード[ニオ・界面・洗剤]

(1-13)スルホン化(N(E)=11,κ=0.5909)
ラベル「低分子量のスチレン系重合体の製造方法」
キーワード[スルホン・溶媒・スチレン]

(1-14)歯ブラシ(N(E)=11,κ=0.5636)
ラベル「歯刷子」
キーワード[植毛・刷・刷毛]

(2)0.35≦κ<0.55
(2-1)漂白剤(N(E)=10,κ=0.49)
ラベル「漂白剤組成物関連」
キーワード[漂白・洗剤・剤]

(2-2)義歯安定剤・義歯洗浄剤(N(E)=11,κ=0.41)
ラベル「義歯洗浄剤関連」
キーワード[義歯・ポリプロピレンオキサイド・配合]

(2-3)口腔用組成物(N(E)=62,κ=0.395)
ラベル「口腔用組成物関連」
キーワード[口腔・組成・配合]

(2-4)キチン・キトサン(N(E)=13,κ=0.3769)
ラベル「キチン又はキトサン類の精製法関連」
キーワード[キト・サン・キチン]

(2-5)カロチン(N(E)=9,κ=0.3666)
ラベル「カロチンの精製方法関連」 ※ 天然油脂の処理方法
キーワード[カロチン・濃縮・パームカロチン]

(3)0.2<κ<0.35
(3-1)毛髪化粧料/エアゾール化粧(N(E)=15,κ=0.3466)
ラベル「化粧料・毛髪化粧料等」
キーワード[料・化粧・シリカビーズ]

(3-2)歯磨組成物(N(E)=56,κ=0.3071)
ラベル「歯磨組成物・洗浄剤組成物等」
キーワード[歯磨・組成・重量]

(3-3)脂肪酸エステル・石鹸(N(E)=33,κ=0.2696)
ラベル「石けん組成物・エステルの製造方法等」
キーワード[脂肪酸・エステル・石けん]

(3-4)毛髪化粧料関連(N(E)=108,κ=0.438)
ラベル「洗浄剤組成物・液体洗浄剤組成物等」
キーワード[炭素・アルキル・アルケニル]

(3-5)柔軟剤・液晶パネル洗浄剤 他(N(E)=38,κ=0.381)
ラベル「柔軟剤組成物・スプレー型撥水撥油剤組成物等」
キーワード[アルキレンオキシド・炭素・脂肪]

(3-6)洗浄剤一般(N(E)=41,κ=0.3292)
ラベル「洗浄剤組成物・液体洗浄剤組成物等」
キーワード[界面・エアゾール・アニオン]

(3-7)口腔用組成物その他(N(E)=67,κ=0.3194)
ラベル「口腔用組成物・分散剤等」 ※ 口腔用組成物・消臭剤組成物
キーワード[酸・塩・口腔]

(4)κ≦0.2
(4-1)その他(N(E)=229,κ=0.011)
ラベル「その他」
キーワード[文書・荷積・ムタン]
以上のように、第2実施形態による各文書群のラベルは、各文書群に人間が付したタイトルとほぼ一致する傾向が見られた。
また、第1実施形態による各文書群のキーワードは、発明対象についての一般的な名称にとどまらず、より具体的に技術内容を示す用語が選ばれた。
なお、異なる文書群につき同一のラベルが抽出されてしまった例((1-5)と(1-12)につき「高嵩密度粒状洗剤組成物」、(3-4)と(3-6)につき「洗浄剤組成物・液体洗浄剤組成物等」)や、異なる文書群につき一部同一のラベルが抽出されてしまった例((1-3)「柔軟剤組成物」に対し(3-5)「柔軟剤組成物・スプレー型撥水撥油剤組成物等」、(2-3)「口腔用組成物関連」に対し(3-7)「口腔用組成物・分散剤等」)もある。しかし、第1実施形態によるキーワード情報まで参照すれば、技術内容を明確に区別可能である。
また、使用した形態素解析ソフトの都合により、一見無意味な語が第1実施形態によるキーワードとして抽出されてしまった例((1-11)につき「メタ」「クリル」、(1-12)につき「ニオ」、(2-4)につき「キト」「サン」)もある。しかし、これらの語は、抽出されるべき正しいキーワードの一部として出現していることに注目すべきである。これらの語を正しく抽出するためには、Skey(w)算出後に、キーワード抽出部90において統合語辞書フィルタを使用し、フィルタにマッチする順にSkey(w)上位から抽出すればよい。ここに挙げた例では、(1-11)につき「メタクリル」、(1-12)につき「ノニオン」、(2-4)につき「キトサン」が抽出されることになる。
図6は、本発明のキーワード抽出装置により抽出されたキーワードを、文書相互の関係を示した文書相関図に記入した例を示す参考図である。この文書相関図は、上記具体例に示した27組の文書群相互の内容的関係及び時間的関係を示している。
作成方法を概略のみ説明すると、まず、これら27組の文書群それぞれにつき、各組に属する文書が持つ出願日データの平均値を算出して各組の時間データとした。次に、27組のうち最も時間データの古い文書群(ここでは「(1-1)う蝕予防剤」であった。)を除外し、残り26組の各文書群を、それぞれベクトル表現した。各組の文書群Eをベクトル表現するには、各組におけるGF(E)*IDF(P)を各索引語について算出し、これらGF(E)*IDF(P)を成分とする多次元ベクトルとした。
こうして作成された26個のベクトル相互間の類似度に基づいてデンドログラムを作成し、当該デンドログラムにおける結合距離をdとしたときの<d>+σの位置でデンドログラムを切断してクラスタを抽出した。ここで<d>はdの平均値、σはdの標準偏差である。抽出されたクラスタの数(ここでは4つであった。)だけ、最古文書群「(1-1)う蝕予防剤」から枝線を引いた。
続いて各クラスタについて、上記と同様に、最古文書群(ここでは各クラスタについて「(1-4)炭素微粉体の水スラリー用添加剤」、「(2-4)キチン又はキトサン類の精製法関連」、「(2-5)カロチンの精製方法関連」、「(4-1)その他」が選ばれた。)の除外、デンドログラムの作成及びクラスタの抽出を行った。同様の操作をクラスタ内の文書群が3組以下になるまで繰り返した。文書群が3組以下となったクラスタについては、文書群の時間データの古い順で、これら文書群を一列に配置した。
こうして作成された文書相関図は、文書の内容に基づく分類が行われているとともに時間順に配置したものであり、調査対象となった家庭用化学品メーカーにおける開発トレンドの推移を分析するのに有用である。図6の参考例では、各組の文書群について本発明の第2実施形態の方法により抽出されたラベル(第1実施形態のキーワードでもよい。)を文書相関図に記入してあるので、開発トレンドの推移を一目で把握することができる。
<7.第3実施形態の構成>
本発明の第3実施形態は、複数の文書群E(u=1,2,・・・,n。nは文書群の数。)からなる文書群集団Sのデータを用いて、各分析対象の文書群Eからキーワードを抽出するものである。複数の文書群Eは、文書群集団Sをクラスタリングして得られた個々のクラスタとするのが好ましいが、逆に文書群Eを複数集めて文書群集団Sを構成してもよい。
図7は本発明の第3実施形態に係るキーワード抽出装置の構成と機能を詳細に説明する図である。第1実施形態に係る図2と同様の部分には同一の符号を付してその説明を省略する。
第3実施形態のキーワード抽出装置は、第1実施形態の構成要素に加え、評価値算出部200、集中度算出部210、シェア算出部220、第1逆数算出部230、第2逆数算出部240、独創度算出部250、キーワード抽出部260を、処理装置1内に備えている。また、第1実施形態の構成要素のうちキーワード抽出部90は設けられていなくてもよく、Skey(w)算出部80の算出結果はそのまま作業結果格納部320に格納される。
評価値算出部200は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部20において抽出された各文書の索引語wを作業結果格納部320から読み出す。或いは評価値算出部200は、Skey(w)算出部80において各文書群Eについてそれぞれ算出された索引語のSkey(w)を作業結果格納部320から読み出す。必要に応じて、評価値算出部200は、文書読み出し部10により読み出された各文書群Eのデータを作業結果格納部320から読み出し、その文書数N(E)を計数してもよい。また、高頻度語抽出部30における高頻度語抽出の過程で算出されたGF(E)やIDF(P)を作業結果格納部320から読み出してもよい。
そして、評価値算出部200は、読み出した情報に基づき、各索引語wの各文書群Eにおける出現頻度に基づく評価値A(w,E)をそれぞれ算出する。算出された評価値は、作業結果格納部320に送られて格納され、或いは直接集中度算出部210及びシェア算出部220に送られてそこでの処理に用いられる。
集中度算出部210は、評価値算出部200で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部320から読み出し、又は評価値算出部200から直接受信する。
そして、集中度算出部210は、得られた評価値A(w,E)に基づき、各索引語wについて、文書群集団Sでの各索引語wの分布の集中度を算出する。この集中度は、各索引語wについて、各文書群Eにおける評価値A(w,E)の、上記文書群集団Sに属する全ての文書群Eでの和を算出し、当該和に対する各文書群Eにおける評価値A(w,E)の比を各文書群Eについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団Sに属する全ての文書群Eにおける和を算出することによって得られるものである。算出された集中度は、作業結果格納部320に送られて格納される。
シェア算出部220は、評価値算出部200で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部320から読み出し、又は評価値算出部200から直接受信する。
そして、シェア算出部220は、得られた評価値A(w,E)に基づき、各索引語wについて、各文書群Eでのシェアを算出する。このシェアは、分析対象の文書群Eにおける各索引語wの評価値A(w,E)の、上記文書群集団Sに属する各文書群Eから抽出された全ての索引語wについての和を算出し、当該和に対する各索引語wの評価値A(w,E)の比を各索引語wについて算出することによって得られるものである。算出された集中度は、作業結果格納部320に送られて格納される。
第1逆数算出部230は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部20において抽出された各文書の索引語wを作業結果格納部320から読み出す。
そして、第1逆数算出部230は、読み出した文書群集団Sの各文書の索引語wのデータに基づき、各索引語wについての文書群集団Sでの出現頻度の逆数の関数値(例えば後述の規格化IDF(S))を算出する。算出された文書群集団Sでの出現頻度の逆数の関数値は、作業結果格納部320に送られて格納され、或いは直接独創度算出部250に送られてそこでの処理に用いられる。
第2逆数算出部240は、文書群集団Sを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書Pを用いる。この場合、高頻度語抽出部30における高頻度語抽出の過程で算出されたIDF(P)を作業結果格納部320から読み出し、その関数値(例えば後述の規格化IDF(P))を算出する。算出された大文書集団Pでの出現頻度の逆数の関数値は、作業結果格納部320に送られて格納され、或いは直接独創度算出部250に送られてそこでの処理に用いられる。
独創度算出部250は、第1逆数算出部230及び第2逆数算出部240において算出された各出現頻度の逆数の関数値を、作業結果格納部320から読み出し、又は第1逆数算出部230及び第2逆数算出部240から直接受信する。また、高頻度語抽出部30における高頻度語抽出の過程で算出されたGF(E)を作業結果格納部320から読み出す。
そして、独創度算出部250は、第1逆数算出部230の算出結果から第2逆数算出部240の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第1逆数算出部230の算出結果から第2逆数算出部240の算出結果を減算したものに対し、第1逆数算出部230の算出結果と第2逆数算出部240の算出結果との和で除算したものでも良いし、各文書群EでのGF(E)を乗算したものでも良い。算出された独創度は、作業結果格納部320に送られて格納される。
キーワード抽出部260は、Skey(w)算出部80で算出されたSkey(w)、集中度算出部210で算出された集中度、シェア算出部220で算出されたシェア及び独創度算出部250において算出された独創度の各データを、作業結果格納部320から読み出す。
そして、キーワード抽出部260は、上記読み出したSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標に基づき、キーワードを抽出する。キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによっても良いし、選択された複数の指標の組み合わせに基づいて、キーワードをカテゴライズして抽出してもよい。
抽出されたキーワードのデータは、記録装置3の作業結果格納部320に送られて格納され、必要に応じて出力装置4にて出力される。
<8.第3実施形態の作用>
図8は第3実施形態のキーワード抽出装置における処理装置1の動作手順を示すフローチャートである。本第3実施形態によるキーワード抽出装置は、複数の文書群E(u=1,2,・・・,n。nは文書群の数。)からなる文書群集団Sのデータを用いて、各分析対象の文書群Eからキーワードを抽出する。複数の文書群Eは、例えば、ある文書群集団Sをクラスタリングして得られた個々のクラスタとする。
まず、上記第1実施形態と同様の処理により、文書群集団Sに属する各文書群Eについて、それぞれステップS10からステップS80までの処理を実行し、各文書群Eにおける各索引語のSkey(w)を算出する。Skey(w)を算出するまでの処理については図3と同様であるのでその説明を省略する。
<8−1.評価値算出>
第3実施形態のキーワード抽出装置は、Skey(w)を算出した後、評価値算出部200において、各文書群Eにおける上記索引語wの出現頻度の関数値に基づく評価値A(w,E)を、各文書群E及び各索引語wにつき算出する(ステップS200)。
評価値A(w,E)としては、例えば、上述のSkey(w)をそのまま用いるか、Skey(w)/N(E)、或いはGF(E)*IDF(P)を用いる。例えば、各文書群E及び各索引語wにつき、次のようなデータを得る。なお、説明の便宜上、索引語の種数W=5とし、文書群数n=3とした。
Figure 2006048998
<8−2.集中度算出>
次に集中度算出部210において、各索引語wについて次のようにして集中度を算出する(ステップS210)。
まず、各索引語wについて、各文書群Eにおける評価値A(w,E)の、上記文書群集団Sに属する全ての文書群Eについての和Σu=1 A(w,E)を算出し、当該和に対する各文書群Eにおける評価値A(w,E)の比
A(w,E)/Σu=1 A(w,E
を各文書群E及び各索引語wについて算出する。そして、各索引語wについて、当該比の上記文書群集団Sに属する全ての文書群Eにおける二乗和
Σu=1 {A(w,E)/Σu=1 A(w,E)}
が、索引語wの文書群集団Sでの集中度となる。これを上表の例で示すと次のようになり、各索引語wについて集中度が算出される。
Figure 2006048998
<8−3.シェア算出>
次にシェア算出部220において、各索引語wについて各文書群Eでのシェアを次のようにして算出する(ステップS220)。
まず、各文書群Eにおいて、各索引語wの評価値A(w,E)の、上記文書群集団Sから抽出された全ての索引語wについての和Σi=1 A(w,E)を算出する。そして、当該和に対する各索引語wの評価値A(w,E)の比であるシェア
A(w,E)/Σi=1 A(w,E
を算出する。これを上表の例で示すと次のようになり、各索引語wについて各文書群Eでのシェアが決定される。
Figure 2006048998
<8−4.独創度算出>
次に、各索引語wについて、次のようにして独創度の値を算出する。
まず、第1逆数算出部230において、各索引語wについて、上記文書群集団Sでの出現頻度の逆数の関数値を算出する(ステップS230)。
文書群集団Sでの出現頻度としては例えば文書頻度DF(S)を用いる。出現頻度の逆数の関数値としては、文書群集団Sでの逆文書頻度IDF(S)、或いは特に好ましい例としてIDF(S)を分析対象の文書群Eから抽出された全索引語で規格化した値(規格化IDF(S))を用いる。ここでIDF(S)は“DF(S)の逆数×文書群集団Sの文書数N(S)”の対数である。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで後述のIDF(P)との組み合わせによる独創度の算出を容易にするためである。
次に、第2逆数算出部240において、各索引語wについて、上記文書群集団Sを含む大文書集団Pでの出現頻度の逆数の関数値を算出する(ステップS240)。
出現頻度の逆数の関数値としては、IDF(P)或いは特に好ましい例としてIDF(P)を分析対象の文書群Eから抽出された全索引語で規格化した値(規格化IDF(P))を用いる。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで上記のIDF(S)との組み合わせによる独創度の算出を容易にするためである。
次に、独創度算出部250において、各索引語wについて、{IDF(S)の関数値−IDF(P)の関数値}の関数値を、独創度として算出する(ステップS250)。独創度の算出にIDF(S)及びIDF(P)のみを用いる場合には、独創度は各索引語wについて1つの値が算出される。文書群Eで規格化した規格化IDF(S)や規格化IDF(P)を用いる場合や、別途GF(E)等で重み付けする場合は、独創度は各文書群Eについて、且つ各索引語wについてそれぞれ算出される。
独創度は、特に、次式のDEVで与えるのが好ましい。
Figure 2006048998
DEVの第一ファクタである規格化GF(E)は、分析対象の文書群Eでの各索引語wの大域的頻度GF(E)を、分析対象文書群Eから抽出された全索引語で規格化したものである。
規格化IDF(S)>0、且つ規格化IDF(P)>0となるような規格化をした場合、DEVの第二ファクタは、文書群集団SにおけるIDFの規格化値が大文書集団PにおけるIDFの規格化値より大きければ正、小さければ負となる。文書群集団SでのIDFが大きいことは、この文書群集団Sでは珍しい語であることを意味する。この、文書群集団Sでは珍しい語のうち、文書群集団Sを含む大文書集団PでのIDFが小さい語は、他分野では良く使われているとしても当該文書群集団Sに係る分野で用いることに独創性があるということができる。また、{規格化IDF(S)+規格化IDF(P)}で除算しているので、DEVの第二ファクタは−1以上+1以下の範囲となり、異なる文書群E間での比較が容易となる。
また、DEVは規格化GF(E)に比例するため、対象文書群での頻度の高い語程、高い数値ともなる。
特に、文書群集団Sが複数の文書群E(u=1,2,・・・)からなる場合に、これら文書群Eの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、当該文書群集団Sにおいて共通の索引語は下位に落ち、各文書群Eに特徴的な語が各文書群Eでの上位にくることになるため、文書群Eごとの特徴を把握するのに有益である。
<8−5.キーワードの抽出>
次に、キーワード抽出部260において、以上のステップで得られたSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標に基づき、キーワードを抽出する(ステップS260)。
好ましくは、以上のSkey(w)、集中度、シェア、独創度の4指標すべてを用いて、対象文書群Eの索引語wを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に好ましい分類方法は次の通りである。
まず、第一判定はSkey(w)を用いる。各文書群Eにおいて、Skey(w)降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群Eで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。
第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団Sにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群Eの重要語から、上記の技術領域語と一致するキーワードを、その文書群Eの「技術領域語」として分類する。
第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づけることができる。そこで各文書群Eにおいて、第二判定で分類されなかった重要語に対するシェア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
第四判定は独創度を用いる。各文書群Eにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。
以上の判定を表にすると次のようになる。
Figure 2006048998
以上の判定において、第一判定に用いる重要度の指標としてSkey(w)を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、GF(E)*IDF(P)でもよい。
また、以上の判定において、重要度、集中度、シェア及び独創度の4指標を用いて分類したが、これらのうち任意の2つ以上の指標を用いることによっても、索引語の分類が可能である。

Claims (19)

  1. 複数の文書からなる文書群からキーワードを抽出する装置であって、
    前記文書群のデータから索引語を抽出する索引語抽出手段と、
    前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、
    前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、
    前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、
    前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、
    前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
  2. 請求項1において、
    前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群以外の文書を含む文書集団における出現頻度がより低い索引語を、より高く評価したスコアである、キーワード抽出装置。
  3. 請求項1又は請求項2において、
    前記スコア算出手段が個々の索引語につき算出するスコアは、前記文書群における出現頻度がより高い索引語を、より高く評価したスコアである、キーワード抽出装置。
  4. 請求項1乃至請求項3の何れか一項において、
    前記キーワード抽出手段は、前記スコア算出手段において高く評価された索引語の前記文書群における出現頻度に基づいて、キーワード抽出数を決定する、キーワード抽出装置。
  5. 請求項4において、
    前記キーワード抽出手段は、前記文書群に属する各文書のタイトルにおける語の出現率に基づいて、前記決定された抽出数のキーワードを抽出する、キーワード抽出装置。
  6. 請求項1乃至請求項3の何れか一項において、
    分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
    各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、を更に備え、
    前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記集中度算出手段によって算出された集中度を評価に加えてキーワードを抽出する、キーワード抽出装置。
  7. 請求項1乃至請求項3の何れか一項において、
    分析対象である前記文書群と他の文書群とを備えた文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
    前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、を更に備え、
    前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記シェア算出手段によって前記分析対象の文書群につき算出されたシェアを評価に加えてキーワードを抽出する、キーワード抽出装置。
  8. 請求項1乃至請求項3の何れか一項において、
    各索引語について、分析対象である前記文書群と他の文書群とを備えた文書群集団での出現頻度の逆数の関数値を算出する第1逆数算出手段と、
    各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第2逆数算出手段と、
    前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって、前記文書群集団における各索引語の独創度を算出する独創度算出手段と、を更に備え、
    前記キーワード抽出手段は、前記スコア算出手段により前記分析対象の文書群につき算出されたスコアの他に、前記独創度算出手段によって算出された独創度を評価に加えてキーワードを抽出する、キーワード抽出装置。
  9. 複数の文書からなる文書群からキーワードを抽出する装置であって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
    前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出手段と、
    各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段と、
    前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段と、
    前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
  10. 請求項9において、
    各索引語について、前記文書群集団での出現頻度の逆数の関数値を算出する第1逆数算出手段と、
    各索引語について、前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を算出する第2逆数算出手段と、
    前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、を更に備え、
    前記キーワード抽出手段は、更に前記独創度算出手段によって算出された独創度との組合せに基づいてキーワードを抽出する、キーワード抽出装置。
  11. 複数の文書からなる文書群からキーワードを抽出する装置であって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出手段と、
    (a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出手段、
    (b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出手段、
    (c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出手段、及び
    (d)各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出手段、
    のうち何れか2つ以上の手段と、
    前記何れか2つ以上の手段により算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出手段と、を備えたキーワード抽出装置。
  12. 請求項11において、
    前記キーワード抽出手段は、
    前記分析対象の文書群における出現頻度の関数値が所定の閾値以上である索引語を前記分析対象の文書群における重要語と判定し、
    前記分析対象の文書群における前記重要語のうち、前記集中度が所定の閾値以下である索引語を前記分析対象の文書群における技術領域語と判定し、
    前記分析対象の文書群における前記技術領域語以外の前記重要語のうち、前記分析対象の文書群におけるシェアが所定の閾値以上である索引語を前記分析対象の文書群における主要語と判定し、
    前記分析対象の文書群における前記技術領域語及び前記主要語以外の前記重要語のうち、前記独創度が所定の閾値以上である索引語を前記分析対象の文書群における独創語と判定し、
    前記キーワードをカテゴライズして抽出する、キーワード抽出装置。
  13. 請求項8、10、11及び12のうち何れか一項において、
    前記文書群集団での出現頻度の逆数の関数値は、前記文書群集団での逆文書頻度(IDF)を、分析対象である前記文書群の全索引語で規格化したものであり、
    前記文書群集団を含む大文書集団での出現頻度の逆数の関数値は、前記大文書集団での逆文書頻度(IDF)を、前記分析対象である前記文書群の全索引語で規格化したものである、キーワード抽出装置。
  14. 複数の文書からなる文書群からキーワードを抽出する方法であって、
    前記文書群のデータから索引語を抽出する索引語抽出ステップと、
    前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出ステップと、
    前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出ステップと、
    前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリングステップと、
    前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出ステップと、
    前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
  15. 複数の文書からなる文書群からキーワードを抽出する方法であって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
    前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出ステップと、
    各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップと、
    前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップと、
    前記集中度算出ステップにより算出された集中度と、前記シェア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
  16. 複数の文書からなる文書群からキーワードを抽出する方法であって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
    (a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出ステップ、
    (b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップ、
    (c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップ、及び
    (d)各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出ステップ、
    のうち何れか2つ以上のステップと、
    前記何れか2つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、を備えたキーワード抽出方法。
  17. 複数の文書からなる文書群からキーワードを抽出するプログラムであって、
    前記文書群のデータから索引語を抽出する索引語抽出ステップと、
    前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出ステップと、
    前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出ステップと、
    前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリングステップと、
    前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出ステップと、
    前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。
  18. 複数の文書からなる文書群からキーワードを抽出するプログラムであって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
    前記文書群集団について、各索引語についての各文書群における評価値をそれぞれ算出する評価値算出ステップと、
    各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップと、
    前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップと、
    前記集中度算出ステップにより算出された集中度と、前記シェア算出ステップにより前記分析対象の文書群につき算出されたシェアとの組合せに基づいてキーワードを抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。
  19. 複数の文書からなる文書群からキーワードを抽出するプログラムであって、
    分析対象である前記文書群と他の文書群とを備えた文書群集団のデータから索引語を抽出する索引語抽出ステップと、
    (a)各索引語について、前記分析対象の文書群における出現頻度の関数値を算出する出現頻度算出ステップ、
    (b)各索引語についての各文書群における評価値をそれぞれ算出し、各索引語について、各文書群における評価値の、前記文書群集団に属する全ての文書群での和を算出し、当該和に対する各文書群における評価値の比を各文書群について算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記文書群集団に属する全ての文書群における和を算出することによって得られる、前記文書群集団における各索引語の分布の集中度を算出する集中度算出ステップ、
    (c)各索引語についての各文書群における評価値をそれぞれ算出し、前記分析対象の文書群における各索引語の評価値の、前記文書群集団に属する各文書群から抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象の文書群における各索引語のシェアを算出するシェア算出ステップ、及び
    (d)各索引語について、前記文書群集団での出現頻度の逆数の関数値から前記文書群集団を含む大文書集団での出現頻度の逆数の関数値を減算したものの関数値によって独創度を算出する独創度算出ステップ、
    のうち何れか2つ以上のステップと、
    前記何れか2つ以上のステップにより算出される、前記分析対象の文書群における出現頻度の関数値、前記集中度、前記分析対象の文書群におけるシェア、及び前記独創度、のうち何れか2つ以上の組合せに基づいて、キーワードをカテゴライズして抽出するキーワード抽出ステップと、をコンピュータに実行させる、キーワード抽出プログラム。
JP2006542917A 2004-11-05 2005-10-11 キーワード抽出装置 Withdrawn JPWO2006048998A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004322924 2004-11-05
JP2004322924 2004-11-05
PCT/JP2005/018712 WO2006048998A1 (ja) 2004-11-05 2005-10-11 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPWO2006048998A1 true JPWO2006048998A1 (ja) 2008-05-22

Family

ID=36319012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006542917A Withdrawn JPWO2006048998A1 (ja) 2004-11-05 2005-10-11 キーワード抽出装置

Country Status (6)

Country Link
US (1) US20080195595A1 (ja)
EP (1) EP1830281A1 (ja)
JP (1) JPWO2006048998A1 (ja)
KR (1) KR20070084004A (ja)
CN (1) CN101069177A (ja)
WO (1) WO2006048998A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150539A (ja) * 2011-01-17 2012-08-09 Nippon Telegr & Teleph Corp <Ntt> クエリ提供装置、クエリ提供方法及びクエリ提供プログラム

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572069B2 (en) * 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
WO2000058863A1 (en) 1999-03-31 2000-10-05 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US7657506B2 (en) * 2006-01-03 2010-02-02 Microsoft International Holdings B.V. Methods and apparatus for automated matching and classification of data
US20080010387A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method for defining a Wiki page layout using a Wiki page
US20080010386A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for client wiring model
US20080010345A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for data hub objects
US8219900B2 (en) 2006-07-07 2012-07-10 International Business Machines Corporation Programmatically hiding and displaying Wiki page layout sections
US8775930B2 (en) * 2006-07-07 2014-07-08 International Business Machines Corporation Generic frequency weighted visualization component
US20080010388A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for server wiring model
US7954052B2 (en) * 2006-07-07 2011-05-31 International Business Machines Corporation Method for processing a web page for display in a wiki environment
US20080010338A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for client and server interaction
US8560956B2 (en) 2006-07-07 2013-10-15 International Business Machines Corporation Processing model of an application wiki
US8196039B2 (en) * 2006-07-07 2012-06-05 International Business Machines Corporation Relevant term extraction and classification for Wiki content
US7996393B1 (en) 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US8131722B2 (en) 2006-11-20 2012-03-06 Ebay Inc. Search clustering
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
CN100462979C (zh) * 2007-06-26 2009-02-18 腾讯科技(深圳)有限公司 分布式索引文件的检索方法、检索系统及检索服务器
US8990225B2 (en) * 2007-12-17 2015-03-24 Palo Alto Research Center Incorporated Outbound content filtering via automated inference detection
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8171031B2 (en) 2008-06-27 2012-05-01 Microsoft Corporation Index optimization for ranking using a linear model
US8161036B2 (en) * 2008-06-27 2012-04-17 Microsoft Corporation Index optimization for ranking using a linear model
JP4656202B2 (ja) * 2008-07-22 2011-03-23 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
WO2011079311A1 (en) * 2009-12-24 2011-06-30 Minh Duong-Van System and method for determining sentiment expressed in documents
JP5411802B2 (ja) * 2010-05-18 2014-02-12 日本電信電話株式会社 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
US8463786B2 (en) 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
CN102314448B (zh) * 2010-07-06 2013-12-04 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
JP5085708B2 (ja) 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム
WO2012050247A1 (ko) * 2010-10-13 2012-04-19 정보통신산업진흥원 인적 자원 역량 평가 시스템 및 방법
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8645381B2 (en) * 2011-06-27 2014-02-04 International Business Machines Corporation Document taxonomy generation from tag data using user groupings of tags
US20130084009A1 (en) 2011-10-03 2013-04-04 Steven W. Lundberg Systems, methods and user interfaces in a patent management system
CN103890763B (zh) * 2011-10-26 2017-09-12 国际商业机器公司 信息处理装置、数据存取方法以及计算机可读存储介质
TWI477996B (zh) * 2011-11-29 2015-03-21 Iq Technology Inc 自動分析個人化輸入之方法
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5631956B2 (ja) * 2012-11-12 2014-11-26 日本電信電話株式会社 バーストワード抽出装置、方法、及びプログラム
US20140280178A1 (en) * 2013-03-15 2014-09-18 Citizennet Inc. Systems and Methods for Labeling Sets of Objects
US20140379713A1 (en) * 2013-06-21 2014-12-25 Hewlett-Packard Development Company, L.P. Computing a moment for categorizing a document
KR101374197B1 (ko) * 2013-10-02 2014-03-12 한국과학기술정보연구원 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체
JP5792871B1 (ja) * 2014-05-23 2015-10-14 日本電信電話株式会社 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
WO2016081749A1 (en) 2014-11-19 2016-05-26 Google Inc. Methods, systems, and media for presenting related media content items
JP6600939B2 (ja) * 2014-11-28 2019-11-06 富士通株式会社 データ分類装置、データ分類プログラム、および、データ分類方法
US9529860B2 (en) * 2014-12-01 2016-12-27 Bank Of America Corporation Keyword frequency analysis system
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10409910B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
JP6507657B2 (ja) 2015-01-15 2019-05-08 富士通株式会社 類似性判定装置、類似性判定方法および類似性判定プログラム
JP5923806B1 (ja) * 2015-04-09 2016-05-25 真之 正林 情報処理装置及び方法、並びにプログラム
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10628431B2 (en) 2017-04-06 2020-04-21 Salesforce.Com, Inc. Predicting a type of a record searched for by a user
US10614061B2 (en) * 2017-06-28 2020-04-07 Salesforce.Com, Inc. Predicting user intent based on entity-type search indexes
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
JP6847812B2 (ja) * 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム
US10498898B2 (en) * 2017-12-13 2019-12-03 Genesys Telecommunications Laboratories, Inc. Systems and methods for chatbot generation
KR102018906B1 (ko) * 2018-01-10 2019-09-05 주식회사 메디씨앤씨 키워드에 대한 타겟 사용자 그룹 선정 방법 및 이를 수행하는 컴퓨팅 시스템
KR102515655B1 (ko) 2018-01-30 2023-03-30 (주)광개토연구소 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법
CN110362673B (zh) * 2019-07-17 2022-07-08 福州大学 基于摘要语义分析的计算机视觉类论文内容判别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
JP2000276487A (ja) * 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
SE520533C2 (sv) * 2001-03-13 2003-07-22 Picsearch Ab Metod, datorprogram och system för indexering av digitaliserade enheter
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150539A (ja) * 2011-01-17 2012-08-09 Nippon Telegr & Teleph Corp <Ntt> クエリ提供装置、クエリ提供方法及びクエリ提供プログラム

Also Published As

Publication number Publication date
KR20070084004A (ko) 2007-08-24
CN101069177A (zh) 2007-11-07
WO2006048998A1 (ja) 2006-05-11
US20080195595A1 (en) 2008-08-14
EP1830281A1 (en) 2007-09-05

Similar Documents

Publication Publication Date Title
JPWO2006048998A1 (ja) キーワード抽出装置
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
Lebart et al. Exploring textual data
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US12007939B1 (en) Method and apparatus for determining search result demographics
JP4634736B2 (ja) 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
CN105808524A (zh) 一种基于专利文献摘要的专利自动分类方法
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP2006350656A (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Lenci et al. Distributional semantics
Larkey Some issues in the automatic classification of US patents
Gopan et al. Comparative study on different approaches in keyword extraction
Mahmoudi et al. Arabic language modeling based on supervised machine learning
Trieschnigg et al. TNO Hierarchical topic detection report at TDT 2004
Naik et al. Relevance Feature Discovery in Text Mining Using NLP
Chang et al. Incorporating word embedding into cross-lingual topic modeling
JP4525433B2 (ja) 文書集約装置及びプログラム
Saif et al. Weighting-based semantic similarity measure based on topological parameters in semantic taxonomy
Trieschnigg et al. Hierarchical topic detection in large digital news archives: exploring a sample based approach
Kuş et al. An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish
Tong et al. Integrating hedonic quality for user experience modelling
Choi et al. Specificity and exhaustivity of bibliographic classifications–A cross-cultural comparison with text analytic approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080724

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090707