JPWO2007108529A1

JPWO2007108529A1 - 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム

Info

Publication number: JPWO2007108529A1
Application number: JP2008506343A
Authority: JP
Inventors: 弘紀水口; 正明土田; 大久寿居; 河合　英紀; 英紀河合
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-03-23
Filing date: 2007-03-23
Publication date: 2009-08-06
Anticipated expiration: 2027-03-23
Also published as: US8886661B2; JP5083669B2; US20110161144A1; WO2007108529A1

Abstract

様々な形式の複数の文書から同種の語句を抽出することができるようにする。記憶装置４００は、様々な形式の複数の文書を記憶する。パターン候補作成手段１１は、辞書に含めるべき語句の中からサンプルとして選択された入力語のリストを受け取る。パターン候補作成手段１１は、文書を１つ選択し、その文書における入力語の前後の文字列をパターンの候補として決定し、パターン候補１６として記憶させる。パターン候補作成手段１１は、この処理を各文書毎に行う。語句候補作成手段１２は、パターン候補１６に含まれる各パターンに挟まれる語句を出力すべき語句の候補として抽出し、語句候補１７として記憶させる。語句選択手段１３は、語句候補１７に含まれる語句の候補のうち、所定の条件を満足する語句の候補を出力語として出力装置３００に出力させる。

Description

本発明は、情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステムに関し、特に利用者の所望の種類の語句を文書群より的確に抽出する情報抽出システム、情報抽出方法、情報抽出プログラム、および情報抽出システムを適用した情報サービスシステムに関する。

ある語句の種類（例えば、人名、地名等の種類）を知るためには、種類に応じた各種辞書（例えば、人名辞書や地名辞書）にその語句が掲載されているかどうかを調べればよい。例えば、ある語句が人名辞書に掲載されていれば、その語句の種類が人名であることがわかる。この場合、ある語句の種類を知るには、その種類に応じた辞書が必要である。

ここで、語句とは、単語または複数の単語のまとまりを指すものとする。複数の単語のまとまりの例として、例えば、複数の単語からなるフレーズ、ことわざや慣用句等が挙げられる。また、人名や地名等の固有名詞も語句の概念に含まれる。また、辞書とは、同種の語句のリストであるものとする。

このような辞書を作成する方法として、人が様々な大量の文書を読み、多くの語句を語句の種類に応じて分類し、辞書に含まれる語句として登録する方法が挙げられる。この方法では、同種の語句が集まっているという信頼性の高い辞書を作成できるが、人手による作業となるので手間がかかってしまう。

また、非特許文献１に辞書作成方法が記載されている。非特許文献１に記載された辞書作成方法では、同じ形式の文書群からパターンを自動的に作成し、パターン間の単語を抽出し、その単語を辞書に登録する。ここで、「同じ形式の文書」とは、文書中で抽出対象となる語句が同じパターンに隣接して出現している文書のことである。また、「パターン」とは、辞書に含める語句（抽出対象となる語句）とそうでない語句とを区切る文字列である。パターンには、抽出対象となる語句の前に位置するパターン（以下、前方パターンと記す。）と、抽出対象となる語句の後に位置するパターン（以下、後方パターン）とがある。

非特許文献１に記載された方法で会社名の辞書を作成する場合の例を以下に示す。まず、会社名が例えば表形式で整列して記述された同じ形式の文書群を、人が収集する。次に、人が、その文書群の中から数個の文書を選択し、その文書に含まれる会社名のリストを作成する。次に、プログラムに従って情報処理装置が、先に選択された文書中に出現する会社名の前方パターンおよび後方パータンを自動的に特定し、前方パターンおよび後方パターンに挟まれた単語（本例では会社名）を抽出する。最後に、抽出した単語を辞書に登録する。このように非特許文献１に記載された方法では、人が、サンプルとして選択した文書とその文書に出現する全ての単語リストを情報処理装置に与えることで、情報処理装置が自動的に辞書を作成する。

また、特許文献１には、二つの単語ａ，ｂのそれぞれの前後に文字列ｘ，ｙを結合したｘａｙ，ｘｂｙに関してスコア関数を定義して、二つの単語の関連性を判定することが記載されている。

ニコラス・クシュメリック（Nicholas Kushmerick），「ラッパー・インダクション：エフィシェンシー・アンド・エクスプレシブネス（Wrapper induction: Efficiency and expressiveness）」，アーティフィシャル・インテリジェンス Vol.118（2000）（Artificial Intelligence 118(2000)），２０００年，ｐ．１５−６８特開２００３−２５６４４７号公報（段落００２９−００３２）

非特許文献１に記載された方法では、同じ形式の文書群が入力されることを前提としている。従って、様々な形式の複数の文書から語句を抽出することは出来なかった。様々な形式の複数の文書から語句を抽出しようとする場合には、それぞれの形式の文書群毎に、人がサンプルとなる文書を選択し、その文書の中に含まれる語句のリストを作成しなければならない。そのため、手間がかかってしまうという問題があった。文書の形式には、例えば、スペースで語句を区切った表形式、タブで語句を区切った表形式、リスト形式、階層形式等様々な種類の形式がある。このような多くの種類の形式毎にサンプルとなる文書の選択や語句のリストの作成を行うことは非特許文献１に記載された方法の利用者にとって負担となる。

そこで本発明は、様々な形式の複数の文書から同種の語句を抽出することができる情報抽出システム、情報抽出方法、情報抽出プログラム、およびそのような情報抽出システムを適用した情報サービスシステムを提供することを目的とする。

本発明による情報抽出システムは、文書内の語句を文書から抽出して出力する情報抽出システムであって、複数の語句を含む入力語リストが入力される入力手段と、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行うパターン決定手段と、パターンによって区切られる文字列を、パターンの決定に用いた文書から抽出して語句の候補とする語句候補抽出手段と、語句候補抽出手段によって抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する語句選択手段とを備えたことを特徴とする。

本発明によれば、パターン決定手段が、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行う。そして、語句候補抽出手段が、パターンによって区切られる文字列を、パターンの決定に用いた文書から抽出して語句の候補とし、語句選択手段が、語句候補抽出手段によって抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する。従って、形式が異なる文書を含む複数の文書の中から同種の語句を抽出することができる。また、語句選択手段が、所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択するので、出力する語句の信頼性（同種の語句であることの信頼性）を高めることができる。

パターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の文字列をパターンとして決定し、語句候補抽出手段が、前方の文字列および後方の文字列によって挟まれる文字列を文書から抽出して語句の候補とし、語句選択手段が、語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を選択する構成であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアが所定のしきい値以上である語句の候補を出力対象の語句として選択する構成であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし所定の順位以上である語句の候補を出力対象の語句として選択する構成であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし上位の所定の割合の語句の候補を出力対象の語句として選択する構成であってもよい。

パターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、語句候補抽出手段が、前方の文字列に続く文字列、あるいは、後方の文字列の直前の文字列を文書から抽出して語句の候補とし、語句選択手段が、語句の候補に含まれる部分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する構成であってもよい。そのような構成によれば、不要な接尾辞あるいは接頭辞を除外した語句を出力することができる。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアが所定のしきい値以上である部分文字列を出力対象の語句として選択する構成であってもよい。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし所定の順位以上である部分文字列を出力対象の語句として選択する構成であってもよい。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし上位の所定の割合の部分文字列を出力対象の語句として選択する構成であってもよい。

形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索する文書検索手段を備え、パターン決定手段が、文書検索手段によって検索された文書毎にパターンの決定を行う構成であってもよい。そのような構成によれば、同種の語句が出現する可能性の高い文書を対象にしてパターンの決定をおこない、そのような文書においてパターンで区切られる文字列を語句の候補とするので、出力する語句の信頼性を高めることができる。

語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段に付与する再作成手段を備えた構成であってもよい。そのような構成によれば、入力語リストを付与された文書検索手段が再度、動作を開始するので、出力対象の語句として選択される語句の数を増加することができる。その結果、同種の語句を網羅的に抽出することができる。

語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手段に付与する再作成手段を備えた構成であってもよい。そのような構成によれば、入力語リストを付与されたパターン決定手段が再度、動作を開始するので、出力対象の語句として選択される語句の数を増加することができる。その結果、同種の語句を網羅的に抽出することができる。

また、本発明による情報サービスシステムは、上述のいずれかの情報抽出システムと、同種の語句のリストである辞書を記憶する辞書データベースと、辞書の作成および辞書の販売に伴い授受される金額を管理する辞書サービスシステムとを備え、辞書サービスシステムが、入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して、情報抽出システムから語句のリストを受け取り、語句のリストおよび入力語リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、辞書購入者の端末からの要求に応じて、辞書データベースに記憶されている辞書をその端末に送信する辞書提供手段と、辞書作成および辞書の販売に伴い授受される金額を記憶する金銭情報記憶手段と、辞書サービスシステムの運用者が入力語リスト作成者に対し辞書の作成の対価として支払うべき金額、および辞書購入者が辞書サービスシステムの運用者に辞書の対価として支払うべき金額を金銭情報記憶手段に記憶させる金額情報登録手段とを含むことを特徴とする。

流行している語句を記憶する流行キーワード記憶手段を備え、辞書サービスシステムが、流行キーワード記憶手段から流行している語句を読み込んで、入力語リスト作成者の端末に送信する流行キーワード提供手段を含む構成であってもよい。
また、本発明による情報サービスシステムは、上述のいずれかの情報抽出システムと、同種の語句のリストである辞書を記憶する辞書データベースと、広告を表示する広告表示装置からキーワードを受信して、広告表示装置に広告を送信する広告サービスシステムとを備え、広告サービスシステムが、入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して、情報抽出システムから語句のリストを受け取り、語句のリストおよび入力語リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、広告および広告に関連する関連キーワードを対応付けて記憶する広告記憶手段と、広告表示装置から受信したキーワードを含む辞書を辞書データベースに記憶された辞書の中から検索し、検索された辞書に含まれる語句に対応付けられた広告および広告表示装置から受信したキーワードに対応づけられた広告を広告記憶手段から読み込んで、広告表示装置に送信する広告提供手段とを含むことを特徴とする。

また、本発明による情報抽出方法は、文書内の語句を文書から抽出する情報抽出方法であって、入力手段が、複数の語句を含む入力語リストを入力し、パターン決定手段が、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行い、語句候補抽出手段が、パターンによって区切られる文字列を、パターンの決定に用いた文書から抽出して語句の候補とし、語句選択手段が、語句候補抽出手段によって抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択することを特徴とする。

パターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の文字列をパターンとして決定し、語句候補抽出手段が、前方の文字列および後方の文字列によって挟まれる文字列を文書から抽出して語句の候補とし、語句選択手段が、語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を選択する方法であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアが所定のしきい値以上である語句の候補を出力対象の語句として選択する方法であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし所定の順位以上である語句の候補を出力対象の語句として選択する方法であってもよい。

語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし上位の所定の割合の語句の候補を出力対象の語句として選択する方法であってもよい。

パターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、語句候補抽出手段が、前方の文字列に続く文字列、あるいは、後方の文字列の直前の文字列を文書から抽出して語句の候補とし、語句選択手段が、語句の候補に含まれる部分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する方法であってもよい。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアが所定のしきい値以上である部分文字列を出力対象の語句として選択する方法であってもよい。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし所定の順位以上である部分文字列を出力対象の語句として選択する方法であってもよい。

語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし上位の所定の割合の部分文字列を出力対象の語句として選択する方法であってもよい。

文書検索手段が、形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索し、パターン決定手段が、文書検索手段によって検索された文書毎にパターンの決定を行う方法であってもよい。

再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段に付与する方法であってもよい。

再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手段に付与する方法であってもよい。

また、本発明による情報抽出プログラムは、文書内の語句を文書から抽出して出力するコンピュータに搭載される情報抽出プログラムであって、コンピュータに、複数の語句を含む入力語リストを入力する入力処理、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行うパターン決定処理、パターンによって区切られる文字列を、パターンの決定に用いた文書から抽出して語句の候補とする語句候補抽出処理、および語句候補抽出処理で抽出された語句の候補または語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する語句選択処理を実行させることを特徴とする。

本発明によれば、様々な形式の複数の文書から同種の語句を抽出することができる。

本発明による情報抽出システムの第１の実施の形態を示すブロック図である。第１の実施の形態におけるデータ処理装置の動作の例を示すフローチャートである。文書群の一例を示す説明図である。入力語リストの一例を示す説明図である。パターン候補の一例を示す説明図である。語句候補の一例を示す説明図である。出力語リストの一例を示す説明図である。第２の実施の形態の動作の例を示すフローチャートである。文書群の一例を示す説明図である。第２の実施の形態におけるパターン候補の一例を示す説明図である。第２の実施の形態における語句候補の一例を示す説明図である。本発明による情報抽出システムの第３の実施の形態を示すブロック図である。本発明による情報抽出システムの第４の実施の形態を示すブロック図である。情報抽出システムの具体的な構成例を示すブロック図である。本発明の第５の実施の形態を示すブロック図である。辞書サービスシステムの構成例を示すブロック図である。本発明の第７の実施の形態を示すブロック図である。本発明の第８の実施の形態を示すブロック図である。広告サービスシステムと広告閲覧システムの構成例を示すブロック図である。

符号の説明

１１パターン候補作成手段
１２語句候補作成手段
１３語句選択手段
１４文書検索手段
１５文書群
１６パターン候補
１７語句候補
１８検索結果文書群
１９再作成手段
１００入力装置
２００データ処理装置
３００出力装置
４００記憶装置
５００情報抽出プログラム

以下、本発明の実施の形態を図面を参照して説明する。

実施の形態１．
図１は、本発明による情報抽出システムの第１の実施の形態を示すブロック図である。第１の実施の形態の情報抽出システムは、入力装置１００と、プログラム制御により動作するデータ処理装置２００と、出力装置３００と、情報を記憶する記憶装置４００とを含む。

入力装置１００は、情報が入力される入力デバイスである。入力装置１００として、例えばキーボードやマウス等が用いられる。

出力装置３００は、情報を出力する出力装置である。出力装置３００として、例えば、ディスプレイ装置、あるいはプリンタ等が用いられる。

記憶装置４００は、例えば、ハードディスクドライブ等の記憶装置であり、文書群１５とパターン候補１６と語句候補１７とを記憶する。

文書群１５は、語句を抽出する対象となる複数の文書である。具体的には、文書群１５は、個々の文書を識別するための識別情報（以下、文書ＩＤと記す。）と個々の文書本文とを含む情報である。各文書の本文と各文書ＩＤとは対応づけられている。

パターン候補１６は、パターン候補作成手段１１によって決定されたパターンの候補を含む情報である。具体的には、パターン候補１６は、パターンの候補、そのパターンの候補の決定に用いた文書の文書ＩＤ、およびパターンスコアを含む情報である。パターン候補作成手段１１とパターンスコアについては後述する。なお、既に述べたように、「パターン」とは、辞書に含める語句（抽出対象となる語句）とそうでない語句とを区切る文字列であり、パターンには、抽出対象となる語句の前に位置する前方パターンと、抽出対象となる語句の後に位置する後方パターンとがある。本実施の形態では、パターン候補１６は、パターンの候補として、前方パターン候補（前方パターンの候補となる文字列）および後方パターン候補（後方パターンの候補となる文字列）を含む。

語句候補１７は、語句候補作成手段１２によって文書本文から抽出された語句を含む情報である。具体的には、語句候補１７は、語句候補作成手段１２によって特定された語句の候補、文書ＩＤ、パターンスコアを含む情報である。語句候補作成手段１２については後述する。なお、既に述べたように、語句とは、単語または複数の単語のまとまりであり、単語だけでなく、複数の単語からなるフレーズ等も語句に該当する。

図１では、文書群１５、パターン候補１６、および語句候補１７が同一の記憶装置４００に記憶される場合を示しているが、文書群１５、パターン候補１６、および語句候補１７は複数の記憶装置に分けて記憶されていてもよい。例えば、文書群１５、パターン候補１６、および語句候補１７のうちの一部が、インターネット等の通信ネットワークを介してデータ処理装置２００に接続されている情報処理装置（図示せず。）に記憶されていてもよい。

データ処理装置２００は、パターン候補作成手段１１と、語句候補作成手段１２と、語句選択手段１３とを含む。

パターン候補作成手段１１は、入力装置１００に入力された入力語を入力データとして、文書群１５を参照し、文書内における入力語の出現位置の前後の文字列からパターンの候補を決定する。そして、パターン候補作成手段１１は、そのパターンの候補と、その候補の決定に用いた文書の文書ＩＤと、パターンスコアとを、パターン候補１６として記憶装置４００に記憶させる。

入力語とは、作成しようとする種類の辞書（同種の語句のリスト）に含めるべき語句のうち情報抽出システムの利用者がサンプルとして選択した語句である。

パターンスコアとは、パターンまたはパターンの候補の重要度を示すスコアである。パターンスコアは、例えば、文書内に出現する全ての入力語の延べ数に対する、パターンの候補によって区切られる入力語の数の割合で示される。本実施の形態では、文書内に出現する全ての入力語の数に対する、前方パターン候補および後方パターン候補に挟まれた入力語の数の割合をパターンスコアとする。

語句候補作成手段１２は、パターン候補１６に含まれるデータを入力データとして、文書群１５を参照し、パターン候補１６においてパターンの候補に対応付けられた文書ＩＤに対応する文書本文を、文書群１５から読み込む。そして、語句候補作成手段１２は、その文書本文におけるパターンの候補（本実施の形態では前方パターン候補および後方パターン候補）の出現位置を特定し、前方パターン候補および後方パターン候補に挟まれる文字列を文書本文から抽出する。ここで抽出された文字列が語句の候補となる。語句候補作成手段１２は、語句の候補、語句の候補の抽出に用いたパターンの候補の識別情報（以下、パターンＩＤと記す。）、およびそのパターンの候補のパターンスコアを対応付けて、語句候補１７として記憶装置４００に記憶させる。

語句選択手段１３は、語句候補１７を入力データとして、語句の候補のうち、所定の条件を満たす語句を選択し、その語句を出力装置３００に出力する。語句選択手段１３は、語句の候補の特定に用いたパターンの候補の重要度の高さや、語句の候補が出現する文書の多さを示す数値が高い語句を選択する。

次に、動作について説明する。
図２は、本実施の形態におけるデータ処理装置２００の動作の例を示すフローチャートである。

情報抽出システムは、動作前に文書群１５をあらかじめ記憶装置４００に記憶しておく。文書群１５の一例を図３に示す。文書群１５は、文書を識別するための文書ＩＤと文書本文を含み、１レコードは１文書に対応する。１レコードには、１つの文書ＩＤと、その文書ＩＤに対応する文書本文が含まれる。図３に示す例では、「文書Ａ」等の各文書ＩＤおよびその文書ＩＤに対応する文書本文を図示している。文書本文のうち図示を省略した部分は、図３において「・・・」と表している。

図３は、文書群１５の一例を示すものであり、ファイルシステムで管理されるファイルや、インターネットを介して入手可能な文書を文書群１５として記憶装置４００に記憶していてもよい。例えば、文書ＩＤとしてファイルパスやＵＲＬを記憶し、文書本文として、そのファイルパスやＵＲＬに対応するデータを記憶していてもよい。

まず、利用者によって、入力装置１００（図１参照。）に入力語のリスト（以下、入力語リストと記す。）が入力される。入力語リストは、作成しようとする種類の辞書（同種の語句のリスト）に含めるべき語句のうち情報抽出システムの利用者がサンプルとして選択した数個の語句である。換言すれば、入力語リストは、利用者の所望の種類の数個の語句である。入力語リストの一例を図４に示す。図４に示す例では、製品名という種類に該当する語句の入力語リストを表している。

入力装置１００は、入力された入力語リストをデータ処理装置２００に送る。すなわち、データ処理装置２００には、入力装置１００から入力語リストが入力される。入力語リストが入力された後、データ処理装置２００は、図２に示すフローチャートに沿って動作する。

まず、パターン候補作成手段１１が文書群１５から１レコード分のデータ（１つの文書ＩＤおよびその文書ＩＤに対応する文書本文）を取り出し、その文書本文における入力語の出現位置を特定する（図２に示すステップＳ１）。パターン候補作成手段１１は、ステップＳ１で、入力語リストに含まれる各入力語の出現位置を特定する。なお、ステップＳ１で取り出すデータは１レコードである。従って、ステップＳ１から後述のステップＳ３までの処理は、１文書毎に行う。

例えば、ステップＳ１で図３に示す文書ＩＤ「文書Ｂ」に対応する文書本文を選択して取り出しているとする。文書ＩＤ「文書Ｂ」に対応する文書本文には、図４に示す入力語リストのうち、「製品Ａ」と「製品Ｂ」と「製品Ｃ」が出現している。パターン候補作成手段１１は、選択した文書本文におけるこれらの各入力語の出現位置を特定する。

出現位置は、各入力語の文字列の開始位置および終了位置によって表されるが、他の表し方で出現位置を表してもよい。例えば、入力語の文字列の開始位置と入力語の長さの組み合わせ等によって出現位置を表してもよい。本例では、入力語の文字列の開始位置および終了位置で出現位置を表すものとする。

次に、パターン候補作成手段１１は、文書本文から、入力語の出現位置の前方と後方の文字列を所定の文字数分だけ取得して、パターンの候補を決定する（図２に示すステップＳ２）。

パターン候補作成手段１１は、以下のようにパターンの候補を決定する。すなわち、パターン候補作成手段１１は、取得した各前方の文字列のうち、共通部分を抽出し、その共通部分をパターンの候補（前方パターン候補）として決定する。共通部分は、少なくとも２つの前方の文字列で共通であればよい。ただし、その共通部分は、入力語の直前に位置することを前提とする。また、パターン候補作成手段１１は、取得した所定の文字数分の前方の文字列全体が他の前方の文字列と共通でなくても、その所定の文字数分の前方の文字列全体をパターンの候補（前方パターン候補）として決定する。同様に、パターン候補作成手段１１は、取得した各後方の文字列のうち、共通部分を抽出し、その共通部分をパターンの候補（後方パターン候補）として決定する。共通部分は、少なくとも２つの後方の文字列で共通であればよい。ただし、その共通部分は、入力語の直後であることを前提とする。また、パターン候補作成手段１１は、取得した所定の文字数分の後方の文字列全体が他の後方の文字列と共通でなくても、その所定の文字数分の文字列全体をパターンの候補（後方パターン候補）として決定する。

入力語の出現位置の前方と後方から取り出す文字列の文字数（所定の文字数）は、予め定められていてもよい。あるいは、入力装置１００を介して、利用者からパターン候補作成手段１１に文字数が入力され、パターン候補作成手段１１は、その文字数を所定の文字数として定めてもよい。

所定の文字数が「１０」であるものとして、パターン候補作成手段１１が前方パターン候補および後方パターン候補を決定する例を示す。また、ステップＳ１では、文書ＩＤ「文書Ｂ」に対応する文書本文（図３参照。）が選択されたものとする。この文書本文では、入力語「製品Ａ」の前方の文字列（１０文字分の文字列）は、「ｓｉｚｅ＝“１０”＞」である。「製品Ｂ」の前方の文字列（１０文字分）も同様に、「ｓｉｚｅ＝“１０”＞」である。また、この文書本文では、入力語「製品Ｃ」は二回出現している。そのうちの１つの「製品Ｃ」の前方の文字列（１０文字分）は、「ｓｉｚｅ＝“１０”＞」であり、もう１つの「製品Ｃ」の前方の文字列（１０文字分）は、「ｎｔ＞＜ｐ＞＜ｂ＞・」である。パターン候補作成手段１１は、各前方文字列を比較して、共通部分となる文字列を抽出する。本例では、４回出現した入力語のうち３つの入力語で「ｓｉｚｅ＝“１０”＞」が共通であるので、パターン候補作成手段１１は、「ｓｉｚｅ＝“１０”＞」を前方パターン候補として決定する。また、１０文字分の文字列「ｎｔ＞＜ｐ＞＜ｂ＞・」全体は、「ｓｉｚｅ＝“１０”＞」と共通ではないが、この１０文字分の文字列「ｎｔ＞＜ｐ＞＜ｂ＞・」も前方パターン候補として決定する。

後方パターン候補についても同様に決定する。この文書本文では、入力語「製品Ａ」の後方の文字列（１０文字分）は、「＜／ｆｏｎｔ＞＜ｂｒ」である。「製品Ｂ」の後方の文字列（１０文字分）は、「＜／ｆｏｎｔ＞＜ｂｒ」である。２回出現する「製品Ｃ」のうち、１つの「製品Ｃ」の後方の文字列（１０文字分）は、「＜／ｆｏｎｔ＞＜ｐ＞」であり、もう１つの「製品Ｃ」の後方の文字列（１０文字分）は、「のカテゴリ＜ｂ＞＜ｂ」である。パターン候補作成手段１１は、各後方文字列を比較して、共通部分となる文字列を抽出する。本例では、４回出現した入力語のうち３つの入力語で「＜／ｆｏｎｔ＞＜」が共通であるので「＜／ｆｏｎｔ＞＜」を後方パターン候補として決定する。また、４回出現した入力語のうち２つの入力語で「＜／ｆｏｎｔ＞＜ｂｒ」が共通であるので、「＜／ｆｏｎｔ＞＜ｂｒ」を後方パターン候補として決定する。また、１０文字分の文字列「＜／ｆｏｎｔ＞＜ｐ＞」全体や、「のカテゴリ＜ｂ＞＜ｂ」全体は、他と共通ではないが、パターン候補作成手段１１は、「＜／ｆｏｎｔ＞＜ｐ＞」全体や、「のカテゴリ＜ｂ＞＜ｂ」全体も後方パターン候補として決定する。

次に、パターン候補作成手段１１は、前方パターン候補群と後方パターン候補群の組合せから、パターンスコアを計算し、その計算結果を記憶装置４００に記憶させる（図２に示すステップＳ３）。ステップＳ３では、パターン候補作成手段１１は、１つの前方パターン候補と１つの後方パターン候補のペアと、そのペアを識別するパターンＩＤと、パターン候補の決定に用いた文書本文（ステップＳ１で取り出した文書本文）の文書ＩＤと、パターンスコアとを対応付けて、パターン候補１６として記憶装置４００に記憶させる。

既に説明したように、パターンスコアとは、パターンまたはパターンの候補の重要度を示すスコアである。本実施の形態では、前方パターン候補と後方パターン候補のペア毎にパターンスコアを計算する。パターンスコアとして、例えば、前方パターン候補と後方パターン候補のペアに挟まれた語句が入力語である確率や、パターンの文字列の長さ等が考えられる。本実施の形態では、文書内に出現する全ての入力語の延べ数に対する、前方パターン候補および後方パターン候補に挟まれた入力語の数の割合をパターンスコアとする。すなわち、パターン候補作成手段１１は、「前方パターン候補および後方パターン候補に挟まれた入力語の数／文書内に出現する全ての入力語の数」を計算してパターンスコアを算出すればよい。このパターンスコアは、前方パターン候補と後方パターン候補のペアに挟まれた語句が入力語である確率を表している。前方パターン候補と後方パターン候補のペアによって抽出できる入力語の数が多いほど、そのペアは重要なパターンと考えられるので、本実施の形態では、上記のようにパターンスコアを算出する。

先に例示した前方パターン候補および後方パターン候補を用いて、パターンスコアの計算例を示す。例えば、前方パターン候補「ｓｉｚｅ＝“１０”＞」と後方パターン候補「＜／ｆｏｎｔ＞＜」のペアでは、間に挟まれる入力語として「製品Ａ」「製品Ｂ」「製品Ｃ」がある（図３に示す「文書Ｂ」参照。）。従って、前方パターン候補および後方パターン候補に挟まれた入力語の数は３である。また、「製品Ｃ」は文書中に２回出現しているので、「文書Ｂ」に出現する全ての入力語の数は４である。従って、パターン候補作成手段１１は、パターンスコアを「３／４」と算出する。

パターン候補作成手段１１は、他のペアについても同様にパターンスコアを算出する。前方パターン候補「ｓｉｚｅ＝“１０”＞」と後方パターン候補「＜／ｆｏｎｔ＞＜ｂｒ」のペアでは、パターンスコアは「２／４」と算出される。前方パターン候補「ｓｉｚｅ＝“１０”＞」と後方パターン候補「のカテゴリ＜ｂ＞＜ｂ」のペアでは、パターンスコアは「０／４」と算出される。

また、パターン候補作成手段１１は、前方パターン候補と後方パターン候補のペアに対してパターンＩＤを割り当て、パターンＩＤ、文書ＩＤ、前方パターン候補と後方パターン候補のペア、およびパターンスコアとを対応付けて、パターン候補１６として記憶装置４００に記憶させる。図５は、パターン候補１６の一例を示す説明図である。図５に示すように、パターン候補１６は、パターンＩＤと、文書ＩＤと、前方パターン後方と、後方パターン候補と、パターンスコアとを含んでいる。１レコードは、１組の前方パターン候補と後方パターン候補のペアに対応する。図５に示す例において、図示を省略したレコードは「・・・」と表している。また、ここでは、計算したパターンスコアが「０」である場合、パターン候補作成手段１１がそのパターンスコアを含むレコードを記憶装置４００に記憶させない場合を例に示している。図５においても、パターンスコアが「０」となるレコードは示していない。

ステップＳ３の後、パターン候補作成手段１１は、文書群１５に含まれる全ての文書を取り出して、全ての文書に対してステップＳ３までの処理を実行したか否かを判定する（図２に示すステップＳ４）。ステップＳ１〜Ｓ３の処理を実行していない文書が残っている場合（ステップＳ４のＮ）、ステップＳ１に移行し、ステップＳ１以降の処理を繰り返す。全ての文書に対してステップＳ３までの処理を実行したならば、ステップＳ５に移行する。

ステップＳ５では、語句候補作成手段１２は、記憶装置４００に記憶されるパターン候補１６から１レコードを取り出し、文書ＩＤに対応する文書本文における前方パターン候補と後方パターン候補の出現位置を特定する（図２に示すステップＳ５）。まず、ステップＳ５において、語句候補作成手段１２は、まず、パターン候補１６から１レコードを取り出す。そして、語句候補作成手段１２は、そのレコードに含まれる文書ＩＤに対応する文書本文を文書群１５の中から読み込む。語句候補作成手段１２は、その文書本文の中で、取り出したレコードに含まれる前方パターン候補と後方パターン候補の出現位置を特定する。

図５に例示するパターン候補１６の２レコード目を語句候補作成手段１２が取り出した場合を例にして、ステップＳ５における語句候補作成手段１２の動作を説明する。図５に例示する２レコード目のデータには、文書ＩＤとして「文書Ｂ」が含まれている。また、前方パターン候補として「ｓｉｚｅ＝“１０”＞」が含まれ、後方パターン候補として「＜／ｆｏｎｔ＞＜」が含まれている。従って、語句候補作成手段１２は、記憶装置４００に記憶される文書群１５のなから「文書Ｂ」に対応する文書本文を読み込む。そして、語句候補作成手段１２は、その文書本文における前方パターン候補「ｓｉｚｅ＝“１０”＞」の出現位置と、後方パターン候補「＜／ｆｏｎｔ＞＜」の出現位置を特定する。

ステップＳ５の後、語句候補作成手段１２は、前方パターン候補の出現位置と後方パターン候補の出現位置に基づいて、その前方パターン候補と後方パターン候補に挟まれる文字列を語句の候補として抽出する。そして、語句候補作成手段１２は、抽出した語句の候補と、その語句の候補を抽出した文書の文書ＩＤと、その語句の候補の抽出に用いたパターンの候補（前方パターン候補と後方パターン候補のペア）のパターンＩＤと、そのパターンスコアとを対応させて、語句候補１７として記憶装置４００に記憶させる（図２に示すステップＳ６）。

ただし、「語句の候補となる文字列の出現位置は、前方パターン候補の出現位置と後方パターン候補の出現位置を含まない。」という条件を満足するように、語句候補作成手段１２は、語句の候補を文書本文から抽出する。すなわち、文書本文から抽出される語句の候補の文字列には、前方パターン候補や後方パターン候補は含まれない。例えば、図５に例示するパターン候補１６の２レコード目に含まれる文書ＩＤ（「文書Ｂ」）に対応する文書本文では、前方パターン候補「ｓｉｚｅ＝“１０”＞」と後方パターン候補「＜／ｆｏｎｔ＞＜」に挟まれる文字列として、「製品Ｂ＜／ｆｏｎｔ＞＜ｂｒ＞＜ｆｏｎｔｓｉｚｅ=“１０”>製品Ａ」という文字列が存在する。この文字列の出現位置には、後方パターン候補「＜／ｆｏｎｔ＞＜」の出現位置も含まれている。従って、語句候補作成手段１２は、このような文字列は語句の候補として採用しない。

また、語句候補作成手段１２は、入力語と同一の文字列も語句の候補として採用しない。従って、入力語と同一の文字列が語句候補１７として記憶されることはない。

語句候補作成手段１２は、このように抽出した語句の候補と、その語句の候補を抽出した文書の文書ＩＤと、その語句の候補の抽出に用いたパターンの候補（前方パターン候補と後方パターン候補のペア）のパターンＩＤと、そのパターンスコアとを対応させて、語句候補１７として記憶装置４００に記憶させる。図６は、語句候補１７の一例を示す説明図である。図６に示すように、語句候補１７は、文書ＩＤと、文書本文から抽出された文字列（語句の候補）と、パターンＩＤと、パターンスコアとを含んでいる。語句候補１７における１レコードは、１つの語句の候補に対応する。

ステップＳ６の後、語句候補作成手段１２は、パターン候補１６に含まれる全てのレコード（全てのパターン候補）についてステップＳ５，Ｓ６の処理を実行したか否かを判定する（図２に示すステップＳ７）。ステップＳ５，Ｓ６の処理を実行していないレコードがパターン候補１６に残っている場合（ステップＳ７のＮ）、ステップＳ５に移行し、ステップＳ５以降の処理を繰り返す。パターン候補１６の全てのレコードに対してステップＳ５，Ｓ６の処理を実行したならば（ステップＳ７のＹ）、ステップＳ８に移行する。

ステップＳ８では、語句選択手段１３は、語句候補１７を参照して、文書から抽出された語句の候補を選択し、その語句の候補の語句スコアを計算する（図２に示すステップＳ８）。語句選択手段１３は、ステップＳ８において、まず、語句の候補の文字列が同一であるレコードを語句候補１７から抜き出し、抜き出したレコードに共通の語句の候補の語句スコアを計算する。語句スコアとは、語句の候補の特定に用いたパターンの候補の重要度の高さや、語句の候補が出現する文書の多さを示す数値である。語句スコアの値が高いほど、パターンの候補の重要度が高く、語句の候補が出現する文書の数が多いことを示す。語句スコアとして、語句の候補の文字列が同一である各レコードに含まれるパターンスコアの平均値または合計値を用いることができる。また、語句の候補の文字列が同一である各レコードに含まれる文書ＩＤの種類数を語句スコアとして用いてもよい。これらは語句スコアの例示であり、他の計算値を語句スコアとしてもよい。ここでは、語句選択手段１３が、語句の候補の文字列が同一であるレコードを語句候補１７から抜き出したのち、その各レコードを文書ＩＤで分類して文書ＩＤ毎にパターンスコアの平均値を計算し、文書ＩＤ毎に計算した平均値の合計を語句スコアとする場合を例にして説明する。この語句スコアの計算方法では、１つの文書にある語句の候補が複数回出現する場合を考慮して、文書ＩＤ毎にパターンスコアの平均値を計算している。そして、複数の文書で出現する語句の候補に、より大きなスコアを割り当てるために、文書ＩＤ毎に計算したパターンスコアの平均値の合計を語句スコアとしている。

例えば、図６の語句候補１７に含まれる語句の候補「製品Ｄ」の語句スコアは、以下のように計算される。語句の候補が「製品Ｄ」であり、文書ＩＤが「文書Ａ」であるレコードは１つしかなく、そのパターンスコアは「３／３」である。語句の候補が「製品Ｄ」であり、文書ＩＤが「文書Ｂ」であるレコードは２つあり、そのパターンスコアは、それぞれ「３／４」、「２／４」である。この平均値は「（３／４＋２／４）／２」である。語句の候補が「製品Ｄ」であり、文書ＩＤが「文書Ｄ」であるレコードは１つしかなく、そのパターンスコアは「２／２」である。従って、語句選択手段１３は、「３／３＋（３／４＋２／４）／２＋２／２＝２．６２５」と語句スコアを計算する。

次に、語句候補１７の全てのレコードについて、ステップＳ８の処理を完了したか否かを判定する（図２に示すステップＳ９）。ステップＳ８の処理が行われていないレコードが残っている場合、すなわちステップＳ８で選択されていないレコードが残っている場合（ステップＳ９のＮ）、ステップＳ８に移行し、ステップＳ８以降の処理を繰り返す。語句候補１７の全てのレコードについて、ステップＳ８の処理を完了した場合（ステップＳ９のＹ）、ステップＳ１０に移行する。

ステップＳ１０では、語句選択手段１３は、語句スコアに基づいて、出力すべき語句の候補を選択する（図２に示すステップＳ１０）。出力すべき語句の候補の選択方法として、語句スコアの値が所定のしきい値以上である語句の候補を選択する方法がある。また、語句スコアの高い順に語句の候補をソートし、所定の順位以上である語句の候補を選択する方法がある。また、語句スコアの高い順に語句の候補をソートし、上位の所定の割合の語句の候補を選択してもよい。ここでは、語句スコアの高い順に語句の候補をソートし、上位の所定の割合の語句の候補を選択する場合を例にする。この場合、語句選択手段１３は、例えば、語句スコアの高い上位１０％の語句の候補を選択する。ここでは、所定の割合として上位１０％を例示したが、所定の割合は１０％でなくてもよい。また、上記の各選択方法における所定のしきい値、所定の順位、所定の割合は、予め定められていてもよい。あるいは、入力装置１００を介して、利用者から入力されてもよい。

このように、語句スコアの高い語句の候補を選択することによって、より多くの文書に出現する語句や、重要度の高いパターンによって抽出された語句を選択することができる。

なお、既に説明したように、語句の候補の文字列が同一である各レコードに含まれるパターンスコアの平均値あるいは合計値を語句スコアとしてもよい。あるいは、語句の候補の文字列が同一である各レコードに含まれるパターンＩＤによって特定されるパターンの候補（本実施の形態では前方パターン候補および後方パターン候補）の文字数の平均値を語句スコアとしてもよい。このように語句スコアを計算した場合であっても、出力すべき語句の候補の選択は、上述のように行えばよい。例えば、語句スコアの値が所定のしきい値以上である語句の候補を選択すればよい。あるいは、語句スコアの高い順に語句の候補をソートし、所定の順位以上である語句の候補を選択してもよい。また、あるいは、語句スコアの高い順に語句の候補をソートし、上位の所定の割合の語句の候補を選択してもよい。

最後に、語句選択手段１３は、選択した語句の候補の集合を出力語リストとして出力装置３００に出力（例えば、表示出力、あるいは印字出力）させる。出力語は、ステップＳ１０で選択された語句の候補である。出力語リストの一例を図７に示す。図７では、選択した語句の候補とともに、その語句スコアも出力する場合を示している。

情報抽出システムの利用者は、出力語リストに含まれる出力語と自身が入力した入力語とを含む辞書を作成すればよい。また、利用者は、各出力語に対応する語句スコアを参照して、個々の出力語を辞書に含めるべきか否かを精査してもよい。

次に、本実施の形態の効果について説明する。

本実施の形態では、パターン候補作成手段１１が１つずつ文書を文書群１５から取り出し、各文書本文からパターンの候補を決定し、パターンの候補を用いて語句の候補を文書から抽出する。従って、文書形式に依存せずに語句の抽出を行うことができる。すなわち、文書群１５に様々な文書形式の文書が含まれていたとしても、各文書から入力語と同種の語句を抽出することができる。

また、本実施の形態では、さらに、パターン候補作成手段１１によって決定されたパターンの候補を用いて、語句候補作成手段１２が語句の候補を抽出し、語句選択手段１３が語句スコアに基づいて語句の候補を選択する。そして、その選択された語句の候補が出力語として出力される。従って、出力された語句の信頼度を確保することができる。

実施の形態２．
第２の実施の形態の情報抽出システムは、第１の実施の形態と同様であり、第２の実施の形態の情報抽出システムも図１のように示すことができる。ただし、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３の処理内容が第１の実施の形態とは異なる。

第２の実施の形態では、パターン候補作成手段１１は、前方または後方のみのパターンの候補を決定する。すなわち、本実施の形態では、パターン候補作成手段１１は、パターンの候補として、前方パターン候補のみ、あるいは後方パターン候補のみを決定する。

また、第２の実施の形態では、語句候補作成手段１２は、前方パターン候補のみ、あるいは後方パターン候補のみに基づいて語句候補１７を作成する。従って、前方パターン候補のみを考慮した処理、または、後方パターン候補のみを考慮した処理を実現することができる。

第２の実施の形態では、前方パターン候補のみ、あるいは後方パターン候補のみに基づいて語句の候補となる文字列を決定することで、不必要な接尾辞や接頭辞を除去することが可能となる。不必要な接頭辞や接尾辞とは、文書テキスト中で注意を喚起するために付与する、「＊」や「＃」といった記号等のことである。

第２の実施の形態では、前方パターン候補のみ、または、後方パターン候補のみを用いることによって、このような不必要な接尾辞や接頭辞の除去を実現し、これによって出力語の信頼性向上を図る。

次に、本実施の形態の動作について説明する。図８は、本実施の形態の動作の例を示すフローチャートである。図８に示すフローチャートは、第１の実施の形態の動作を示すフローチャート（図２参照。）と以下の点で異なる。すなわち、図２に示すステップＳ２，Ｓ３，Ｓ５，Ｓ６，Ｓ８の処理が、それぞれ、ステップＳ２１，Ｓ３１，Ｓ５１，Ｓ６１，Ｓ８１の処理に置き換わっている点で異なる。ステップＳ２１，Ｓ３１，Ｓ５１，Ｓ６１，Ｓ８１の処理については後述する。

以下の説明では、第１の実施の形態と異なる処理内容について述べ、第１の実施の形態と同様の処理については説明を省略する。また、以下の例では、パターンの候補として前方パターン候補のみを用いる例を示すが、パターンの候補として後方パターン候補のみを用いる場合も同様である。パターンの候補として前方パターン候補と後方パターン候補のどちらを用いるかを示す情報をデータ処理装置２００が保持しておき、その情報に従って前方パターン候補のみ、あるいは後方パターン候補のみを用いてもよい。あるいは、パターンの候補として前方パターン候補か後方パターン候補のどちらを用いるかを示す情報が、入力装置１００を介して利用者から入力され、データ処理装置２００は、その情報に従って、前方パターン候補のみ、あるいは後方パターン候補のみを用いてもよい。

ステップＳ１の後のステップＳ２１では、パターン候補作成手段１１は、前方パターン候補のみ、あるいは後方パターン候補のみを決定する。前方パターン候補を決定する動作、後方パターン候補を決定する動作は、第１の実施の形態と同様である。

例えば、記憶装置４００（図１参照。）が文書群１５として、図９に例示する文書群を記憶していて、ステップＳ１では、文書ＩＤ「文書Ｂ」に対応する文書本文（図３参照。）が選択されたものとする。なお、図９は、文書群１５の一例を示す説明図であり、「文書Ｂ」に対応する文書本文において、文字列「製品Ｄ」の後に文字「＊」が追加されている点で、図３に例示する文書群とは異なっている。また、入力語リストとして、第１の実施の形態で例示した場合と同様に図４に例示する入力語リストが入力されているものとする。ここでは、パターン候補作成手段１１が前方パターン候補のみを決定する場合を例示する。前方パターン候補を決定する動作は第１の実施の形態と同様である。従って、パターン候補作成手段１１は、「文書Ｂ」に対応する文書本文から「ｓｉｚｅ＝“１０”＞」、「ｎｔ＞＜ｐ＞＜ｂ＞・」を抽出して、この２つの文字列を前方パターン候補として決定する。

ステップＳ２１の後、パターン候補作成手段１１は、パターンスコアを計算し、その計算結果を記憶装置４００に記憶させる（ステップＳ３１）。第２の実施の形態では、パターン候補作成手段１１は、前方パターン候補のみ、あるいは後方パターン候補のみからパターンスコアを計算する。本実施の形態では、前方パターン候補のみからパターンスコアを計算する場合、文書内に出現する全ての入力語の延べ数に対する、入力語出現位置の前方の前方パターン候補出現数の割合をパターンスコアとすればよい。すなわち、パターン候補作成手段１１は、「入力語出現位置前方の前方パターン候補出現数／文書中に出現する全ての入力語数」を計算してパターンスコアを算出すればよい。また、後方パターン候補のみからパターンスコアを計算する場合、文書内に出現する全ての入力語の延べ数に対する、入力語出現位置の後方の後方パターン候補出現数の割合をパターン候補とすればよい。すなわち、パターン候補作成手段１１は、「入力語出現位置後方の後方パターン候補出現数／文書中に出現する全ての入力語数」を計算してパターンスコアを算出すればよい。

ここでは、前方パターン候補のみからパターンスコアを計算する場合を例示する。例えば、文書ＩＤ「文書Ｂ」に対応する文書本文を参照すると、「製品Ａ」、「製品Ｂ」、「製品Ｃ」の入力語の前方における前方パターン候補「ｓｉｚｅ＝“１０”＞」の出現数は３である。また、この文書本文では、入力語「製品Ａ」、「製品Ｂ」、「製品Ｃ」は、延べ４つ出現している。従って、パターン候補作成手段１１は、「ｓｉｚｅ＝“１０”＞」のパターンスコアを「３／４」と算出する。パターン候補作成手段１１は、他の前方パターン候補についても同様にパターンスコアを算出する。

パターン候補作成手段１１は、各前方パターン候補（後方パターン候補のみを用いて処理を実行する場合には各後方パターン候補）に対してパターンＩＤを割り当て、パターンＩＤと、前方パターン候補（または後方パターン候補）と、その前方パターン候補（または後方パターン候補）の決定に用いた文書本文の文書ＩＤと、パターンスコアとを対応付けて、パターン候補１６として記憶装置４００に記憶させる。図１０は、第２の実施の形態におけるパターン候補１６の一例を示す説明図である。図１０に示すように、本実施の形態におけるパターン候補１６は、パターンＩＤと、文書ＩＤと、前方パターン候補と、パターンスコアとを含んでいる。１レコードは、１つの前方パターン候補に対応する。ステップＳ２１で後方パターン候補のみを決定した場合には、前方パターン候補の代わりに後方パターン候補を含む。

ステップＳ３１の後、第１の実施の形態と同様にステップＳ４の判定処理を行い、文書群１５に含まれる全ての文書に対してステップＳ１，Ｓ２１，Ｓ３１の処理を実行したならば、ステップＳ５１に移行する。

ステップＳ５１では、語句候補作成手段１２は、記憶装置４００に記憶されるパターン候補１６から１レコードを取り出し、文書ＩＤに対応する文書本文における前方パターン候補の出現位置を特定する（ステップＳ５１）。ただし、後方パターン候補のみを用いて処理を実行する場合（すなわちステップＳ２１で後方パターン候補のみを決定した場合）には各後方パターン候補の出現位置を特定する。

ステップＳ５１の後、語句候補作成手段１２は、語句の候補を特定する（ステップＳ６１）。ステップＳ２１で前方パターン候補のみを決定した場合、前方パターン候補に続く所定の文字数の文字列を語句の候補として特定する。また、ステップＳ２１で後方パターン候補のみを決定した場合、後方パターン候補の直前の所定の文字数の文字列を語句の候補として特定する。なお、この所定の文字数は、予め定められていてもよい。あるいは、入力装置１００を介して利用者から文字数が入力され、語句候補作成手段１２は、その文字数を所定の文字数として定めてもよい。

例えば、所定の文字数が６であり、図１０に示すパターン候補１６の２レコード目に含まれる前方パターン候補を用いて語句の候補を特定する場合を例示する。図１０に示すパターン候補１６の２レコード目に含まれる文書ＩＤは、「文書Ｂ」である。従って、語句候補作成手段１２は、「文書Ｂ」の文書本文における前方パターン候補「ｓｉｚｅ＝“１０”＞」に続く６文字分の文字列を語句の候補を抽出し、語句の候補とする。すなわち、語句候補作成手段１２は、「文書Ｂ」の文書本文から「製品Ｄ＊＜／」を抽出し、語句の候補とする。

ただし、語句候補作成手段１２は、前方パターン候補の直後（または、後方パターン候補の直前）に入力語を含む文字列は語句の候補として採用しない。

語句候補作成手段１２は、特定した語句の候補と、その語句の候補を抽出した文書の文書ＩＤと、その語句の特定に用いたパターンの候補（前方パターン候補あるいは後方パターン候補）のパターンＩＤと、そのパターンスコアとを対応させて、語句候補１７として記憶装置４００に記憶させる。図１１は、本実施の形態における語句候補１７の一例を示す。本実施の形態における語句候補１７は、第１の実施の形態の場合と同様に、文書ＩＤと語句の候補とパターンＩＤとパターンスコアとを含んでいる。語句候補１７における１レコードは、１つの語句の候補に対応する。ただし、本実施の形態では、それぞれの語句の候補の文字数は所定の文字数（本例では６）であり、不必要な接尾辞やタグ文字列等が付加されたままになっている。

ステップ６１の後、第１の実施の形態と同様にステップＳ７の判定処理を行い、パターン候補１６（図１０参照。）の全てのレコードに対してステップＳ５１，Ｓ６１の処理を実行したならば、ステップＳ８１に移行する。

ステップＳ８１では、語句選択手段１３は、語句候補１７を参照して語句の候補を選択し、その語句の候補の語句スコアを計算する（ステップＳ８１）。ステップＳ８１において、まず、語句選択手段１３は、語句候補１７から１レコードを抜き出す。語句選択手段１３は、そのレコードに含まれる語句の候補の部分文字列を作成する。前方パターン候補から決定された語句の候補の場合、その語句の候補の先頭文字のみからなる部分文字列、先頭文字からその次の文字までで構成した部分文字列、・・・、先頭文字から最終文字までで構成した部分文字列をそれぞれ作成する。後方パターン候補から決定された語句の候補の場合、その語句の候補の最終文字のみからなる部分文字列、最終文字からその１つ前までの文字までで構成した部分文字列、・・・、最終文字から先頭文字までで構成した部分文字列をそれぞれ作成する。次に、語句選択手段１３は、語句候補１７を参照し、作成した部分文字列を含むレコードを検索する。そして、語句選択手段１３は、部分文字列を含むレコード数の全レコード数に占める割合が所定の範囲内であるか否かを判定する。語句選択手段１３は、作成したそれぞれの部分文字列に対してこの判定処理を行い、部分文字列を含むレコード数の全レコード数に占める割合が所定の範囲内となっている部分文字列を語句スコアの計算対象とする。ここで、上記の所定の範囲を示す情報を語句候補選択手段１３が予め保持していてもよい。あるいは、所定の範囲を示す情報が入力装置１００を介して利用者から入力され、語句選択手段１３は、その所定の範囲を用いて上記の判定処理を行ってもよい。所定の割合は、例えば、２０％〜４０％の範囲とすることが好ましいが、この範囲に限定されるわけではない。

語句選択手段１３は、語句スコアの判定対象とした部分文字列を含むレコードを語句候補１７（図１１参照。）から抜き出し、その部分文字列の語句スコアを計算する。この語句スコアの計算は第１の実施の形態で説明した計算と同様に行えばよい。

図１１に例示する語句候補１７の１レコード目を取り出した場合を例にしてステップＳ８１の具体例を説明する。この場合、語句選択手段１３は、語句の候補「製品Ｄ＜／ｔ」から部分文字列を作成し、「製」、「製品」、「製品Ｄ」、「製品Ｄ＜」、「製品Ｄ＜／」、「製品Ｄ＜／ｔ」の６つの部分文字列を得る。語句選択手段１３は、各部分文字列を含むレコードを検索する。部分文字列「製」および「製品」に関しては、図１１に示す語句候補１７のうち１，２，３，４，５，８，９，１０レコード目の８個のレコードを検索する。部分文字列「製品Ｄ」に関しては、１，４，９レコード目の３個のレコードを検索する。部分文字列「製品Ｄ＜」、「製品Ｄ＜／」、「製品Ｄ＜／ｔ」に関しては、それぞれ４レコード目の１個のレコードを検索する。そして、語句選択手段１３は、部分文字列を含むレコード数の全レコード数に占める割合が所定の範囲内（本例では２０％〜４０％の範囲内とする。）となっている部分文字列を語句スコアの計算対象とする。図１１に示す例では全レコード数は１０個なので、「製品Ｄ」を語句スコアの計算対象とする。

語句選択手段１３は、部分文字列「製品Ｄ」を含むレコード（１，４，９レコード目の３つのレコード）を語句候補１７から抜き出し、語句スコアを計算する。ここでは、第１の実施の形態で示した具体例と同様に、各レコードを文書ＩＤで分類して文書ＩＤ毎にパターンスコアの平均値を計算し、文書ＩＤ毎に計算した平均値の合計を語句スコアとする場合の例を示す。語句選択手段１３は、「３／３＋３／４＋２／２＝２．７５」と語句スコアを計算する。

次のステップＳ９では、語句候補１７に含まれる全てのレコードを１つずつ抜き出してステップＳ８１の処理を完了したか否かを判定する。まだ、抜き出していないレコードが存在するならば（ステップＳ９のＮ）、ステップＳ８１に移行し、ステップＳ８１以降の処理を繰り返す。全てのレコードについてステップＳ８１の処理を完了したならば（ステップＳ９のＹ）、ステップＳ１０に移行する。

ステップＳ１０では、語句スコアの計算対象とされた文字列（語句の候補の部分文字列）の中から、語句を選択する（ステップＳ１０）。ステップＳ１０における語句の選択方法は、第１の実施の形態と同様である。例えば、語句スコアの値が所定のしきい値以上である部分文字列を選択してもよい。また、例えば、語句スコアの高い順に部分文字列をソートし、所定の順位以上である部分文字列を選択してもよい。また、例えば、語句スコアの高い順に部分文字列をソートし、上位の所定の割合の部分文字列（例えば上位１０％の部分文字列）を選択してもよい。上記の各選択方法における所定のしきい値、所定の順位、所定の割合は、予め定められていてもよい。あるいは、入力装置１００を介して、利用者から入力されてもよい。

最後に、語句選択手段１３は、第１の実施の形態と同様に出力語リストを出力装置３００に出力（例えば、表示出力、あるいは印字出力）させる。

上述の具体例では、ステップＳ２１で前方パターン候補のみを決定し、前方パターン候補を用いる場合を説明した。ステップＳ２１で後方パターン候補のみを決定し、後方パターン候補を用いる場合の動作も同様である。

次に、第２の実施の形態の効果について説明する。第２の実施の形態では、パターンの候補として、前方パターン候補のみ、または後方パターン候補のみを用いる。従って、出力語となる文字列の前あるいは後ろに余計な文字列（例えば、不必要な接尾辞や接頭辞）が付加されていてもこれを除去できる。また、第１の実施の形態と同様に、文書形式に依存せずに語句の抽出を行うことができる。すなわち、文書群１５に様々な文書形式の文書が含まれていたとしても、各文書から入力語と同種の語句を抽出することができる。また、出力された語句の信頼度を確保することができる。

実施の形態３．
図１２は、本発明による情報抽出システムの第３の実施の形態を示すブロック図である。第１の実施の形態と同様の構成部については、図１と同一の符号を付し、説明を省略する。第３の実施の形態では、データ処理装置２００は、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３に加え、文書検索手段１４も含む。また、記憶装置４００は、文書群１５、パターン候補１６、語句候補１７に加え、検索結果文書群１８も記憶する。

文書検索手段１４は、入力装置１００から入力語リストを受け取り、入力語リストの中から複数の入力語を選択し、選択した入力語群を含む文書本文およびその文書ＩＤを文書群１５中から検索する。文書検索手段１４は検索した文書本文および文書ＩＤの組を検索結果文書群１８として記憶装置４００に記憶させる。

検索結果文書群１８は、文書検索手段１４によって文書群１５から検索された検索結果である。検索結果文書群１８は、文書群１５と同様に、文書ＩＤと文書本文とを含む。パターン候補作成手段１１は、検索結果文書群１８から各レコードを読み込んで、パターン候補１６を作成する。また、語句候補作成手段１２は、検索結果文書群１８から各レコードを読み込んで、語句候補１７を作成する。

このように構成によって、文書内での同種語句のまとまりやすさを考慮して、語句抽出対象となる文書を効果的に文書群１５の中から選択することができる。そして、その後の処理では、文書群１５ではなく、文書群１５から選択された文書を用いて処理を行うので、同種の語句を含んでいる信頼性がより高い出力語リストを作成することができる。

一般的に同じ種類の語句は同じ文書に出現することが多い。例えば、語句の種類として「会社名」を例にして説明する。会社名が複数出現する文書は、会社名が１つしか出現しない文書に比べて、リスト形式や表形式など同じようなパターンの間に会社名が出現することが多いと考えられる。したがって、このような文書のみを対象にしてパターン候補１６を作成し、語句候補１７を作成することで、会社名以外の語句を抽出してしまう可能性を下げることができる。そこで、同一文書に複数の入力語が出現する文書をあらかじめ検索することで、同様の語句が出現する文書のみを対象に信頼性の高い出力語リストを作成できる。

第３の実施の形態では、文書検索手段１４が、入力語リストから複数の入力語を選択し、文書群１５に含まれる文書のうち、選択した入力語を全て含む文書を検索する。そして、パターン候補作成手段１１および語句候補作成手段１２は、検索された文書（すなわち、検索結果文書群１８）を用いて処理を行う。この結果、出力語リストの信頼性を向上させることができる。

次に、本実施の形態における処理経過の例について説明する。第１の実施の形態と同様に、情報抽出システムは、動作前に文書群１５をあらかじめ記憶装置４００に記憶しておく。また、利用者によって、入力装置１００に入力語リストが入力される。入力装置１００は、入力された入力語リストをデータ処理装置２００に送る。すなわち、データ処理装置２００には、入力装置１００から入力語リストが入力される。

データ処理装置２００の文書検索手段１４は、入力装置１００から入力語リストが送られてくると、その入力語リストの中から複数の入力語を選択する。文書検索手段１４が入力語リストの中から選択する入力語の数は、文書検索手段１４が予め記憶していてもよい。あるいは、選択すべき入力語の数が、入力装置１００を介して利用者から文書検索手段１４に入力されてもよい。文書検索手段１４が入力語リストの中から選択する入力語の数は、例えば３とすることが好ましいが、３に限定されるわけではない。ただし、選択する入力語の数は２以上として、入力語リストから複数の入力語が選択されるように定める。

文書検索手段１４は、定められた数の入力語を選択するときに、入力語リストの中から定められた数の入力語をランダムに選択することが好ましい。ただし、このような選択方法に限定されるわけではなく、例えば、文書群１５での出現回数頻度が多い入力語から順に選択してもよい。

次に、文書検索手段１４は、文書群１５を参照し、選択した入力語群（複数の入力語）を全て含む文書を検索し、検索結果文書群１８として記憶装置４００に記憶させる。すなわち、文書検索手段１４は、選択した複数の入力語を全て含む文書本文およびその文書ＩＤを文書群１５から検索し、検索した文書ＩＤおよび文書本文を検索結果文書群１８として記憶装置４００に記憶させる。

次に、文書検索手段１４が、十分な検索結果文書群１８が得られたか否かを判定する。十分な検索結果文書群１８が得られていないと判定した場合には、文書検索手段１４は、入力語リストの中から複数の入力語を再度選択し、その複数の入力語を全て含む文書を文書群１５の中から検索し、検索結果を検索結果文書群１８に追加する処理を繰り返す。

文書検索手段１４は、例えば、入力語リストの中から複数の入力語を選択した回数が所定に達した場合に十分な検索結果文書群１８が得られたと判定し、複数の入力語を選択した回数が所定の回数未満である場合に十分な検索結果文書群１８が得られていないと判定すればよい。あるいは、文書検索手段１４は、検索結果文書群１８に含まれる文書数（レコード数）が所定数に達した場合に十分な検索結果文書群１８が得られたと判定し、検索結果文書群１８に含まれる文書数が所定数未満である場合に十分な検索結果文書群１８が得られていないと判定してもよい。ここでは２種類の判定方法を示したが、文書検索手段１４は、後者の判定方法（検索結果文書群１８に含まれる文書数に基づく判定方法）で判定を行うことが好ましい。検索結果文書群１８に含まれる文書数をより多くすることができ、その結果、文書から抽出される語句の信頼性を向上させることができるからである。なお、十分な検索結果文書群１８が得られたか否かの判定に用いるしきい値の情報は、文書検索手段１４が予め保持していてもよい。あるいは、入力装置１００を介して利用者から文書検索手段１４に入力されてもよい。

文書検索手段１４によって十分な検索結果文書群１８が得られたと判定した場合、データ処理装置２００のパターン候補作成手段１１は、第１の実施の形態におけるステップＳ１〜Ｓ４（図２参照。）と同様の処理を行う。ただし、パターン候補作成手段１１は、１レコード分のデータ（１つの文書ＩＤおよびその文書ＩＤに対応する文書本文）を、文書群１５ではなく、検索結果文書群１８から取り出して、ステップＳ１〜Ｓ４と同様の処理を行う。また、パターン候補作成手段１１は、ステップＳ４において、検索結果文書群１８に含まれる全ての文書に対してステップＳ１〜Ｓ３の処理を行ったか否かを判定する。ステップＳ１〜Ｓ３の処理を実行していない文書が検索結果文書群１８に残っている場合、ステップＳ１に移行してステップＳ１以降の処理を繰り返す。

検索結果文書群１８に含まれる全ての文書に対してステップＳ１〜Ｓ３の処理を行ったならば、語句候補作成手段１２は、第１の実施の形態におけるステップＳ５〜Ｓ７と同様の処理を行う。ただし、語句候補作成手段１２は、パターン候補１６のレコードに含まれる文書ＩＤに対応する文書本文を読み込む場合、文書群１５ではなく、検索結果文書群１８から読み込む。

パターン候補１６の全てのレコードに対してステップＳ５，Ｓ６の処理を実行したならば（ステップＳ７のＹ）、語句選択手段１３は、第１の実施の形態におけるステップＳ８以降と同様の処理を行う。

次に、第３の実施の形態の効果について説明する。本実施の形態では、同種の語句は同一文書に出現することが多いという性質を利用し、文書検索手段１４が、複数の入力語を含む文書を文書群１５から検索して、検索結果を検索結果文書群１８として記憶させる。そして、パターン候補作成手段１１および語句候補作成手段１２は、文書群１５の代わりに検索結果文書群１８を用いて第１の実施の形態と同様の処理を行う。従って、同種の語句が出現する可能性の高い文書のみを対象に処理するため、信頼性の高い語句を出力できる。また、第１の実施の形態と同様の効果も得られる。

また、上記の第３の実施の形態において、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３は、第２の実施の形態と同様の動作を行ってよい（ただし、文書群１５ではなく、検索結果文書群１８を用いる）。その場合には、第２の実施の形態と同様の効果が得られる。

実施の形態４．
図１３は、本発明による情報抽出システムの第４の実施の形態を示すブロック図である。第３の実施の形態と同様の構成部については、図１２と同一の符号を付し、説明を省略する。第４の実施の形態では、データ処理装置２００は、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３、文書検索手段１４に加え、再作成手段１９も含む。

再作成手段１９は、出力語リストをもとに入力語リストを再作成する。具体的には、再作成手段１９は、語句選択手段１３から出力語リストを受け取り、出力語リストに含まれる出力語の集合を入力語リストとして文書検索手段１４に渡す。このとき、再作成手段１９は、記憶装置４００に記憶されている検索結果文書群１８、パターン候補１６、および語句候補１７を削除する。すなわち、再作成手段１９が受け取った出力語リストが作成されたときに記憶装置４００に記憶された検索結果文書群１８、パターン候補１６、および語句候補１７を削除する。

また、再作成手段１９は、語句選択手段１３から受け取った出力語リストの複製を内部に蓄積する。

再作成手段１９が文書検索手段１４に入力語リストを渡した後、文書検索手段１４、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３は、第３の実施の形態と同様の処理を実行する。ただし、語句選択手段１３は、出力語リストを再作成手段１９に渡す。再作成手段１９は、十分な出力語リストが得られたならば、その出力語リストを出力させる。

次に、本実施の形態における処理経過の例について説明する。利用者によって、入力装置１００に入力語リストが入力される。入力装置１００は、入力された入力語リストをデータ処理装置２００に送る。すなわち、データ処理装置２００には、入力装置１００から入力語リストが入力される。

その後、文書検索手段１４、パターン候補作成手段１１、語句候補作成手段１２、および語句選択手段１３は、第３の実施の形態と同様の処理を行ない出力語リストを作成する。語句選択手段１３は、作成した出力語リストを再作成手段１９に渡す。

再作成手段１９は、語句選択手段１３から出力語リストを受け取ると、十分な出力語リストが蓄積されたか否かを判定する。再作成手段１９は、例えば、これまでに蓄積してきた出力語リストの複製に含まれる出力語の総数（ただし、重複する出力語はカウントしない。）が所定数未満であれば十分な出力語リストが蓄積されていないと判定し、これまでに蓄積してきた出力語リストの複製に含まれる出力語の総数が所定数以上であれば十分な出力語リストが蓄積されていると判定してもよい。

また、例えば、再作成手段１９は、前回、語句選択手段１３から出力語リストを受け取った時点で蓄積していた出力語リストの複製に含まれる出力語の総数（ただし、重複する出力語はカウントしない。）に対する、新たに受け取った出力語リストに含まれる新たな出力語（それまでに蓄積されていた出力語とは重複しない新たな出力語）の割合（すなわち、出力語の増加率）を計算してもよい。そして、再作成手段１９は、その増加率が所定値を越えていれば十分な出力語リストが蓄積されていないと判定し、その増加率が所定値以下であれば十分な出力語リストが蓄積されていると判定してもよい。

また、例えば、再作成手段１９は、出力語リストに含まれる出力語の集合を入力語リストとして文書検索手段１４に渡した回数が所定回数以下であれば、十分な出力語リストが蓄積されていないと判定し、その回数が所定回数に達したならば、十分な出力語リストが蓄積されていると判定してもよい。

ここでは、３種類の判定方法を示したが、この判定方法は例示であり、他の判定方法によって判定を行ってもよい。また、上記の３種類の各判定方法においてしきい値として用いる値の情報は、再作成手段１９が予め保持していてもよい。あるいは、入力装置１００を介して利用者から再作成手段１９に入力されてもよい。

また、特に、上述の３種類の判定方法のうち、出力語の増加率に基づく判定方法によって判定を行うことが好ましい。新たに出現する出力語の増加率が低いということは、既に検索結果文書群１８から網羅的に出力語を収集できていると考えられるからである。また、この判定方法においてしきい値となる所定の値は例えば１０％程度とすることが好ましい。例えば、増加率が１０％をこえているときには十分な出力語リストが蓄積されていないと判定し、増加率が１０％以下のときには十分な出力語リストが蓄積されていると判定することが好ましい。

再作成手段１９は、十分な出力語リストが蓄積されていないと判定した場合、語句選択手段１３から受け取った出力語リストの複製を内部に蓄積する。そして、語句選択手段１３から受け取った出力語リストに含まれる出力語の集合を入力語リストとして文書検索手段１４に渡す。このとき、再作成手段１９は、記憶装置４００に記憶されている検索結果文書群１８、パターン候補１６、および語句候補１７を削除する。再作成手段１９によって出力語の集合が入力語リストとして文書検索手段１４に渡されると、再び、文書検索手段１４、パターン候補作成手段１１、語句候補作成手段１２、および語句選択手段１３は、第３の実施の形態と同様の処理を行ない出力語リストを作成する。語句選択手段１３は、作成した出力語リストを再作成手段１９に渡し、再作成手段１９は、上述の動作を繰り返す。

また、再作成手段１９は、十分な出力語リストが蓄積されていると判定した場合、これまで内部に蓄積していた出力語リストを出力装置３００に出力させる。このとき、内部に蓄積していた出力語リスト内に重複する語句が存在する場合、語句スコアをまとめることで語句の重複を排除して、語句が重複しないようにして出力語リストを出力装置３００に出力させる。語句スコアをまとめて語句の重複を排除する場合、重複する語句の語句スコアの平均値、合計値、最大値、あるいは最小値を求めて、求めた値をその語句の語句スコアとして、重複していた語句およびその語句スコアを出力語リストから除外すればよい。特に、重複する語句の語句スコアの合計値を、その語句の語句スコアとすることが好ましい。複数回出力語となった語句は辞書に含めるべき語句としての信頼度が高いと考えられ、語句スコアの合計値を重複する語句の語句スコアとすることで、そのような信頼度が高いと考えられる語句の語句スコアを高めることができるからである。

情報抽出システムの利用者は、出力装置３００から出力された出力語リストに含まれる出力語と自身が入力した入力語とを含む辞書を作成すればよい。また、利用者は、各出力語に対応する語句スコアを参照して、個々の出力語を辞書に含めるべきか否かを精査してもよい。

次に、第４の実施の形態の効果について説明する。本実施の形態では、新たに見つかった同種の語句をさらに入力語リストとして用いて出力語リストに含める出力語の数を増加させることができる。従って、同種の語句を網羅的にまとめた辞書を作成することができる。また、上記の第４の実施の形態において、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３は、第２の実施の形態と同様の動作を行ってよい（ただし、文書群１５ではなく、検索結果文書群１８を用いる）。その場合には、第２の実施の形態と同様の効果が得られる。

また、上記の第４の実施の形態では、再作成手段１９が出力語リストに含まれる出力語の集合を入力語リストとして文書検索手段１４に渡す場合を示した。第４の実施の形態において、データ処理装置２００は、文書検索手段１４を備えずに検索結果文書群１８を作成しない構成であってもよい。その場合、再作成手段１９が出力語リストに含まれる出力語の集合を入力語リストとしてパターン候補作成手段１１に渡し、その後のデータ処理装置２００の動作では、文書群１５に含まれる文書を処理対象として処理を実行すればよい。

ここで、第１の実施の形態から第４の実施の形態までの各情報抽出システムの具体的な構成例について説明する。図１４は、上述の各実施の形態の各情報抽出システムの具体的な構成例を示すブロック図である。図１４に示す例において、データ処理装置２００は、プログラムに従って動作するコンピュータである。データ処理装置２００には、キーボードやマウス等の入力装置１００と、ディスプレイ装置あるいはプリンタ等の出力装置３００が接続される。また、データ処理装置２００には、記憶装置４００が接続される。記憶装置４００は、文書群１５、パターン候補１６、語句候補１７等を記憶する記憶装置であり、データ処理装置とバスなどで接続されていてもよいし、あるいは、通信ネットワークを介して接続されていてもよい。第３、第４の実施の形態の場合、記憶装置４００は、検索結果文書群１８も記憶する。また、データ処理装置２００は、情報抽出プログラム５００を記憶するプログラム記憶装置５０１を備える。データ処理装置２００は、プログラム記憶装置５０１から情報抽出プログラム５００を読込み、情報抽出プログラム５００に従って動作する。この結果、データ処理装置２００は、パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３、および語句選択手段１３として動作する。また、第３の実施の形態の場合、文書検索手段１４としての動作も行う。第４の実施の形態の場合、再作成手段１９としての動作も行う。また、コンピュータであるデータ処理装置２００は内部に記憶装置を備え、その記憶装置に情報（例えば、出力語リストの複製）を記憶してもよい。

また、上述の各実施の形態において、各手段（パターン候補作成手段１１、語句候補作成手段１２、語句選択手段１３、文書検索手段１４、再作成手段１９）をそれぞれ別個のハードウェア装置として、データ処理装置２００が備えていてもよい。

また、上記の各実施の形態において、データ処理装置２００は、出力語リストに含まれる出力語と、入力語リストに含まれる入力語とをあわせることによって、辞書を作成してもよい。すなわち、データ処理装置２００が自動的に辞書を作成してもよい。

また、上記の各実施の形態では、入力装置１００の例としてキーボードやマウスを挙げたが、通信ネットワークを介して他の装置から情報抽出システムに入力語リストが入力されてもよい。この場合、通信ネットワークとの通信インタフェースを入力装置１００として用いればよい。また、出力語リストの出力態様も、通信ネットワークを介して他の装置に出力語リストを出力する態様であってもよい。この場合も、通信ネットワークとの通信インタフェースを出力装置３００として用いればよい。

なお、入力手段は、入力装置１００によって実現される。パターン決定手段は、パターン候補作成手段１１によって実現される。語句候補抽出手段は、語句候補作成手段１２によって実現される。語句選択手段は、語句選択手段１３によって実現される。文書検索手段は、文書検索手段１４によって実現される。再作成手段は、再作成手段１９によって実現される。

実施の形態５．
次に、本発明の第５の実施の形態について説明する。図１５は、本発明による情報サービスシステムの構成例を示すブロック図である。本実施の形態の情報サービスシステムは、情報抽出システム１０００と、辞書サービスシステム２０００と、辞書データベース３０００とを備える。

情報抽出システム１０００は、第１の実施の形態から第４の実施の形態のうちのいずれかの情報抽出システムである。ただし、本実施の形態では、入力装置１００および出力装置３００（図１５において図示せず。）は、辞書サービスシステム２０００との通信インタフェースによって実現される。情報抽出システム１０００には辞書サービスシステム２０００から入力語リストが入力され、入力語と同種の出力語のリストを辞書サービスシステム２０００に出力する。

辞書データベース３０００は、各種辞書３００１，３００２を記憶する記憶装置である。各種辞書３００１，３００２は、情報抽出システム１０００が出力した出力語およびその出力語の抽出のために入力語リスト作成者によって作成された入力語を含む。また、各辞書は、その辞書の種類の情報と対応付けて登録される。

辞書サービスシステム２０００には入力語リスト作成者から入力語リストが入力され、辞書サービスシステム２０００はその入力語リストを用いて情報抽出システム１０００に出力語リストを出力させる。そして、出力語リストを入力語リスト作成者に提示して、入力語リスト作成者に入力語および出力語を含む辞書の作成を促す。辞書サービスシステム２０００は、入力語リスト作成者から辞書を受け取ると、その辞書の種類の情報と対応付けて、辞書および辞書の種類の情報を辞書データベース３０００に登録する。また、辞書サービスシステム２０００は、辞書購入者の要求に応じて、辞書データベース３０００に登録されている辞書を辞書購入者に提供する。また、辞書サービスシステム２０００は、辞書サービス運営者が辞書購入者から受け取るべき金額や、入力語リスト作成者に支払うべき金額を記録する。

以下の説明では、辞書サービスシステム２０００が辞書購入者の端末（以下、購入者端末と記す。）および入力語リスト作成者の端末（以下、作成者端末と記す。）と情報を送受信するものとして説明する。購入者端末は、辞書購入者によって操作される端末であり、作成者端末は、入力語リスト作成者によって操作される端末である。

図１６は、辞書サービスシステム２０００の構成例を示すブロック図である。辞書サービスシステム２０００は、制御部６２と金銭情報記憶手段６１とを備える。制御部６２は、辞書サービスシステム２０００が備える記憶装置（図示せず。）に記憶されたプログラムに従って動作する。制御部６２は、購入者端末５１、作成者端末５２、情報抽出システム１０００、辞書データベース３０００との間で情報を授受する。なお、辞書サービスシステム２０００は、購入者端末５１、作成者端末５２、情報抽出システム１０００との通信を行う際に情報を送受信する通信インタフェースを備えるが、図１６では、通信インタフェースの図示を省略している。また、辞書サービスシステム２０００は、辞書データベース３０００への情報の書き込みや読込みを行うためのインタフェースを備えるが、図１６では、そのインタフェースの図示を省略している。制御部６２は、通信インタフェース（図示せず。）を介して他の装置と情報を送受信したり、辞書データベース３０００とのインタフェース（図示せず。）を介して情報の読み書きを行う。

また、金銭情報記憶手段６１は、辞書サービス運営者が入力語リスト作成者に支払う金額や、辞書購入者から受け取る金額を記憶する。制御部６２は、これらの金額を金銭情報記憶手段６１に記憶させる。辞書サービス運営者は、辞書サービスシステム２０００、情報抽出システム１０００、および辞書データベース３０００の管理者である。

次に、動作について説明する。
購入者端末５１は、辞書購入者の操作に従って、辞書購入者が購入を希望する辞書の種類を辞書サービスシステム２０００に送信する。辞書サービスシステム２０００の制御部６２は、その種類の情報を受信する。

続いて制御部６２は、辞書データベース３０００を検索して、辞書購入者の希望する種類の辞書が辞書データベース３０００に登録されているか否かを判定する。

辞書購入者の希望する種類の辞書が辞書データベース３０００に登録されていないと判定した場合、制御部６２は、以下のように動作する。制御部６２は、辞書購入者が購入を希望する辞書の種類を作成者端末５２に送信することによって、辞書購入者の希望する辞書の種類を入力語リスト作成者に提示する。

入力語リスト作成者は、その種類に応じた入力語リストを作成し、辞書サービスシステム２０００に渡す。このとき、作成者端末５２には、入力語リスト作成者によって作成された入力語リストが入力され、作成者端末５２は、入力語リスト作成者の操作に従って、その入力語リストを辞書サービスシステム２０００に送信する。辞書サービスシステム２０００の制御部６２は、その入力語リストを受信する。

制御部６２は、入力語リストを受信すると、その入力語リストを作成した入力語リスト作成者に対して辞書サービス運営者が支払うべき金額（辞書作成の対価）の情報を、金銭情報記憶手段６１に記憶させる。このとき、制御部６２は、金額の情報と、入力語リスト作成者の識別情報とを対応付けて金銭情報記憶手段６１に記憶させる。なお、例えば、作成者端末５２が入力語リストを送信するときに、入力語リスト作成者の操作に従って入力語リスト作成者の識別情報も制御部６２に送信することによって、制御部６２は入力語リスト作成者の識別情報を得ることができる。

さらに、制御部６２は、作成者端末５２から受信した入力語リストを、情報抽出システム１０００に出力する。情報抽出システム１０００は、制御部６２から入力された入力語リストを用いて、出力語リストを作成する。情報抽出システム１０００は、第１から第４のいずれかの実施の形態で説明した動作によって出力語リストを作成すればよい。情報抽出システム１０００は、辞書サービスシステム２０００に出力語リストを出力し、制御部６２はこの出力語リストを得る。

制御部６２は、出力語リストを作成者端末５２に送信して、入力語リスト作成者に辞書の作成を促す。入力語リスト作成者は、自身が作成した入力語リストに含まれる入力語と制御部６２から受信した出力語リストに含まれる出力語を含む辞書を作成する。このとき、入力語リスト作成者は、出力語リストを精査して辞書を作成してもよい（例えば、不要な出力語を除外して辞書を作成してもよい。）。作成者端末５２は、作成された辞書を入力され、入力語リスト作成者の操作に従って、その辞書を辞書サービスシステム２０００に送信する。制御部６２は、辞書を受信すると、辞書購入者が希望した辞書の種類と辞書とを対応付けてデータベース３０００に登録する。

次に、制御部６２は、辞書購入者が希望した種類の辞書を辞書データベース３０００から読み込んで、購入者端末５１に送信することによって、辞書を辞書購入者に提供する。

辞書購入者の希望する種類の辞書が辞書データベース３０００に登録されていると判定した場合、制御部６２は、その辞書を辞書データベース３０００から読込み、購入者端末５１に送信することによって、辞書を辞書購入者に提供すればよい。

制御部６２は、辞書を辞書データベース３０００から読み込んで購入者端末５１に送信した場合、辞書購入者の識別情報と、辞書サービス運営者が辞書購入者から辞書の対価として受け取る金額の情報とを金銭情報記憶手段６１に記憶させる。なお、例えば、購入者端末５１が辞書の種類を送信するときに、辞書購入者の操作に従って辞書購入者の識別情報も制御部６２に送信することによって、制御部６２は辞書購入者の識別情報を得ることができる。

辞書サービス運営者は、金銭情報記憶手段６１に記憶された辞書購入者の識別情報および金額を確認し、辞書購入者に辞書の対価を請求する。辞書購入者は、その対価を辞書サービス運営者に支払う。また、辞書サービス運営者は、金銭情報記憶手段６１に記憶された入力語リスト作成者の識別情報および金額を確認し、その金額を入力語リスト作成者に支払う。

ここで、入力語リスト作成者と辞書購入者が同じであってもよい。その場合、入力語リストの作成者に対して対価を支払う必要はない。

第５の実施の形態によれば、これまでよりも安価に辞書を提供できる。その理由は、情報抽出システムによって自動的に辞書を作成できるためである。従来、辞書を販売するためには、大量の文書から人手などにより辞書を作成していたためコストがかかっていた。情報抽出システムを用いることで、辞書を自動的に作成できるため、これまでより安価に提供できる。

また、辞書サービス運営者が入力語リストを作成してもよいが、その場合、辞書サービス運営者に、要求された辞書の種類に関する知識が必要である。本実施の形態において、入力語リスト作成者を広く募集し、入力語リスト作成者に対価を支払うことで、幅広い種類の辞書作成に対応できる。

実施の形態６．
次に、本発明の第６の実施の形態について説明する。本実施の形態の情報サービスシステムの構成は、第５の実施の形態と同様である（図１５および図１６参照。）。ただし、入力語リスト作成者に辞書作成の対価を支払う態様が異なる。本実施の形態では、辞書を辞書購入者に販売（提供）した場合に、辞書作成の対価として辞書サービス運営者が支払うべき金額を金銭情報記憶手段６１に記憶する。すなわち、辞書が販売されることによって、入力語リスト作成者に辞書作成の対価が支払われることになる。また、入力語リスト作成者に作成料を支払うとき、辞書サービスシステム利用料としての対価を差し引く。

以下の説明においても、辞書サービスシステム２０００が辞書購入者の端末（購入者端末）および入力語リスト作成者の端末（作成者端末）と情報を送受信するものとして説明する。

本実施の形態の動作について説明する。
まず、入力語作成者は、入力語リストを作成し、作成者端末５２を用いて、入力語リストを辞書サービスシステム２０００に送信する。このとき、作成者端末５２には、入力語リストが入力され、作成者端末５２は、入力語作成者の操作に従って、入力語リストを辞書サービスシステム２０００に送信する。辞書サービスシステム２０００の制御部６２は、入力語リストを受信する。

制御部６２は、作成者端末５２から受信した入力語リストを、情報抽出システム１０００に出力する。情報抽出システム１０００は、制御部６２から入力された入力語リストを用いて、出力語リストを作成する。情報抽出システム１０００は、第１から第４のいずれかの実施の形態で説明した動作によって出力語リストを作成すればよい。情報抽出システム１０００は、辞書サービスシステム２０００に出力語リストを出力し、制御部６２はこの出力語リストを得る。

制御部６２は、出力語リストを作成者端末５２に送信して、入力語リスト作成者に辞書の作成を促す。入力語リスト作成者は、自身が作成した入力語リストに含まれる入力語と制御部６２から受信した出力語リストに含まれる出力語を含む辞書を作成する。このとき、入力語リスト作成者は、出力語リストを精査して辞書を作成してもよい（例えば、不要な出力語を除外して辞書を作成してもよい。）。入力語リスト作成者は、作成した辞書およびその辞書の種類を作成者端末５２から辞書サービスシステム２０００に送信させる。すなわち、作成者端末５２は、作成された辞書およびその種類を入力され、入力語リスト作成者の操作に従って、辞書およびその種類を辞書サービスシステム２０００に送信する。

辞書サービスシステム２０００の制御部６２は、作成者端末５２から辞書およびその種類を受信すると、辞書と辞書の種類とを対応付けてデータベース３０００に登録する。

次に、辞書購入者が、辞書サービスシステム２０００を介し、辞書データベース３０００を参照し、購入したい種類の辞書を購入する。このとき、購入者端末５１は、辞書購入者の操作に従って、制御部６２に、辞書購入を希望する旨の情報を送信する。制御部６２は、この情報を受信すると、辞書データベース３０００に登録されている各辞書の種類を読み込んで、各辞書の種類の情報を購入者端末５１に送信し、辞書購入者に種類の選択を促す。購入者端末５１は、辞書購入者の操作に従って、辞書購入者が希望する種類を制御部６２に送信する。制御部６２は、辞書の種類の情報を購入者端末５１から受信すると、その種類に対応する辞書を辞書データベース３０００から読込み、その辞書を購入者端末５１に送信する。この結果、辞書購入者に辞書が提供される。また、制御部６２は、辞書の対価となる金額と、辞書購入者の識別情報とを対応させて、金銭情報記憶手段６１に記憶させる。なお、例えば、購入者端末５１が辞書購入者の識別情報を送信することによって、制御部６２に辞書購入者の識別情報を通知すればよい。

また、制御部６２は、辞書を辞書購入者に提供したときに（辞書を購入者端末５１に送信したときに）、辞書作成の対価として辞書サービス運営者が入力語リスト作成者に支払うべき金額と、その入力語リスト作成者の識別情報とを対応させて、金銭情報記憶手段６１に記憶させる。なお、例えば、作成者端末５２が、辞書を送信するときに入力語リスト作成者の識別情報もあわせて送信することによって、制御部６２に入力語リスト作成者の識別情報を通知すればよい。

辞書サービス運営者は、金銭情報記憶手段６１に記憶された辞書購入者の識別情報および金額を確認し、辞書購入者に辞書の対価を請求する。辞書購入者は、その対価を辞書サービス運営者に支払う。

また、辞書サービス運営者は、金銭情報記憶手段６１に記憶された入力語リスト作成者の識別情報および金額を確認し、その金額を入力語リスト作成者に支払う。このとき、辞書サービス運営者は、辞書サービスシステム利用料を差し引いた額を入力語リスト作成者に支払う。なお、制御部６２は、辞書作成の対価から辞書サービスシステム利用料を差し引いた額を金銭情報記憶手段６１に記憶させておいてもよい。

また、入力語リスト作成者と辞書購入者が同じであってもよい。その場合、入力語リスト作成者に対して辞書作成の対価を支払う必要はなく、辞書購入者は辞書サービス運営者に対し辞書サービスシステム利用料を支払うのみでよい。この場合、制御部６２は、辞書提供の対価の代わりに、辞書サービスシステム利用料を金銭情報記憶手段６１に記憶させればよい。

本実施の形態では、コストを抑えながらも辞書の信頼性を簡単に保つことができる。従来の辞書作成では、文書から人手で辞書項目となる語句を収集していたため、信頼性は高いがコストがかかっていた。情報抽出システムを用いることで、出力語リストに辞書項目の候補となる語句を自動的に出力できるため、辞書作成のコストを抑えることができる。また、出力語リストを精査することで辞書の信頼性を保つことができる。

なお、登録手段、辞書提供手段、金額情報登録手段は、辞書サービスシステム２０００の制御部６２によって実現される。金銭情報記憶手段は、辞書サービスシステム２０００の金銭情報記憶手段６１によって実現される。

実施の形態７．
次に、本発明の第７の実施の形態について説明する。図１７は、本実施の形態の情報サービスシステムの構成例を示すブロック図である。第６の実施の形態と同様の構成部については、図１５と同一の符号を付し、説明を省略する。本実施の形態の情報サービスシステムは、トレンドキーワードデータベース４０００を備える。なお、辞書サービスシステム２０００は、第６の実施の形態と同様に、制御部６２および金銭情報記憶手段６１（図１６参照。）を備える。

トレンドキーワードデータベース４０００は、流行となっているキーワードのリストを記憶する記憶装置である。本実施の形態では、辞書サービスシステム２０００の制御部６２（図１７において図示せず。図１６参照。）は、辞書データベース３０００に対する読み書きと同様に、トレンドキーワードデータベース４０００に対する情報の読み書きも行う。

制御部６２は、流行となっているキーワードのリストを作成し、トレンドキーワードデータベース４０００に記憶させる。制御部６２は、インターネットで一般的に利用されている検索エンジンの検索キーワードログにアクセスして、数多く検索されている語をキーワードとして抽出し、そのキーワードのリストをトレンドキーワードデータベース４０００に記憶させればよい。検索エンジンで検索された語を検索回数の多い順にランク付けして公表しているＷｅｂページがある。制御部６２は、このようなＷｅｂページの表示データを取得して、そのＷｅｂページで検索回数の上位にランク付けされているキーワードを抽出すればよい。このようなＷｅｂページのＵＲＬとして、例えば、「http://guide.search.goo.ne.jp/ranking/」、「http://picks.dir.yahoo.co.jp/new/review2005/index.html」、「http://search.biglobe.ne.jp/ranking.html」等がある。また、制御部６２は、ニュース記事を公表しているＷｅｂページの表示データを取得して、そのＷｅｂページに登場する語をキーワードとして取得してもよい。また、キーワードのリストを人手で作成し、辞書サービスシステム２０００に入力して、トレンドキーワードデータベースに記憶させてもよい。

次に、動作について説明する。
まず、入力語リスト作成者が、辞書サービスシステム２０００を介し、トレンドキーワードデータベース４０００を参照する。例えば、作成者端末５２（図１７において図示せず。図１６参照。）が、入力語リスト作成者の操作に従って、トレンドキーワードデータベース４０００に記憶されているキーワードのリストを、辞書サービスシステム２０００に要求する。辞書サービスシステム２０００の制御部６２は、この要求に応じて、トレンドキーワードデータベース４０００に記憶されているキーワードのリストを読み込み、作成者端末５２に送信する。作成者端末は、受信したキーワードのリストを表示して、入力語リスト作成者にキーワードのリストを提示する。

キーワードのリストは、流行となっている語句のリストであるので、キーワードのリストによって、販売の可能性の高い辞書の種類を判断することができる。入力語リスト作成者は、キーワードのリストを参照して、そのような辞書の種類を判断し、その辞書に含めるべき入力語のリストを作成する。このように、入力語リスト作成者は、販売の可能性の高い種類の辞書に応じた入力語リストを作成する。

以降の動作は、第６の実施の形態の動作と同様である。この動作によって、販売の可能性の高い辞書（すなわち、売れる可能性の高い辞書）を辞書データベース３０００に登録することができる。

本実施の形態では、入力語リスト作成者が、トレンドキーワードデータベース４０００に記憶されているキーワードを参照することによって、どのような種類の語句を含む辞書が売れそうか判断することができる。従って、入力語リスト作成者は、販売の可能性の高い辞書の種類を容易に判断することができる。また、入力語リスト作成者がそのような辞書を作成するための入力語リストを作成すれば、その入力語リストを用いて、情報抽出システムが迅速に出力語リストを作成する。従って、入力語リスト作成者は、販売の可能性の高い辞書をすばやく作成することができる。また、作成された辞書は販売の可能性が高いと考えられるので、辞書の販売数を増加し、入力語リスト作成者と、辞書サービス運営者の収入が増加する。

なお、流行キーワード記憶手段は、トレンドキーワードデータベース４０００によって実現される。流行キーワード提供手段は、辞書サービスシステム２０００の制御部６２によって実現される。

実施の形態８．
次に、本発明の第８の実施の形態について説明する。図１８は、第８の実施の形態の情報サービスシステムの構成例を示すブロック図である。本実施の形態の情報サービスシステムは、情報抽出システム１０００と、広告サービスシステム５０００と、辞書データベース３０００とを備える。また、広告サービスシステム５０００には、通信ネットワークを介して広告閲覧システム６０００が接続される。

情報抽出システム１０００は、第１の実施の形態から第４の実施の形態のうちのいずれかの情報抽出システムである。ただし、本実施の形態では、入力装置１００および出力装置３００（図１８において図示せず。）は、広告サービスシステム５０００との通信インタフェースによって実現される。情報抽出システム１０００には広告サービスシステム５０００から入力語リストが入力され、入力語と同種の出力語のリストを広告サービスシステム５０００に出力する。情報抽出システム１０００は、情報抽出システム運営者によって運営される。

広告サービスシステム５０００は、広告主から広告とその広告に関連する関連キーワードを受け取り、広告と関連キーワードとを対応付けて広告サービスシステム５０００内に記憶する。また、広告閲覧システム６０００からキーワードを受け取り、このキーワードに関連する広告を返す。このとき、辞書データベース３０００を参照し、キーワードを含んでいる辞書がある場合、その辞書内のキーワード（語句）を取得し、取得したキーワードに対応する広告も広告閲覧システムに返す。このようにして広告サービスシステム５０００は、広告閲覧システム６０００に広告を配信する。広告サービスシステム５０００は、広告サービス運営者によって運営される。

辞書データベース３０００は、各種辞書３００１，３００２を記憶する記憶装置である。各種辞書３００１，３００２は、情報抽出システム１０００が出力した出力語およびその出力語の抽出のために広告サービス運営者によって作成された入力語を含む。また、各辞書は、その辞書の種類の情報と対応付けて記憶される。

広告閲覧システム６０００は、広告閲覧者からキーワードや文書を受け取る。広告閲覧システム６０００は、文書を受け取った場合は、一般的な形態素解析ツールなどを用いて文書内の文字列を単語に分割し、分割によって得られた単語をキーワードとする。そして、そのキーワードを広告サービスシステム５０００に渡し、キーワードに対応した広告を受け取り、広告を表示する。表示には一般的な文書閲覧ツールやＷｅｂブラウザなどを用いる。

以下の説明では、広告サービスシステム５０００が広告主の端末（以下、広告主端末）および広告サービス運営者の端末（以下、運営者端末）と情報を送受信するものとして説明する。広告主端末は、広告主によって操作される端末であり、運営者端末は、広告サービス運営者によって操作される端末である。

図１９は、広告サービスシステム５０００と広告閲覧システム６０００の構成例を示すブロック図である。広告サービスシステム５０００は、制御部７２と広告記憶手段７１とを備える。制御部７２は、広告サービスシステム５０００が備える記憶装置（図示せず。）に記憶されたプログラムに従って動作する。制御部６２は、広告主端末５５、運営者端末５６、情報抽出システム１０００、辞書データベース３０００との間で情報を授受する。なお、広告サービスシステム５０００は、広告主端末５５、運営者端末５６、情報抽出システム１０００との通信を行う際に情報を送受信する通信インタフェースを備えるが、図１９では、通信インタフェースの図示を省略している。また、広告サービスシステム５０００は、辞書データベース３０００への情報の書き込みや読込みを行うためのインタフェースを備えるが、図１９ではそのインタフェースの図示を省略している。制御部７２は、通信インタフェース（図示せず。）を介して他の装置と情報を送受信したり、辞書データベース３０００とのインタフェース（図示せず。）を介して情報の読み書きを行う。

また、広告記憶手段７１は、広告と、その広告に関連する関連キーワードとを対応付けて記憶する。制御部７２は、広告主端末５５から広告および関連キーワードを受信し、広告と関連キーワードとを対応付けて広告記憶手段７１に記憶させる。

広告閲覧システム６０００は、文書等入力手段８１と、広告要求手段８２と、広告表示手段８３とを備える。文書等入力手段８１は、キーワードや文書が入力されるキーボート等の入力装置である。広告表示手段８３は、広告を表示するディスプレイ装置である。

広告要求手段８２は、プログラム（形態素解析プログラムやブラウザ等の各種プログラム）に従って動作する。広告要求手段８２は、文書等入力手段８１に入力されたキーワードを広告サービスシステム５０００に送信し、そのキーワードに関連する広告を要求する。また、広告要求手段８２は、文書等入力手段８１に文書が入力された場合、その文書内の文字列に対して形態素解析を行って単語に分割し、その単語をキーワードとする。広告要求手段８２は、広告サービスシステム５０００から広告を受信すると、その広告を広告表示手段８３に表示させる。

次に、動作について説明する。本実施の形態の動作は、大きく次の３つのフェーズに分かれる。第１のフェーズは、広告サービスシステム５０００が広告主（広告主端末５５）から広告を受け取り、広告記憶手段７１に登録するフェーズである。第２のフェーズは、広告サービスシステム５０００が情報抽出システム１０００に出力語リストを作成させて、辞書を辞書データベースに登録するフェーズである。第３のフェーズは、広告閲覧システム６０００が広告サービスシステム５０００から広告を受信して広告を表示するフェーズである。第１のフェーズおよび第２のフェーズは非同期で行われ、その後、第３のフェーズが行われる。

第１のフェーズについて説明する。広告主端末５５は、広告主から入力された広告および関連キーワードを、広告主の操作に従って広告サービスシステム５０００に送信する。広告サービスシステム５０００の制御部７２は、広告主端末５５から広告および関連キーワードを受信する。

ここで、広告とは広告主が購入して欲しい商品やサービスの宣伝素材であり、自然文文字列や画像等を含んでいる。関連キーワードとは、広告主が購入して欲しい商品やサービスに関連する語句であり、商品名やサービス名、その商品の特徴をあらわす語句等が関連キーワードに該当する。特に、本実施の形態では、関連キーワードが商品名やサービス名を含んでいることが好ましい。商品名やサービス名はその商品固有の語句であり最も特徴を現していると考えられるからである。例えば、広告が、セキュリティに関わる商品の広告である場合、「セキュリティ製品Ｘ」、「情報漏洩」、「セキュリティ」等を関連キーワードとすればよい。

制御部７２は、広告と関連キーワードを受信すると、その広告と関連キーワードリストとを対応付けて広告記憶手段７１に記憶させる。以上が第１のフェーズの動作である。

第２のフェーズについて説明する。まず、広告サービス運営者が、入力語リストを作成する。入力語リストを作成する際、広告サービス運営者は、広告サービスシステム５０００の広告記憶手段７１に記憶されている広告の関連キーワードリストを参考にしてもよい。そして、関連キーワードリストを参考に、種類の多い商品名やサービス名などから入力語リストを作成してもよい。例えば、セキュリティ関係の製品に関する関連キーワードが多い場合、その製品名「セキュリティ製品Ｘ」、「セキュリティ製品Ｙ」、「セキュリティ製品Ｚ」等を入力語とする入力語リストを作成してもよい。

運営者端末５６は、作成された入力語リストおよびその種類を入力され、広告サービス運営者の操作に従って入力語リストおよび種類の情報を広告サービスシステム５０００に送信する。広告サービスシステム５０００の制御部７２は、入力語リストおよび種類の情報を運営者端末５６から受信すると、その入力語リストおよび種類の情報を情報抽出システム１０００に送信する。例えば、制御部７２は、「セキュリティ製品Ｘ」、「セキュリティ製品Ｙ」、「セキュリティ製品Ｚ」という入力語からなる入力語リストと、その種類（本例では「セキュリティ」）を運営者端末５６から受信し、その入力語リストおよび種類を情報抽出システム１０００に渡す。

情報抽出システム１０００は、制御部７２から入力語リストを受け取ると、その入力語リストを用いて出力語リストを作成する。情報抽出システム１０００は、第１から第４のいずれかの実施の形態で説明した動作によって出力語リストを作成すればよい。この結果、例えば、セキュリティ関連製品名のリストが出力語リストとして作成される。情報抽出システム１０００は、広告サービスシステム５０００に出力語リストを出力し、制御部７２はこの出力語リストを得る。

広告サービスシステム５０００の制御部７２は、出力語リストに含まれる出力語と、入力語リストに含まれる入力語とをあわせて辞書を作成し、その種類名とともに、辞書データベース３０００に辞書を記憶させる。以上が第２のフェーズの動作である。

第３のフェーズについて説明する。まず、広告閲覧システム６０００の文書等入力手段８１に広告閲覧者からキーワードリストや文書が入力される。キーワードは、インターネットなどで一般的に使われている検索エンジンに入力されたキーワード等のように、広告閲覧者が興味を持っている語句である。文書等入力手段８１に入力される文書は、自然文テキストやＨＴＭＬ文書等のある程度形式が決まった文書などである。

広告要求手段８２は、文書が入力された場合にのみ、その文書を一般的な形態素解析ツールを用いて単語に分割し、その単語をキーワードリストとする動作を行う。広告要求手段８２は、このように作成したキーワードリスト、あるいは広告閲覧者から直接入力されたキーワードを広告サービスシステム５０００に送信する。例えば、「セキュリティ製品Ｙ」等のキーワードを広告サービスシステム５０００に送信する。

広告サービスシステム５０００の制御部７２は、辞書データベース３０００を参照し、広告要求手段８２から受信したキーワードリストの語句が、各辞書に含まれているか否かを判定する。キーワードリストの語句が辞書に含まれている場合には、その辞書に含まれている語句群（すなわちキーワードリストの語句と同じ種類の語句群）を辞書データベース３０００から読み込む。例えば、「セキュリティ製品Ｙ」という語句が、「セキュリティ」という種類の辞書に含まれている場合、その「セキュリティ」の辞書に含まれている「セキュリティ製品Ｘ」、「セキュリティ製品Ｚ」等の語句を得る。

次に、制御部７２は、広告記憶手段７１に記憶されている広告と関連キーワードリストを参照し、広告閲覧システム６０００から受け取ったキーワードリスト、および、辞書データベース３０００から得られた各語句に対応する広告を、広告記憶手段７１から読み込む。例えば、第１のフェーズで記憶した「セキュリティ製品Ｘ」の広告等を読み込む。

次に、制御部７２は、広告記憶手段７１から読み込んだ広告を広告閲覧システム６０００に送信する。広告閲覧システム６０００の広告要求手段８２は、この広告を受信すると、広告表示手段８２に表示させる。以上が第３のフェーズの動作である。

本実施の形態によれば、これまでよりも幅広く、関連する広告を表示でき、その結果、広告閲覧者にとっては選択の幅が広がり、広告主にとっては広告を表示できる回数が増えるという効果が得られる。その理由は、情報抽出システム１０００を用いて、簡単に関連製品などの辞書を作ることができ、この辞書を参照して閲覧する広告を幅広く集めることができるためである。

すなわち、広告閲覧システム６０００から受け取ったキーワードに関連する広告だけでなく、そのキーワードと同種の語句群を辞書から読み込み、広告閲覧システム６０００から受け取ったキーワードに関連する広告および辞書から読み込んだ語句に関連する広告を広告記憶手段７１から取得して、広告閲覧システムに提供することができる。例えば、「セキュリティ製品Ｙ」というキーワードを広告閲覧システムから受信した場合、単に「セキュリティ製品Ｙ」の広告を提供するだけでなく、「セキュリティ製品Ｙ」と「セキュリティ製品Ｘ」とを同じ種類の語句として含む辞書が辞書データベース３０００に登録されていれば、関連製品「セキュリティ製品Ｘ」に関する広告も提供することができる。この結果、広告主の広告機会を増やすことができる。
また、製品の移り変わりが頻繁に起こったとしても、情報抽出システム１０００が出力語リストを自動的に作成するので、辞書を素早く簡単に作成することができる。

なお、登録手段および広告提供手段は、広告サービスシステム５０００の制御部７２によって実現される。広告記憶手段は、広告サービスシステム５０００の広告記憶手段７１によって実現される。

本発明によれば、人名の語句リストや地名の語句リストなどを簡単に作成するといった辞書作成に適用することができる。また、文書中から特定の種類の語句を検索して抽出する情報抽出にも適用することができる。

Claims

文書内の語句を文書から抽出して出力する情報抽出システムであって、
複数の語句を含む入力語リストが入力される入力手段と、
形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行うパターン決定手段と、
パターンによって区切られる文字列を、当該パターンの決定に用いた文書から抽出して語句の候補とする語句候補抽出手段と、
語句候補抽出手段によって抽出された語句の候補または当該語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する語句選択手段とを備えた
ことを特徴とする情報抽出システム。
パターン決定手段は、入力語リストに含まれる語句の前方の文字列および後方の文字列をパターンとして決定し、
語句候補抽出手段は、前記前方の文字列および前記後方の文字列によって挟まれる文字列を文書から抽出して語句の候補とし、
語句選択手段は、語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を選択する
請求項１に記載の情報抽出システム。
語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアが所定のしきい値以上である語句の候補を出力対象の語句として選択する
請求項２に記載の情報抽出システム。
語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし所定の順位以上である語句の候補を出力対象の語句として選択する
請求項２に記載の情報抽出システム。
語句選択手段は、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし上位の所定の割合の語句の候補を出力対象の語句として選択する
請求項２に記載の情報抽出システム。
パターン決定手段は、入力語リストに含まれる語句の前方の文字列のみ、あるいは、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、
語句候補抽出手段は、前記前方の文字列に続く文字列、あるいは、前記後方の文字列の直前の文字列を文書から抽出して語句の候補とし、
語句選択手段は、語句の候補に含まれる部分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する
請求項１に記載の情報抽出システム。
語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアが所定のしきい値以上である部分文字列を出力対象の語句として選択する
請求項６に記載の情報抽出システム。
語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし所定の順位以上である部分文字列を出力対象の語句として選択する
請求項６に記載の情報抽出システム。
語句選択手段は、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし上位の所定の割合の部分文字列を出力対象の語句として選択する
請求項６に記載の情報抽出システム。
形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索する文書検索手段を備え、
パターン決定手段は、文書検索手段によって検索された文書毎にパターンの決定を行う
請求項１から請求項９のうちのいずれか１項に記載の情報抽出システム。
語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段に付与する再作成手段を備えた
請求項１０に記載の情報抽出システム。
語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手段に付与する再作成手段を備えた
請求項１から請求項９のうちのいずれか１項に記載の情報抽出システム。
請求項１から請求項１２のうちのいずれか１項に記載の情報抽出システムと、
同種の語句のリストである辞書を記憶する辞書データベースと、
辞書の作成および辞書の販売に伴い授受される金額を管理する辞書サービスシステムとを備え、
辞書サービスシステムは、
入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して、情報抽出システムから語句のリストを受け取り、当該語句のリストおよび前記入力語リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、
辞書購入者の端末からの要求に応じて、辞書データベースに記憶されている辞書を前記端末に送信する辞書提供手段と、
辞書作成および辞書の販売に伴い授受される金額を記憶する金銭情報記憶手段と、
辞書サービスシステムの運用者が入力語リスト作成者に対し辞書の作成の対価として支払うべき金額、および辞書購入者が辞書サービスシステムの運用者に辞書の対価として支払うべき金額を金銭情報記憶手段に記憶させる金額情報登録手段とを含む
ことを特徴とする情報サービスシステム。
流行している語句を記憶する流行キーワード記憶手段を備え、
辞書サービスシステムは、
流行キーワード記憶手段から流行している語句を読み込んで、入力語リスト作成者の端末に送信する流行キーワード提供手段を含む
請求項１３に記載の情報サービスシステム。
請求項１から請求項１２のうちのいずれか１項に記載の情報抽出システムと、
同種の語句のリストである辞書を記憶する辞書データベースと、
広告を表示する広告表示装置からキーワードを受信して、広告表示装置に広告を送信する広告サービスシステムとを備え、
広告サービスシステムは、
入力語リスト作成者によって作成された入力語リストを情報抽出システムに入力して、情報抽出システムから語句のリストを受け取り、当該語句のリストおよび前記入力語リストに含まれる語句を含む辞書を辞書データベースに登録する登録手段と、
広告および当該広告に関連する関連キーワードを対応付けて記憶する広告記憶手段と、
広告表示装置から受信したキーワードを含む辞書を辞書データベースに記憶された辞書の中から検索し、検索された辞書に含まれる語句に対応付けられた広告および広告表示装置から受信したキーワードに対応づけられた広告を広告記憶手段から読み込んで、広告表示装置に送信する広告提供手段とを含む
ことを特徴とする情報サービスシステム。
文書内の語句を文書から抽出する情報抽出方法であって、
入力手段が、複数の語句を含む入力語リストを入力し、
パターン決定手段が、形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行い、
語句候補抽出手段が、パターンによって区切られる文字列を、当該パターンの決定に用いた文書から抽出して語句の候補とし、
語句選択手段が、語句候補抽出手段によって抽出された語句の候補または当該語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する
ことを特徴とする情報抽出方法。
パターン決定手段が、入力語リストに含まれる語句の前方の文字列および後方の文字列をパターンとして決定し、
語句候補抽出手段が、前記前方の文字列および前記後方の文字列によって挟まれる文字列を文書から抽出して語句の候補とし、
語句選択手段が、語句候補抽出手段によって抽出された語句の候補の中から出力対象の語句を選択する
請求項１６に記載の情報抽出方法。
語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアが所定のしきい値以上である語句の候補を出力対象の語句として選択する
請求項１７に記載の情報抽出方法。
語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし所定の順位以上である語句の候補を出力対象の語句として選択する
請求項１７に記載の情報抽出方法。
語句選択手段が、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを語句の候補毎に算出し、語句スコアの高い順に語句の候補をソートし上位の所定の割合の語句の候補を出力対象の語句として選択する
請求項１７に記載の情報抽出方法。
パターン決定手段が、入力語リストに含まれる語句の前方の文字列のみ、あるいは、入力語リストに含まれる語句の後方の文字列のみをパターンとして決定し、
語句候補抽出手段が、前記前方の文字列に続く文字列、あるいは、前記後方の文字列の直前の文字列を文書から抽出して語句の候補とし、
語句選択手段が、語句の候補に含まれる部分文字列を作成し、作成した各部分文字列の中から出力対象の語句を選択する
請求項１６に記載の情報抽出方法。
語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアが所定のしきい値以上である部分文字列を出力対象の語句として選択する
請求項２１に記載の情報抽出方法。
語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし所定の順位以上である部分文字列を出力対象の語句として選択する
請求項２１に記載の情報抽出方法。
語句選択手段が、語句の候補の総数に対する部分文字列を含む語句の候補の割合を、各語句の候補毎および各部分文字列毎に算出して、前記割合が所定の範囲に属する部分文字列を特定し、語句の候補の特定に用いたパターンの候補の重要度の高さ、あるいは語句の候補が出現する文書の多さを示す語句スコアを、特定した部分文字列を含む語句の候補毎に算出して、算出結果を前記部分文字列の語句スコアとし、語句スコアの高い順に部分文字列をソートし上位の所定の割合の部分文字列を出力対象の語句として選択する
請求項２１に記載の情報抽出方法。
文書検索手段が、形式が異なる文書を含む複数の文書であって、予め記憶装置に記憶されている複数の文書の中から、入力語リストから選択した複数の語句全てを含む文書を検索し、
パターン決定手段が、文書検索手段によって検索された文書毎にパターンの決定を行う
請求項１６から請求項２４のうちのいずれか１項に記載の情報抽出方法。
再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとして文書検索手段に付与する
請求項２５に記載の情報抽出方法。
再作成手段が、語句選択手段によって選択された語句のリストを入力語リストとしてパターン決定手段に付与する
請求項１６から請求項２４のうちのいずれか１項に記載の情報抽出方法。
文書内の語句を文書から抽出して出力するコンピュータに搭載される情報抽出プログラムであって、
前記コンピュータに、
複数の語句を含む入力語リストを入力する入力処理、
形式が異なる文書を含む複数の文書の中から一つの文書を選択し、選択した文書内で、入力語リストに含まれる語句を抽出対象でない文字列と区切る文字列をパターンとして決定することを文書毎に行うパターン決定処理、
パターンによって区切られる文字列を、当該パターンの決定に用いた文書から抽出して語句の候補とする語句候補抽出処理、および
語句候補抽出処理で抽出された語句の候補または当該語句の候補に含まれる部分文字列のうち所定の条件を満たす語句の候補または部分文字列を出力対象の語句として選択する語句選択処理
を実行させるための情報抽出プログラム。