JPWO2010119615A1

JPWO2010119615A1 - 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム

Info

Publication number: JPWO2010119615A1
Application number: JP2011509187A
Authority: JP
Inventors: 正明土田; 弘紀水口; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-04-15
Filing date: 2010-03-17
Publication date: 2012-10-22
Anticipated expiration: 2030-03-17
Also published as: JP5424001B2; US20120030157A1; WO2010119615A1; US9195646B2

Abstract

固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置２を用いる。学習データ生成装置２は、アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部２１と、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求め、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する、学習データ生成部２２とを備えている。

Description

本発明は、固有表現抽出ルールの作成に必要な学習データを生成する学習データ生成装置、それを用いた固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体に関する。

近年、大量のテキスト情報の有効活用が期待されている。大量テキストの中には、人名、地名、組織名など、特定の意味を持った固有の表現が存在する（以降、特定の意味による括りを「クラス」と呼ぶ。）。これら固有表現を認識することは、質問応答システム、文書分類システム、機械翻訳システムなど、テキスト情報を活用するシステムにおいて有用である。例えば、質問応答システムに固有表現の認識機能が付加されていたとする。この場合、質問応答システムは、「日本の総理大臣は誰ですか？」という質問に対して、人名の固有表現を認識して、対応する人名を返答できるので、認識機能の付加により、応答の精度が向上することは想像に難くない。ここで固有表現とは、特定の意味をもった表現であり、人名や地名、役職名、動物名などの特定の意味を持つ名詞や、「よい」「悪い」といった評価表現という意味を持つ形容詞などを指す。

従来からの固有表現認識（抽出）技術としては、テキスト中の抽出したいクラスの表現にアノテーションを付けた正解データ（学習データ）を作成し、正解データから機械学習で抽出ルール（固有表現抽出ルール）を獲得する方法が知られている。この方法によれば固有表現の認識において、良い性能を達成することができる。但し、正解データには、漏れなく正確にアノテーションを付与する必要があるため、上記方法の利用は高コストとなる。そのため、正解データの作成を低コストで行うことが、固有表現認識技術においては重要となる。

例えば、特許文献１は、従来の正解データの作成を低コストで行うことができるシステムの一例を開示している。特許文献１に記載のシステムは、正解データを記憶する正解データ記憶部と、正解拡張部と、規則学習部とから構成されている。正解拡張部は、正解データ記憶部から正解データを呼び出し、語順操作、構文表現変換、特定表現変換などを行って、正解データを拡張した拡張データを生成する。規則学習部は、正解データと前記生成された拡張データとの両方を、学習データとして、抽出ルールを学習する。

このように特許文献１に記載のシステムでは、正解データの語順を変更したり、表現を変えたりして、新たな正解データ（拡張データ）が大量に作成される。よって、特許文献１に記載のシステムによれば、低コストで学習データの量を増加させることができると考えられる。

特開２００６−００４３９９号公報（第５頁−第９頁）

しかしながら、上記特許文献１に記載のシステムでは、正解データの作成工数を減らすことによる低コスト化は可能であるものの、依然として、以下の理由から、正解データの作成にかかるコストは高いと考えられる。

つまり、正解データの作成には、人が、テキストを読み、そして、テキスト中の固有表現が漏れなく正確にアノテーションされているかを注意深く確認する必要があり、これらの作業にコストがかかってしまう。しかし、上記特許文献１に記載のシステムであっても、このようなコストの低減は困難であり、依然として、正解データの作成コストの低減は困難である。

なお、上記において、「漏れなく」とは、テキスト中に存在する、抽出すべき固有表現の全てにアノテーションが付けられている状態を意味し、「正確に」とは、アノテーションが正確に付けられ、付けられたアノテーションが全て正しい固有表現を示していることを意味する。

本発明の目的は、上記問題を解消し、漏れなく正確なアノテーション作業を不要にし得、固有表現抽出ルール作成用の学習データの生成コストを低減し得る、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するため、本発明における学習データ生成装置は、固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする。

上記目的を達成するため、本発明における固有表現抽出システムは、上記本発明における学習データ生成装置と、固有表現抽出装置とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする。

また、上記目的を達成するため、本発明における学習データ生成方法は、固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるため、のプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。

以上の特徴により、本発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体によれば、漏れなく正確なアノテーション作業を不要にし、これにより、固有表現抽出ルール作成用の学習データの生成コストを低減できる。

図１は、本発明の実施の形態１における学習データ生成装置の構成を示すブロック図である。図２は、本発明の実施の形態１における学習データ生成装置の動作を示す流れ図である。図３は、図１に示す不完全正解コーパス記憶部に記憶されているデータの具体例を示す図であり、図３（ａ）はテキストデータテーブルを示し、図３（ｂ）はアノテーションデータテーブルを示している。図４は、図１に示す学習データ候補生成部が生成する学習データ候補の具体例を示す図である。図５は、図１に示す学習データ候補クラスタリング部の処理結果の具体例を示す図である。図６は、本発明の実施の形態２における学習データ生成装置の構成を示すブロック図である。図７は、図６に示す辞書データ記憶部に記憶されている辞書データの具体例を示す図である。図８は、本発明の実施の形態２における学習データ生成装置の動作を示す流れ図である。図９は、本発明の実施の形態３における学習データ生成装置の構成を示すブロック図である。図１０は、本発明の実施の形態３における学習データ生成装置の動作を示す流れ図である。図１１は、本発明の実施の形態における固有表現抽出システムの構成を示すブロック図である。図１２は、本発明の実施の形態１〜３のいずれかにおけるプログラムを実行可能なコンピュータを示すブロック図である。

（発明の概要）
本発明では、例えば、不完全な正解コーパス（以下「不完全正解コーパス」という。）から学習データを生成することができる。不完全正解コーパスとは、テキスト中の一部の固有表現に対してアノテーションを付与して得られたデータである。また、不完全正解コーパスには、割合が少なければ、間違ったアノテーションが含まれていても良い。

このような不完全正解コーパスは、非常に低コストで作成可能である。例えば、コーパスに対して既知の固有表現の文字列の検索を行い、検索された箇所のみを読むことで、コーパスを構成するテキストにアノテーションを付与できる。また、不完全正解コーパスは、アノテーションミスを含んでもよいので、付与されたアノテーションの大半が正しいと予想できれば、検索された固有表現の文字列の出現箇所に機械的にアノテーションが付与されて作成されたものであってもよい。

但し、単純に不完全正解コーパスから学習データを作成すると、作成された学習データには、「アノテーションミス」や、「アノテーション漏れ」が含まれてしまう。「アノテーションミス」と「アノテーション漏れ」との例を、目的の固有表現のクラスが「人名」と「組織名」との場合を挙げて以下に説明する。

先ず、「アノテーションミス」とは、アノテーションされているが、アノテーションされている固有表現のクラスが、その固有表現の本来のクラスではない場合をいう。例えば、「土田電気（株）」の「土田」が人名とアノテーションされている例が該当する。正しくは「土田電気」で、クラスは組織名である。また、「アノテーション漏れ」とは、固有表現に対してアノテーションが行われていない場合をいう。例えば、「山田がＮＥＣに勤務している」の「山田」にアノテーションが付与されていない例が該当する。正しくは「山田」に人名とアノテーションされていなければならない。

ところで、上記のアノテーションミスやアノテーション漏れを含む学習データは、固有表現の認識技術で利用するにあたって適切ではない。しかしながら、不完全正解コーパスにおいて、「アノテーションが付いている箇所の多くは正しい」と考えられ、また「特徴量が似ている学習データは同クラスとなる可能性が高い」と考えられる。そこで、本発明では、クラスタリング法を利用して、学習データの候補となる不完全正解コーパスから、「アノテーションミス」及び「アノテーション漏れ」を検出し、これによって、正しい学習データを自動生成する。

具体的には、本発明では、まず、不完全正解コーパス中の単語を単位とした、又は何らかの手段で纏め上げられた単語列を単位とした、学習データ候補が用意又は生成される（後述の図１に示す「学習データ候補生成部２０」参照。）。学習データ候補が生成される場合は、その際、不完全正解コーパスのアノテーションが参照され、各学習データ候補のラベルにクラス情報が付与される。アノテーションが付与されていない表現に対しては、固有表現であるかどうかが分からないので「ＵＮＫＮＯＷＮ」というラベルが付与される。また、学習データ候補の生成では、固有表現を構成する品詞が分かっている場合、学習データ候補とする単語や単語列が品詞によって絞られていてもよい。

また、本発明においては、使用される学習データ候補と、それから生成される学習データとは、それぞれ、ラベルと特徴量とを保持したデータによって構成されている。ラベルは、不完全正解コーパスのアノテーション情報を参照して付与される。特徴量は、学習データ候補又は学習データを構成する単位の周辺における、単語、係り受け、及び係り先の文節等といった文脈的な情報（文脈情報）を少なくとも含む（後述の図４参照）。また、特徴量は、ベクトルや、属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されていても良い。

次に、本発明では、用意又は生成された学習データ候補に対して、クラスタリングが行われる（後述の図１に示す「学習データ候補クラスタリング部２１」参照）。この場合のクラスタリング法としては、ｋ−ｍｅａｎｓやＰＬＳＩ（Probabilistic Latent Semantic Indexing）など既存の任意の方法を用いることができる。

そして、本発明では、クラスタリングが行われた後、各クラスタ内の学習データ候補のラベルの分布を手がかりにして、学習データ候補から学習データが生成される。このとき、本発明では、上述した「アノテーションが付いている箇所の多くは正しい」と「特徴量が似ているデータは同クラスとなる可能性が高い」との考えの元、学習データの生成が行われる。

ここで、特徴量が似ている学習データ候補が、同じクラスタに属するとする。例えば、あるクラスＡとラベル付けされた学習データ候補を多く含むクラスタにおいては、その中の学習データ候補は、クラスＡとして尤もらしいと考えることができる。逆に、クラスＡとラベル付けされた学習データ候補が少ないクラスタにおいては、その中の学習データ候補はクラスＡとして尤もらしくないと考えることができる。また、同じクラスの語は同じような使われ方がされやすく、特徴量に、少なくとも文脈情報が入っていれば、同じクラスの語は同じクラスタに属することとなりやすい。よって、本発明において、特徴量には、文脈の情報が含められる。

また、本発明では、学習データの選別（生成）にクラスタ内の学習データ候補のラベルの分布が用いられる。よって、クラスタリング結果の良さの指標として、以下の［Ａ］〜［Ｄ］の４点が考慮される。クラスタリングのパラメータや、終了条件は、以下の［Ａ］〜［Ｄ］を指標にして設定される。
［Ａ］各クラスタ内のラベルの分布がクラスタ間で異なる。
［Ｂ］各クラスタ内で割合が最も多いラベルが１つある。
［Ｃ］クラスタ内の学習データ候補の数が特定の数より多くなっている。
［Ｄ］クラスタリング時の分割数（クラスタ数）が特定の数より少なくなっている。

更に、本発明では、上述したように、アノテーションミス及びアノテーション漏れが検出される。例えば、クラスタリング結果から、クラスＡ以外のクラスが多いクラスタに含まれるクラスＡのデータはアノテーションミスであるとして検出される。また、クラスＡが多く含まれるクラスタ内の他のラベル（「ＵＮＮＫＯＷＮ」を含む）のデータは、アノテーション漏れであるとして検出される。学習データは、検出されたアノテーションミスやアノテーション漏れを踏まえた上で、生成される（後述する図１に示す学習データ生成部２２参照。）。

具体的には、例として（１）「＜土田:人名＞が<ＮＥＣ:組織名>に勤務している。」、（２）「＜土田:人名＞が＜山田:人名＞電気に勤務している。」、（３）「竹田が＜日本電気:組織名＞に勤務している。」、（４）「＜土田:人名＞が＜日本電気:組織名＞に勤務している。」の４文で説明する。

上記４文において「＜語:クラス＞」は、「語」が「クラス」の固有表現としてアノテーションされていることを表す。（２）文の「山田」は、前２単語「土田が」と、係り先の文節「勤務している」とにおいて、（１）文の「ＮＥＣ」及び（４）文の「日本電気」と同じである。よって、（２）文の「山田」は、（１）文の「ＮＥＣ」や（４）文の「日本電気」と文脈が似ているため同じクラスタとなる。このように、（２）文の「山田」はクラスが「人名」であるにも関わらず、「組織名」が多いクラスタに属するためアノテーションミスと判断できる。同様に、（３）文の「竹田」は、係り先の文節「勤務している」において、（１）文、（２）文及び（３）文の「土田」と同じである。このため、（３）文の「竹田」は、（１）文、（２）文及び（３）文の「土田」と同じクラスタとなる。よって、（３）文の「竹田」は「人名」が多いクラスタに属するにも関わらず、アノテーションされていないため、アノテーション漏れであると判断できる。

このようにして検出されたアノテーションミスとアノテーション漏れとが、本当にアノテーションミス、又はアノテーション漏れに該当するかどうかは、人手によって判断するしかないが、本発明では、学習データ候補からこれらを全て除去して学習データとすればよい。この理由について、以下に説明する。

アノテーションミスが誤検出されている場合は、アノテーションが示すクラスは正しいクラスということになるが、誤検出されている正しいクラスの学習データは他にも沢山あることが想定できる。また、アノテーション漏れを検出できなかったというミスは、固有表現に対してアノテーションが付与されておらず、非固有表現として扱われているということに該当する。この場合も、アノテーションミスの誤検出と同様に、他にも非固有表現として扱われている学習データは沢山あると想定できる。つまり、アノテーションミス及びアノテーション漏れの誤検出は、除去しても影響が少ない。逆に、アノテーションミス及びアノテーション漏れの誤検出を除去しないとすると、誤検出でないものまで残ってしまう。この場合、正解データには、アノテーションミス及びアノテーション漏れの一方又は両方が含まれる可能性がある。即ち、正解データに、間違った正解データが含まれてしまうので、抽出ルールの学習時に悪影響となる。

ただし、アノテーションミス及びアノテーション漏れの学習データ候補の正しいラベルが推定できる場合は、それら学習データ候補のラベルを正しいラベルに変更し、ラベル変更後の学習データ候補を学習データに追加してもよい。正しいラベルの推定は、アノテーションミス又はアノテーション漏れと判定された学習データ候補のラベルが、その所属クラスタで高い割合を占めるラベルとなる確率（信頼度）を算出することによって行うことができる。そして、信頼度が設定された閾値より高い場合に、アノテーションミス又はアノテーション漏れと判定された学習データ候補のラベルを、所属クラスタで高い割合を占めるラベルに変更すれればよい。なお、信頼度としては、対象となる学習データ候補のクラスタの代表点からの距離が小さい場合、対象となる学習データ候補がクラスタ内で高密度な空間に存在する場合、対象となる学習データ候補のクラスタへの所属確率が高い場合、などに高い値となるパラメータを用いればよい。また、判定に利用する閾値は、学習データを用いた認識の結果に合わせて適宜設定すればよい。

また、本発明では、学習データの生成において、学習データ候補からはラベル情報のみを採用し、必要な特徴量は新たに取得してもよい。例えば、学習データ候補の特徴量としては、文脈的情報のみを用い、学習データの生成において、更に、単語又は単語列自身の品詞、及び表層文字列といった単語内情報を追加してもよい。

以上より、例えば、本発明の学習データ生成装置は、不完全正解データ中の単語又は何らかの手段で纏め上げられた単語列のいずれかを単位として、不完全なアノテーション情報を参照してラベルを付与した学習データ候補を用意又は生成する学習データ候補生成部と、前記学習データ候補をクラスタリングする学習データ候補クラスタリング部と、前記クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を用いて、学習データ候補から学習データを生成する学習データ生成部とを備えている。

（実施の形態１）
以下、本発明の実施の形態１における、学習データ生成装置及び学習データ生成方法について、図１〜図５を参照しながら説明する。最初に、本実施の形態１における学習データ生成装置の構成について図１を用いて説明する。図１は、本発明の実施の形態１における学習データ生成装置の構成を示すブロック図である。

図１に示す本実施の形態１における学習データ生成装置２は、固有表現抽出ルールの作成用の学習データを生成する装置である。固有表現抽出ルールは、質問応答システム、文書書類システム、機械翻訳システム等での固有表現の認識に利用されるルールである。

図１に示すように、学習データ生成装置２は、学習データ候補クラスタリング部２１と、学習データ生成部２２とを備えている。学習データ候補クラスタリング部２１は、アノテーションのクラスを示すラベルが付与された複数の学習データ候補に対して、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングを行う。

学習データ生成部２２は、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求める。また、学習データ生成部２２は、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する。

このように、特徴量に基づいたクラスタリングにより、ラベルの分布が得られる。ラベルの分布結果からは、アノテーションミス又はアノテーション漏れを伴う学習データ候補を簡単に推測できる。このため、人手によることなく、アノテーションミス又はアノテーション漏れを伴う可能性の少ない学習候補の選出が可能となる。よって、学習データ生成装置２を用いれば、正確、且つ、漏れの無いアノテーション作業無しで、正しい固有表現抽出ルール作成用の学習データを生成できるため、学習データの生成コストを低減することができる。

ここで、学習データ生成装置２について更に具体的に説明する。本実施の形態１では、学習データ生成装置２は、記憶装置１と共に、学習データ生成システム３を構成している。記憶装置１は、不完全な正解コーパスと、不完全な正解コーパスから学習データ生成装置２が生成する学習データ候補と、学習データとを記憶する。また、後述するように、学習データ生成装置２は、コンピュータによって実現でき、プログラム制御により動作する。また、記憶装置１は、データ生成装置２を実現するコンピュータが備える記憶装置によって、又はこのコンピュータとネットワークを介して接続された別のコンピュータ等の記憶装置によって実現できる。

図１に示すように、記憶装置１は、不完全正解コーパス記憶部１０と、学習データ候補記憶部１１と、学習データ記憶部１２とを備えている。不完全正解コーパス記憶部１０は、不完全正解コーパスを記憶している。不完全正解コーパスは、上述したように、テキスト中の一部の抽出目的となる固有表現に対して、クラスを示すアノテーションを付与して得られており、それらアノテーションにミスや漏れを含む可能性のあるデータである。

例えば、不完全正解コーパスは、テキストデータと、テキストデータの何文字目から何文字目までにどのクラスの固有表現が存在しているかを示すアノテーションデータとからなる。具体的には、「土田は日本電気に勤務している」の場合、アノテーションデータは、「０：２：人名（０文字目から２文字目までが人名）」と、「３：７：組織名（３文字目から７文字目までが組織名）」となる。アノテーションデータとしては、テキストデータが形態素解析されている場合であれば、文字数ではなく、単語数を用いることもできる。

学習データ候補記憶部１１は、後述する学習データ候補生成部２０によって生成された学習データ候補を記憶している。学習データ候補は、クラスを示すラベル（以下「クラスラベル」ともいう。）と、特徴量とからなるデータの集合である。本実施の形態では、特徴量は、上述したように、ベクトル、又は属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されているのが好ましい。

学習データ記憶部１２は、学習データ生成部２２が学習データ候補を用いて生成した固有表現抽出ルール作成用の学習データを記憶している。学習データも、学習データ候補と同様に、クラスラベルと特徴量とからなるデータの集合である。学習データにおいても、特徴量は、ベクトル、又は属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されているのが好ましい。

また、図１に示すように、学習データ生成装置２は、学習データ候補クラスタリング部２１と、学習データ生成部２２とに加えて、学習データ候補生成部２０を更に備えている。学習データ候補生成部２０は、不完全正解コーパス記憶部１０からテキストデータを読み出し、読み出したコーパス内のテキストデータから学習データ候補を生成する。また、学習データ候補生成部２０は、生成された学習データ候補を学習データ候補記憶部１１に記憶させる。

本実施の形態１では、学習データ候補生成部２０は、不完全正解コーパス記憶部１０から読み出したテキストデータを分割する。分割された各部分は、１つの学習データ候補の単位となる。この場合、１つの学習データ候補の単位は、単語、又は何らかの手段で纏め上げられた単語列とする。なお、何らかの手段で纏め上げられた単語列としては、例えば、既存の専門用語抽出技術を用いて抽出された専門用語列、または、Ｗｉｋｉｐｅｄｉａなどの大規模辞書の項目名を用いてマッチした単語列などが挙げられる。さらに、「。」などの句点を区切り文字として、文単位で纏め上げられた単語列も挙げられる。

また、本実施の形態１では、学習データ候補生成部２０は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、学習データ候補となる１単位毎に、文脈情報を含む特徴量を検出し、各単位に特徴量を付加して、学習データ候補を生成する。

具体的には、学習データ候補生成部２０は、先ず、不完全正解コーパスのアノテーションを参照して、各学習データ候補のラベルにクラス情報を付与し、アノテーションがない場合は「ＵＮＫＮＯＷＮ」などクラスが未知であることを示すラベルを付与する。特徴量は文脈的情報を含むものとする。また、学習データ候補生成部２０は、固有表現を構成する品詞など、候補を経験的な条件で絞り込め得る場合は、その条件で絞った単語又は単語列から学習データ候補を生成することもできる。更に、学習データ候補生成部２０は、「ＵＮＫＮＯＷＮ」が他のクラスと比較して多すぎる場合は、ランダムサンプリングなどを用いて、その数を調整することもできる。

学習データ候補クラスタリング部２１は、本実施の形態では、学習データ候補記憶部１１からデータを取り出し、学習データ候補の特徴量を用いてクラスタリングを行い、クラスタリング結果を学習データ生成部２２に渡す。クラスタリングには任意の方法を用いることができる。また、学習データ候補クラスタリング部２１は、クラスタリング結果の良さの指標として、上述した［Ａ］〜［Ｄ］の４点を考慮し、いずれか１つ以上、好ましくは［Ａ］〜［Ｄ］の４点を考慮する。クラスタリングのパラメータ、及び終了条件は、求められるクラスタリング結果が得られるように、適宜設定される。

上述の指標を考慮するのは、次の処理を実行する学習データ生成部２２では、ラベルの分布を手がかりにアノテーションミスとアノテーション漏れとを検出し、これによって学習データ生成するためである。つまり、クラスタ間でラベルの分布が偏り、且つ、１つのクラスタ内に割合が多いクラスが１つ存在すると、アノテーションミスとアノテーション漏れとの検出が容易となるためである。

但し、クラスタリングの手法として、ｋ−ｍｅａｎｓ等、クラスタ数をパラメータとするアルゴリズムが利用される場合は、クラスタ内のデータ数が少なくなりすぎない程度に、クラスタ数の値を設定するのが好ましい。また、２つのデータ間の類似度閾値をパラメータとするアルゴリズムが利用される場合も、クラスタ内のデータ数が少なくなりすぎない程度に、パラメータの値を設定するのが好ましい。そうすることで、一つのクラスタ内に良く似ている学習データ候補が集まり、よりラベルの分布が現れやすくなるためである。

学習データ生成部２２は、本実施の形態１では、学習データ候補クラスタリング部２１の結果を受け取り、各クラスタ内のラベルの分布から、アノテーションミス又はアノテーション漏れとなっている学習データ候補を検出する。また、学習データ生成部２２は、検出した学習データ候補を除去することで、又は検出した学習データ候補のラベルを変更することで、学習データ候補から学習データを生成する。生成された学習データは、学習データ記憶部１２に記憶される。

具体的には、本実施の形態１では、学習データ生成部２２は、特定のラベルを予め定められた割合以上含むクラスタにおいて、この特定のラベルが付与された学習データを、設定された条件を満たす学習候補として特定する。特定された学習候補は学習データとされる。一方、特定のラベルが付与されていない学習データ候補は、アノテーションミス又はアノテーション漏れとなっている学習データ候補とされる。

つまり、本実施の形態１では、学習データ生成部２２は、クラスタリング結果から、あるクラスのアノテーションミスは、他のクラスのラベルが多いクラスタに含まれるそのクラスのデータと判断する。また、学習データ生成部２２は、クラスタリング結果から、アノテーション漏れは、あるクラスが多く含まれるクラスタ内の他のラベルのデータ、と判定する。このクラスタ内のクラスが多いか否かの判断は、あるクラスが予め定められた割合を超えるか（以上となるか）否かで判断することができるが、この点については後述する。

また、本実施の形態１では、学習データ生成部２２は、特定のラベルを予め定められた割合以上含むクラスタ内における、特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合い（以下「確信度」とする。）を求めることができる。この場合、学習データ生成部２２は、確信度が閾値以上となる学習データ候補を学習データとし、確信度が閾値未満となる学習データ候補を学習データ候補全体から削除することができる。なお、確信度は、上述した「信頼度」とみなすことができる。

つまり、学習データ生成部２２は、確信度が高いアノテーションミス及びアノテーション漏れを伴う学習データ候補を、クラスタから判断したラベルの学習データとし、それら以外のアノテーションミス及びアノテーション漏れを伴う学習データ候補を除去してもよい。

確信度としては、学習データ候補のクラスタの代表点からの距離、学習候補データのクラスタ内での推定密度、クラスタが特定のラベルを含む割合等が挙げられる。また、クラスタリングで得られた分布が、混合確率分布である場合は、確信度としては、学習データ候補のクラスタへの所属確率が挙げられる。確信度が高いか否かは、上述したように、予め決めておいた閾値で判定する。判定に利用する閾値は、学習データを用いた認識の結果に合わせて適宜設定すれば良い。また、各学習データ候補を確信度に基づいてソートし、一定割合の学習データ候補を学習データとして採用しても良い。

また、本実施の形態１では、学習データ生成部２２は、学習データとされた学習データ候補に、新たな特徴量を付加することもできる。つまり、本実施の形態１では、学習データ生成部２２は、学習データ候補の特徴量からラベル情報のみを抽出し、これに新たな特徴量を付加して、学習データの特徴量とすることもできる。例えば、学習データ候補の特徴量として文脈的情報のみが用いられている場合は、学習データ生成部２２は、学習データの生成時に、更に、特徴量として、単語又は単語列自身の、品詞や表層文字列といった単語内情報を追加することができる。

なお、本実施の形態１では、学習データ生成装置２は、学習データ候補生成部２０を備えていない構成であっても良い。つまり、本実施の形態１は、予め、学習データ候補生成部２０が行う処理に相当する処理が実施され、学習データ候補が、学習データ候補記憶部１１に記憶されている態様であっても良い。

次に、本発明の実施の形態１における学習データ生成装置２の動作について図２〜図５を用いて説明する。図２は、本発明の実施の形態１における学習データ生成装置の動作を示す流れ図である。以下の説明では、人名、地名を認識するための固有表現抽出ルールを作成するための学習データの生成を例に挙げる。なお、本実施の形態１における学習データ生成方法は、図１に示した学習データ生成装置２を動作させることによって実施できる。よって、本実施の形態１における学習データ生成方法の説明は、以下の学習データ生成装置２の動作の説明に代える。また、以下の説明では、適宜図１を参酌する。

図２に示すように、先ず、学習データ候補生成部２０は、不完全正解コーパス記憶部１０からデータを読み出し、コーパス内のテキストから学習データ候補を生成する（図２のステップＳ１）。ステップＳ１で生成された学習データ候補は、学習データ候補記憶部１１によって記憶される。

ここで、不完全正解コーパス記憶部１０に記憶されているデータの一例を図３を用いて説明する。図３は、図１に示す不完全正解コーパス記憶部に記憶されているデータの具体例を示す図であり、図３（ａ）はテキストデータテーブルを示し、図３（ｂ）はアノテーションデータテーブルを示している。

図３（ａ）及び（ｂ）を参照すると、不完全正解コーパス記憶部１０は、テキストデータを特定するテキストデータテーブルと、アノテーションデータを特定するアノテーションデータテーブルとを記憶している。

図３（ａ）に示すテキストデータテーブルは、テキストデータとその識別子であるＩＤとで構成される。図３（ｂ）に示すアノテーションテーブルのテキストＩＤは、テキストデータテーブルのＩＤとの間でリレーションを有している。アノテーションテーブルにおいて、「開始」は開始文字数、「終了」は終了文字数、「クラス」はアノテーションされたクラス情報を表す。つまり、アノテーションテーブルの１行目のデータは、テキストデータテーブルのＩＤが１のテキストの５文字目から７文字目までが、人名とアノテーションされていることを示している。文字数は０からカウントされた値である。

つまり、図３（ａ）及び（ｂ）例から、福島が人名とアノテーションされていることがわかるが、実際は地名であるため、これはアノテーションミスである。また、アノテーションテーブルには、ＩＤが２００の３文字目から５文字目にある「土田」に対して、これが人名であるというアノテーションがないことがわかる。これはアノテーション漏れの例を示している。

学習データ候補生成部２０は、このような不完全正解コーパスから、学習データ候補を生成する。図４は、図１に示す学習データ候補生成部が生成する学習データ候補の具体例を示す図である。図４を用いて、図３（ａ）及び（ｂ）に示された、ＩＤが２のテキストから作成した学習データ候補の例を説明する。

図４の例では、学習データ候補生成部２０は、アノテーションテーブル（図３（ｂ））を参照し、アノテーションのある語のラベルには、クラス情報を付与し、アノテーションがない語のラベルには、クラスが未知であることを表す「ＵＮＫＮＯＷＮ」を付与する。

特徴量は、「２つ前の単語」、「１つ前の単語」、「１つ後の単語」、「２つ後の単語」、及び「係り先文節の主辞」を含んでいる。このように、図４に示すように、学習データ候補はクラス情報を表すラベルと、特徴量とから構成される。学習データ候補生成部２０は、このように学習データ候補を生成し、結果を学習データ候補記憶部１１に記憶させる。

次に、学習データ候補クラスタリング部２１は、学習データ候補記憶部１１に記憶されている学習候補データを読み込み、その特徴量を用いて、学習データ候補をクラスタリングする（図２のステップＳ２）。ステップＳ２において、学習データ候補クラスタリング部２１は、クラスタリング結果を学習データ生成部２２に渡す。

クラスタリングには公知のアルゴリズムを用いればよいが、パラメータを調整することで、各クラスタ内のラベルの分布が偏るように処理する。そのように処理したクラスタリング結果の例を図５に示す。図５は、図１に示す学習データ候補クラスタリング部２１の処理結果の具体例を示す図である。図５を参照すると、図５では、学習データ候補は、ｎ個のクラスタに分けられている。図５の例では、クラスタ１のラベルの割合は、人名８０％、地名１０％、ＵＮＫＮＯＷＮ１０％となっている。

最後に、学習データ生成部２２は、学習データ候補クラスタリング部２１のクラスタリング結果を受けて、各クラスタのラベルの分布を見て、一定以上の割合で特定のラベルを含むクラスタから学習データを生成する（図２のステップＳ３）。生成された学習データは、学習データ記憶部１２によって記憶される。

ここで、図５に示したクラスタリング結果を用いて、学習データ生成部２２が、学習データを生成する例について説明する。本実施の形態１では、例えば、１つのクラスが７０％以上含まれるクラスタから学習データが生成されるとする。

図５において、クラスタ１では、人名は７０％を上回るため、人名が信頼できると判定される。一方、クラスタ１の中に含まれている地名及びＵＮＫＮＯＷＮは、信頼できないと判定され、これらはクラスタ１から除去される。同様に、クラスタ２においては、地名は７０％を上回るため、地名が信頼できると判定される。クラスタ２においては、人名及びＵＮＫＮＯＷＮは信頼できないと判定され、これらは除去される。クラスタｎにおいては、ＵＮＫＮＯＷＮが７０％を上回るため、非固有表現しか含まれないと判定される。また、クラスｎにおいては、人名及び地名は信頼できないと判定され、これらは除去される。

学習データ生成部２２は、ステップＳ３の実行後に、残った学習データ候補を合わせ、学習データとする。図５を例に説明すると、アノテーション漏れであるクラスタ１の「土田」は削除される。同様に、アノテーションミスであるクラスタ２の「福島」も削除される。このようにして、ステップＳ１〜Ｓ３の実行により、正しい学習データが生成される。

以上のように、本実施の形態１では、低コストで作成可能な不完全な正解コーパスから、アノテーション情報を元に学習データ候補が作成される。そして、学習データ候補を、クラスタリングし、クラスタ内の学習データ候補のクラスラベルの分布を用いて、不適切な学習データ候補であるアノテーションミス及びアノテーション漏れが検出される。そして、検出された不適切な学習データ候補を除去することによって、学習データが生成される。よって、本実施の形態１によれば、低コストで、固有表現抽出用の正しい学習データの作成が可能となる。

（実施の形態２）
次に本発明の実施の形態２における、学習データ生成装置及び学習データ生成方法について、図６及び図７を参照しながら説明する。最初に、本実施の形態２における学習データ生成装置の構成について図６及び図７を用いて説明する。図６は、本発明の実施の形態２における学習データ生成装置の構成を示すブロック図である。図７は、図６に示す辞書データ記憶部に記憶されている辞書データの具体例を示す図である。

図６に示すように、本発明の実施の形態２においては、学習データ生成システム６は、実施の形態１と異なり、記憶装置４と学習データ生成装置５とを備えている。本実施の形態２では、記憶装置４は、実施の形態１において図１に示した記憶装置１と異なり、不完全正解コーパス記憶部１０の代わりに、コーパス記憶部１３と、辞書データ記憶部１４とを備えている。コーパス記憶部１３は、アノテーション情報を有しないコーパスを記憶している。辞書データ記憶部１４は、固有表現とそのクラスとが登録された辞書を記憶している。上記の点以外については、記憶装置４は、図１に示した記憶装置１と同様に、構成されている。

また、図６に示すように、本発明の実施の形態２における学習データ生成装置５は、実施の形態１において図１に示した学習データ生成装置２と異なり、アノテーション情報生成部２３を更に備えている。アノテーション情報生成部２３は、アノテーション情報を生成する。上記の点以外については、学習データ生成装置５は、図１に示した学習データ生成装置２と同様に構成されている。以下に、本実施の形態２の実施の形態１との相違点について具体的に説明する。

本実施の形態２において、コーパス記憶部１３は、テキストデータを記憶している。コーパス記憶部１３によって記憶されているテキストデータの例としては、図３（ａ）に示したテキストデータテーブルが挙げられる。コーパス記憶部１３は、テキストデータテーブルのみを記憶している。

辞書データ記憶部１４は、図７に示すように、固有表現とそのクラスとが登録された辞書（辞書データ）を記憶している。図７に示すように、辞書データにおいて、「福島」及び「山田」は人名として登録されている。また、「大阪」及び「奈良」は地名として登録されている。

アノテーション情報生成部２３は、先ず、コーパス記憶部１３からテキストデータを読み出し、辞書データ記憶部１４から辞書データをそれぞれ読み出す。そして、アノテーション情報生成部２３は、辞書データに登録されている複数の固有表現と、コーパス記憶部１３に記憶されているテキストデータとを比較し、辞書に登録されている固有表現の文字列をテキストデータから探す。

更に、アノテーション情報生成部２３は、文字列マッチによって、固有表現の出現箇所の位置とこの固有表現のクラスとを特定し、これらによってアノテーション情報を作成する。アノテーション情報は学習データ候補生成部２０に渡される。アノテーション情報は、図３（ｂ）に示したアノテーションテーブルに相当するものであるため、アノテーション情報生成部２３は、不完全正解コーパスを作成する機能を備えていると言える。

次に、本発明の実施の形態２における学習データ生成装置５の動作について図８を用いて説明する。図８は、本発明の実施の形態２における学習データ生成装置の動作を示す流れ図である。なお、本実施の形態２においても、学習データ生成方法は、図６に示した学習データ生成装置５を動作させることによって実施できる。よって、本実施の形態２における学習データ生成方法の説明は、以下の学習データ生成装置５の動作の説明に代える。また、以下の説明では、適宜図６を参酌する。

図８に示すように、先ず、アノテーション情報生成部２３は、コーパス記憶部１３と辞書データ記憶部１４とからそれぞれデータを読み出し、辞書データに登録されている固有表現がコーパス中に現れる箇所に対してアノテーション情報を生成する（図８のステップＳ１１）。ステップＳ１の実行後、アノテーション情報生成部２３は、コーパス記憶部１３に記憶されているコーパスと、アノテーション情報とを、不完全正解コーパスデータとして、学習データ候補生成部２０に渡す。

続いて、学習データ候補生成部２０は、ステップＳ１１で作成された不完全正解コーパスデータから学習データ候補を生成する（図８のステップＳ１２）。次に、学習データ候補クラスタリング部２１によるクラスタリング（図８のステップＳ１３）、学習データ生成部２２による学習データの生成（図８のステップＳ１４）が行われる。なお、ステップＳ１２〜Ｓ１４は、実施の形態１において図２に示したステップＳ１〜Ｓ３と同様のステップである。

このように、本発明の実施形態２では、不完全正解コーパスが、コーパスと辞書とによって自動的に作成される。よって、辞書さえ用意されていれば、人手によって不完全正解コーパスを作成する必要がなく、不完全正解コーパスの作成にかかるコストを低減できる。本実施の形態２によれば、実施の形態１よりも、低コストで学習データの生成を行うことができるようになる。

（実施の形態３）
次に本発明の実施の形態３における、学習データ生成装置及び学習データ生成方法について、図９及び図１０を参照しながら説明する。最初に、本実施の形態３における学習データ生成装置の構成について図９を用いて説明する。図９は、本発明の実施の形態３における学習データ生成装置の構成を示すブロック図である。

図９に示すように、本発明の実施の形態３においては、学習データ生成システム９は、実施の形態１及び２と異なり、記憶装置７と学習データ生成装置８とを備えている。また、本実施の形態３では、記憶装置７は、実施の形態２において図６に示した記憶装置４の構成に加えて、抽出ルール記憶部１５を備えている。また、学習データ生成装置８は、実施の形態２において図６に示した学習データ生成装置５の構成に加えて、抽出ルール学習部２４と辞書増殖部２５とを備えている。以下に、本実施の形態３の実施の形態２との相違点について具体的に説明する。

抽出ルール学習部２４は、学習データ生成部２２により生成された学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習する。本実施の形態３では、抽出ルール学習部２４は、学習データ記憶部１２から学習データを読み出し、既存の任意の抽出ルール学習法を用いて固有表現抽出ルールを学習し、結果を抽出ルール記憶部１５に出力する。抽出ルール記憶部１５は、抽出ルール学習部２４によって学習された固有表現抽出ルールを記憶する。

辞書増殖部２５は、複数の文書を含むコーパスから、抽出ルール学習部２４によって学習された抽出ルールを用いて固有表現を抽出する。そして、辞書増殖部２５は、抽出された固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、辞書データ記憶部１４が記憶している辞書に追加登録する。

本実施の形態３では、辞書増殖部２５は、コーパス記憶部１３と抽出ルール記憶部１５からそれぞれデータを読み出し、コーパス記憶部１３に記憶されているコーパスのテキストデータから固有表現を抽出する。また、辞書増殖部２５は、抽出された固有表現の確信度を求め、確信度が閾値以上となった固有表現、確信度が上位の数件、または、確信度が上位の数割を、そのクラス情報と共に辞書データ記憶部１４に記憶させる。

本実施の形態３における「確信度」としては、当該固有表現が抽出された回数の絶対数、又は全固有表現の出現数に対する当該固有表現の出現数の割合を用いることができる。また、辞書増殖部２５は、抽出ルールに信頼度が付与されている場合は、その抽出ルールの信頼度を用いて確信度を計算することもできる。

なお、辞書データ記憶部１４に記憶させるかどうかの判断基準となる閾値は、アノテーション情報生成部２３が生成した学習データ候補に含まれるアノテーションミス及びアノテーション漏れの程度に合わせて適宜設定されれば良い。

次に、本発明の実施の形態３における学習データ生成装置８の動作について図１０を用いて説明する。図１０は、本発明の実施の形態３における学習データ生成装置の動作を示す流れ図である。なお、本実施の形態３においても、学習データ生成方法は、図９に示した学習データ生成装置８を動作させることによって実施できる。よって、本実施の形態３における学習データ生成方法の説明は、以下の学習データ生成装置８の動作の説明に代える。また、以下の説明では、適宜図９を参酌する。

図１０に示すように、先ず、アノテーション情報生成部２３は、不完全正解コーパスデータを生成する（図１０のステップＳ２１）。続いて、学習データ候補生成部２０は、ステップＳ２１で作成された不完全正解コーパスデータから学習データ候補を生成する（図１０のステップＳ２２）。次に、学習データ候補クラスタリング部２１によるクラスタリング（図１０のステップＳ２３）、学習データ生成部２２による学習データの生成（図１０のステップＳ２４）が行われる。なお、ステップＳ２１〜Ｓ２４は、実施の形態２において図８に示したステップＳ１１〜Ｓ１４と同様のステップである。

次に、ステップＳ２４の実行後、抽出ルール学習部２４は、学習データ記憶部１２から学習データを読み出し、既知の任意の抽出ルール学習方法に従って、固有表現抽出ルールを学習する（図１０のＳ２５）。ステップＳ２５において、抽出ルール学習部２４は、生成した抽出ルールを抽出ルール記憶部１５に記憶させる。

次に、辞書増殖部２５は、抽出ルール記憶部１５から固有表現抽出ルールを読み出し、コーパスからテキストデータを読み出す。そして、辞書増殖部２５は、これらを用いて、コーパス中の固有表現を抽出し、抽出された固有表現のうち、確信度が閾値以上となった固有表現を、そのクラス情報と共に辞書データ記憶部１４に追加する（図１０のステップＳ２６）。

その後、辞書増殖部２５は、終了条件が満たされているか否かを判定する（図１０のＳ７）。判定の結果、終了条件が満たされていなければ、再度、ステップＳ１が実行される。一方、判定の結果、終了条件が満たされていれば、システムの動作は終了する。なお、終了条件としては、ステップＳ２１〜Ｓ２７の実行回数（規定の回数繰り返されているならば終了）、辞書に追加された語数（追加語数が規定値を超えれば終了）が挙げられる。また、固有表現が１つも追加されなかった場合に、終了となっても良い。

ここで、本実施の形態３で用いられる「確信度」について説明する。本実施の形態３では、例えば、確信度として、以下のスコアを用いることができる。確信度は、固有表現ｗがクラスｃとして正しいこと、及び、固有表現ｗがコーパス中でクラスｃ以外のクラスとして使われていないこと、の２点を満たすほど高くなるように計算される。具体的には、確信度（ｗ，ｃ）は、下記の（数１）及び（数２）によって計算される。

（数１）
確信度（ｗ，ｃ）＝ｅｘｔ＿ｃｎｔ（ｗ，ｃ)×(Σ＿ｘｆ（ｘ，ｃ））／｜Ｄ（ｗ）｜

（数２）
ｆ（ｘ，ｃ）＝ｆｃ（ｘ）／Σ＿ｃｉｆｃｉ（ｘ）

上記（数１）において、「ｅｘｔ＿ｃｎｔ（ｗ，ｃ)」は、固有表現ｗがクラスｃとして抽出された数を示している。「Ｄ（ｗ）」は、コーパス中で固有表現ｗが出現している学習データの集合を示している。「ｘ」は、固有表現ｗを含む一つの学習データを示している。「ｆｃｉ（ｘ)」は、「ｘ」がクラスｃｉであるかどうかを判定する際に用いた抽出ルールに付与されている信頼度を示している。「ｆｃ（ｘ)」は、「ｘ」がクラスｃであるかどうかを判定する際に用いた抽出ルールに付与されている信頼度を示している。

すなわち、ｅｘｔ＿ｃｎｔ（ｗ，ｃ）は、固有表現ｗがクラスｃとして抽出された回数なので、それが大きいほど、固有表現ｗがそのクラスｃの固有表現として正しいことを表している。また、（Σ＿ｘｆ（ｘ，ｃ））／｜Ｄ（ｗ）｜は、固有表現ｗが平均的にクラスｃに出現している場合に高くなる。よって、固有表現ｗがクラスｃの固有表現として正しく、かつ、他のクラスの固有表現として使われる可能性が低い場合に、確信度（ｗ，ｃ）は高くなる。

たとえば、固有表現「斎藤」がクラス「人名」である確信度を計算するには以下のように行う。まず、前提として、クラス情報には「人名」、「地名」、及び「ＵＮＫＮＯＷＮ」があるとする。

また、固有表現「斎藤」はコーパス記憶部の中で３回出現し、それぞれの抽出ルールの信頼度は、下記の通りであったとする。なお、下記では、抽出ルールの信頼度が０であることは、抽出ルールとマッチしなかったことを示している。
一か所目／「人名」ルール：０．６、「地名」ルール：０
二か所目／「人名」ルール：０．６、「地名」ルール：０
三か所目／「人名」ルール：０．５、「地名」ルール：０．８

よって、固有表現「斎藤」をクラス「人名」と抽出した数は３であるから、ｅｘｔ＿ｃｎｔ（斎藤，人名）＝３である。また、コーパス情報記憶部での出現回数は３回なので、｜Ｄ(Ｗ)｜は３である。よって、上記（数１）及び（数２）により、確信度は下記のように計算される。

確信度（斎藤、人名）
＝ｅｘｔ＿ｃｎｔ（斎藤，人名）×（Σ＿ｘｆ（ｘ，人名））／｜Ｄ（斎藤)｜
＝3 × (0.6 / (0.6+0) + 0.6 /
(0.6+0) + 0.5 / (0.5+0.8)) / 3
＝2.38

同様に、固有表現「福岡」がクラス「人名」である確信度を計算するには以下のように行う。まず、固有表現「福岡」はコーパス記憶部の中で３回出現し、それぞれの抽出ルールの信頼度は、下記の通りであったとする。
一か所目／「人名」ルール：０．６、「地名」ルール：０．６、
二か所目／「人名」ルール：０．６、「地名」ルール：０．６、
三か所目／「人名」ルール：０．５、「地名」ルール：０．８

よって、この場合も上記（数１）及び（数２）により、確信度は下記のように計算される。

確信度（福岡、人名）
＝ｅｘｔ＿ｃｎｔ（福岡，人名)×（Σ＿ｘｆ（ｘ，人名））／｜Ｄ（福岡）｜
＝3 × (0.6 / (0.6+0.6) + 0.6 /
(0.6+0.6) + 0.5 / (0.5+0.8)) / 3
＝1.38

上記の結果から分かるように、固有表現「斎藤」は、人名としてのみ用いられることが多いため、確信度は高く算出される。一方、固有表現「福岡」は、人名としても地名としても用いられることが多いため、確信度は低く算出される。

このように、本実施の形態３では、生成された学習データから得られた固有表現抽出ルールを用いて、コーパス中から固有表現が抽出され、信頼できる固有表現が辞書に追加される。そして、固有表現が追加された辞書を用いて、コーパスからの不完全正解データの作成が行われる。更に、固有表現の辞書への追加、及び不完全正解データの生成は、繰り返すことが可能である。

よって、本実施の形態３においては、不完全正解コーパスを作成するための辞書は、最初、規模が小さいものであっても良く、後に、その規模を大きくすることができる。本実施の形態３によれば、小規模な辞書しか用意されていなくても、学習データを作成することができるため、実施の形態１及び２よりも低コストで学習データの作成を行うことができるようになる。

（固有表現抽出システム）
次に本発明の実施の形態における固有表現抽出システムについて、図１１を参照しながら説明する。図１１は、本発明の実施の形態における固有表現抽出システムの構成を示すブロック図である。

図１１に示す固有表現抽出システムは、実施の形態１〜実施の形態３において説明した学習データ生成装置を構成要素とするシステムである。図１１に示すように、固有表現抽出システムは、学習データ生成システム１００と、固有表現抽出装置１０６と、記憶装置１０７とを備えている。学習データ生成システム１００は、実施の形態１から実施の形態３のいずれかで示した学習データ生成システムである。

また、固有表現抽出装置１０６は、固有表現抽出ルール学習部１０１と、固有表現抽出部１０４とを備えている。記憶装置１０７は、抽出ルール記憶部１０２と、処理対象テキストデータ記憶部１０３と、抽出結果記憶部１０５とを備えている。

固有表現抽出ルール学習部１０１は、学習データ生成システム１００に備えられている学習データ記憶部１２から学習データを読み出し、固有表現を抽出するための固有表現抽出ルールを学習する。固有表現抽出ルール学習部１０１は、実施の形態３において図９に示した抽出ルール学習部２４と同様の機能を備えている。学習された固有表現抽出ルールは、抽出ルール記憶部１０２に記憶される。

固有表現抽出部１０４は、抽出ルール記憶部１０２から読み出した固有表現抽出ルールを用いて、処理対象テキストデータ記憶部１０３に記憶されているテキストデータから、固有表現を抽出する。また、固有表現抽出部１０４は、抽出した固有表現を抽出結果記憶部１０５に記憶させる。なお、処理対象テキストデータ記憶部１０３は、処理対象となる複数の文書を含むコーパスを記憶している。

このように、本実施の形態における固有表現抽出システムは、本発明の学習データ生成システムを備えている。よって、低コストで作成した学習データから固有表現抽出ルールを学習できるので、固有表現抽出システムの構築にかかるコストの低減化が可能となる。

また、本発明の実施の形態１〜３における学習データ生成装置及び学習データ生成方法について説明したが、本発明はコンピュータソフトウェアとしても実現可能である。ここで、実施の形態１〜３におけるプログラムについて説明する。図１２は、本発明の実施の形態１〜３のいずれかにおけるプログラムを実行可能なコンピュータを示すブロック図である。

図１２に示すコンピュータは、本発明による学習データ生成装置をインプリメントした情報処理システムとして機能する。図１２に示すように、コンピュータ（情報処理システム）は、プロセッサ３００と、プログラムメモリ３０１と、記憶媒体３０２と、外部機器に接続されるインターフェイス３０３と、表示データを出力するためのビデオカード３０４とを備えている。記憶媒体３０２としては、ＲＡＭといった各種メモリや、ハードディスク等の磁気記憶媒体を用いることができる。なお、コンピュータには、キーボード等の入力装置３０５と、液晶表示装置等の表示装置３０６とが接続されている。

プログラムメモリ３０１には、プロセッサ３００を動作させるためのプログラムが格納される。プログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されて提供される。また、プログラムは、ネットワーク等を介して提供されても良い。コンピュータ読み取り可能な記録媒体としては、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フレキシブルディスク等が挙げられる。

プログラムメモリ３０１に格納されているプログラムは、実施の形態１〜３のいずれかに示された処理ステップを実行させる命令を含む。つまり、プログラムメモリ３０１に、例えば、図２に示すステップＳ１〜Ｓ３をプロセッサ３００に実効させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態１における学習データ生成装置２が実現される。この場合、プロセッサ３００は、学習データ候補生成部２０、学習データ候補クラスタリング部２１、及び学習データ生成部２２として機能し、記憶媒体３０２は、記憶装置１として機能する。

また、同様に、プログラムメモリ３０１に、図８に示すステップＳ１１〜Ｓ１４をプロセッサ３００に実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態２における学習データ生成装置５が実現される。この場合、プロセッサ３００は、学習データ候補生成部２０、学習データ候補クラスタリング部２１、学習データ生成部２２及びアノテーション情報生成部２３として機能する。記憶媒体３０２は、記憶装置４として機能する。

更に、同様に、プログラムメモリ３０１に、図１０に示すステップＳ２１〜Ｓ２７をプロセッサ３００に実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態３における学習データ生成装置８が実現される。この場合、プロセッサ３００は、学習データ候補生成部２０、学習データ候補クラスタリング部２１、学習データ生成部２２、アノテーション情報生成部２３、抽出ルール学習部２４、及び辞書増殖部２５として機能する。記憶媒体３０２は、記憶装置７として機能する。なお、実施の形態１〜３において、外部の別のコンピュータの記憶媒体が、記憶装置１、４、７として機能していても良い。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００９年４月１５日に出願された日本出願特願２００９−０９９１８３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本願発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体は、以下の特徴を有する。

（１）固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする学習データ生成装置。

（２）前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定ラベルの前記学習データとする、上記（１）に記載の学習データ生成装置。

（３）前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記（２）に記載の学習データ生成装置。

（４）前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記（２）に記載の学習データ生成装置。

（５）前記学習データ生成部が、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、上記（４）に記載の学習データ生成装置。

（６）前記学習データ候補クラスタリング部が、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、上記（１）に記載の学習データ生成装置。

（７）前記学習データ生成部が、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記（１）に記載の学習データ生成装置。

（８）学習データ候補生成部を更に備え、
前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、上記（１）に記載の学習データ生成装置。

（９）前記アノテーション情報を作成するアノテーション情報生成部と、
複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、上記（８）に記載の学習データ生成装置。

（１０）抽出ルール学習部と、辞書増殖部とを更に備え、
前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、上記（９）に記載の学習データ生成装置。

（１１）固有表現抽出ルールの作成用の学習データを生成する学習データ生成装置と、固有表現抽出装置とを備え、
前記学習データ生成装置は、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする固有表現抽出システム。

（１２）固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする学習データ生成方法。

（１３）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記（１２）に記載の学習データ生成方法。

（１４）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記（１３）に記載の学習データ生成方法。

（１５）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記（１３）に記載の学習データ生成方法。

（１６）前記（ｂ）のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、上記（１５）に記載の学習データ生成方法。

（１７）前記（ａ）のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、上記（１２）に記載の学習データ生成方法。

（１８）前記（ｂ）のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記（１２）に記載の学習データ生成方法。

（１９）（ｃ）テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを、更に有する、上記（１２）に記載の学習データ生成方法。

（２０）（ｄ）複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを、更に有する、上記（１９）に記載の学習データ生成方法。

（２１）（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｄ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記（２０）に記載の学習データ生成方法。

（２２）コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。

（２３）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記（２２）に記載のコンピュータ読み取り可能な記録媒体。

（２４）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記（２３）に記載のコンピュータ読み取り可能な記録媒体。

（２５）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記（２３）に記載のコンピュータ読み取り可能な記録媒体。

（２６）前記（ｂ）のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、上記（２５）に記載のコンピュータ読み取り可能な記録媒体。

（２７）前記（ａ）のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、上記（２２）に記載のコンピュータ読み取り可能な記録媒体。

（２８）前記（ｂ）のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記（２２）に記載のコンピュータ読み取り可能な記録媒体。

（２９）前記プログラムが、前記コンピュータに、
（ｃ）テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む上記（２２）に記載のコンピュータ読み取り可能な記録媒体。

（３０）前記プログラムが、前記コンピュータに、
（ｄ）複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む上記（２９）に記載のコンピュータ読み取り可能な記録媒体。

（３１）前記プログラムが、前記コンピュータに、
（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｄ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む上記（３０）に記載のコンピュータ読み取り可能な記録媒体。

本発明によれば、固有表現抽出ルールを低コストで作成できる。このため、本発明は、情報検索システムや、テキストマイニングシステムなど、テキスト情報の有効利用を目的としたシステムに有用である。本発明は、産業上の利用可能性を有している。

１記憶装置（実施の形態１）
２学習データ生成装置（実施の形態１）
３学習データ生成システム（実施の形態１）
４記憶装置（実施の形態２）
５学習データ生成装置（実施の形態２）
６学習データ生成システム（実施の形態２）
７記憶装置（実施の形態３）
８学習データ生成装置（実施の形態３）
９学習データ生成システム（実施の形態３）
１０不完全正解コーパス記憶部
１１学習データ候補記憶部
１２学習データ記憶部
１３コーパス記憶部
１４辞書データ記憶部
１５抽出ルール記憶部
２０学習データ候補生成部
２１学習データ候補クラスタリング部
２２学習データ生成部
２３アノテーション情報生成部
２４抽出ルール学習部
２５辞書増殖部
１００学習データ生成システム
１０１固有表現抽出ルール学習部
１０２抽出ルール記憶部
１０３処理対象テキストデータ記憶部
１０４固有表現抽出部
１０５抽出結果記憶部
１０６固有表現抽出装置
１０７記憶装置
３００プロセッサ
３０１プログラムメモリ
３０２記憶媒体
３０３インターフェイス
３０４ビデオカード
３０５入力装置
３０６表示装置

本発明は、固有表現抽出ルールの作成に必要な学習データを生成する学習データ生成装置、それを用いた固有表現抽出システム、学習データ生成方法、及びプログラムに関する。

本発明の目的は、上記問題を解消し、漏れなく正確なアノテーション作業を不要にし得、固有表現抽出ルール作成用の学習データの生成コストを低減し得る、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムを提供することにある。

更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるためのプログラムであって、
前記コンピュータに、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させることを特徴とする。

以上の特徴により、本発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムによれば、漏れなく正確なアノテーション作業を不要にし、これにより、固有表現抽出ルール作成用の学習データの生成コストを低減できる。

上記４文において「＜語:クラス＞」は、「語」が「クラス」の固有表現としてアノテーションされていることを表す。（２）文の「山田」は、前２単語「土田が」と、係り先の文節「勤務している」とにおいて、（１）文の「ＮＥＣ」及び（４）文の「日本電気」と同じである。よって、（２）文の「山田」は、（１）文の「ＮＥＣ」や（４）文の「日本電気」と文脈が似ているため同じクラスタとなる。このように、（２）文の「山田」はクラスが「人名」であるにも関わらず、「組織名」が多いクラスタに属するためアノテーションミスと判断できる。同様に、（３）文の「竹田」は、係り先の文節「勤務している」において、（１）文、（２）文及び（４）文の「土田」と同じである。このため、（３）文の「竹田」は、（１）文、（２）文及び（４）文の「土田」と同じクラスタとなる。よって、（３）文の「竹田」は「人名」が多いクラスタに属するにも関わらず、アノテーションされていないため、アノテーション漏れであると判断できる。

図８に示すように、先ず、アノテーション情報生成部２３は、コーパス記憶部１３と辞書データ記憶部１４とからそれぞれデータを読み出し、辞書データに登録されている固有表現がコーパス中に現れる箇所に対してアノテーション情報を生成する（図８のステップＳ１１）。ステップＳ１１の実行後、アノテーション情報生成部２３は、コーパス記憶部１３に記憶されているコーパスと、アノテーション情報とを、不完全正解コーパスデータとして、学習データ候補生成部２０に渡す。

その後、辞書増殖部２５は、終了条件が満たされているか否かを判定する（図１０のＳ２７）。判定の結果、終了条件が満たされていなければ、再度、ステップＳ１が実行される。一方、判定の結果、終了条件が満たされていれば、システムの動作は終了する。なお、終了条件としては、ステップＳ２１〜Ｓ２７の実行回数（規定の回数繰り返されているならば終了）、辞書に追加された語数（追加語数が規定値を超えれば終了）が挙げられる。また、固有表現が１つも追加されなかった場合に、終了となっても良い。

本願発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムは、以下の特徴を有する。

（２１）（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｆ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記（２０）に記載の学習データ生成方法。

（２２）コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムであって、
前記コンピュータに、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させるプログラム。

（２３）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記（２２）に記載のプログラム。

（２４）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記（２３）に記載のプログラム。

（２５）前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記（２３）に記載のプログラム。

（２６）前記（ｂ）のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、上記（２５）に記載のプログラム。

（２７）前記（ａ）のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、上記（２２）に記載のプログラム。

（２８）前記（ｂ）のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記（２２）に記載のプログラム。

（２９）前記コンピュータに、
（ｃ）テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを更に実行させる、上記（２２）に記載のプログラム。

（３０）前記コンピュータに、
（ｄ）複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを更に実行させる、上記（２９）に記載のプログラム。

（３１）前記コンピュータに、
（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｆ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に実行させる、上記（３０）にプログラム。

Claims

固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする学習データ生成装置。
前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定ラベルの前記学習データとする、請求項１に記載の学習データ生成装置。
前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項２に記載の学習データ生成装置。
前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項２に記載の学習データ生成装置。
前記学習データ生成部が、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、請求項４に記載の学習データ生成装置。
前記学習データ候補クラスタリング部が、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項１から５のいずれかに記載の学習データ生成装置。
前記学習データ生成部が、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項１から６のいずれかに記載の学習データ生成装置。
学習データ候補生成部を更に備え、
前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、請求項１から７のいずれかに記載の学習データ生成装置。
前記アノテーション情報を作成するアノテーション情報生成部と、
複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、請求項８に記載の学習データ生成装置。
抽出ルール学習部と、辞書増殖部とを更に備え、
前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、請求項９に記載の学習データ生成装置。
上記請求項１から上記請求項１０のいずれかに記載の学習データ生成装置と、固有表現抽出装置とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする固有表現抽出システム。
固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする学習データ生成方法。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項１２に記載の学習データ生成方法。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項１３に記載の学習データ生成方法。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項１３に記載の学習データ生成方法。
前記（ｂ）のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、請求項１５に記載の学習データ生成方法。
前記（ａ）のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項１２から１６のいずれかに記載の学習データ生成方法。
前記（ｂ）のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項１２から１７のいずれかに記載の学習データ生成方法。
（ｃ）テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを、更に有する、請求項１２から１８のいずれかに記載の学習データ生成方法。
（ｄ）複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを、更に有する、請求項１９に記載の学習データ生成方法。
（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｄ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、請求項２０に記載の学習データ生成方法。
コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
（ｂ）前記ステップ（ａ）のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項２２に記載のコンピュータ読み取り可能な記録媒体。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項２３に記載のコンピュータ読み取り可能な記録媒体。
前記（ｂ）のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項２３に記載のコンピュータ読み取り可能な記録媒体。
前記（ｂ）のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、１つ以上を用いる、請求項２５に記載のコンピュータ読み取り可能な記録媒体。
前記（ａ）のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか１つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項２２から２６のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記（ｂ）のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項２２から２７のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
（ｃ）テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む請求項２２から２８のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
（ｄ）複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む請求項２９に記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
（ｅ）前記（ｂ）のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
（ｄ）複数の文書を含むコーパスから、前記（ｅ）のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む請求項３０に記載のコンピュータ読み取り可能な記録媒体。