JPWO2010119615A1 - 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム - Google Patents

学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム Download PDF

Info

Publication number
JPWO2010119615A1
JPWO2010119615A1 JP2011509187A JP2011509187A JPWO2010119615A1 JP WO2010119615 A1 JPWO2010119615 A1 JP WO2010119615A1 JP 2011509187 A JP2011509187 A JP 2011509187A JP 2011509187 A JP2011509187 A JP 2011509187A JP WO2010119615 A1 JPWO2010119615 A1 JP WO2010119615A1
Authority
JP
Japan
Prior art keywords
learning data
cluster
specific
candidate
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011509187A
Other languages
English (en)
Other versions
JP5424001B2 (ja
Inventor
正明 土田
正明 土田
弘紀 水口
弘紀 水口
大 久寿居
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011509187A priority Critical patent/JP5424001B2/ja
Publication of JPWO2010119615A1 publication Critical patent/JPWO2010119615A1/ja
Application granted granted Critical
Publication of JP5424001B2 publication Critical patent/JP5424001B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置2を用いる。学習データ生成装置2は、アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部21と、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求め、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する、学習データ生成部22とを備えている。

Description

本発明は、固有表現抽出ルールの作成に必要な学習データを生成する学習データ生成装置、それを用いた固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体に関する。
近年、大量のテキスト情報の有効活用が期待されている。大量テキストの中には、人名、地名、組織名など、特定の意味を持った固有の表現が存在する(以降、特定の意味による括りを「クラス」と呼ぶ。)。これら固有表現を認識することは、質問応答システム、文書分類システム、機械翻訳システムなど、テキスト情報を活用するシステムにおいて有用である。例えば、質問応答システムに固有表現の認識機能が付加されていたとする。この場合、質問応答システムは、「日本の総理大臣は誰ですか?」という質問に対して、人名の固有表現を認識して、対応する人名を返答できるので、認識機能の付加により、応答の精度が向上することは想像に難くない。ここで固有表現とは、特定の意味をもった表現であり、人名や地名、役職名、動物名などの特定の意味を持つ名詞や、「よい」「悪い」といった評価表現という意味を持つ形容詞などを指す。
従来からの固有表現認識(抽出)技術としては、テキスト中の抽出したいクラスの表現にアノテーションを付けた正解データ(学習データ)を作成し、正解データから機械学習で抽出ルール(固有表現抽出ルール)を獲得する方法が知られている。この方法によれば固有表現の認識において、良い性能を達成することができる。但し、正解データには、漏れなく正確にアノテーションを付与する必要があるため、上記方法の利用は高コストとなる。そのため、正解データの作成を低コストで行うことが、固有表現認識技術においては重要となる。
例えば、特許文献1は、従来の正解データの作成を低コストで行うことができるシステムの一例を開示している。特許文献1に記載のシステムは、正解データを記憶する正解データ記憶部と、正解拡張部と、規則学習部とから構成されている。正解拡張部は、正解データ記憶部から正解データを呼び出し、語順操作、構文表現変換、特定表現変換などを行って、正解データを拡張した拡張データを生成する。規則学習部は、正解データと前記生成された拡張データとの両方を、学習データとして、抽出ルールを学習する。
このように特許文献1に記載のシステムでは、正解データの語順を変更したり、表現を変えたりして、新たな正解データ(拡張データ)が大量に作成される。よって、特許文献1に記載のシステムによれば、低コストで学習データの量を増加させることができると考えられる。
特開2006−004399号公報(第5頁−第9頁)
しかしながら、上記特許文献1に記載のシステムでは、正解データの作成工数を減らすことによる低コスト化は可能であるものの、依然として、以下の理由から、正解データの作成にかかるコストは高いと考えられる。
つまり、正解データの作成には、人が、テキストを読み、そして、テキスト中の固有表現が漏れなく正確にアノテーションされているかを注意深く確認する必要があり、これらの作業にコストがかかってしまう。しかし、上記特許文献1に記載のシステムであっても、このようなコストの低減は困難であり、依然として、正解データの作成コストの低減は困難である。
なお、上記において、「漏れなく」とは、テキスト中に存在する、抽出すべき固有表現の全てにアノテーションが付けられている状態を意味し、「正確に」とは、アノテーションが正確に付けられ、付けられたアノテーションが全て正しい固有表現を示していることを意味する。
本発明の目的は、上記問題を解消し、漏れなく正確なアノテーション作業を不要にし得、固有表現抽出ルール作成用の学習データの生成コストを低減し得る、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明における学習データ生成装置は、固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする。
上記目的を達成するため、本発明における固有表現抽出システムは、上記本発明における学習データ生成装置と、固有表現抽出装置とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする。
また、上記目的を達成するため、本発明における学習データ生成方法は、固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるため、のプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
以上の特徴により、本発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体によれば、漏れなく正確なアノテーション作業を不要にし、これにより、固有表現抽出ルール作成用の学習データの生成コストを低減できる。
図1は、本発明の実施の形態1における学習データ生成装置の構成を示すブロック図である。 図2は、本発明の実施の形態1における学習データ生成装置の動作を示す流れ図である。 図3は、図1に示す不完全正解コーパス記憶部に記憶されているデータの具体例を示す図であり、図3(a)はテキストデータテーブルを示し、図3(b)はアノテーションデータテーブルを示している。 図4は、図1に示す学習データ候補生成部が生成する学習データ候補の具体例を示す図である。 図5は、図1に示す学習データ候補クラスタリング部の処理結果の具体例を示す図である。 図6は、本発明の実施の形態2における学習データ生成装置の構成を示すブロック図である。 図7は、図6に示す辞書データ記憶部に記憶されている辞書データの具体例を示す図である。 図8は、本発明の実施の形態2における学習データ生成装置の動作を示す流れ図である。 図9は、本発明の実施の形態3における学習データ生成装置の構成を示すブロック図である。 図10は、本発明の実施の形態3における学習データ生成装置の動作を示す流れ図である。 図11は、本発明の実施の形態における固有表現抽出システムの構成を示すブロック図である。 図12は、本発明の実施の形態1〜3のいずれかにおけるプログラムを実行可能なコンピュータを示すブロック図である。
(発明の概要)
本発明では、例えば、不完全な正解コーパス(以下「不完全正解コーパス」という。)から学習データを生成することができる。不完全正解コーパスとは、テキスト中の一部の固有表現に対してアノテーションを付与して得られたデータである。また、不完全正解コーパスには、割合が少なければ、間違ったアノテーションが含まれていても良い。
このような不完全正解コーパスは、非常に低コストで作成可能である。例えば、コーパスに対して既知の固有表現の文字列の検索を行い、検索された箇所のみを読むことで、コーパスを構成するテキストにアノテーションを付与できる。また、不完全正解コーパスは、アノテーションミスを含んでもよいので、付与されたアノテーションの大半が正しいと予想できれば、検索された固有表現の文字列の出現箇所に機械的にアノテーションが付与されて作成されたものであってもよい。
但し、単純に不完全正解コーパスから学習データを作成すると、作成された学習データには、「アノテーションミス」や、「アノテーション漏れ」が含まれてしまう。「アノテーションミス」と「アノテーション漏れ」との例を、目的の固有表現のクラスが「人名」と「組織名」との場合を挙げて以下に説明する。
先ず、「アノテーションミス」とは、アノテーションされているが、アノテーションされている固有表現のクラスが、その固有表現の本来のクラスではない場合をいう。例えば、「土田電気(株)」の「土田」が人名とアノテーションされている例が該当する。正しくは「土田電気」で、クラスは組織名である。また、「アノテーション漏れ」とは、固有表現に対してアノテーションが行われていない場合をいう。例えば、「山田がNECに勤務している」の「山田」にアノテーションが付与されていない例が該当する。正しくは「山田」に人名とアノテーションされていなければならない。
ところで、上記のアノテーションミスやアノテーション漏れを含む学習データは、固有表現の認識技術で利用するにあたって適切ではない。しかしながら、不完全正解コーパスにおいて、「アノテーションが付いている箇所の多くは正しい」と考えられ、また「特徴量が似ている学習データは同クラスとなる可能性が高い」と考えられる。そこで、本発明では、クラスタリング法を利用して、学習データの候補となる不完全正解コーパスから、「アノテーションミス」及び「アノテーション漏れ」を検出し、これによって、正しい学習データを自動生成する。
具体的には、本発明では、まず、不完全正解コーパス中の単語を単位とした、又は何らかの手段で纏め上げられた単語列を単位とした、学習データ候補が用意又は生成される(後述の図1に示す「学習データ候補生成部20」参照。)。学習データ候補が生成される場合は、その際、不完全正解コーパスのアノテーションが参照され、各学習データ候補のラベルにクラス情報が付与される。アノテーションが付与されていない表現に対しては、固有表現であるかどうかが分からないので「UNKNOWN」というラベルが付与される。また、学習データ候補の生成では、固有表現を構成する品詞が分かっている場合、学習データ候補とする単語や単語列が品詞によって絞られていてもよい。
また、本発明においては、使用される学習データ候補と、それから生成される学習データとは、それぞれ、ラベルと特徴量とを保持したデータによって構成されている。ラベルは、不完全正解コーパスのアノテーション情報を参照して付与される。特徴量は、学習データ候補又は学習データを構成する単位の周辺における、単語、係り受け、及び係り先の文節等といった文脈的な情報(文脈情報)を少なくとも含む(後述の図4参照)。また、特徴量は、ベクトルや、属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されていても良い。
次に、本発明では、用意又は生成された学習データ候補に対して、クラスタリングが行われる(後述の図1に示す「学習データ候補クラスタリング部21」参照)。この場合のクラスタリング法としては、k−meansやPLSI(Probabilistic Latent Semantic Indexing)など既存の任意の方法を用いることができる。
そして、本発明では、クラスタリングが行われた後、各クラスタ内の学習データ候補のラベルの分布を手がかりにして、学習データ候補から学習データが生成される。このとき、本発明では、上述した「アノテーションが付いている箇所の多くは正しい」と「特徴量が似ているデータは同クラスとなる可能性が高い」との考えの元、学習データの生成が行われる。
ここで、特徴量が似ている学習データ候補が、同じクラスタに属するとする。例えば、あるクラスAとラベル付けされた学習データ候補を多く含むクラスタにおいては、その中の学習データ候補は、クラスAとして尤もらしいと考えることができる。逆に、クラスAとラベル付けされた学習データ候補が少ないクラスタにおいては、その中の学習データ候補はクラスAとして尤もらしくないと考えることができる。また、同じクラスの語は同じような使われ方がされやすく、特徴量に、少なくとも文脈情報が入っていれば、同じクラスの語は同じクラスタに属することとなりやすい。よって、本発明において、特徴量には、文脈の情報が含められる。
また、本発明では、学習データの選別(生成)にクラスタ内の学習データ候補のラベルの分布が用いられる。よって、クラスタリング結果の良さの指標として、以下の[A]〜[D]の4点が考慮される。クラスタリングのパラメータや、終了条件は、以下の[A]〜[D]を指標にして設定される。
[A]各クラスタ内のラベルの分布がクラスタ間で異なる。
[B]各クラスタ内で割合が最も多いラベルが1つある。
[C]クラスタ内の学習データ候補の数が特定の数より多くなっている。
[D]クラスタリング時の分割数(クラスタ数)が特定の数より少なくなっている。
更に、本発明では、上述したように、アノテーションミス及びアノテーション漏れが検出される。例えば、クラスタリング結果から、クラスA以外のクラスが多いクラスタに含まれるクラスAのデータはアノテーションミスであるとして検出される。また、クラスAが多く含まれるクラスタ内の他のラベル(「UNNKOWN」を含む)のデータは、アノテーション漏れであるとして検出される。学習データは、検出されたアノテーションミスやアノテーション漏れを踏まえた上で、生成される(後述する図1に示す学習データ生成部22参照。)。
具体的には、例として(1)「<土田:人名>が<NEC:組織名>に勤務している。」、(2)「<土田:人名>が<山田:人名>電気に勤務している。」、(3)「竹田が<日本電気:組織名>に勤務している。」、(4)「<土田:人名>が<日本電気:組織名>に勤務している。」の4文で説明する。
上記4文において「<語:クラス>」は、「語」が「クラス」の固有表現としてアノテーションされていることを表す。(2)文の「山田」は、前2単語「土田が」と、係り先の文節「勤務している」とにおいて、(1)文の「NEC」及び(4)文の「日本電気」と同じである。よって、(2)文の「山田」は、(1)文の「NEC」や(4)文の「日本電気」と文脈が似ているため同じクラスタとなる。このように、(2)文の「山田」はクラスが「人名」であるにも関わらず、「組織名」が多いクラスタに属するためアノテーションミスと判断できる。同様に、(3)文の「竹田」は、係り先の文節「勤務している」において、(1)文、(2)文及び(3)文の「土田」と同じである。このため、(3)文の「竹田」は、(1)文、(2)文及び(3)文の「土田」と同じクラスタとなる。よって、(3)文の「竹田」は「人名」が多いクラスタに属するにも関わらず、アノテーションされていないため、アノテーション漏れであると判断できる。
このようにして検出されたアノテーションミスとアノテーション漏れとが、本当にアノテーションミス、又はアノテーション漏れに該当するかどうかは、人手によって判断するしかないが、本発明では、学習データ候補からこれらを全て除去して学習データとすればよい。この理由について、以下に説明する。
アノテーションミスが誤検出されている場合は、アノテーションが示すクラスは正しいクラスということになるが、誤検出されている正しいクラスの学習データは他にも沢山あることが想定できる。また、アノテーション漏れを検出できなかったというミスは、固有表現に対してアノテーションが付与されておらず、非固有表現として扱われているということに該当する。この場合も、アノテーションミスの誤検出と同様に、他にも非固有表現として扱われている学習データは沢山あると想定できる。つまり、アノテーションミス及びアノテーション漏れの誤検出は、除去しても影響が少ない。逆に、アノテーションミス及びアノテーション漏れの誤検出を除去しないとすると、誤検出でないものまで残ってしまう。この場合、正解データには、アノテーションミス及びアノテーション漏れの一方又は両方が含まれる可能性がある。即ち、正解データに、間違った正解データが含まれてしまうので、抽出ルールの学習時に悪影響となる。
ただし、アノテーションミス及びアノテーション漏れの学習データ候補の正しいラベルが推定できる場合は、それら学習データ候補のラベルを正しいラベルに変更し、ラベル変更後の学習データ候補を学習データに追加してもよい。正しいラベルの推定は、アノテーションミス又はアノテーション漏れと判定された学習データ候補のラベルが、その所属クラスタで高い割合を占めるラベルとなる確率(信頼度)を算出することによって行うことができる。そして、信頼度が設定された閾値より高い場合に、アノテーションミス又はアノテーション漏れと判定された学習データ候補のラベルを、所属クラスタで高い割合を占めるラベルに変更すれればよい。なお、信頼度としては、対象となる学習データ候補のクラスタの代表点からの距離が小さい場合、対象となる学習データ候補がクラスタ内で高密度な空間に存在する場合、対象となる学習データ候補のクラスタへの所属確率が高い場合、などに高い値となるパラメータを用いればよい。また、判定に利用する閾値は、学習データを用いた認識の結果に合わせて適宜設定すればよい。
また、本発明では、学習データの生成において、学習データ候補からはラベル情報のみを採用し、必要な特徴量は新たに取得してもよい。例えば、学習データ候補の特徴量としては、文脈的情報のみを用い、学習データの生成において、更に、単語又は単語列自身の品詞、及び表層文字列といった単語内情報を追加してもよい。
以上より、例えば、本発明の学習データ生成装置は、不完全正解データ中の単語又は何らかの手段で纏め上げられた単語列のいずれかを単位として、不完全なアノテーション情報を参照してラベルを付与した学習データ候補を用意又は生成する学習データ候補生成部と、前記学習データ候補をクラスタリングする学習データ候補クラスタリング部と、前記クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を用いて、学習データ候補から学習データを生成する学習データ生成部とを備えている。
(実施の形態1)
以下、本発明の実施の形態1における、学習データ生成装置及び学習データ生成方法について、図1〜図5を参照しながら説明する。最初に、本実施の形態1における学習データ生成装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1における学習データ生成装置の構成を示すブロック図である。
図1に示す本実施の形態1における学習データ生成装置2は、固有表現抽出ルールの作成用の学習データを生成する装置である。固有表現抽出ルールは、質問応答システム、文書書類システム、機械翻訳システム等での固有表現の認識に利用されるルールである。
図1に示すように、学習データ生成装置2は、学習データ候補クラスタリング部21と、学習データ生成部22とを備えている。学習データ候補クラスタリング部21は、アノテーションのクラスを示すラベルが付与された複数の学習データ候補に対して、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングを行う。
学習データ生成部22は、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求める。また、学習データ生成部22は、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する。
このように、特徴量に基づいたクラスタリングにより、ラベルの分布が得られる。ラベルの分布結果からは、アノテーションミス又はアノテーション漏れを伴う学習データ候補を簡単に推測できる。このため、人手によることなく、アノテーションミス又はアノテーション漏れを伴う可能性の少ない学習候補の選出が可能となる。よって、学習データ生成装置2を用いれば、正確、且つ、漏れの無いアノテーション作業無しで、正しい固有表現抽出ルール作成用の学習データを生成できるため、学習データの生成コストを低減することができる。
ここで、学習データ生成装置2について更に具体的に説明する。本実施の形態1では、学習データ生成装置2は、記憶装置1と共に、学習データ生成システム3を構成している。記憶装置1は、不完全な正解コーパスと、不完全な正解コーパスから学習データ生成装置2が生成する学習データ候補と、学習データとを記憶する。また、後述するように、学習データ生成装置2は、コンピュータによって実現でき、プログラム制御により動作する。また、記憶装置1は、データ生成装置2を実現するコンピュータが備える記憶装置によって、又はこのコンピュータとネットワークを介して接続された別のコンピュータ等の記憶装置によって実現できる。
図1に示すように、記憶装置1は、不完全正解コーパス記憶部10と、学習データ候補記憶部11と、学習データ記憶部12とを備えている。不完全正解コーパス記憶部10は、不完全正解コーパスを記憶している。不完全正解コーパスは、上述したように、テキスト中の一部の抽出目的となる固有表現に対して、クラスを示すアノテーションを付与して得られており、それらアノテーションにミスや漏れを含む可能性のあるデータである。
例えば、不完全正解コーパスは、テキストデータと、テキストデータの何文字目から何文字目までにどのクラスの固有表現が存在しているかを示すアノテーションデータとからなる。具体的には、「土田は日本電気に勤務している」の場合、アノテーションデータは、「0:2:人名(0文字目から2文字目までが人名)」と、「3:7:組織名(3文字目から7文字目までが組織名)」となる。アノテーションデータとしては、テキストデータが形態素解析されている場合であれば、文字数ではなく、単語数を用いることもできる。
学習データ候補記憶部11は、後述する学習データ候補生成部20によって生成された学習データ候補を記憶している。学習データ候補は、クラスを示すラベル(以下「クラスラベル」ともいう。)と、特徴量とからなるデータの集合である。本実施の形態では、特徴量は、上述したように、ベクトル、又は属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されているのが好ましい。
学習データ記憶部12は、学習データ生成部22が学習データ候補を用いて生成した固有表現抽出ルール作成用の学習データを記憶している。学習データも、学習データ候補と同様に、クラスラベルと特徴量とからなるデータの集合である。学習データにおいても、特徴量は、ベクトル、又は属性−属性値表等といった、抽出ルールを学習する学習アルゴリズムにあった形式で表現されているのが好ましい。
また、図1に示すように、学習データ生成装置2は、学習データ候補クラスタリング部21と、学習データ生成部22とに加えて、学習データ候補生成部20を更に備えている。学習データ候補生成部20は、不完全正解コーパス記憶部10からテキストデータを読み出し、読み出したコーパス内のテキストデータから学習データ候補を生成する。また、学習データ候補生成部20は、生成された学習データ候補を学習データ候補記憶部11に記憶させる。
本実施の形態1では、学習データ候補生成部20は、不完全正解コーパス記憶部10から読み出したテキストデータを分割する。分割された各部分は、1つの学習データ候補の単位となる。この場合、1つの学習データ候補の単位は、単語、又は何らかの手段で纏め上げられた単語列とする。なお、何らかの手段で纏め上げられた単語列としては、例えば、既存の専門用語抽出技術を用いて抽出された専門用語列、または、Wikipediaなどの大規模辞書の項目名を用いてマッチした単語列などが挙げられる。さらに、「。」などの句点を区切り文字として、文単位で纏め上げられた単語列も挙げられる。
また、本実施の形態1では、学習データ候補生成部20は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、学習データ候補となる1単位毎に、文脈情報を含む特徴量を検出し、各単位に特徴量を付加して、学習データ候補を生成する。
具体的には、学習データ候補生成部20は、先ず、不完全正解コーパスのアノテーションを参照して、各学習データ候補のラベルにクラス情報を付与し、アノテーションがない場合は「UNKNOWN」などクラスが未知であることを示すラベルを付与する。特徴量は文脈的情報を含むものとする。また、学習データ候補生成部20は、固有表現を構成する品詞など、候補を経験的な条件で絞り込め得る場合は、その条件で絞った単語又は単語列から学習データ候補を生成することもできる。更に、学習データ候補生成部20は、「UNKNOWN」が他のクラスと比較して多すぎる場合は、ランダムサンプリングなどを用いて、その数を調整することもできる。
学習データ候補クラスタリング部21は、本実施の形態では、学習データ候補記憶部11からデータを取り出し、学習データ候補の特徴量を用いてクラスタリングを行い、クラスタリング結果を学習データ生成部22に渡す。クラスタリングには任意の方法を用いることができる。また、学習データ候補クラスタリング部21は、クラスタリング結果の良さの指標として、上述した[A]〜[D]の4点を考慮し、いずれか1つ以上、好ましくは[A]〜[D]の4点を考慮する。クラスタリングのパラメータ、及び終了条件は、求められるクラスタリング結果が得られるように、適宜設定される。
上述の指標を考慮するのは、次の処理を実行する学習データ生成部22では、ラベルの分布を手がかりにアノテーションミスとアノテーション漏れとを検出し、これによって学習データ生成するためである。つまり、クラスタ間でラベルの分布が偏り、且つ、1つのクラスタ内に割合が多いクラスが1つ存在すると、アノテーションミスとアノテーション漏れとの検出が容易となるためである。
但し、クラスタリングの手法として、k−means等、クラスタ数をパラメータとするアルゴリズムが利用される場合は、クラスタ内のデータ数が少なくなりすぎない程度に、クラスタ数の値を設定するのが好ましい。また、2つのデータ間の類似度閾値をパラメータとするアルゴリズムが利用される場合も、クラスタ内のデータ数が少なくなりすぎない程度に、パラメータの値を設定するのが好ましい。そうすることで、一つのクラスタ内に良く似ている学習データ候補が集まり、よりラベルの分布が現れやすくなるためである。
学習データ生成部22は、本実施の形態1では、学習データ候補クラスタリング部21の結果を受け取り、各クラスタ内のラベルの分布から、アノテーションミス又はアノテーション漏れとなっている学習データ候補を検出する。また、学習データ生成部22は、検出した学習データ候補を除去することで、又は検出した学習データ候補のラベルを変更することで、学習データ候補から学習データを生成する。生成された学習データは、学習データ記憶部12に記憶される。
具体的には、本実施の形態1では、学習データ生成部22は、特定のラベルを予め定められた割合以上含むクラスタにおいて、この特定のラベルが付与された学習データを、設定された条件を満たす学習候補として特定する。特定された学習候補は学習データとされる。一方、特定のラベルが付与されていない学習データ候補は、アノテーションミス又はアノテーション漏れとなっている学習データ候補とされる。
つまり、本実施の形態1では、学習データ生成部22は、クラスタリング結果から、あるクラスのアノテーションミスは、他のクラスのラベルが多いクラスタに含まれるそのクラスのデータと判断する。また、学習データ生成部22は、クラスタリング結果から、アノテーション漏れは、あるクラスが多く含まれるクラスタ内の他のラベルのデータ、と判定する。このクラスタ内のクラスが多いか否かの判断は、あるクラスが予め定められた割合を超えるか(以上となるか)否かで判断することができるが、この点については後述する。
また、本実施の形態1では、学習データ生成部22は、特定のラベルを予め定められた割合以上含むクラスタ内における、特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合い(以下「確信度」とする。)を求めることができる。この場合、学習データ生成部22は、確信度が閾値以上となる学習データ候補を学習データとし、確信度が閾値未満となる学習データ候補を学習データ候補全体から削除することができる。なお、確信度は、上述した「信頼度」とみなすことができる。
つまり、学習データ生成部22は、確信度が高いアノテーションミス及びアノテーション漏れを伴う学習データ候補を、クラスタから判断したラベルの学習データとし、それら以外のアノテーションミス及びアノテーション漏れを伴う学習データ候補を除去してもよい。
確信度としては、学習データ候補のクラスタの代表点からの距離、学習候補データのクラスタ内での推定密度、クラスタが特定のラベルを含む割合等が挙げられる。また、クラスタリングで得られた分布が、混合確率分布である場合は、確信度としては、学習データ候補のクラスタへの所属確率が挙げられる。確信度が高いか否かは、上述したように、予め決めておいた閾値で判定する。判定に利用する閾値は、学習データを用いた認識の結果に合わせて適宜設定すれば良い。また、各学習データ候補を確信度に基づいてソートし、一定割合の学習データ候補を学習データとして採用しても良い。
また、本実施の形態1では、学習データ生成部22は、学習データとされた学習データ候補に、新たな特徴量を付加することもできる。つまり、本実施の形態1では、学習データ生成部22は、学習データ候補の特徴量からラベル情報のみを抽出し、これに新たな特徴量を付加して、学習データの特徴量とすることもできる。例えば、学習データ候補の特徴量として文脈的情報のみが用いられている場合は、学習データ生成部22は、学習データの生成時に、更に、特徴量として、単語又は単語列自身の、品詞や表層文字列といった単語内情報を追加することができる。
なお、本実施の形態1では、学習データ生成装置2は、学習データ候補生成部20を備えていない構成であっても良い。つまり、本実施の形態1は、予め、学習データ候補生成部20が行う処理に相当する処理が実施され、学習データ候補が、学習データ候補記憶部11に記憶されている態様であっても良い。
次に、本発明の実施の形態1における学習データ生成装置2の動作について図2〜図5を用いて説明する。図2は、本発明の実施の形態1における学習データ生成装置の動作を示す流れ図である。以下の説明では、人名、地名を認識するための固有表現抽出ルールを作成するための学習データの生成を例に挙げる。なお、本実施の形態1における学習データ生成方法は、図1に示した学習データ生成装置2を動作させることによって実施できる。よって、本実施の形態1における学習データ生成方法の説明は、以下の学習データ生成装置2の動作の説明に代える。また、以下の説明では、適宜図1を参酌する。
図2に示すように、先ず、学習データ候補生成部20は、不完全正解コーパス記憶部10からデータを読み出し、コーパス内のテキストから学習データ候補を生成する(図2のステップS1)。ステップS1で生成された学習データ候補は、学習データ候補記憶部11によって記憶される。
ここで、不完全正解コーパス記憶部10に記憶されているデータの一例を図3を用いて説明する。図3は、図1に示す不完全正解コーパス記憶部に記憶されているデータの具体例を示す図であり、図3(a)はテキストデータテーブルを示し、図3(b)はアノテーションデータテーブルを示している。
図3(a)及び(b)を参照すると、不完全正解コーパス記憶部10は、テキストデータを特定するテキストデータテーブルと、アノテーションデータを特定するアノテーションデータテーブルとを記憶している。
図3(a)に示すテキストデータテーブルは、テキストデータとその識別子であるIDとで構成される。図3(b)に示すアノテーションテーブルのテキストIDは、テキストデータテーブルのIDとの間でリレーションを有している。アノテーションテーブルにおいて、「開始」は開始文字数、「終了」は終了文字数、「クラス」はアノテーションされたクラス情報を表す。つまり、アノテーションテーブルの1行目のデータは、テキストデータテーブルのIDが1のテキストの5文字目から7文字目までが、人名とアノテーションされていることを示している。文字数は0からカウントされた値である。
つまり、図3(a)及び(b)例から、福島が人名とアノテーションされていることがわかるが、実際は地名であるため、これはアノテーションミスである。また、アノテーションテーブルには、IDが200の3文字目から5文字目にある「土田」に対して、これが人名であるというアノテーションがないことがわかる。これはアノテーション漏れの例を示している。
学習データ候補生成部20は、このような不完全正解コーパスから、学習データ候補を生成する。図4は、図1に示す学習データ候補生成部が生成する学習データ候補の具体例を示す図である。図4を用いて、図3(a)及び(b)に示された、IDが2のテキストから作成した学習データ候補の例を説明する。
図4の例では、学習データ候補生成部20は、アノテーションテーブル(図3(b))を参照し、アノテーションのある語のラベルには、クラス情報を付与し、アノテーションがない語のラベルには、クラスが未知であることを表す「UNKNOWN」を付与する。
特徴量は、「2つ前の単語」、「1つ前の単語」、「1つ後の単語」、「2つ後の単語」、及び「係り先文節の主辞」を含んでいる。このように、図4に示すように、学習データ候補はクラス情報を表すラベルと、特徴量とから構成される。学習データ候補生成部20は、このように学習データ候補を生成し、結果を学習データ候補記憶部11に記憶させる。
次に、学習データ候補クラスタリング部21は、学習データ候補記憶部11に記憶されている学習候補データを読み込み、その特徴量を用いて、学習データ候補をクラスタリングする(図2のステップS2)。ステップS2において、学習データ候補クラスタリング部21は、クラスタリング結果を学習データ生成部22に渡す。
クラスタリングには公知のアルゴリズムを用いればよいが、パラメータを調整することで、各クラスタ内のラベルの分布が偏るように処理する。そのように処理したクラスタリング結果の例を図5に示す。図5は、図1に示す学習データ候補クラスタリング部21の処理結果の具体例を示す図である。図5を参照すると、図5では、学習データ候補は、n個のクラスタに分けられている。図5の例では、クラスタ1のラベルの割合は、人名80%、地名10%、UNKNOWN10%となっている。
最後に、学習データ生成部22は、学習データ候補クラスタリング部21のクラスタリング結果を受けて、各クラスタのラベルの分布を見て、一定以上の割合で特定のラベルを含むクラスタから学習データを生成する(図2のステップS3)。生成された学習データは、学習データ記憶部12によって記憶される。
ここで、図5に示したクラスタリング結果を用いて、学習データ生成部22が、学習データを生成する例について説明する。本実施の形態1では、例えば、1つのクラスが70%以上含まれるクラスタから学習データが生成されるとする。
図5において、クラスタ1では、人名は70%を上回るため、人名が信頼できると判定される。一方、クラスタ1の中に含まれている地名及びUNKNOWNは、信頼できないと判定され、これらはクラスタ1から除去される。同様に、クラスタ2においては、地名は70%を上回るため、地名が信頼できると判定される。クラスタ2においては、人名及びUNKNOWNは信頼できないと判定され、これらは除去される。クラスタnにおいては、UNKNOWNが70%を上回るため、非固有表現しか含まれないと判定される。また、クラスnにおいては、人名及び地名は信頼できないと判定され、これらは除去される。
学習データ生成部22は、ステップS3の実行後に、残った学習データ候補を合わせ、学習データとする。図5を例に説明すると、アノテーション漏れであるクラスタ1の「土田」は削除される。同様に、アノテーションミスであるクラスタ2の「福島」も削除される。このようにして、ステップS1〜S3の実行により、正しい学習データが生成される。
以上のように、本実施の形態1では、低コストで作成可能な不完全な正解コーパスから、アノテーション情報を元に学習データ候補が作成される。そして、学習データ候補を、クラスタリングし、クラスタ内の学習データ候補のクラスラベルの分布を用いて、不適切な学習データ候補であるアノテーションミス及びアノテーション漏れが検出される。そして、検出された不適切な学習データ候補を除去することによって、学習データが生成される。よって、本実施の形態1によれば、低コストで、固有表現抽出用の正しい学習データの作成が可能となる。
(実施の形態2)
次に本発明の実施の形態2における、学習データ生成装置及び学習データ生成方法について、図6及び図7を参照しながら説明する。最初に、本実施の形態2における学習データ生成装置の構成について図6及び図7を用いて説明する。図6は、本発明の実施の形態2における学習データ生成装置の構成を示すブロック図である。図7は、図6に示す辞書データ記憶部に記憶されている辞書データの具体例を示す図である。
図6に示すように、本発明の実施の形態2においては、学習データ生成システム6は、実施の形態1と異なり、記憶装置4と学習データ生成装置5とを備えている。本実施の形態2では、記憶装置4は、実施の形態1において図1に示した記憶装置1と異なり、不完全正解コーパス記憶部10の代わりに、コーパス記憶部13と、辞書データ記憶部14とを備えている。コーパス記憶部13は、アノテーション情報を有しないコーパスを記憶している。辞書データ記憶部14は、固有表現とそのクラスとが登録された辞書を記憶している。上記の点以外については、記憶装置4は、図1に示した記憶装置1と同様に、構成されている。
また、図6に示すように、本発明の実施の形態2における学習データ生成装置5は、実施の形態1において図1に示した学習データ生成装置2と異なり、アノテーション情報生成部23を更に備えている。アノテーション情報生成部23は、アノテーション情報を生成する。上記の点以外については、学習データ生成装置5は、図1に示した学習データ生成装置2と同様に構成されている。以下に、本実施の形態2の実施の形態1との相違点について具体的に説明する。
本実施の形態2において、コーパス記憶部13は、テキストデータを記憶している。コーパス記憶部13によって記憶されているテキストデータの例としては、図3(a)に示したテキストデータテーブルが挙げられる。コーパス記憶部13は、テキストデータテーブルのみを記憶している。
辞書データ記憶部14は、図7に示すように、固有表現とそのクラスとが登録された辞書(辞書データ)を記憶している。図7に示すように、辞書データにおいて、「福島」及び「山田」は人名として登録されている。また、「大阪」及び「奈良」は地名として登録されている。
アノテーション情報生成部23は、先ず、コーパス記憶部13からテキストデータを読み出し、辞書データ記憶部14から辞書データをそれぞれ読み出す。そして、アノテーション情報生成部23は、辞書データに登録されている複数の固有表現と、コーパス記憶部13に記憶されているテキストデータとを比較し、辞書に登録されている固有表現の文字列をテキストデータから探す。
更に、アノテーション情報生成部23は、文字列マッチによって、固有表現の出現箇所の位置とこの固有表現のクラスとを特定し、これらによってアノテーション情報を作成する。アノテーション情報は学習データ候補生成部20に渡される。アノテーション情報は、図3(b)に示したアノテーションテーブルに相当するものであるため、アノテーション情報生成部23は、不完全正解コーパスを作成する機能を備えていると言える。
次に、本発明の実施の形態2における学習データ生成装置5の動作について図8を用いて説明する。図8は、本発明の実施の形態2における学習データ生成装置の動作を示す流れ図である。なお、本実施の形態2においても、学習データ生成方法は、図6に示した学習データ生成装置5を動作させることによって実施できる。よって、本実施の形態2における学習データ生成方法の説明は、以下の学習データ生成装置5の動作の説明に代える。また、以下の説明では、適宜図6を参酌する。
図8に示すように、先ず、アノテーション情報生成部23は、コーパス記憶部13と辞書データ記憶部14とからそれぞれデータを読み出し、辞書データに登録されている固有表現がコーパス中に現れる箇所に対してアノテーション情報を生成する(図8のステップS11)。ステップS1の実行後、アノテーション情報生成部23は、コーパス記憶部13に記憶されているコーパスと、アノテーション情報とを、不完全正解コーパスデータとして、学習データ候補生成部20に渡す。
続いて、学習データ候補生成部20は、ステップS11で作成された不完全正解コーパスデータから学習データ候補を生成する(図8のステップS12)。次に、学習データ候補クラスタリング部21によるクラスタリング(図8のステップS13)、学習データ生成部22による学習データの生成(図8のステップS14)が行われる。なお、ステップS12〜S14は、実施の形態1において図2に示したステップS1〜S3と同様のステップである。
このように、本発明の実施形態2では、不完全正解コーパスが、コーパスと辞書とによって自動的に作成される。よって、辞書さえ用意されていれば、人手によって不完全正解コーパスを作成する必要がなく、不完全正解コーパスの作成にかかるコストを低減できる。本実施の形態2によれば、実施の形態1よりも、低コストで学習データの生成を行うことができるようになる。
(実施の形態3)
次に本発明の実施の形態3における、学習データ生成装置及び学習データ生成方法について、図9及び図10を参照しながら説明する。最初に、本実施の形態3における学習データ生成装置の構成について図9を用いて説明する。図9は、本発明の実施の形態3における学習データ生成装置の構成を示すブロック図である。
図9に示すように、本発明の実施の形態3においては、学習データ生成システム9は、実施の形態1及び2と異なり、記憶装置7と学習データ生成装置8とを備えている。また、本実施の形態3では、記憶装置7は、実施の形態2において図6に示した記憶装置4の構成に加えて、抽出ルール記憶部15を備えている。また、学習データ生成装置8は、実施の形態2において図6に示した学習データ生成装置5の構成に加えて、抽出ルール学習部24と辞書増殖部25とを備えている。以下に、本実施の形態3の実施の形態2との相違点について具体的に説明する。
抽出ルール学習部24は、学習データ生成部22により生成された学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習する。本実施の形態3では、抽出ルール学習部24は、学習データ記憶部12から学習データを読み出し、既存の任意の抽出ルール学習法を用いて固有表現抽出ルールを学習し、結果を抽出ルール記憶部15に出力する。抽出ルール記憶部15は、抽出ルール学習部24によって学習された固有表現抽出ルールを記憶する。
辞書増殖部25は、複数の文書を含むコーパスから、抽出ルール学習部24によって学習された抽出ルールを用いて固有表現を抽出する。そして、辞書増殖部25は、抽出された固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、辞書データ記憶部14が記憶している辞書に追加登録する。
本実施の形態3では、辞書増殖部25は、コーパス記憶部13と抽出ルール記憶部15からそれぞれデータを読み出し、コーパス記憶部13に記憶されているコーパスのテキストデータから固有表現を抽出する。また、辞書増殖部25は、抽出された固有表現の確信度を求め、確信度が閾値以上となった固有表現、確信度が上位の数件、または、確信度が上位の数割を、そのクラス情報と共に辞書データ記憶部14に記憶させる。
本実施の形態3における「確信度」としては、当該固有表現が抽出された回数の絶対数、又は全固有表現の出現数に対する当該固有表現の出現数の割合を用いることができる。また、辞書増殖部25は、抽出ルールに信頼度が付与されている場合は、その抽出ルールの信頼度を用いて確信度を計算することもできる。
なお、辞書データ記憶部14に記憶させるかどうかの判断基準となる閾値は、アノテーション情報生成部23が生成した学習データ候補に含まれるアノテーションミス及びアノテーション漏れの程度に合わせて適宜設定されれば良い。
次に、本発明の実施の形態3における学習データ生成装置8の動作について図10を用いて説明する。図10は、本発明の実施の形態3における学習データ生成装置の動作を示す流れ図である。なお、本実施の形態3においても、学習データ生成方法は、図9に示した学習データ生成装置8を動作させることによって実施できる。よって、本実施の形態3における学習データ生成方法の説明は、以下の学習データ生成装置8の動作の説明に代える。また、以下の説明では、適宜図9を参酌する。
図10に示すように、先ず、アノテーション情報生成部23は、不完全正解コーパスデータを生成する(図10のステップS21)。続いて、学習データ候補生成部20は、ステップS21で作成された不完全正解コーパスデータから学習データ候補を生成する(図10のステップS22)。次に、学習データ候補クラスタリング部21によるクラスタリング(図10のステップS23)、学習データ生成部22による学習データの生成(図10のステップS24)が行われる。なお、ステップS21〜S24は、実施の形態2において図8に示したステップS11〜S14と同様のステップである。
次に、ステップS24の実行後、抽出ルール学習部24は、学習データ記憶部12から学習データを読み出し、既知の任意の抽出ルール学習方法に従って、固有表現抽出ルールを学習する(図10のS25)。ステップS25において、抽出ルール学習部24は、生成した抽出ルールを抽出ルール記憶部15に記憶させる。
次に、辞書増殖部25は、抽出ルール記憶部15から固有表現抽出ルールを読み出し、コーパスからテキストデータを読み出す。そして、辞書増殖部25は、これらを用いて、コーパス中の固有表現を抽出し、抽出された固有表現のうち、確信度が閾値以上となった固有表現を、そのクラス情報と共に辞書データ記憶部14に追加する(図10のステップS26)。
その後、辞書増殖部25は、終了条件が満たされているか否かを判定する(図10のS7)。判定の結果、終了条件が満たされていなければ、再度、ステップS1が実行される。一方、判定の結果、終了条件が満たされていれば、システムの動作は終了する。なお、終了条件としては、ステップS21〜S27の実行回数(規定の回数繰り返されているならば終了)、辞書に追加された語数(追加語数が規定値を超えれば終了)が挙げられる。また、固有表現が1つも追加されなかった場合に、終了となっても良い。
ここで、本実施の形態3で用いられる「確信度」について説明する。本実施の形態3では、例えば、確信度として、以下のスコアを用いることができる。確信度は、固有表現wがクラスcとして正しいこと、及び、固有表現wがコーパス中でクラスc以外のクラスとして使われていないこと、の2点を満たすほど高くなるように計算される。具体的には、確信度(w,c)は、下記の(数1)及び(数2)によって計算される。
(数1)
確信度(w,c)=ext_cnt(w,c)×(Σ_x f(x,c))/|D(w)|
(数2)
f(x,c)=fc(x)/Σ_ci fci(x)
上記(数1)において、「ext_cnt(w,c)」は、固有表現wがクラスcとして抽出された数を示している。「D(w)」は、コーパス中で固有表現wが出現している学習データの集合を示している。「x」は、固有表現wを含む一つの学習データを示している。「fci(x)」は、「x」がクラスciであるかどうかを判定する際に用いた抽出ルールに付与されている信頼度を示している。「fc(x)」は、「x」がクラスcであるかどうかを判定する際に用いた抽出ルールに付与されている信頼度を示している。
すなわち、ext_cnt(w,c)は、固有表現wがクラスcとして抽出された回数なので、それが大きいほど、固有表現wがそのクラスcの固有表現として正しいことを表している。また、(Σ_x f(x,c))/|D(w)|は、固有表現wが平均的にクラスcに出現している場合に高くなる。よって、固有表現wがクラスcの固有表現として正しく、かつ、他のクラスの固有表現として使われる可能性が低い場合に、確信度(w,c)は高くなる。
たとえば、固有表現「斎藤」がクラス「人名」である確信度を計算するには以下のように行う。まず、前提として、クラス情報には「人名」、「地名」、及び「UNKNOWN」があるとする。
また、固有表現「斎藤」はコーパス記憶部の中で3回出現し、それぞれの抽出ルールの信頼度は、下記の通りであったとする。なお、下記では、抽出ルールの信頼度が0であることは、抽出ルールとマッチしなかったことを示している。
一か所目/「人名」ルール:0.6、「地名」ルール:0
二か所目/「人名」ルール:0.6、「地名」ルール:0
三か所目/「人名」ルール:0.5、「地名」ルール:0.8
よって、固有表現「斎藤」をクラス「人名」と抽出した数は3であるから、ext_cnt(斎藤,人名)=3である。また、コーパス情報記憶部での出現回数は3回なので、|D(W)|は3である。よって、上記(数1)及び(数2)により、確信度は下記のように計算される。
確信度(斎藤、人名)
=ext_cnt(斎藤,人名)×(Σ_x f(x,人名))/|D(斎藤)|
=3 × (0.6 / (0.6+0) + 0.6 /
(0.6+0) + 0.5 / (0.5+0.8)) / 3
=2.38
同様に、固有表現「福岡」がクラス「人名」である確信度を計算するには以下のように行う。まず、固有表現「福岡」はコーパス記憶部の中で3回出現し、それぞれの抽出ルールの信頼度は、下記の通りであったとする。
一か所目/「人名」ルール:0.6、「地名」ルール:0.6、
二か所目/「人名」ルール:0.6、「地名」ルール:0.6、
三か所目/「人名」ルール:0.5、「地名」ルール:0.8
よって、この場合も上記(数1)及び(数2)により、確信度は下記のように計算される。
確信度(福岡、人名)
=ext_cnt(福岡,人名)×(Σ_x f(x,人名))/|D(福岡)|
=3 × (0.6 / (0.6+0.6) + 0.6 /
(0.6+0.6) + 0.5 / (0.5+0.8)) / 3
=1.38
上記の結果から分かるように、固有表現「斎藤」は、人名としてのみ用いられることが多いため、確信度は高く算出される。一方、固有表現「福岡」は、人名としても地名としても用いられることが多いため、確信度は低く算出される。
このように、本実施の形態3では、生成された学習データから得られた固有表現抽出ルールを用いて、コーパス中から固有表現が抽出され、信頼できる固有表現が辞書に追加される。そして、固有表現が追加された辞書を用いて、コーパスからの不完全正解データの作成が行われる。更に、固有表現の辞書への追加、及び不完全正解データの生成は、繰り返すことが可能である。
よって、本実施の形態3においては、不完全正解コーパスを作成するための辞書は、最初、規模が小さいものであっても良く、後に、その規模を大きくすることができる。本実施の形態3によれば、小規模な辞書しか用意されていなくても、学習データを作成することができるため、実施の形態1及び2よりも低コストで学習データの作成を行うことができるようになる。
(固有表現抽出システム)
次に本発明の実施の形態における固有表現抽出システムについて、図11を参照しながら説明する。図11は、本発明の実施の形態における固有表現抽出システムの構成を示すブロック図である。
図11に示す固有表現抽出システムは、実施の形態1〜実施の形態3において説明した学習データ生成装置を構成要素とするシステムである。図11に示すように、固有表現抽出システムは、学習データ生成システム100と、固有表現抽出装置106と、記憶装置107とを備えている。学習データ生成システム100は、実施の形態1から実施の形態3のいずれかで示した学習データ生成システムである。
また、固有表現抽出装置106は、固有表現抽出ルール学習部101と、固有表現抽出部104とを備えている。記憶装置107は、抽出ルール記憶部102と、処理対象テキストデータ記憶部103と、抽出結果記憶部105とを備えている。
固有表現抽出ルール学習部101は、学習データ生成システム100に備えられている学習データ記憶部12から学習データを読み出し、固有表現を抽出するための固有表現抽出ルールを学習する。固有表現抽出ルール学習部101は、実施の形態3において図9に示した抽出ルール学習部24と同様の機能を備えている。学習された固有表現抽出ルールは、抽出ルール記憶部102に記憶される。
固有表現抽出部104は、抽出ルール記憶部102から読み出した固有表現抽出ルールを用いて、処理対象テキストデータ記憶部103に記憶されているテキストデータから、固有表現を抽出する。また、固有表現抽出部104は、抽出した固有表現を抽出結果記憶部105に記憶させる。なお、処理対象テキストデータ記憶部103は、処理対象となる複数の文書を含むコーパスを記憶している。
このように、本実施の形態における固有表現抽出システムは、本発明の学習データ生成システムを備えている。よって、低コストで作成した学習データから固有表現抽出ルールを学習できるので、固有表現抽出システムの構築にかかるコストの低減化が可能となる。
また、本発明の実施の形態1〜3における学習データ生成装置及び学習データ生成方法について説明したが、本発明はコンピュータソフトウェアとしても実現可能である。ここで、実施の形態1〜3におけるプログラムについて説明する。図12は、本発明の実施の形態1〜3のいずれかにおけるプログラムを実行可能なコンピュータを示すブロック図である。
図12に示すコンピュータは、本発明による学習データ生成装置をインプリメントした情報処理システムとして機能する。図12に示すように、コンピュータ(情報処理システム)は、プロセッサ300と、プログラムメモリ301と、記憶媒体302と、外部機器に接続されるインターフェイス303と、表示データを出力するためのビデオカード304とを備えている。記憶媒体302としては、RAMといった各種メモリや、ハードディスク等の磁気記憶媒体を用いることができる。なお、コンピュータには、キーボード等の入力装置305と、液晶表示装置等の表示装置306とが接続されている。
プログラムメモリ301には、プロセッサ300を動作させるためのプログラムが格納される。プログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されて提供される。また、プログラムは、ネットワーク等を介して提供されても良い。コンピュータ読み取り可能な記録媒体としては、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フレキシブルディスク等が挙げられる。
プログラムメモリ301に格納されているプログラムは、実施の形態1〜3のいずれかに示された処理ステップを実行させる命令を含む。つまり、プログラムメモリ301に、例えば、図2に示すステップS1〜S3をプロセッサ300に実効させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態1における学習データ生成装置2が実現される。この場合、プロセッサ300は、学習データ候補生成部20、学習データ候補クラスタリング部21、及び学習データ生成部22として機能し、記憶媒体302は、記憶装置1として機能する。
また、同様に、プログラムメモリ301に、図8に示すステップS11〜S14をプロセッサ300に実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態2における学習データ生成装置5が実現される。この場合、プロセッサ300は、学習データ候補生成部20、学習データ候補クラスタリング部21、学習データ生成部22及びアノテーション情報生成部23として機能する。記憶媒体302は、記憶装置4として機能する。
更に、同様に、プログラムメモリ301に、図10に示すステップS21〜S27をプロセッサ300に実行させる命令を含むプログラムを格納し、このプログラムを実行すれば、実施の形態3における学習データ生成装置8が実現される。この場合、プロセッサ300は、学習データ候補生成部20、学習データ候補クラスタリング部21、学習データ生成部22、アノテーション情報生成部23、抽出ルール学習部24、及び辞書増殖部25として機能する。記憶媒体302は、記憶装置7として機能する。なお、実施の形態1〜3において、外部の別のコンピュータの記憶媒体が、記憶装置1、4、7として機能していても良い。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年4月15日に出願された日本出願特願2009−099183を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びコンピュータ読み取り可能な記録媒体は、以下の特徴を有する。
(1)固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする学習データ生成装置。
(2)前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定ラベルの前記学習データとする、上記(1)に記載の学習データ生成装置。
(3)前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記(2)に記載の学習データ生成装置。
(4)前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記(2)に記載の学習データ生成装置。
(5)前記学習データ生成部が、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、上記(4)に記載の学習データ生成装置。
(6)前記学習データ候補クラスタリング部が、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、上記(1)に記載の学習データ生成装置。
(7)前記学習データ生成部が、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記(1)に記載の学習データ生成装置。
(8)学習データ候補生成部を更に備え、
前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、上記(1)に記載の学習データ生成装置。
(9)前記アノテーション情報を作成するアノテーション情報生成部と、
複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、上記(8)に記載の学習データ生成装置。
(10)抽出ルール学習部と、辞書増殖部とを更に備え、
前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、上記(9)に記載の学習データ生成装置。
(11)固有表現抽出ルールの作成用の学習データを生成する学習データ生成装置と、固有表現抽出装置とを備え、
前記学習データ生成装置は、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする固有表現抽出システム。
(12)固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする学習データ生成方法。
(13)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記(12)に記載の学習データ生成方法。
(14)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記(13)に記載の学習データ生成方法。
(15)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記(13)に記載の学習データ生成方法。
(16)前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、上記(15)に記載の学習データ生成方法。
(17)前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、上記(12)に記載の学習データ生成方法。
(18)前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記(12)に記載の学習データ生成方法。
(19)(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを、更に有する、上記(12)に記載の学習データ生成方法。
(20)(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを、更に有する、上記(19)に記載の学習データ生成方法。
(21)(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記(20)に記載の学習データ生成方法。
(22)コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(23)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記(22)に記載のコンピュータ読み取り可能な記録媒体。
(24)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記(23)に記載のコンピュータ読み取り可能な記録媒体。
(25)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記(23)に記載のコンピュータ読み取り可能な記録媒体。
(26)前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、上記(25)に記載のコンピュータ読み取り可能な記録媒体。
(27)前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、上記(22)に記載のコンピュータ読み取り可能な記録媒体。
(28)前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記(22)に記載のコンピュータ読み取り可能な記録媒体。
(29)前記プログラムが、前記コンピュータに、
(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む上記(22)に記載のコンピュータ読み取り可能な記録媒体。
(30)前記プログラムが、前記コンピュータに、
(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む上記(29)に記載のコンピュータ読み取り可能な記録媒体。
(31)前記プログラムが、前記コンピュータに、
(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む上記(30)に記載のコンピュータ読み取り可能な記録媒体。
本発明によれば、固有表現抽出ルールを低コストで作成できる。このため、本発明は、情報検索システムや、テキストマイニングシステムなど、テキスト情報の有効利用を目的としたシステムに有用である。本発明は、産業上の利用可能性を有している。
1 記憶装置(実施の形態1)
2 学習データ生成装置(実施の形態1)
3 学習データ生成システム(実施の形態1)
4 記憶装置(実施の形態2)
5 学習データ生成装置(実施の形態2)
6 学習データ生成システム(実施の形態2)
7 記憶装置(実施の形態3)
8 学習データ生成装置(実施の形態3)
9 学習データ生成システム(実施の形態3)
10 不完全正解コーパス記憶部
11 学習データ候補記憶部
12 学習データ記憶部
13 コーパス記憶部
14 辞書データ記憶部
15 抽出ルール記憶部
20 学習データ候補生成部
21 学習データ候補クラスタリング部
22 学習データ生成部
23 アノテーション情報生成部
24 抽出ルール学習部
25 辞書増殖部
100 学習データ生成システム
101 固有表現抽出ルール学習部
102 抽出ルール記憶部
103 処理対象テキストデータ記憶部
104 固有表現抽出部
105 抽出結果記憶部
106 固有表現抽出装置
107 記憶装置
300 プロセッサ
301 プログラムメモリ
302 記憶媒体
303 インターフェイス
304 ビデオカード
305 入力装置
306 表示装置
本発明は、固有表現抽出ルールの作成に必要な学習データを生成する学習データ生成装置、それを用いた固有表現抽出システム、学習データ生成方法、及びプログラムに関する。
本発明の目的は、上記問題を解消し、漏れなく正確なアノテーション作業を不要にし得、固有表現抽出ルール作成用の学習データの生成コストを低減し得る、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるためのプログラムであって、
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させることを特徴とする。
以上の特徴により、本発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムによれば、漏れなく正確なアノテーション作業を不要にし、これにより、固有表現抽出ルール作成用の学習データの生成コストを低減できる。
上記4文において「<語:クラス>」は、「語」が「クラス」の固有表現としてアノテーションされていることを表す。(2)文の「山田」は、前2単語「土田が」と、係り先の文節「勤務している」とにおいて、(1)文の「NEC」及び(4)文の「日本電気」と同じである。よって、(2)文の「山田」は、(1)文の「NEC」や(4)文の「日本電気」と文脈が似ているため同じクラスタとなる。このように、(2)文の「山田」はクラスが「人名」であるにも関わらず、「組織名」が多いクラスタに属するためアノテーションミスと判断できる。同様に、(3)文の「竹田」は、係り先の文節「勤務している」において、(1)文、(2)文及び()文の「土田」と同じである。このため、(3)文の「竹田」は、(1)文、(2)文及び()文の「土田」と同じクラスタとなる。よって、(3)文の「竹田」は「人名」が多いクラスタに属するにも関わらず、アノテーションされていないため、アノテーション漏れであると判断できる。
図8に示すように、先ず、アノテーション情報生成部23は、コーパス記憶部13と辞書データ記憶部14とからそれぞれデータを読み出し、辞書データに登録されている固有表現がコーパス中に現れる箇所に対してアノテーション情報を生成する(図8のステップS11)。ステップS1の実行後、アノテーション情報生成部23は、コーパス記憶部13に記憶されているコーパスと、アノテーション情報とを、不完全正解コーパスデータとして、学習データ候補生成部20に渡す。
その後、辞書増殖部25は、終了条件が満たされているか否かを判定する(図10のS7)。判定の結果、終了条件が満たされていなければ、再度、ステップS1が実行される。一方、判定の結果、終了条件が満たされていれば、システムの動作は終了する。なお、終了条件としては、ステップS21〜S27の実行回数(規定の回数繰り返されているならば終了)、辞書に追加された語数(追加語数が規定値を超えれば終了)が挙げられる。また、固有表現が1つも追加されなかった場合に、終了となっても良い。
本願発明における、学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラムは、以下の特徴を有する。
(21)(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記(20)に記載の学習データ生成方法。
(22)コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムであって、
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させるプログラム。
(23)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、上記(22)に記載のプログラム
(24)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、上記(23)に記載のプログラム
(25)前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、上記(23)に記載のプログラム
(26)前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、上記(25)に記載のプログラム
(27)前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、上記(22)に記載のプログラム
(28)前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、上記(22)に記載のプログラム
(29)前記コンピュータに、
(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを更に実行させる、上記(22)に記載のプログラム
(30)前記コンピュータに、
(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを更に実行させる、上記(29)に記載のプログラム
(31)前記コンピュータに、
(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に実行させる、上記(30)にプログラム

Claims (31)

  1. 固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
    アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
    前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
    を備えていることを特徴とする学習データ生成装置。
  2. 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定ラベルの前記学習データとする、請求項1に記載の学習データ生成装置。
  3. 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項2に記載の学習データ生成装置。
  4. 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項2に記載の学習データ生成装置。
  5. 前記学習データ生成部が、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項4に記載の学習データ生成装置。
  6. 前記学習データ候補クラスタリング部が、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項1から5のいずれかに記載の学習データ生成装置。
  7. 前記学習データ生成部が、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項1から6のいずれかに記載の学習データ生成装置。
  8. 学習データ候補生成部を更に備え、
    前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、請求項1から7のいずれかに記載の学習データ生成装置。
  9. 前記アノテーション情報を作成するアノテーション情報生成部と、
    複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
    前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、請求項8に記載の学習データ生成装置。
  10. 抽出ルール学習部と、辞書増殖部とを更に備え、
    前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
    前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、請求項9に記載の学習データ生成装置。
  11. 上記請求項1から上記請求項10のいずれかに記載の学習データ生成装置と、固有表現抽出装置とを備え、
    前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
    ことを特徴とする固有表現抽出システム。
  12. 固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
    (a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
    (b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
    を有することを特徴とする学習データ生成方法。
  13. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項12に記載の学習データ生成方法。
  14. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項13に記載の学習データ生成方法。
  15. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項13に記載の学習データ生成方法。
  16. 前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項15に記載の学習データ生成方法。
  17. 前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項12から16のいずれかに記載の学習データ生成方法。
  18. 前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項12から17のいずれかに記載の学習データ生成方法。
  19. (c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを、更に有する、請求項12から18のいずれかに記載の学習データ生成方法。
  20. (d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを、更に有する、請求項19に記載の学習データ生成方法。
  21. (e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
    (d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、請求項20に記載の学習データ生成方法。
  22. コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
    (b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
    を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
  23. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項22に記載のコンピュータ読み取り可能な記録媒体。
  24. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項23に記載のコンピュータ読み取り可能な記録媒体。
  25. 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項23に記載のコンピュータ読み取り可能な記録媒体。
  26. 前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項25に記載のコンピュータ読み取り可能な記録媒体。
  27. 前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項22から26のいずれかに記載のコンピュータ読み取り可能な記録媒体。
  28. 前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項22から27のいずれかに記載のコンピュータ読み取り可能な記録媒体。
  29. 前記プログラムが、前記コンピュータに、
    (c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む請求項22から28のいずれかに記載のコンピュータ読み取り可能な記録媒体。
  30. 前記プログラムが、前記コンピュータに、
    (d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む請求項29に記載のコンピュータ読み取り可能な記録媒体。
  31. 前記プログラムが、前記コンピュータに、
    (e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
    (d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む請求項30に記載のコンピュータ読み取り可能な記録媒体。
JP2011509187A 2009-04-15 2010-03-17 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム Active JP5424001B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011509187A JP5424001B2 (ja) 2009-04-15 2010-03-17 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009099183 2009-04-15
JP2009099183 2009-04-15
JP2011509187A JP5424001B2 (ja) 2009-04-15 2010-03-17 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
PCT/JP2010/001901 WO2010119615A1 (ja) 2009-04-15 2010-03-17 学習データ生成装置、及び固有表現抽出システム

Publications (2)

Publication Number Publication Date
JPWO2010119615A1 true JPWO2010119615A1 (ja) 2012-10-22
JP5424001B2 JP5424001B2 (ja) 2014-02-26

Family

ID=42982290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011509187A Active JP5424001B2 (ja) 2009-04-15 2010-03-17 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム

Country Status (3)

Country Link
US (1) US9195646B2 (ja)
JP (1) JP5424001B2 (ja)
WO (1) WO2010119615A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118723A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 意味抽出装置、意味抽出方法、および、記録媒体
JP5640773B2 (ja) * 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
WO2014189521A1 (en) * 2013-05-24 2014-11-27 Nokia Siemens Networks Oy Automatic correlation and prevention of improper user plane traffic wireless networks
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
US9230009B2 (en) * 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9348815B1 (en) * 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US8856642B1 (en) 2013-07-22 2014-10-07 Recommind, Inc. Information extraction and annotation systems and methods for documents
US10191893B2 (en) 2013-07-22 2019-01-29 Open Text Holdings, Inc. Information extraction and annotation systems and methods for documents
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
JP6291844B2 (ja) * 2014-01-06 2018-03-14 日本電気株式会社 データ処理装置
JP5939587B2 (ja) 2014-03-27 2016-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation アノテーションの相関を計算する装置及び方法
US10885013B2 (en) * 2014-06-20 2021-01-05 Jpmorgan Chase Bank, N.A. Automated application lifecycle tracking using batch processing
US9860200B1 (en) * 2014-08-27 2018-01-02 Google Llc Message suggestions
JP6505421B2 (ja) 2014-11-19 2019-04-24 株式会社東芝 情報抽出支援装置、方法およびプログラム
JP6544131B2 (ja) * 2015-08-14 2019-07-17 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP6652355B2 (ja) * 2015-09-15 2020-02-19 株式会社東芝 情報抽出装置、方法およびプログラム
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
US10530721B2 (en) * 2015-11-24 2020-01-07 International Business Machines Corporation Customized timing for access to shared media files
JP6490607B2 (ja) 2016-02-09 2019-03-27 株式会社東芝 材料推薦装置
JP6680562B2 (ja) * 2016-02-24 2020-04-15 ヤフー株式会社 判定装置、判定方法、及び判定プログラム
JP6602243B2 (ja) * 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
JP6794692B2 (ja) * 2016-07-19 2020-12-02 富士通株式会社 センサデータ学習方法、センサデータ学習プログラム、及びセンサデータ学習装置
JP6622172B2 (ja) * 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
US11544579B2 (en) * 2016-11-23 2023-01-03 Primal Fusion Inc. System and method for generating training data for machine learning classifier
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20180225590A1 (en) * 2017-02-07 2018-08-09 International Business Machines Corporation Automatic ground truth seeder
JP6796096B2 (ja) * 2018-02-26 2020-12-02 株式会社Kddi総合研究所 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
CN109242106B (zh) * 2018-09-07 2022-07-26 百度在线网络技术(北京)有限公司 样本处理方法、装置、设备和存储介质
KR102129843B1 (ko) * 2018-12-17 2020-07-03 주식회사 크라우드웍스 검증용 주석 처리 작업을 이용한 실전용 주석 처리 작업의 검증 방법 및 장치
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
JP7079745B2 (ja) * 2019-03-08 2022-06-02 日立Astemo株式会社 演算装置
JP7197795B2 (ja) * 2019-05-22 2022-12-28 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
US11514691B2 (en) * 2019-06-12 2022-11-29 International Business Machines Corporation Generating training sets to train machine learning models
JP6674581B1 (ja) * 2019-07-16 2020-04-01 株式会社ジャパン・カレント 画像分類システム及び画像分類方法
CN110929532B (zh) * 2019-11-21 2023-03-21 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
US11270061B2 (en) * 2020-02-25 2022-03-08 International Business Machines Corporation Automatic generation of training data for scientific paper summarization using videos
US11328117B2 (en) 2020-05-17 2022-05-10 International Business Machines Corporation Automated content modification based on a user-specified context
JP7456289B2 (ja) 2020-05-28 2024-03-27 富士通株式会社 判定プログラム、判定方法および情報処理装置
US11886820B2 (en) * 2020-10-06 2024-01-30 Genpact Luxembourg S.à r.l. II System and method for machine-learning based extraction of information from documents
US11664010B2 (en) 2020-11-03 2023-05-30 Florida Power & Light Company Natural language domain corpus data set creation based on enhanced root utterances
JPWO2022201256A1 (ja) * 2021-03-22 2022-09-29

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
JP4347226B2 (ja) 2004-05-20 2009-10-21 富士通株式会社 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法

Also Published As

Publication number Publication date
JP5424001B2 (ja) 2014-02-26
US20120030157A1 (en) 2012-02-02
WO2010119615A1 (ja) 2010-10-21
US9195646B2 (en) 2015-11-24

Similar Documents

Publication Publication Date Title
JP5424001B2 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
CN109933785B (zh) 用于实体关联的方法、装置、设备和介质
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
EP2812883B1 (en) System and method for semantically annotating images
US8073877B2 (en) Scalable semi-structured named entity detection
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
JP2010225135A (ja) 多義性解消方法とそのシステム
CN110134965B (zh) 用于信息处理的方法、装置、设备和计算机可读存储介质
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
US20230342400A1 (en) Document search device, document search program, and document search method
Hay et al. Representation learning of writing style
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
Olieman et al. Entity linking by focusing DBpedia candidate entities
Zong et al. Information extraction
JP2024091709A (ja) 文作成装置、文作成方法および文作成プログラム
CN111133429A (zh) 提取表达以供自然语言处理
Gero et al. Word centrality constrained representation for keyphrase extraction
Gao et al. Active entity recognition in low resource settings
Pandi et al. A novel similarity measure for sequence data
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
Chou et al. On the Construction of Web NER Model Training Tool based on Distant Supervision
Zhu et al. Semantic document distance measures and unsupervised document revision detection
Canales et al. Evaluation of entity recognition algorithms in short texts
JPWO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131112

R150 Certificate of patent or registration of utility model

Ref document number: 5424001

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150