JPWO2010119615A1 - 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム - Google Patents
学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2010119615A1 JPWO2010119615A1 JP2011509187A JP2011509187A JPWO2010119615A1 JP WO2010119615 A1 JPWO2010119615 A1 JP WO2010119615A1 JP 2011509187 A JP2011509187 A JP 2011509187A JP 2011509187 A JP2011509187 A JP 2011509187A JP WO2010119615 A1 JPWO2010119615 A1 JP WO2010119615A1
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- cluster
- specific
- candidate
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする。
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする。
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする。
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
本発明では、例えば、不完全な正解コーパス(以下「不完全正解コーパス」という。)から学習データを生成することができる。不完全正解コーパスとは、テキスト中の一部の固有表現に対してアノテーションを付与して得られたデータである。また、不完全正解コーパスには、割合が少なければ、間違ったアノテーションが含まれていても良い。
[A]各クラスタ内のラベルの分布がクラスタ間で異なる。
[B]各クラスタ内で割合が最も多いラベルが1つある。
[C]クラスタ内の学習データ候補の数が特定の数より多くなっている。
[D]クラスタリング時の分割数(クラスタ数)が特定の数より少なくなっている。
以下、本発明の実施の形態1における、学習データ生成装置及び学習データ生成方法について、図1〜図5を参照しながら説明する。最初に、本実施の形態1における学習データ生成装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1における学習データ生成装置の構成を示すブロック図である。
次に本発明の実施の形態2における、学習データ生成装置及び学習データ生成方法について、図6及び図7を参照しながら説明する。最初に、本実施の形態2における学習データ生成装置の構成について図6及び図7を用いて説明する。図6は、本発明の実施の形態2における学習データ生成装置の構成を示すブロック図である。図7は、図6に示す辞書データ記憶部に記憶されている辞書データの具体例を示す図である。
次に本発明の実施の形態3における、学習データ生成装置及び学習データ生成方法について、図9及び図10を参照しながら説明する。最初に、本実施の形態3における学習データ生成装置の構成について図9を用いて説明する。図9は、本発明の実施の形態3における学習データ生成装置の構成を示すブロック図である。
確信度(w,c)=ext_cnt(w,c)×(Σ_x f(x,c))/|D(w)|
f(x,c)=fc(x)/Σ_ci fci(x)
一か所目/「人名」ルール:0.6、「地名」ルール:0
二か所目/「人名」ルール:0.6、「地名」ルール:0
三か所目/「人名」ルール:0.5、「地名」ルール:0.8
=ext_cnt(斎藤,人名)×(Σ_x f(x,人名))/|D(斎藤)|
=3 × (0.6 / (0.6+0) + 0.6 /
(0.6+0) + 0.5 / (0.5+0.8)) / 3
=2.38
一か所目/「人名」ルール:0.6、「地名」ルール:0.6、
二か所目/「人名」ルール:0.6、「地名」ルール:0.6、
三か所目/「人名」ルール:0.5、「地名」ルール:0.8
=ext_cnt(福岡,人名)×(Σ_x f(x,人名))/|D(福岡)|
=3 × (0.6 / (0.6+0.6) + 0.6 /
(0.6+0.6) + 0.5 / (0.5+0.8)) / 3
=1.38
次に本発明の実施の形態における固有表現抽出システムについて、図11を参照しながら説明する。図11は、本発明の実施の形態における固有表現抽出システムの構成を示すブロック図である。
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする学習データ生成装置。
前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、上記(1)に記載の学習データ生成装置。
複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、上記(8)に記載の学習データ生成装置。
前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、上記(9)に記載の学習データ生成装置。
前記学習データ生成装置は、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする固有表現抽出システム。
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする学習データ生成方法。
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記(20)に記載の学習データ生成方法。
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む上記(22)に記載のコンピュータ読み取り可能な記録媒体。
(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む上記(29)に記載のコンピュータ読み取り可能な記録媒体。
(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む上記(30)に記載のコンピュータ読み取り可能な記録媒体。
2 学習データ生成装置(実施の形態1)
3 学習データ生成システム(実施の形態1)
4 記憶装置(実施の形態2)
5 学習データ生成装置(実施の形態2)
6 学習データ生成システム(実施の形態2)
7 記憶装置(実施の形態3)
8 学習データ生成装置(実施の形態3)
9 学習データ生成システム(実施の形態3)
10 不完全正解コーパス記憶部
11 学習データ候補記憶部
12 学習データ記憶部
13 コーパス記憶部
14 辞書データ記憶部
15 抽出ルール記憶部
20 学習データ候補生成部
21 学習データ候補クラスタリング部
22 学習データ生成部
23 アノテーション情報生成部
24 抽出ルール学習部
25 辞書増殖部
100 学習データ生成システム
101 固有表現抽出ルール学習部
102 抽出ルール記憶部
103 処理対象テキストデータ記憶部
104 固有表現抽出部
105 抽出結果記憶部
106 固有表現抽出装置
107 記憶装置
300 プロセッサ
301 プログラムメモリ
302 記憶媒体
303 インターフェイス
304 ビデオカード
305 入力装置
306 表示装置
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させることを特徴とする。
(f)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、上記(20)に記載の学習データ生成方法。
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させるプログラム。
(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを更に実行させる、上記(22)に記載のプログラム。
(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを更に実行させる、上記(29)に記載のプログラム。
(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(f)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に実行させる、上記(30)にプログラム。
Claims (31)
- 固有表現抽出ルールの作成用の学習データを生成する、学習データ生成装置であって、
アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、
前記クラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、学習データ生成部と、
を備えていることを特徴とする学習データ生成装置。 - 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定ラベルの前記学習データとする、請求項1に記載の学習データ生成装置。
- 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項2に記載の学習データ生成装置。
- 前記学習データ生成部が、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項2に記載の学習データ生成装置。
- 前記学習データ生成部が、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項4に記載の学習データ生成装置。
- 前記学習データ候補クラスタリング部が、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項1から5のいずれかに記載の学習データ生成装置。
- 前記学習データ生成部が、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項1から6のいずれかに記載の学習データ生成装置。
- 学習データ候補生成部を更に備え、
前記学習データ候補生成部は、テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成する、請求項1から7のいずれかに記載の学習データ生成装置。 - 前記アノテーション情報を作成するアノテーション情報生成部と、
複数の固有表現と、前記複数の固有表現それぞれの前記クラスとが登録されている辞書とを更に備え、
前記アノテーション情報生成部は、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成する、請求項8に記載の学習データ生成装置。 - 抽出ルール学習部と、辞書増殖部とを更に備え、
前記抽出ルール学習部は、前記学習データ生成部により生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習し、
前記辞書増殖部は、複数の文書を含むコーパスから、前記抽出ルール学習部によって学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録する、請求項9に記載の学習データ生成装置。 - 上記請求項1から上記請求項10のいずれかに記載の学習データ生成装置と、固有表現抽出装置とを備え、
前記固有表現抽出装置は、前記学習データ装置により生成された前記学習データを用いて、固有表現を抽出するための固有表現抽出ルールを学習し、学習した前記固有表現抽出ルールを用いて、複数の文書を含むコーパスから、前記固有表現を抽出する、
ことを特徴とする固有表現抽出システム。 - 固有表現抽出ルールの作成用の学習データを生成するための学習データ生成方法であって、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を有することを特徴とする学習データ生成方法。 - 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項12に記載の学習データ生成方法。
- 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項13に記載の学習データ生成方法。
- 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項13に記載の学習データ生成方法。
- 前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項15に記載の学習データ生成方法。
- 前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項12から16のいずれかに記載の学習データ生成方法。
- 前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項12から17のいずれかに記載の学習データ生成方法。
- (c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを、更に有する、請求項12から18のいずれかに記載の学習データ生成方法。
- (d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを、更に有する、請求項19に記載の学習データ生成方法。
- (e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、更に有する、請求項20に記載の学習データ生成方法。 - コンピュータによって、固有表現抽出ルールの作成用の学習データを生成させるための、プログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、ステップと、
(b)前記ステップ(a)のクラスタリング結果で得られた各クラスタを参照して、前記各クラスタ内の学習データ候補のラベルの分布を求め、求めた前記分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した前記学習データ候補を用いて学習データを生成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。 - 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与された学習データ候補を、前記特定のラベルの前記学習データとする、請求項22に記載のコンピュータ読み取り可能な記録媒体。
- 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補を、前記学習データ候補全体から削除する、請求項23に記載のコンピュータ読み取り可能な記録媒体。
- 前記(b)のステップにおいて、特定のラベルを予め定められた割合以上含む前記クラスタ内における、前記特定のラベルが付与されていない学習データ候補について、当該クラスタに所属する度合いを求め、求められた度合いが閾値以上となる前記学習データ候補を前記学習データとし、求められた度合いが閾値未満となる前記学習データ候補を前記学習データ候補全体から削除する、請求項23に記載のコンピュータ読み取り可能な記録媒体。
- 前記(b)のステップにおいて、前記特定のラベルが付与されていない学習データ候補が当該クラスタに所属する度合いとして、前記学習データ候補の当該クラスタの代表点からの距離、前記学習データ候補の当該クラスタへの所属確率、前記学習データ候補の当該クラスタ内での推定密度、及び当該クラスタが前記特定のラベルを含む割合のうち、1つ以上を用いる、請求項25に記載のコンピュータ読み取り可能な記録媒体。
- 前記(a)のステップにおいて、前記クラスタリング時に、前記各クラスタ内のラベルの分布がクラスタ間で異なる事、前記各クラスタ内で最も割合が多いラベルが存在する事、各クラスタ内の学習データ候補数が特定の数より多い事、及びクラスタ数が特定の数より少ない事のうちいずれか1つ以上が満たされるように、前記クラスタリングの条件を設定する、請求項22から26のいずれかに記載のコンピュータ読み取り可能な記録媒体。
- 前記(b)のステップにおいて、前記学習データとされた前記学習データ候補に、新たな特徴量を付加する、請求項22から27のいずれかに記載のコンピュータ読み取り可能な記録媒体。
- 前記プログラムが、前記コンピュータに、
(c)テキストデータと、テキストデータに含まれる各単語に付与されたアノテーション情報とを用いて、前記テキストデータを分割して得られた複数個の単語又は単語列毎に、文脈情報を含む特徴量を検出し、各単語又は各単語列に前記特徴量を付加して、前記学習データ候補を生成するステップを実行させる、命令を更に含む請求項22から28のいずれかに記載のコンピュータ読み取り可能な記録媒体。 - 前記プログラムが、前記コンピュータに、
(d)複数の固有表現と前記複数の固有表現それぞれの前記クラスとが登録されている辞書を用い、前記辞書に登録されている前記複数の固有表現と前記テキストデータとを比較し、前記テキストデータ中の前記複数の固有表現のいずれかが出現している出現箇所を特定し、前記出現箇所の位置と前記出現している固有表現の前記クラスとを特定するアノテーション情報を作成するステップを実行させる、命令を更に含む請求項29に記載のコンピュータ読み取り可能な記録媒体。 - 前記プログラムが、前記コンピュータに、
(e)前記(b)のステップで生成された前記学習データを用いて、前記固有表現を抽出するための固有表現抽出ルールを学習するステップと、
(d)複数の文書を含むコーパスから、前記(e)のステップで学習された抽出ルールを用いて固有表現を抽出し、そして、抽出された前記固有表現のうちの設定された条件を満たす固有表現と、そのクラスを特定するクラス情報とを、前記辞書に追加登録するステップとを、実行させる、命令を更に含む請求項30に記載のコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011509187A JP5424001B2 (ja) | 2009-04-15 | 2010-03-17 | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009099183 | 2009-04-15 | ||
JP2009099183 | 2009-04-15 | ||
JP2011509187A JP5424001B2 (ja) | 2009-04-15 | 2010-03-17 | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム |
PCT/JP2010/001901 WO2010119615A1 (ja) | 2009-04-15 | 2010-03-17 | 学習データ生成装置、及び固有表現抽出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010119615A1 true JPWO2010119615A1 (ja) | 2012-10-22 |
JP5424001B2 JP5424001B2 (ja) | 2014-02-26 |
Family
ID=42982290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011509187A Active JP5424001B2 (ja) | 2009-04-15 | 2010-03-17 | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9195646B2 (ja) |
JP (1) | JP5424001B2 (ja) |
WO (1) | WO2010119615A1 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118723A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、記録媒体 |
JP5640773B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
WO2014189521A1 (en) * | 2013-05-24 | 2014-11-27 | Nokia Siemens Networks Oy | Automatic correlation and prevention of improper user plane traffic wireless networks |
US9146987B2 (en) * | 2013-06-04 | 2015-09-29 | International Business Machines Corporation | Clustering based question set generation for training and testing of a question and answer system |
US9230009B2 (en) * | 2013-06-04 | 2016-01-05 | International Business Machines Corporation | Routing of questions to appropriately trained question and answer system pipelines using clustering |
US9348815B1 (en) * | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
US8856642B1 (en) | 2013-07-22 | 2014-10-07 | Recommind, Inc. | Information extraction and annotation systems and methods for documents |
US10191893B2 (en) | 2013-07-22 | 2019-01-29 | Open Text Holdings, Inc. | Information extraction and annotation systems and methods for documents |
US9348900B2 (en) | 2013-12-11 | 2016-05-24 | International Business Machines Corporation | Generating an answer from multiple pipelines using clustering |
JP6291844B2 (ja) * | 2014-01-06 | 2018-03-14 | 日本電気株式会社 | データ処理装置 |
JP5939587B2 (ja) | 2014-03-27 | 2016-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | アノテーションの相関を計算する装置及び方法 |
US10885013B2 (en) * | 2014-06-20 | 2021-01-05 | Jpmorgan Chase Bank, N.A. | Automated application lifecycle tracking using batch processing |
US9860200B1 (en) * | 2014-08-27 | 2018-01-02 | Google Llc | Message suggestions |
JP6505421B2 (ja) | 2014-11-19 | 2019-04-24 | 株式会社東芝 | 情報抽出支援装置、方法およびプログラム |
JP6544131B2 (ja) * | 2015-08-14 | 2019-07-17 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP6652355B2 (ja) * | 2015-09-15 | 2020-02-19 | 株式会社東芝 | 情報抽出装置、方法およびプログラム |
JP6775935B2 (ja) | 2015-11-04 | 2020-10-28 | 株式会社東芝 | 文書処理装置、方法、およびプログラム |
US10530721B2 (en) * | 2015-11-24 | 2020-01-07 | International Business Machines Corporation | Customized timing for access to shared media files |
JP6490607B2 (ja) | 2016-02-09 | 2019-03-27 | 株式会社東芝 | 材料推薦装置 |
JP6680562B2 (ja) * | 2016-02-24 | 2020-04-15 | ヤフー株式会社 | 判定装置、判定方法、及び判定プログラム |
JP6602243B2 (ja) * | 2016-03-16 | 2019-11-06 | 株式会社東芝 | 学習装置、方法、及びプログラム |
JP6794692B2 (ja) * | 2016-07-19 | 2020-12-02 | 富士通株式会社 | センサデータ学習方法、センサデータ学習プログラム、及びセンサデータ学習装置 |
JP6622172B2 (ja) * | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
US11544579B2 (en) * | 2016-11-23 | 2023-01-03 | Primal Fusion Inc. | System and method for generating training data for machine learning classifier |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US20180225590A1 (en) * | 2017-02-07 | 2018-08-09 | International Business Machines Corporation | Automatic ground truth seeder |
JP6796096B2 (ja) * | 2018-02-26 | 2020-12-02 | 株式会社Kddi総合研究所 | 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置 |
US11048762B2 (en) | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
CN109242106B (zh) * | 2018-09-07 | 2022-07-26 | 百度在线网络技术(北京)有限公司 | 样本处理方法、装置、设备和存储介质 |
KR102129843B1 (ko) * | 2018-12-17 | 2020-07-03 | 주식회사 크라우드웍스 | 검증용 주석 처리 작업을 이용한 실전용 주석 처리 작업의 검증 방법 및 장치 |
US11610277B2 (en) | 2019-01-25 | 2023-03-21 | Open Text Holdings, Inc. | Seamless electronic discovery system with an enterprise data portal |
JP7079745B2 (ja) * | 2019-03-08 | 2022-06-02 | 日立Astemo株式会社 | 演算装置 |
JP7197795B2 (ja) * | 2019-05-22 | 2022-12-28 | 富士通株式会社 | 機械学習プログラム、機械学習方法および機械学習装置 |
US11514691B2 (en) * | 2019-06-12 | 2022-11-29 | International Business Machines Corporation | Generating training sets to train machine learning models |
JP6674581B1 (ja) * | 2019-07-16 | 2020-04-01 | 株式会社ジャパン・カレント | 画像分類システム及び画像分類方法 |
CN110929532B (zh) * | 2019-11-21 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
US11270061B2 (en) * | 2020-02-25 | 2022-03-08 | International Business Machines Corporation | Automatic generation of training data for scientific paper summarization using videos |
US11328117B2 (en) | 2020-05-17 | 2022-05-10 | International Business Machines Corporation | Automated content modification based on a user-specified context |
JP7456289B2 (ja) | 2020-05-28 | 2024-03-27 | 富士通株式会社 | 判定プログラム、判定方法および情報処理装置 |
US11886820B2 (en) * | 2020-10-06 | 2024-01-30 | Genpact Luxembourg S.à r.l. II | System and method for machine-learning based extraction of information from documents |
US11664010B2 (en) | 2020-11-03 | 2023-05-30 | Florida Power & Light Company | Natural language domain corpus data set creation based on enhanced root utterances |
JPWO2022201256A1 (ja) * | 2021-03-22 | 2022-09-29 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548847B2 (en) * | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US7366705B2 (en) * | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
JP4347226B2 (ja) | 2004-05-20 | 2009-10-21 | 富士通株式会社 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
-
2010
- 2010-03-17 WO PCT/JP2010/001901 patent/WO2010119615A1/ja active Application Filing
- 2010-03-17 US US13/263,280 patent/US9195646B2/en active Active
- 2010-03-17 JP JP2011509187A patent/JP5424001B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP5424001B2 (ja) | 2014-02-26 |
US20120030157A1 (en) | 2012-02-02 |
WO2010119615A1 (ja) | 2010-10-21 |
US9195646B2 (en) | 2015-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5424001B2 (ja) | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム | |
CN109933785B (zh) | 用于实体关联的方法、装置、设备和介质 | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
EP2812883B1 (en) | System and method for semantically annotating images | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
JP2010225135A (ja) | 多義性解消方法とそのシステム | |
CN110134965B (zh) | 用于信息处理的方法、装置、设备和计算机可读存储介质 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
US20230342400A1 (en) | Document search device, document search program, and document search method | |
Hay et al. | Representation learning of writing style | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
Olieman et al. | Entity linking by focusing DBpedia candidate entities | |
Zong et al. | Information extraction | |
JP2024091709A (ja) | 文作成装置、文作成方法および文作成プログラム | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
Gero et al. | Word centrality constrained representation for keyphrase extraction | |
Gao et al. | Active entity recognition in low resource settings | |
Pandi et al. | A novel similarity measure for sequence data | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
Zhu et al. | Semantic document distance measures and unsupervised document revision detection | |
Canales et al. | Evaluation of entity recognition algorithms in short texts | |
JPWO2020157887A1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
CN114723073B (zh) | 语言模型预训练、产品搜索方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5424001 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |