JPWO2008093569A1 - 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム - Google Patents

情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム Download PDF

Info

Publication number
JPWO2008093569A1
JPWO2008093569A1 JP2008556057A JP2008556057A JPWO2008093569A1 JP WO2008093569 A1 JPWO2008093569 A1 JP WO2008093569A1 JP 2008556057 A JP2008556057 A JP 2008556057A JP 2008556057 A JP2008556057 A JP 2008556057A JP WO2008093569 A1 JPWO2008093569 A1 JP WO2008093569A1
Authority
JP
Japan
Prior art keywords
extraction
rule
information
rules
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008556057A
Other languages
English (en)
Other versions
JP5040925B2 (ja
Inventor
剛巨 河合
剛巨 河合
安藤 真一
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008556057A priority Critical patent/JP5040925B2/ja
Publication of JPWO2008093569A1 publication Critical patent/JPWO2008093569A1/ja
Application granted granted Critical
Publication of JP5040925B2 publication Critical patent/JP5040925B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

事前に大量の教師データの入力をすることなく、所望の情報を抽出するための抽出規則を効率的に作成可能とする支援機能を提供できるようにする。情報抽出規則作成支援システムにおいて、抽出規則入力手段10は、複数の抽出規則の入力を受け付ける。記憶装置2は、予め抽出対象文書を記憶する。抽出規則適用手段11は、抽出対象文書から抽出規則に基づき抽出結果を得る。規則関係生成手段12は、得られた抽出結果を抽出規則間で比較し、所定の条件を満たした抽出規則間から重複関係又は包含関係にある規則関係ネットワークのデータを抽出結果と対応付けた規則関係情報を生成する。そして、規則関係出力手段13は、規則関係生成手段が生成した規則関係情報を出力する。

Description

(関連出願)本願は、先の日本特許出願2007−018583号(2007年1月29日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラムに関し、特に情報を抽出するための抽出規則の作成を支援する情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラムに関する。
大量の電子文書から所望の情報のみを抽出する情報抽出システムの重要性が高まっている。情報抽出システムには、各種の方式が知られている。従来、この種の情報抽出システムでは、予め定義した人名や地名、組織名等の固有表現を抽出するために、ユーザが所望する情報を抽出する抽出規則を作成し、この作成した抽出規則に従って、抽出対象とする電子文書から情報抽出を行うのが一般的である。
また、別の情報抽出システムでは、例えば、特許文献1に記載されているように、所望の情報を正例として記した情報を含む教師データ(正解リスト)を予め大量に用意し、これら教師データから機械学習により固有表現抽出用の抽出規則を生成している。
また、別の情報抽出装置では、例えば特許文献2に記載されているように、固有表現抽出用の抽出規則を作成するにあたって教師データの作成を支援する。そのため、第1のユーザ入力において抽出したい固有表現の入力を受け付けて正例とする。また、第1のユーザ入力とは異なる単語を負例の候補として提示して、その一部の選択を第2の入力として受け付ける。また、第1のユーザ入力の正例と第2のユーザ入力の負例とを教師データとして用いて、教師データから規則性を学習して固有表現抽出用の抽出規則を生成する。そして、これらの生成した抽出規則を電子文書に適用して得られた抽出結果を提示して、固有表現か否かの判別結果を第3のユーザ入力として受け付けて、固有表現抽出用の抽出規則を個々に選別している。
特開2001−318792号公報 特開2006−023968号公報
なお、上記特許文献1、2の全開示内容はその引用をもって本書に繰込み記載する。
特許文献1に記載された情報抽出システムでは、事前に膨大な教師データを必要とする。さらに、教師データを人手により作成するため、教師データの作成に膨大な作業量を必要とする。また、特許文献2に記載されたような情報抽出装置では、逐次的な教師データの入力を支援するものの、依然として大量の教師データを必要とし、また入力の量を多く必要とする。
このように、従来の情報抽出システム(装置)では、抽出規則を人手により作成する場合には、候補となる抽出規則を作成し、抽出規則毎に所望の抽出結果が得られるかどうかを確認する必要があり、作業に時間を要する。また、抽出規則の作成を自動化する場合であっても、所望の情報に対応した大量の教師データを作成する必要がある。さらに、所望の情報を抽出する抽出規則を作成するために、逐次的に教師データを入力して教師データの作成を支援するような方法を用いたとしても、結局、大量の入力を必要とすることに変わりない。従って、従来の情報抽出システム(装置)では、情報を抽出するための抽出規則を効率的に作成することを支援できないという問題点がある。
そこで、本発明は、事前に大量の教師データの入力をすることなく、所望の情報を抽出するための抽出規則の作成を効率化する支援機能を実現できる情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラムを提供することを目的とする。
本発明の第1の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段(例えば、抽出対象文書記憶部20によって実現される)と、抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力手段(例えば、抽出規則入力手段10によって実現される)と、入力手段が入力した各抽出規則を用いて、記憶手段が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出手段(例えば、抽出規則適用手段11によって実現される)と、情報抽出手段が求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワーク(抽出規則間の関係情報)を生成する規則関係生成手段(例えば、規則関係生成手段12によって実現される)とを備える情報抽出規則作成支援システムが提供される。
また、本発明の第2の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段(例えば、抽出対象文書記憶部20によって実現される)と、抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力手段(例えば、抽出規則生成手段14によって実現される)と、入力手段が入力した抽出規則生成用文書及び指示情報に基づいて、指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成手段(例えば、抽出規則生成手段14によって実現される)と、抽出規則生成手段が生成した各抽出規則を用いて、記憶手段が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出手段(例えば、抽出規則適用手段11によって実現される)と、情報抽出手段が求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成手段(例えば、規則関係生成手段12によって実現される)とを備える情報抽出規則作成支援システムが提供される。
また、前記各情報抽出規則作成支援システムにおいて、規則関係生成手段は、情報抽出手段が求めた各抽出結果の間の重複関係を分析して各抽出結果の間の重複関係を示す重複率を求め、求めた重複率に基づいて、対応する抽出規則をリンク付けるようにしてもよい。
また、前記各情報抽出規則作成支援システムにおいて、規則関係生成手段は、情報抽出手段が求めた各抽出結果の間に包含関係がある場合にのみ、対応する抽出規則をリンク付けるようにしてもよい。
また、前記各情報抽出規則作成支援システムは、規則関係生成手段が生成した規則関係ネットワークを、各抽出規則の関係を示す規則関係情報として出力する出力手段(例えば、規則関係出力手段13によって実現される)を備えるようにしてもよい。
また、前記各情報抽出規則作成支援システムは、規則関係生成手段が生成した規則関係ネットワークと、規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の差分を示す情報とを、各抽出規則の関係を示す規則関係情報として出力する出力手段(例えば、規則関係出力手段13によって実現される)を備えるようにしてもよい。
また、前記各情報抽出規則作成支援システムは、抽出規則の絞り込みを行なう抽出規則絞込手段(例えば、抽出規則絞込手段15によって実現される)を備え、抽出規則絞込手段は、所定の優先度に基づいて、規則関係生成手段が生成した規則関係ネットワークに含まれるリンクを選択し、選択したリンクに対応する各抽出規則を用いて情報抽出を行なったときの抽出結果を含む提示情報を生成し、提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、入力した判定情報と規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定するようにしてもよい。
また、前記各情報抽出規則作成支援システムは、抽出規則の絞り込みを行なう抽出規則絞込手段を備え、抽出規則絞込手段は、所定の優先度に基づいて、規則関係生成手段が生成した規則関係ネットワークに含まれるリンクを選択し、選択したリンクに対応する各抽出規則のうち、抽出規則を用いて情報抽出を行なったときの抽出結果が多い方の抽出規則を用いて抽出した抽出結果であり、かつ抽出規則を用いて情報抽出を行なったときの抽出結果が少ない方の抽出規則の抽出結果ではない情報を少なくとも含む提示情報を生成し、提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、入力した判定情報と規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定するようにしてもよい。
また、前記各情報抽出規則作成支援システムにおいて、抽出規則絞込手段は、規則関係生成手段が生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率に基づいて、抽出規則を選択するようにしてもよい。
また、前記各情報抽出規則作成支援システムにおいて、抽出規則絞込手段は、規則関係生成手段が生成した規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数に基づいて、抽出規則を選択するようにしてもよい。
また、前記各情報抽出規則作成支援システムにおいて、抽出規則絞込手段は、規則関係生成手段が生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率と、規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数を用いて算出されるスコア値とに基づいて、抽出規則を選択するようにしてもよい。
また、前記各情報抽出規則作成支援システムは、抽出規則絞込手段により採用と判定された抽出規則を用いて情報抽出を行ったときの抽出結果より、過去に指示情報で指定された抽出箇所の情報とは異なる情報を選出する情報選出手段を備え、情報選出手段は、選出した情報と、選出した情報を含む抽出対象文書を特定可能な情報とを含む抽出対象文書を出力する機能を有するようにしてもよい。
本発明の第3の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶装置(例えば、記憶装置2)に記憶する記憶ステップと、抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力ステップと、入力した各抽出規則を用いて、記憶装置が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出ステップと、求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成ステップとを含む情報抽出規則作成支援方法が提供される。
また、本発明の第4の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶装置に記憶する記憶ステップと、抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力ステップと、入力した抽出規則生成用文書及び指示情報に基づいて、指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成ステップと、生成した各抽出規則を用いて、記憶装置が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出ステップと、求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成ステップとを含む情報抽出規則作成支援方法が提供される。
また、前記各情報抽出規則作成支援方法は、規則関係生成ステップで、求めた各抽出結果の間の重複関係を分析して各抽出結果の間の重複関係を示す重複率を求め、求めた重複率に基づいて、対応する抽出規則をリンク付けるものであってもよい。
また、前記各情報抽出規則作成支援方法は、規則関係生成ステップで、求めた各抽出結果の間に包含関係がある場合にのみ、対応する抽出規則をリンク付けるものであってもよい。
また、前記各情報抽出規則作成支援方法は、生成した規則関係ネットワークを、各抽出規則の関係を示す規則関係情報として出力する出力ステップを含むものであってもよい。
また、前記各情報抽出規則作成支援方法は、生成した規則関係ネットワークと、規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の差分を示す情報とを、各抽出規則の関係を示す規則関係情報として出力する出力ステップを含むものであってもよい。
また、前記各情報抽出規則作成支援方法は、抽出規則の絞り込みを行なう抽出規則絞込ステップを含み、抽出規則絞込ステップで、所定の優先度に基づいて、生成した規則関係ネットワークに含まれるリンクを選択し、選択したリンクに対応する各抽出規則を用いて情報抽出を行なったときの抽出結果を含む提示情報を生成し、提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、入力した判定情報と規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定するものであってもよい。
また、前記各情報抽出規則作成支援方法は、抽出規則の絞り込みを行なう抽出規則絞込ステップを含み、抽出規則絞込ステップで、所定の優先度に基づいて、生成した規則関係ネットワークに含まれるリンクを選択し、選択したリンクに対応する各抽出規則のうち、抽出規則を用いて情報抽出を行なったときの抽出結果が多い方の抽出規則を用いて抽出した抽出結果であり、かつ抽出規則を用いて情報抽出を行なったときの抽出結果が少ない方の抽出規則の抽出結果ではない情報を少なくとも含む提示情報を生成し、提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、入力した判定情報と規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定するものであってもよい。
また、前記各情報抽出規則作成支援方法は、抽出規則絞込ステップで、生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率に基づいて、抽出規則を選択するものであってもよい。
また、前記各情報抽出規則作成支援方法は、抽出規則絞込ステップで、生成した規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数に基づいて、抽出規則を選択するものであってもよい。
また、前記各情報抽出規則作成支援方法は、抽出規則絞込ステップで、生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率と、規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数を用いて算出されるスコア値とに基づいて、抽出規則を選択するものであってもよい。
また、前記各情報抽出規則作成支援方法は、採用と判定された抽出規則を用いて情報抽出を行ったときの抽出結果より、過去に指示情報で指定された抽出箇所の情報とは異なる情報を選出する情報選出ステップを含み、情報選出ステップで、選出した情報と、選出した情報を含む抽出対象文書を特定可能な情報とを含む抽出対象文書を出力するものであってもよい。
本発明の第5の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段(例えば、記憶装置2の抽出対象文書記憶部20)を備えたコンピュータに、抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力処理と、入力した各抽出規則を用いて、記憶手段が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出処理と、求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成処理とを実行させるための情報抽出規則作成支援プログラムが提供される。
また、本発明の第6の視点によれば、情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段(例えば、記憶装置2の抽出対象文書記憶部20)を備えたコンピュータに、抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力処理と、入力した抽出規則生成用文書及び指示情報に基づいて、指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成処理と、生成した各抽出規則を用いて、記憶装置が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出処理と、求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成処理とを実行させる情報抽出規則作成支援プログラムが提供される。
上記のような構成を採用し、複数の抽出規則を入力して規則関係情報を出力するように構成されているので、所望の情報を抽出するための抽出規則を抽出規則間の関係に基づいて確認しやすくすることができ、抽出規則の作成を効率的に支援することを可能という本発明の目的を達成することができる。
本発明によれば、複数の抽出規則と抽出対象文書とに基づいて抽出結果を求める情報抽出手段と、求めた各抽出結果を抽出規則間で比較し、所定の条件を満たした抽出規則間から重複関係又は包含関係を分析して規則関係ネットワークを生成する規則関係生成手段とを備えるように構成したので、抽出規則間の関係を抽出結果とともに簡単に把握することができる。そのため、候補となる抽出規則を複数入力するだけで、所望の情報を抽出するための抽出規則を効率的に絞り込むことが可能となる。従って、大量の教師データの入力をすることなく、所望の情報を抽出するための抽出規則の作成を効率的に支援することができる。
本発明による情報抽出規則作成支援システムの構成の一例を示すブロック図である。 情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理の一例を示すフローチャートである。 第2の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。 第2の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。 第3の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。 第3の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。 第4の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。 第4の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。 第5の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。 第5の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。 統語解析結果における構文木の例を示す説明図である。 各形態素に対する属性と属性値の例を示す説明図である。 抽出対象文書の一例を示す説明図である。 抽出規則の形式の一例を示す説明図である。 抽出規則に対応付けて抽出規則IDを付与した場合の例を示す説明図である。 抽出規則を用いた情報抽出の抽出結果の一例を示す説明図である。 抽出規則ID毎に抽出結果IDを対応付けて抽出結果を管理する場合の例を示す説明図である。 規則関係ネットワークのデータを示す説明図である。 グラフ形式に図式化した規則関係情報の例を示す説明図である。 グラフ形式に図式化した規則関係情報の他の例を示す説明図である。 ベン図として図式化した規則関係情報の例を示す説明図である。 採用可否の情報を付随させて抽出結果を管理する場合の例を示す説明図である。 各リンクの選出スコアとチェック確認用のフラグとを付与した規則関係情報の例を示す説明図である。 抽出結果の提示画面の例を示す説明図である。 抽出対象情報の提示画面の例を示す説明図である。
符号の説明
1 データ処理装置
2 記憶装置
3 入力装置
4 出力装置
10 抽出規則入力手段
11 抽出規則適用手段
12 規則関係生成手段
13 規則関係出力手段
14 抽出規則生成手段
15 抽出規則絞込手段
16 抽出対象選出手段
20 抽出対象文書記憶部
21 抽出結果記憶部
22 規則関係記憶部
実施の形態1.
以下、本発明の第1の実施の形態について図面を参照して説明する。図1は、本発明による情報抽出規則作成支援システムの構成の一例を示すブロック図である。なお、情報抽出規則作成支援システムは、電子文書から所望の情報を抽出するための規則である抽出規則を作成する作業を支援するために用いられる。また、情報抽出規則作成支援システムは、例えば、電子文書からユーザが所望する情報を効率的に抽出する情報抽出システムや、ユーザが所望する情報を検索する情報検索システムの用途に適用できる。
図1に示すように、情報抽出規則作成支援システムは、プログラム制御により動作するデータ処理装置1と、データを記憶する記憶装置2とを含む。
記憶装置2は、具体的には、磁気ディスク装置や光ディスク装置等によって実現される。図1に示すように、記憶装置2は、抽出対象文書記憶部20と、抽出結果記憶部21とを含む。なお、抽出対象文書記憶部20及び抽出結果記憶部21の各記憶部を1つの記憶装置を用いて構成するのではなく、それぞれ別の記憶装置を用いて構成してもよい。
抽出対象文書記憶部20は、情報抽出対象となる1つ以上の電子文書を抽出対象文書として記憶する。なお、抽出対象文書記憶部20に抽出対象文書を入力するために、データ入力手段(図示せず)をデータ処理装置1や外部の装置に備えるようにし、データ入力手段(例えば、キーボードやマウス)を用いて抽出対象文書を事前に入力するようにしてもよい。また、抽出規則入力手段10を用いて、抽出規則を入力すると同時に抽出対象文書を入力することも可能である。
抽出結果記憶部21は、抽出規則適用手段11によって抽出された抽出結果と、その抽出結果に対応した抽出規則(その抽出結果を得るために用いた抽出規則)とを対応付けて記憶する。
データ処理装置1は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。図1に示すように、データ処理装置1は、抽出規則入力手段10と、抽出規則適用手段11と、規則関係生成手段12と、規則関係出力手段13とを含む。これらの手段10〜13は、それぞれ概略つぎのように動作する。
抽出規則入力手段10は、候補となる複数の抽出規則(作成途上の複数の抽出規則)を入力として受け付ける機能を備える。例えば、抽出規則入力手段10は、ユーザの入力操作に従って、キーボードやマウス等の入力装置から、候補となる抽出規則を複数入力する。また、例えば、抽出規則入力手段10は、候補となる抽出規則を含むファイルやデータを入力する。
抽出規則適用手段11は、記憶装置2の抽出対象文書記憶部20に記憶された抽出対象文書に対して、受け付けた各抽出規則を適用して情報を抽出する機能を備える。また、抽出規則適用手段11は、抽出した情報を抽出結果として記憶装置2の抽出結果記憶部20に記憶させる機能を備える。なお、抽出規則適用手段11は、抽出結果を規則関係生成手段12にそのまま渡す(出力する)ようにしてもよい。
規則関係生成手段12は、抽出規則適用手段11によって抽出された抽出結果に基づいて、抽出規則毎の抽出結果を抽出規則間で比較する機能を備える。また、規則関係生成手段12は、所定の条件を満たす抽出規則間の比較結果に基づいて、抽出規則間の関係を示す規則関係情報を生成する機能を備える。
なお、規則関係生成手段12は、抽出規則適用手段11が求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワーク(各抽出規則間の関係情報)を生成する。例えば、規則関係生成手段12は、抽出規則適用手段11が求めた各抽出結果の間の重複関係を分析して各抽出結果の間の重複関係を示す重複率を求め、求めた重複率に基づいて、対応する抽出規則をリンク付ける。また、例えば、規則関係生成手段12は、抽出規則適用手段11が求めた各抽出結果の間に包含関係がある場合にのみ、対応する抽出規則をリンク付ける。
規則関係出力手段13は、規則関係生成手段12が生成した規則関係情報を出力する機能を備える。例えば、規則関係出力手段13は、規則関係情報をディスプレイ装置等の表示装置に表示させる。また、例えば、規則関係出力手段13は、規則関係情報をプリンタ等の印刷装置に出力させる。
なお、規則関係出力手段13は、例えば、規則関係生成手段12が生成した規則関係ネットワークを、各抽出規則の関係を示す規則関係情報として出力する。また、規則関係出力手段13は、例えば、規則関係生成手段12が生成した規則関係ネットワークと、規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の差分を示す情報とを、各抽出規則の関係を示す規則関係情報として出力する。また、規則関係出力手段13は、規則関係情報を電子データとして出力するようにしてもよい。
なお、本実施の形態において、データ処理装置1の記憶部(図示せず)は、抽出規則を作成する作業を支援する処理を実行するための各種プログラムを記憶している。例えば、データ処理装置2の記憶部は、コンピュータに、抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力処理と、入力した各抽出規則を用いて、記憶手段が記憶する抽出対象文書から、各抽出規則に合致する抽出結果をそれぞれ求める情報抽出処理と、求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて各抽出規則をリンク付けることによって、各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成処理とを実行させるための情報抽出規則作成支援プログラムを記憶している。
次に、動作について説明する。図2は、情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理の一例を示すフローチャートである。まず、ユーザは、情報抽出規則作成装置等を用いて抽出規則の作成作業を行う場合、抽出規則作成の支援機能を利用するための指示操作を行う。すると、データ処理装置1の抽出規則入力手段10は、ユーザの操作に従って、候補となる複数の抽出規則を入力として受け付け(図2のステップA1)、抽出規則適用手段11に渡す(出力する)。なお、この場合、例えば、抽出規則入力手段10は、記憶装置2に候補となる複数の抽出規則を記憶させ、候補となる抽出規則を特定可能な指示情報を抽出規則適用手段11に渡す(出力する)ようにしてもよい。
次に、抽出規則適用手段11は、抽出規則入力手段10から抽出規則を受け取り(入力し)、記憶装置2の抽出対象文書記憶部20に記憶されている抽出対象文書に対して抽出規則を適用し、各抽出規則に従って該当する情報を抽出対象文書から抽出する(図2のステップA2)。この場合、例えば、抽出規則適用手段11は、抽出規則で示される条件に合致する情報があれば、その情報を抽出対象文書から抽出する。そして、抽出規則適用手段11は、情報抽出に用いた抽出規則と、抽出した情報とを対応付けて、抽出結果として抽出結果記憶部21に記憶させる。
次に、図1の規則関係生成手段12は、抽出結果記憶部21に記憶された抽出結果を読み出し、抽出規則毎の抽出結果に基づいて、抽出規則間の抽出結果を比較する。この比較処理において、規則関係生成手段12は、抽出結果の重複関係を分析し、重複関係が存在する場合に、所定の条件を満たした抽出規則間をリンクとして構成する規則関係ネットワークを生成する。そして、規則関係生成手段12は、規則関係ネットワークのデータと抽出結果とを対応付けた情報を含む規則関係情報を生成する(図2のステップA3)。
所定の条件の一例として、例えば、ある抽出規則の抽出結果が別の抽出規則の抽出結果に包含される場合を条件とすればよい。なお、本実施の形態では、所定の条件として一例のみを示すが、この包含関係以外の他の条件を用いてもよく、所定の条件は本実施の形態で示した条件に限定されない。
次いで、規則関係出力手段13は、規則関係生成手段12が生成した規則関係情報を出力する(図2のステップA4)。この場合、規則関係出力手段13は、ディスプレイ装置等の出力装置を用いて、規則関係情報を出力(表示)させるようにしてもよい。また、規則関係出力手段13は、規則関係情報を記憶装置2に記憶させるようにしてもよい。さらに、規則関係出力手段13は、規則関係情報を記憶装置2に記憶させた場合には、外部の入力装置からの指示に応じて、逐次的に規則関係情報の一部を出力するようにしてもよい。
なお、規則関係情報が出力(例えば表示)されると、ユーザは、出力された規則関係情報を参考にして、抽出規則の作成作業を行うことができる。例えば、ユーザの操作に従い抽出規則の作成や修正、削除を行う情報規則作成装置(例えば、パーソナルコンピュータ等の情報処理装置によって実現される)を操作して、規則関係情報に基づいて、抽出規則の作成や修正、削除の作業を行うことが可能である。また、抽出規則が最終的に完成すると、ユーザは、情報抽出装置(例えば、パーソナルコンピュータ等の情報処理装置によって実現される)を操作して、抽出対象文書(電子文書)からの情報抽出を指示し、抽出を行うことができる。すると、情報抽出装置は、ユーザの操作に従って、情報規則作成装置によって作成された抽出規則に基づいて、抽出対象文書(電子文書)から、ユーザの所望の情報を抽出する。
以上のように、本実施の形態によれば、情報抽出規則作成支援システムは、候補となる複数の抽出規則と抽出対象文書とに基づいて抽出結果を得る(求める)抽出規則適用手段11を有する。また、情報抽出規則作成支援システムは、得られた抽出結果を抽出規則間で比較し、所定の条件を満たした抽出規則間から重複関係又は包含関係にある規則関係ネットワークのデータを抽出結果と対応付けた規則関係情報を生成する規則関係生成手段12を有する。そして、情報抽出規則作成支援システムは、生成した規則関係情報を出力する。そのため、ユーザが抽出規則間の関係を抽出結果とともに把握できるようにすることができる。従って、事前に大量の教師データの入力をすることなく、候補となる複数の抽出規則を入力するだけで、抽出規則作成の際のユーザの確認作業が容易化され、抽出規則の作成を効率的に支援することができる。
実施の形態2.
次に、本発明の第2の実施の形態について図面を参照して説明する。図3は、第2の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。図3に示すように、本実施の形態では、情報抽出規則作成支援システムが、図1に示した構成要素に加えて、入力装置3(例えば、キーボードやマウス)を有する点で、第1の実施の形態と異なる。また、本実施の形態では、データ処理装置1が、図1に示した構成要素に加えて抽出規則生成手段14を有する点で、第1の実施の形態と異なる。また、本実施の形態では、データ処理装置1が、図1に示した構成要素のうち抽出規則入力手段10を有さない点で、第1の実施の形態と異なる。
本実施の形態では、抽出規則生成手段14は、入力装置3から、ユーザの操作に従って、抽出規則の生成に用いる電子文書である抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とを含む指示情報を入力として受け付ける機能を備える。
なお、抽出規則生成手段14は、抽出規則生成用文書ではなく、抽出対象文書記憶部20に記憶された抽出対象文書を指定する情報と、その抽出対象文書中の抽出箇所を指定する情報とを含む指示情報を入力として受け付けるようにしてもよい。
また、抽出規則生成手段14は、抽出対象文書記憶部20に記憶された抽出対象文書のうち特定の抽出対象文書を指定する情報を含む指示情報を受け付けてもよい。そして、抽出規則適用手段11は、指示情報で指定された抽出対象文書を、抽出対象に用いるようにしてもよい。
また、入力装置3は、データ処理装置1の一部(例えば、入出力インタフェース部)として構成するようにしてもよい。
また、抽出規則生成手段14は、入力装置3から指示情報を受け取ると(入力すると)、入力した指示情報に含まれる抽出規則生成用文書と、抽出箇所を指定する情報とに基づいて、抽出箇所の情報を抽出するための抽出規則を複数生成する機能を備える。また、抽出規則生成手段14は、抽出した抽出規則を抽出規則適用手段11に渡す(出力する)機能を備える。なお、抽出規則生成手段14が生成する抽出規則は、ユーザが所望する情報を抽出するための抽出規則の候補となるものである。
なお、抽出規則生成手段14は、生成した抽出規則を記憶装置2に格納して、その旨を抽出規則適用手段11に通知するようにしてもよい。また、抽出規則生成手段14は、抽出対象文書記憶部20に記憶された抽出対象文書を指定する情報と、その抽出対象文書中の抽出箇所を指定する情報とを含む指示情報を入力する場合には、指定された抽出対象文書記憶部20に記憶された抽出対象文書を抽出規則生成用文書として用いればよい。
なお、抽出規則生成手段14以外の情報抽出規則作成支援システムの構成要素の機能は、第1の実施の形態で示したそれらの機能と同様である。
次に、動作について説明する。図4は、第2の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。
第1の実施の形態では、図1に示す抽出規則入力手段10が抽出規則を受け付け、抽出規則適用手段11は、この入力した抽出規則を受け取って情報抽出に適用していた。本実施の形態では、抽出規則を入力するのでなく、入力装置3から入力した指示情報に基づいて候補となる抽出規則を複数生成する。そして、抽出規則適用手段11は、抽出規則生成手段14が生成した抽出規則を抽出対象文書に対して適用して、抽出対象文書から情報を抽出する。
抽出規則を生成できるようにするため、本実施の形態では、まず、抽出規則生成手段14は、入力装置3から、ユーザの指示操作に従って、抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とを含む指示情報を入力として受け付ける(図4のステップB1)。
次に、抽出規則生成手段14は、入力装置3より指示情報を受け取ると(入力すると)、指示情報で示される抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とに基づいて、指示情報で指定された抽出箇所の情報を抽出するための抽出規則を複数生成する(図4のステップB2)。そして、抽出規則生成手段14は、生成した各抽出規則を抽出規則適用手段11に渡す(出力する)。
なお、以下、図3の抽出規則適用手段11、規則関係生成手段12又は規則関係出力手段13が実行する図4のステップB3,B4,B5の各処理は、第1の実施の形態で示した図2のステップA2,A3,A4の処理と同様であるため、重複した説明を避けるべく説明を省略する。
以上のように、本実施の形態によれば、情報抽出規則作成支援システムは、抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とに基づいて、候補となる複数の抽出規則を生成する抽出規則生成手段14を備える。また、情報抽出規則作成支援システムは、生成した抽出規則と、抽出対象文書記憶部20に記憶された抽出対象文書とに基づいて、抽出結果を得る(求める)抽出規則適用手段11を備える。また、情報抽出規則作成支援システムは、規則関係情報を生成する規則関係生成手段12と、規則関係情報を出力する規則関係出力手段13とを備える。そのため、ユーザが簡単な指示情報を入力するだけで、所望する情報を抽出する候補となる抽出規則を自動的に生成することができ、生成された抽出規則間の関係情報を得ることができる。
本実施の形態では、上記のような構成により、事前に大量の教師データの入力をすることなく、また抽出規則を予め用意して入力するもことなく、所望の抽出箇所を指定する情報を入力するのみで、候補となる抽出規則間の関係を確認することができ、抽出規則の作成を効率的に支援することができる。
実施の形態3.
次に、本発明の第3の実施の形態について図面を参照して説明する。図5は、第3の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。図5に示すように、本実施の形態では、データ処理装置1が、図1に示したデータ処理装置1の規則関係出力手段13に代えて抽出規則絞込手段15を有する点で、第1の実施の形態と異なる。また、本実施の形態では、情報抽出規則作成支援システムが、図1に示した構成要素に加えて、入力装置3(例えば、キーボードやマウス)と、出力装置4(例えば、ディスプレイ装置等の表示装置や、プリンタ等の印刷装置)とを有する点で、第1の実施の形態と異なる。
本実施の形態において、抽出規則絞込手段15は、規則関係生成手段12が生成した規則関係情報を用いて、抽出規則の絞り込みを行う機能を備える。本実施の形態では、抽出規則絞込手段15は、規則関係生成手段12が生成した規則関係情報に基づいて、特定の抽出規則間の抽出結果のみをユーザに提示(例えば、表示)する。また、抽出規則絞込手段15は、その提示した抽出結果を採用するか否かの選択指示を、ユーザの操作に従って入力する。そして、抽出規則絞込手段15は、ユーザの選択指示に従って、不要な抽出規則と有効な抽出規則とを判定して、有効と判定した抽出規則のみを採用することによって、抽出規則の絞り込みを行う。
例えば、抽出規則絞込手段15は、所定の優先度に基づいて、規則関係生成手段12が生成した規則関係ネットワークに含まれるリンクを選択する。また、抽出規則絞込手段15は、選択したリンクに対応する各抽出規則のうち、抽出規則を用いて情報抽出を行なったときの抽出結果が多い方の抽出規則のみを用いて抽出した抽出結果を少なくとも含む提示情報を生成する。また、抽出規則絞込手段15は、提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、入力した判定情報と規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定する。
また、例えば、抽出規則絞込手段15は、規則関係生成手段12が生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率に基づいて、抽出規則を選択する。また、例えば、抽出規則絞込手段15は、規則関係生成手段12が生成した規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数に基づいて、抽出規則を選択する。また、例えば、抽出規則絞込手段15は、規則関係生成手段12が生成した規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率と、規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数を用いて算出されるスコア値とに基づいて、抽出規則を選択する。
なお、抽出規則絞込手段15以外の情報抽出規則作成支援システムの構成要素の機能は、第1の実施の形態で示したそれらの機能と同様である。
次に、動作について説明する。図6は、第3の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。
なお、図5の抽出規則入力手段10、抽出規則適用手段11又は規則関係生成手段12が実行する図6のステップC1,C2,C3の処理については、第1の実施の形態で示した図2のステップA1,A2,A3の処理とそれぞれ同様であるため、詳細な説明を省略する。
本実施の形態では、図5のデータ処理装置1の規則関係生成手段12は、図6のステップC3において、第1の実施の形態における図2のステップA3と同様の処理に従って、規則関係情報を生成する。そして、規則関係生成手段12は、生成した規則関係情報をデータ処理装置1の抽出規則絞込手段15に渡す(出力する)。
次に、図6のステップC4以降の処理において、抽出規則絞込手段15は、規則関係生成手段12から受け取った(入力した)規則関係情報を用いて抽出規則の絞込を行う。
抽出規則の絞込を行う場合、抽出規則絞込手段15は、規則関係情報に基づいて、規則関係情報に含まれるリンクのうち、未チェックの抽出規則間のリンクがあるか否かを判定する(図6のステップC4)。
ステップC4で未チェックのリンクがない場合(すなわち、規則関係情報に含まれる全てのリンクについてステップC4〜C8の処理を終了した場合)には、抽出規則絞込手段15は、そのまま処理を終了する。
なお、ステップC3の処理を実行した後に最初にステップC4の処理を実行する場合には、所定の処理対象とするリンク全てを未チェックであるとする。また、抽出規則絞込手段15は、リンク毎にチェックに関する情報(チェック済みであるか否かを示す情報)を規則関係情報に含める(例えば、付加する)ようにしてもよい。また、抽出規則絞込手段15は、リンク毎にチェックに関する情報を、規則関係情報とは別に保持(例えば、メモリ等の記憶装置に保存)しておいてもよい。
また、抽出規則絞込手段15は、所定の処理対象とするリンクについて、例えば、包含関係にある全てのリンクを対象としてもよい。または、抽出規則絞込手段15は、抽出規則間で同じ情報を抽出した数を、抽出結果が少ない祖先(親側)のノードが抽出した情報で除算することで求まる割合である重複率を用いて、一定の重複率以上となる全てのリンクを対象としてもよい。
抽出規則絞込手段15は、ステップC4で未チェックのリンクがある場合(すなわち、規則関係情報に含まれるリンク中に未処理のリンクが存在する場合)には、規則関係情報から、所定の選出方法に基づいて、少なくとも1つのリンクを選出(選択)する(図6のステップC5)。なお、抽出規則絞込手段15は、必ずしもリンクを1つだけ選択する必要はなく、複数のリンクを選択してもよい。
また、ステップC5において、例えば、抽出規則絞込手段15は、規則関係情報に含まれる未チェックのリンクのうち、その未チェックのリンクの各抽出規則を用いた場合の抽出結果同士で比較した場合に、抽出した情報の数の比率が小さい順にリンクを選出(選択)すればよい。また、例えば、抽出規則絞込手段15は、この選出方法の他にも、抽出した情報の数が少ないノードからたどれる子孫のノードの数が大きいものから順に選出(選択)するようにしてもよい。また、例えば、抽出規則絞込手段15は、抽出した情報の数が少ないノードからの子孫側への最大経路長が大きいものから順に選出(選択)するようにしてもよい。また、例えば、抽出規則絞込手段15は、抽出規則間の差分の情報の数又は抽出した情報の比率と、抽出した情報の数が少ないノードからの子孫側への最大経路長とを用いて算出されるスコアに基づいて選出(選択)するようにしてもよく、本実施の形態で示した方法に限定されない。
次に、抽出規則絞込手段15は、規則関係情報に基づいて、選出(選択)したリンクの各抽出規則を用いた場合の抽出結果の一部を取り出す。また、抽出規則絞込手段15は、抽出結果をユーザに提示するために適切な様式にフォーマット変換し、出力装置4に出力する(図6のステップC6)。そして、出力装置4は、抽出規則絞込手段15の指示に従って、抽出結果を受け取り(入力し)、抽出結果を提示する。例えば、出力装置4が表示装置である場合、抽出規則絞込手段15は、抽出結果を出力装置4に表示させる。また、例えば、出力装置4が印刷装置である場合、抽出規則絞込手段15は、抽出結果を出力装置4に印刷させる。
また、複数のリンクを選出(選択)した場合であっても、抽出規則絞込手段15は、個々のリンク毎の処理と同様に抽出結果を取り出すようにしてもよい。この場合、抽出規則絞込手段15は、選出基準が上位である所定数のリンクを優先して抽出するようにすることが望ましい。
なお、ステップC6において、抽出規則絞込手段15は、抽出結果とともに、提示する抽出結果を採用するか否かの選択指示を促す情報を出力装置4に出力させる。例えば、抽出規則絞込手段15は、抽出結果とともに、「採用しますか?」等の文字列を出力装置4に表示又は印刷させる。
その後、ユーザは、入力装置3を操作して、提示された抽出結果を採用するか否かの選択指示の入力操作を行う。すると、抽出規則絞込手段15は、入力装置3から、ユーザの操作に従って、出力装置4を用いて提示(出力)した抽出結果に対する採用の可否についての選択指示を含む選択情報を受け付ける(入力する)(図6のステップC7)。
次に、抽出規則絞込手段15は、入力装置3から選択情報を受け取ると(入力すると)、抽出規則の絞込処理を行う(図6のステップC8)。抽出規則の絞込処理を行う場合、抽出規則絞込手段15は、選択情報から判断可能な全ての抽出規則について、受け取った(入力した)選択情報に基づいて採用可否の判定を行う。そして、抽出規則絞込手段15は、判定を行ったリンクをチェック済みのリンクとする。
なお、採用可否の判定の際に、抽出規則絞込手段15は、ある抽出規則を採用と判断した場合に、採用と判断した抽出規則の抽出結果の中に抽出結果が内包される全ての抽出規則についても採用と判断する。この場合、抽出規則絞込手段15は、規則関係情報に基づいて、抽出結果が少ない祖先の抽出規則の方向に全てのノードを逆にたどればよい。そして、抽出規則絞込手段15は、逆にたどったリンクについてチェック済みとする。
また、抽出規則絞込手段15は、ある抽出規則を非採用と判断した場合、非採用と判断した抽出規則の抽出結果を包含する全ての抽出規則についても非採用と判断する。この場合、抽出規則絞込手段15は、規則関係情報に基づいて、抽出結果が多い子孫の抽出規則の方向にノードをたどればよい。そして、抽出規則絞込手段15は、たどった各リンクをチェック済みとする。
抽出規則絞込手段15は、図6のステップC8における抽出規則の絞込処理を終了すると、図6のステップC4に戻る。続いて、抽出規則絞込手段15は、未チェックの抽出規則間のリンクがあるか否かを判定し、以降、未チェックのリンクがなくなるか、処理が中断(例えば、ユーザ操作による中断)されるまで絞込処理を行う。
以上のように、本実施の形態によれば、規則関係生成手段12は、候補となる複数の抽出規則と、その抽出規則を用いた場合の抽出結果とに基づいて、規則関係情報を生成する。また、規則関係情報を生成した後、抽出規則絞込手段15は、規則関係情報に基づいて、抽出規則間のリンクを選出(選択)して抽出結果を提示する。そして、抽出規則絞込手段15は、その抽出結果に対する採用可否の選択情報と規則関係情報とに基づいて、1つ以上の抽出規則の採用の可否を判定する。そのため、候補となる抽出規則を入力し、提示された抽出結果に対する採用の可否の選択情報を入力しさえすれば、所望の情報を抽出する抽出規則を効率的に絞り込むことができる。
本実施の形態では、上記のように構成することによって、事前に大量の教師データを入力することなく、候補となる複数の抽出規則を入力し、選出(選択)した抽出結果の採用の可否の選択情報を入力するのみで、簡単に所望の情報の抽出に用いる抽出規則を絞り込むことができ、抽出規則の作成を効率的に支援することができる。
実施の形態4.
次に、本発明の第4の実施の形態について図面を参照して説明する。図7は、第4の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。図7に示すように、本実施の形態では、データ処理装置1が、図5に示したデータ処理装置1の抽出規則入力手段10に代えて、抽出規則生成手段14を有している点で、第3の実施の形態と異なる。
なお、本実施の形態において、図7の抽出規則生成手段14の機能は、第2の実施の形態で示した図3のデータ処理装置1の抽出規則生成手段14の機能と同様である。
なお、抽出規則生成手段14以外の情報抽出規則作成支援システムの構成要素の機能は、第1の実施の形態で示したそれらの機能と同様である。
次に、動作について説明する。図8は、第4の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。
本実施の形態において、入力装置3及び抽出規則生成手段14を用いて実行される図8のステップD1,D2の処理については、第2の実施の形態で示した図4のステップB1,B2の処理と同様であるため、詳細な説明を省略する。また、本実施の形態において、規則関係生成手段12、抽出規則絞込手段15、入力装置3又は出力装置4を用いて実行される図8のステップD3〜D9の処理については、第3の実施の形態で示した図6のステップC2〜C8の処理と同様であるため、詳細な説明を省略する。
以上のように、本実施の形態によれば、抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とに基づいて、候補となる複数の抽出規則を生成する。また、生成した抽出規則を適用して得られた抽出結果に基づいて規則関係情報を生成する。また、規則関係情報と、選出(選択)したリンクの抽出結果についての採用可否の選択情報とに基づいて1つ以上の抽出規則の採用の可否を判定し、抽出規則を絞り込む。
本実施の形態では、上記のように構成することにより、簡単な指示情報を入力するのみで抽出規則の生成を自動化することができ、かつ提示された抽出結果の簡単な選択のみで、所望の情報の抽出に用いる抽出規則を絞込むことができる。従って、所望の情報を抽出する規則を効率的に作成することができる。
実施の形態5.
次に、本発明の第5の実施の形態について図面を参照して説明する。図9は、第5の実施の形態における情報抽出規則作成支援システムの構成例を示すブロック図である。図9に示すように、本実施の形態では、データ処理装置1が、図7に示したデータ処理装置1の構成要素に加えて抽出対象選出手段16を有する点で、第4の実施の形態と異なる。
抽出対象選出手段16は、抽出規則絞込手段15が絞り込んだ抽出規則の抽出結果のうち、抽出規則生成手段14が受け取った指示情報において指定された抽出箇所の情報とは異なる情報を選出(選択)する機能を備える。また、抽出対象選出手段16は、選出(選択)した情報と、選出(選択)した情報が含まれる抽出対象文書に関する情報(例えば、抽出対象文書を特定可能な情報)とを、抽出対象情報として出力装置4又は抽出規則生成手段14に渡す(出力する)機能を備える。
なお、抽出対象選出手段16以外の情報抽出規則作成支援システムの構成要素の機能は、第4の実施の形態で示したそれらの機能と同様である。
次に、動作について説明する。図10は、第5の実施の形態における情報抽出規則作成支援システムが実行する抽出規則を作成する作業を支援する処理例を示すフローチャートである。
本実施の形態において、入力装置3、抽出規則生成手段14、抽出規則適用手段11、規則関係生成手段12、抽出規則絞込手段15又は出力装置4を用いて実行される図10のステップE1〜E9の処理については、第4の実施の形態で示した図8のステップD1〜D9の処理と同様であるため、詳細な説明を省略する。
第4の実施の形態では、図8のステップD5において、規則関係情報に基づいて絞込終了と判定した場合、情報抽出規則作成支援システムは、そのまま処理を終了していた。本実施の形態では、図8のステップD5と同様の処理に従って、図10のステップE5において絞込終了と判定した場合、続いて、抽出対象選出手段16は、図10のステップE10における抽出対象選出の処理を行う。
すなわち、本実施の形態では、図9の抽出規則絞込手段15は、第4の実施の形態における図8の抽出規則絞込手段15と同様に動作するが、図10のステップE5において未チェックの抽出規則間のリンクがあるか否かを判定し、未チェックのリンクがなければ、抽出規則絞込手段15は図9の抽出対象選出手段16に規則関係情報を渡す(出力する)。
次に、図9の抽出対象選出手段16は、規則関係情報に基づいて、抽出規則絞込手段15が絞り込んだ抽出規則の抽出結果のうち、抽出規則生成手段14が受け取った(入力した)指示情報で指定された抽出箇所の情報とは異なる情報を選出(選択)する(図10のステップE10)。そして、抽出対象選出手段16は、選出(選択)した情報と、選出(選択)した情報が含まれる抽出対象文書に関する情報(例えば、抽出対象文書を特定可能な情報)とを抽出対象情報とする。
なお、抽出規則生成手段14は、受け取った(入力した)指示情報を、図10のステップE2で各手段11,12,15,16に渡す(出力する)ようにしてもよいし、記憶装置2等の別の記憶手段に記憶させるようにしてもよい。
抽出対象選出手段16は、抽出結果に基づいて情報を選出(選択)する場合、指示情報で指定された抽出箇所の情報とは異なる情報を抽出すればよく、例えば、文字列が異なる情報や、形態素列が異なる情報、抽出対象文書中の位置情報が異なる情報を検出することにより選出(選択)できる。なお、本実施の形態では、情報の選出方法の一例を示したが、抽出対象選出手段16が情報を選出する方法は、本実施の形態で示した方法に限定されない。
さらに、選出(選択)する情報が複数ある場合には、抽出対象選出手段16は、例えば、選出(選択)した情報と同一文字列が抽出対象文書中で登場する頻度や、選出(選択)した情報と同一形態素列が抽出対象文書中で登場する頻度、抽出した情報と同一形態素列の周辺形態素とが抽出対象文書中で登場する出現確率等を計算することによって、順序付けることが可能である。それらの場合には、抽出対象選出手段16は、選出(選択)した情報に、計算した結果を付随して(付加して)抽出対象情報に含めるようにしてもよい。
次いで、抽出対象選出手段16は、図10のステップE10に続いて、まだ抽出対象情報があるか否かを判定する(図10のステップE11)。抽出対象情報がない場合には、情報抽出規則作成支援システムは、そのまま処理を終了する。また、抽出対象選出手段16は、抽出対象情報がある場合には、抽出対象情報を出力装置4に渡す(出力する)。出力装置4は、抽出対象選出手段16の指示に従って、抽出対象情報を提示(例えば、表示)する。
その後、ユーザは、抽出対象情報にもとづいて、入力装置3を操作して、抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とを含む指示情報の入力指示を行う。すると、抽出規則生成手段14は、ユーザの操作に従って、入力装置3から、抽出規則生成用文書と、その抽出規則生成用文書中の抽出箇所を指定する情報とを含む指示情報を入力として受け付ける。この場合、ユーザは、出力装置4を用いて提示(例えば、表示)された抽出対象情報に基づいて、新たな指示情報を入力することができる。
例えば、抽出規則生成用文書と、出力装置4を用いて提示(例えば、表示)された抽出対象情報とを、選出(選択)した情報と、選出(選択)した情報が含まれる抽出対象文書とに基づいて、新たな抽出箇所と抽出規則生成用文書となるようにして提示すれば、そのまま入力として適用することができる。選出(選択)した情報が複数ある場合には、抽出対象選出手段16は、複数の情報を表示して、新たな指示情報とする抽出対象情報を選択できるようにしてもよい。
本実施の形態では、上記のように構成することにより、簡単な指示情報を最初に入力するのみで抽出規則の生成を自動化でき、かつ提示された抽出結果の簡単な選択で、所望の情報の抽出に用いる抽出規則を絞込むことができ、さらに新たな指示情報の入力も簡易化される。従って、所望の情報を抽出する規則を効率的に作成することができる。
次に、本発明の第1の実施例を図面を参照して説明する。なお、かかる第1の実施例における情報抽出規則作成支援システムは、本発明の第1の実施の形態で示した情報抽出規則作成支援システムに相当するものである。
本実施例では、情報抽出規則作成支援システムは、データ処理装置1としてコンピュータ(例えば、パーソナルコンピュータ)と、記憶装置2として磁気ディスク記憶装置とを備えている。
また、コンピュータは、抽出規則入力手段10、抽出規則適用手段11、規則関係生成手段12及び規則関係出力手段13として機能する中央演算装置を有する。また、コンピュータは、各処理に関わる信号やデータを一時的に記憶するRAM(Random Access Memory)を有する。
また、記憶装置2は、磁気ディスク記憶装置以外の記憶手段であってもよい。例えば、フラッシュメモリ装置等のメモリであってもよく、またコンピュータ内のRAMを用いてもよい。
本実施例では、抽出対象文書として、統語解析結果を用いる。統語解析結果は、テキストを公知の統語解析技術を用いて解析することによって得ることができる。なお、抽出対象文書として、例えば、形態素解析結果を用いてもよい。また、例えば、抽出対象文書として、テキスト文書を用いてもよい。それらの場合には、抽出規則適用手段11は、情報抽出を行う前に必要な解析処理を行い、その解析した情報結果を抽出に用いればよい。
図11は、統語解析結果における構文木の例を示す説明図である。図11に示す例では、原文のテキスト「会計システムをNECが開発した。」を構文解析して得られた統語解析結果における構文木の一例が示されている。なお、図11において、構文木中のノードは形態素を単位として表されている。この場合、例えば、図12に示すように、各形態素について属性と属性値とが与えられたものとする。
なお、図12に示す例では、一部の形態素のみを示して他の形態素を省略して示しているが、図示しない他の形態素についても同様にして扱うことができる。また、属性についても一例のみ示したが、形態素の属性は、本実施例に示したものに限定されず、他の属性を用いることも可能である。
上記のような情報を記述した統語解析結果を抽出対象文書とし、予め磁気ディスク記憶装置に記憶させておく。
図13は、磁気ディスク記憶装置が記憶する抽出対象文書の一例を示す説明図である。図13に示す例では、文毎の解析結果を1文書としてファイル化して磁気ディスク記憶装置に記憶させている。また、各ファイル毎に識別子として抽出対象文書IDを付与して、ファイルの格納位置とともに対応付けて抽出対象文書を記憶させている。
なお、磁気ディスク記憶装置が抽出対象文書を記憶する記憶方法は、本実施例で示した記憶方法に限定されず、解析結果をそのまま抽出対象文書IDに対応づけて記憶してもよく、その他の記憶形式を用いて記憶しておくことも可能である。
中央演算装置は、抽出規則入力手段11として機能し、ユーザが所望する情報を抽出する抽出規則の候補となる複数の抽出規則を入力として受け付ける。中央演算装置は、受け付けた(入力した)抽出規則を、RAM内に一時的に保持しておけばよい。また、中央演算装置は、入力した抽出規則を、磁気ディスク記憶装置に記憶させるようにしてもよい。
また、本実施例では、抽出規則に抽出規則IDを付与する。図14は、抽出規則の形式の一例を示す説明図である。図14に示すように、本実施例では、抽出規則は、2行目以降に、構文木の部分構造を含む抽出のパタン条件と、抽出部分の出力条件とを含む。また、抽出規則は、識別の簡易化のため、1行目に示すように先頭1行目に抽出規則IDを含むようにしてもよい。また、抽出規則IDを抽出規則には記述せず、抽出規則入力手段10が、抽出規則を受け付けた(入力した)後に、図15に示すような形式で、抽出規則と対応付けて抽出規則IDを付与するようにしてもよい。
ここで、図14に示す例では、親ノードをAとし、子ノードをB,Cとすると、ノード間の関係を「A{B,C}」として表し、形態素Zを「[Z]」と表している。また、図14に示す例では、形態素Zについて、その形態素Zの属性と属性値とを「属性名=“属性値”」のように表している。また、複数のノードを指定する場合や、複数の属性を指定する場合には、カンマ「,」で区切って示している。また、属性値を変数化し、任意の値を「*」で表している。
図14に示す例では、統語解析結果の構文木の部分構造が一致し、かつ形態素の属性と属性値とが一致するという条件を満たした場合に、「抽出」属性の属性値が「ON」を有する形態素を抽出部分の出力条件として抽出する、という規則を示している。そのような抽出規則を用いれば、構文木の構造やノード、属性と属性値、抽出部分等の組み合わせは複数あり、記述内容によって様々な情報を抽出することが可能である。図14に示す例は、具体的には、NECが開発した物を含む情報を抽出する抽出規則を示している。
本実施例では、ユーザが所望する情報を抽出するために用いるか確認が取れていない抽出規則や、所望する情報を抽出するために用いるであろう候補となる抽出規則を事前に準備しておき入力する。
なお、本実施例では、抽出規則の一例を示したが、抽出規則の形式は、本実施例で示した形式以外の形式のものであってもよく、本実施例で示した形式に限定されない。本実施例で示した形式の抽出規則以外であっても、例えば、ノードには形態素ではなく文節を加えるようにしてもよく、その場合には、形態素と区別する記号や記述形式、特有の属性等新たな定義を行って抽出規則を表せばよい。また、抽出対象文書を形態素解析結果とし、抽出規則を正規表現で表すようにしても実施が可能である。
次に、中央演算装置は、抽出規則適用手段11として機能し、抽出規則を抽出対象文書に対して適用して情報抽出を行い、抽出規則ごとの抽出結果を磁気ディスク記憶装置に記憶させる。
図16は、抽出規則を用いた情報抽出の抽出結果の一例を示す説明図である。図16に示す例では、個々の抽出した情報を、抽出対象文書IDと、その抽出対象文書IDで示される抽出対象文書内の文字列の開始位置、終了位置とで区別し、抽出内容とともに記憶している。さらに、情報を抽出した抽出規則の抽出規則IDとともに対応づけて記憶している。また、図16に示す例では、抽出結果IDを付与した例を示している。
本実施例では、この抽出結果の抽出規則IDを参照することで、特定の抽出規則IDごとの抽出結果が分かる。なお、処理を高速化するために、図17に示すように抽出規則ID毎に抽出結果IDを対応付けて抽出結果を管理(記憶)するようにしてもよい。
続いて、中央演算装置は、規則関係生成手段12として機能し、抽出結果に基づいて、抽出規則間の抽出結果を比較し、抽出結果の重複関係を分析する。重複関係は、抽出規則間で、それぞれの抽出規則の抽出結果IDが一致するか否かを比較することで判定する。また、抽出対象文書IDと、その抽出対象文書IDの文書中の開始位置、終了位置から区別して判定してもよい。
重複関係が存在する場合には、規則関係生成手段12は、所定の条件を満たした抽出規則間をリンクとして構成する規則関係ネットワークを生成し、規則関係ネットワークのデータを抽出結果と対応付けた情報を含む規則関係情報を生成する。
例えば、規則関係ネットワークを生成する1つの方法として、例えば、抽出結果に重複関係が存在する抽出規則間において、抽出した情報の数が少ない方の抽出規則Xの抽出結果が抽出した情報の多い方の抽出規則Yの抽出結果に包含される場合を考える。この場合、中央演算装置は、抽出規則Xを祖先のノードXとし、抽出規則Yを子孫のノードYとして、ノードXからノードYへ有向リンクを張ることで有向グラフとして規則関係ネットワークを生成する。
また、規則関係ネットワークを生成する別の1つの方法として、例えば、重複関係が存在する規則間において、抽出した情報の数が少ない方の抽出規則Xの重複率が所定以上の場合を考える。この場合、中央演算装置は、抽出規則Xを祖先のノードXとし、抽出規則Yを子孫のノードYとして、ノードXからノードYへ有向リンクを張ることで規則関係ネットワークを生成する。中央演算装置は、抽出規則Xの重複率Cを、次の式(1)を用いて求めることができる。
C(X)=S(X,Y)/E(X) 式(1)
ここで、S(X,Y)は、抽出規則Xと抽出規則Yとの抽出結果のうち、抽出結果が同一の情報の数とする。また、E(X)は、抽出規則Xの抽出結果(抽出規則Xを用いて抽出した情報)の数とする。
さらに、規則関係ネットワークを生成する際に、あるノードXからあるノードYへのリンクについて別のノードを経ることで、ノードXからノードYへ到達できる場合には、そのリンクを張らないようにすることでリンク数を減らして生成してもよい。
なお、重複又は包含関係を有する抽出規則間の規則関係ネットワークを生成する場合、本実施例で示した生成方法以外の方法により生成してもよく、本実施例で示した方法に限定されない。
ここで、図17に示される抽出規則IDが1,2,3,4である抽出規則について、抽出規則に包含関係がある場合に、規則関係ネットワークを生成する方法の一例を説明する。この場合、中央演算装置は、例えば、全ての抽出規則間で、それぞれの抽出規則の抽出結果を比較し、包含関係がある場合に、抽出結果の少ない方の抽出規則から多い方の抽出規則へリンクを張ればよい。
まず、中央演算装置は、連結したネットワークとするため根となるノードを設定する。
続いて、中央演算装置は、図17に示される抽出規則IDが1,2,3,4である抽出規則間で抽出結果を比較すると、抽出規則間に包含関係を有する場合にリンクとして、図18に示すような関係を得る(求める)。図18は、包含関係を有する抽出規則間をリンクとした場合のそのリンクの情報を示す規則関係ネットワークのデータを示す説明図である。
図18において、各リンクは、包含される側の抽出規則X(抽出した情報の数が少ない抽出規則)と、包含する側の抽出規則Y(抽出結果が多い抽出規則)のそれぞれの抽出規則IDを示しており、中央演算装置は、それらのリンクの集合で規則関係ネットワークを形成する。また、各リンクには、抽出規則Xと抽出規則Yの重複する情報を共通の抽出結果IDとして、異なる抽出結果を差分の抽出結果IDとして、抽出結果IDを対応付けている。さらに、識別のために、各リンクにリンクIDが付与されている。
本実施例では、例えば、中央演算装置は、図16及び図17で示される抽出規則毎の抽出結果と、図18で示される抽出結果と対応付けた規則関係ネットワークのデータとを、規則関係情報として生成する。
また、本実施例で示した規則関係情報は一例であり、本実施例で示した形式以外の形式で規則関係情報を示してもよく、本実施例で示した形式に限定されない。例えば、図19に示すように、規則関係情報をリンク間の関係でグラフ化するようにしてもよい。図19は、抽出規則IDをノードとして各ノードを結ぶリンクを線で結びグラフ形式に図式化した規則関係情報を示す説明図である。
さらに、リンクを張る際に、そのリンクの抽出規則Xのノードから抽出規則Yのノードへ別の経路により到達可能な場合には、そのリンクを張らないようにすることでネットワークの規模を減らすことも可能である。また、リンクを張った後に、そのリンクの抽出規則Yのノードの祖先のノードを順にたどった各ノードについて、そのノードから子孫のノードへ別の経路により到達可能な場合には、そのノード間を直接結ぶリンクを削除するようにすることも可能である。例えば、図18に示すネットワークであれば、リンクID3のリンクは、リンクID2とリンクID4とのリンクを経ることで、ノードXからノードYへ到達可能なので、削除するようにしてもよい。この場合、図19と同様に、規則関係情報を、図20に示すようにグラフ化してもよい。
また、図21に示すように、図19及び図20に示したグラフ化した規則関係情報に代えて、包含関係を抽出結果の集合によりベン図として図式化してもよい。この場合、図式化した規則関係情報中に抽出結果の内容を表示してもよい。図式化した規則関係情報中に表示する抽出結果の内容は、差分の抽出結果の内容のみとして表示量を減らすようにしてもよい。
最後に、中央演算装置は、規則関係出力手段13として機能し、規則関係情報を出力する。
次に、本発明の第2の実施例を図面を参照して説明する。なお、かかる第2の実施例における情報抽出規則作成支援システムは、本発明の第2の実施の形態で示した情報抽出規則作成支援システムに相当するものである。
第2の実施例では、情報抽出規則作成支援システムは、第1の実施例で示した構成要素に加えて、入力装置3としてキーボードやマウス等と、出力装置4としてディスプレイ装置とを備えている。また、コンピュータの中央演算装置は、抽出規則入力手段10に代えて、抽出規則生成手段14としても機能する点で、第1の実施例と異なる。
今、中央演算装置は、キーボードから、原文のテキストを含む抽出規則生成用文書のファイル名と、その抽出規則生成用文書中の抽出を所望する箇所の文字列の開始位置及び終了位置とを指示情報として入力したとする。例えば、中央演算装置は、図11で示した原文のテキストの「会計システム」の抽出箇所を指定する指定情報を入力したとする。また、中央演算装置は、例えば、形態素列中の特定の列の順番で指定する指示情報を入力するようにしてもよく、抽出規則生成用文書中の位置が特定できる情報であれば、本実施例で示した形式の指定情報を入力する場合に限定されない。また、ディスプレイ装置において、抽出規則生成用文書をテキストとして提示(表示)しておき、ユーザがキーボードやマウス等を操作してテキスト中の抽出箇所を選択して指定できるようにしてもよい。
中央演算装置は、抽出規則生成手段14として機能し、指示情報で示される抽出箇所を抽出できる抽出規則を複数生成する。中央演算装置は、第1の実施例と同様の形式に従って、図14で示したような形式で抽出規則を表す場合、多数の抽出規則を生成可能である。例えば、中央演算装置は、指定情報で指定された抽出箇所が該当する1つ以上の形態素には「抽出」属性を指定し、その形態素やその周囲の形態素、あるいは各形態素の任意の属性を、それぞれ組み合わせたパタンとして展開し、抽出規則を複数生成すればよい。また、中央演算装置は、図14に示すように、抽出箇所を含むような構文木の部分構造をパタンに含めて抽出規則を生成してもかまわない。
なお、中央演算装置は、抽出規則の数を減らすために、構造の階層数や形態素数、属性数、あるいは抽出規則数等により、所定の上限数を設定して制限を加えて抽出規則を生成してもよいし、所定の不要な属性を抽出規則に加えないようにする等の制限を加えて抽出規則を生成してもよい。なお、そのように制限を加える方法は、本実施例で示したものに限定されず、他の制限方法を用いて抽出規則を生成してもよい。
次に、中央演算装置は、第1の実施例と同様に、抽出規則適用手段11や規則関係生成手段12、規則関係出力手段13として機能する。そして、中央演算装置は、第1の実施例と同様の処理に従って、規則関係情報を生成する。
最後に、中央演算装置は、規則関係出力手段13の出力先をディスプレイ装置として、規則関係情報を提示(表示)する。この場合、中央演算装置は、第1の実施例と同様に、図19及び図20で示したようなグラフとして規則関係情報を出力してもよい。また、図21に示したようなベン図として図式化して規則関係情報を出力してもよい。さらに、この場合、中央演算装置は、各図中のノードやリンク、集合等の特定の部位と規則関係情報とに基づいて抽出結果等を同時に図中に表示するようにしてもよい。また、中央演算装置は、各図中のノードやリンク、集合等の特定をキーボードやマウス等の入力装置3で選択した場合には、該当する部位の抽出結果を提示(表示)するようにしてもよい。
次に、本発明の第3の実施例を図面を参照して説明する。なお、かかる第3の実施例における情報抽出規則作成支援システムは、本発明の第3の実施の形態で示した情報抽出規則作成支援システムに相当するものである。
第3の実施例では、情報抽出規則作成支援システムは、第1の実施例で示した構成要素に加えて、入力装置3としてキーボードやマウス等と、出力装置4としてディスプレイ装置とを備えている。また、コンピュータの中央演算装置は、抽出規則絞込手段15としても機能する点で、第1の実施例と異なる。
第1の実施例では、規則関係情報をそのまま出力していたが、第3の実施例では、規則関係情報に基づいて、抽出規則の絞込を行う。
第1の実施例と同様に、第3の実施例では、中央演算装置は、抽出規則入力手段10及び抽出規則適用手段11として機能し、入力として受け付けた抽出規則に基づいて情報抽出を行い、抽出結果を得る(求める)。この場合、中央演算装置は、抽出規則ごとの抽出結果として、第1の実施例で示した図17の抽出結果の各要素に加えて、図22に示すように絞込のための採用可否の情報を付随させた抽出結果を求めるようにする。
次に、中央演算装置は、規則関係生成手段12として機能し、抽出結果に基づいて規則関係情報を生成する。また、中央演算装置は、生成した規則関係情報を記憶装置に記憶させるようにしておいてもよい。
ここで、第3の実施例では、中央演算装置は、規則関係情報として、図18に示した規則関係ネットワークのデータに加え、図23に示すよう各リンクの選出スコアとチェック確認用のフラグとを付与したデータを生成する。図23は、各リンクの抽出規則それぞれの抽出した情報の数の比として算出した選出スコアを含む規則関係情報の例を示す説明図である。なお、中央演算装置は、本実施例で示した算出方法以外の方法により選出スコアを求めてもよく、本実施例で示した方法で選出スコアを求める場合に制限されない。
また、本実施例では、図18に示されるデータと図23に示されるデータとを別の例として示しているが、中央演算装置は、図18及び図23に示されるデータを1つのデータとして規則関係情報を求めてもよい。
規則関係情報を生成した後、中央演算装置は、抽出規則絞込手段15として機能する。まず、中央演算装置は、図23に示されるデータに基づいて、チェック確認用のフラグがない未チェック確認用のリンク(図23ではチェック確認用のフラグが0のリンク)があれば、絞込の処理を行う。未チェックのリンクが無ければ、そのまま処理を終了する。
未チェックのリンクがあれば、中央演算装置は、選出スコアの高い順にリンクを選出(選択)する。図22に示す例では、中央演算装置は、未チェックのリンクの中で選出スコアが最も高いリンクIDが2であるリンクを選出(選択)する。
続いて、中央演算装置は、選出(選択)したリンクから、規則関係情報に基づいて抽出結果の一部をユーザに提示するために適切な様式にフォーマット変換する。そして、中央演算装置は、フォーマット変換した規則関係情報を、出力装置4であるディスプレイ装置を用いて提示(表示)する。例えば、中央演算装置は、リンクIDが2であるリンクを選出(選択)した場合、抽出規則IDが1及び3である抽出規則の抽出結果を提示可能である。
本実施例では、さらに限定して差分の抽出結果のみを提示する例を示す。例えば、中央演算装置は、リンクIDが2であるリンクを選出(選択)した場合、差分の抽出結果IDが3,5,6であるので、図18に示される抽出結果のデータから該当する抽出結果IDの抽出内容を提示できる。そのような例によれば、抽出した情報が多数ある場合に、ユーザに提示する情報を減らせるので、ユーザが確認する量を低減することができる。
ユーザに抽出結果を提示するためのフォーマットとして、例えば、図24に示すような抽出結果の提示画面を用いて出力(表示)することができる。図24に示す抽出結果の提示画面は、抽出した情報毎に抽出箇所を下線で明示し、さらにその抽出箇所の前後を含む文の一部を提示(表示)したものである。なお、抽出箇所のみの提示(表示)するようにしてもよい。また、図24に示す例では、提示した抽出結果について採用か非採用かの選択指示を受け付けるボタンを提示(表示)し、抽出結果の選択画面を兼ねている。この他に個々の抽出した情報毎に、採用可否をチェックボックス等により受け付けるようにしてもよい。
次に、ユーザは、提示された情報に基づいて、キーボード等の入力装置3を操作して採用可否の選択指示を行なう。すると、中央演算装置は、入力装置3から、選択結果の入力を受け付ける。図24に示す例では、中央演算装置は、選択情報として採用か非採用かの情報を受け付ける(入力する)ことができる。
選択情報を受け取ると(入力すると)、中央演算装置は、選択情報に基づいて判断可能なリンクの抽出規則の判定を行い、そのリンクを判定済みとする。今、図23に示す例において、非採用の情報を受け取った(入力した)ものとすると、中央演算装置は、提示した情報がリンクIDが2である抽出規則間の差分の抽出結果であった場合には、子孫ノード側(抽出規則Y)の抽出規則IDが3である抽出規則は非採用と判定できる。なお、中央演算装置は、判定結果を、図22に示した抽出規則ID毎に採用可否として記録すればよい。
なお、採用可否の判定は、本実施例で示した以外の方法であっても、提示した抽出結果に応じて判定することが可能であり、本実施例で示した方法に限定されない。例えば、抽出結果毎に採用可否のチェックを受け付けるようにした場合には、中央演算装置は、入力したチェック結果が全て採用であれば、該当する抽出規則を採用とすることができ、1つでも非採用のチェック結果があれば、該当する抽出規則を非採用とすることができる。さらに、完全性を求めず抽出結果に多少の間違いを許容する場合には、中央演算装置は、入力したチェック結果が一定の採用率以上である場合に採用とすることも可能である。
また、中央演算装置は、抽出規則IDが3である抽出規則を非採用と判定すると、さらに子孫のノードも同時に非採用と判定することができる。例えば、リンクID4を参照すると、抽出規則IDが4である抽出規則は抽出規則IDが3である抽出規則の子孫に当たるので、非採用とすることができる。逆に、ある抽出規則を採用と判定すると、その祖先のノードも採用としてもよい。
中央演算装置は、特定のリンクの判定が終了すると、図23で示したデータのチェック確認用のフラグを更新し、判定済みとする(図23に示すデータに含まれるチェック確認用のフラグを1等に更新する)。
続いて、中央演算装置は、未チェックのリンクが無くなるまで、抽出規則絞込手段15として機能し、絞込の処理を行う。
次に、本発明の第4の実施例を説明する。なお、かかる第4の実施例における情報抽出規則作成支援システムは、本発明の第4の実施の形態で示した情報抽出規則作成支援システムに相当するものである。
第4の実施例では、情報抽出規則作成支援システムの構成は、第3の実施例で示した情報抽出規則作成支援システムの構成を同じとする。ただし、中央演算装置は、抽出規則入力手段10としてではなく、抽出規則生成手段14として機能する点で、第3の実施例と異なる。
なお、第4の実施例において、中央演算装置が抽出規則を生成するまでの動作は、第2の実施例で示した処理と同様であり、その後の処理は第3の実施例で示した処理と同様であるため、詳細な説明を省略する。
次に、本発明の第5の実施例を説明する。なお、かかる第5の実施例における情報抽出規則作成支援システムは、本発明の第5の実施の形態で示した情報抽出規則作成支援システムに相当するものである。
第5の実施例では、情報抽出規則作成支援システムの構成は、第4の実施例で示した情報抽出規則作成支援システムの構成と同じである。ただし、中央演算装置は、抽出対象選出手段16としても機能する点で、第4の実施例と異なる。
なお、第5の実施例において、中央演算装置が抽出規則絞込手段15として機能するまでの動作は、第4の実施例で示した処理と同様であるため、詳細な説明を省略する。
中央演算装置が抽出規則絞込手段15として機能して抽出規則の絞り込みを終了と判定した後、中央演算装置は抽出対象選出手段として機能し、規則関係情報に基づいて、新たな抽出規則を生成するための指示情報に用いるための抽出対象の選出を行う。中央演算装置は、過去に抽出規則作成手段14が受け取った指示情報で指定された抽出箇所の情報と比較して異なる情報を、絞り込まれた抽出規則を用いて情報抽出を行なったときの抽出結果の中から選出する。また、過去の指示情報は全て記憶装置内に記憶しておいてもよい。
次に中央演算装置は、選出した情報がある場合には、選出した情報と、選出した情報が含まれる抽出対象文書に関する情報とを抽出対象情報として、ディスプレイ装置に整形して表示する。選出した情報が含まれる抽出対象文書に関する情報としては、例えば抽出対象文書そのものや、抽出対象文書IDやファイル名などの抽出対象文書を特定可能な情報が挙げられる。
ディスプレイ装置に表示する抽出対象情報は、新たな指示情報とするべく抽出対象を選択できるようにしてもよい。例えば、抽出対象情報を抽出対象の選択画面とした一例を図25に示す。図25は、複数の選出した情報と選出した情報を含む文とを同時に表示し、それぞれの情報ごとにチェックボックスにより選択を可能とした新規の指示情報入力画面となっている。選出した情報に対応する抽出対象文書IDなどの抽出対象文書を特定可能な情報は画面には表示しなくてもよい。この抽出対象情報の選択画面において、選択した情報を決定すると、選択された情報と対応する抽出対象文書IDが、抽出規則生成手段14として機能する中央演算装置に渡され、新たな指示情報として用いることが可能である。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。
本発明によれば、大量の電子文書からユーザが欲しい情報を効率的に抽出する情報抽出システムや、情報抽出システムをコンピュータに実現するためのプログラム等の用途に適用できる。また、ユーザが必要とする情報を検索するための情報検索の用途にも適用可能である。

Claims (26)

  1. 情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段と、
    前記抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力手段と、
    前記入力手段が入力した前記各抽出規則を用いて、前記記憶手段が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出手段と、
    前記情報抽出手段が求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成手段とを
    備えたことを特徴とする情報抽出規則作成支援システム。
  2. 情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段と、
    前記抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力手段と、
    前記入力手段が入力した前記抽出規則生成用文書及び前記指示情報に基づいて、前記指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成手段と、
    前記抽出規則生成手段が生成した前記各抽出規則を用いて、前記記憶手段が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出手段と、
    前記情報抽出手段が求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成手段とを
    備えたことを特徴とする情報抽出規則作成支援システム。
  3. 前記規則関係生成手段は、前記情報抽出手段が求めた各抽出結果の間の重複関係を分析して前記各抽出結果の間の重複関係を示す重複率を求め、求めた前記重複率に基づいて、対応する抽出規則をリンク付ける請求項1又は請求項2記載の情報抽出規則作成支援システム。
  4. 前記規則関係生成手段は、前記情報抽出手段が求めた各抽出結果の間に包含関係がある場合にのみ、対応する抽出規則をリンク付ける請求項1又は請求項2記載の情報抽出規則作成支援システム。
  5. 前記規則関係生成手段が生成した前記規則関係ネットワークを、各抽出規則の関係を示す規則関係情報として出力する出力手段を備えた請求項1から請求項4のうちのいずれか1項に記載の情報抽出規則作成支援システム。
  6. 前記規則関係生成手段が生成した前記規則関係ネットワークと、前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の差分を示す情報とを、各抽出規則の関係を示す規則関係情報として出力する出力手段を備えた請求項1から請求項4のうちのいずれか1項に記載の情報抽出規則作成支援システム。
  7. 抽出規則の絞り込みを行なう抽出規則絞込手段を備え、
    前記抽出規則絞込手段は、
    所定の優先度に基づいて、前記規則関係生成手段が生成した前記規則関係ネットワークに含まれるリンクを選択し、
    選択したリンクに対応する各抽出規則を用いて情報抽出を行なったときの抽出結果を含む提示情報を生成し、
    前記提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、
    入力した前記判定情報と前記規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定する
    請求項1から請求項6のうちのいずれか1項に記載の情報抽出規則作成支援システム。
  8. 抽出規則の絞り込みを行なう抽出規則絞込手段を備え、
    前記抽出規則絞込手段は、
    所定の優先度に基づいて、前記規則関係生成手段が生成した前記規則関係ネットワークに含まれるリンクを選択し、
    選択したリンクに対応する各抽出規則のうち、抽出規則を用いて情報抽出を行なったときの抽出結果が多い方の抽出規則を用いて抽出した抽出結果であり、かつ抽出規則を用いて情報抽出を行なったときの抽出結果が少ない方の抽出規則の抽出結果ではない情報を少なくとも含む提示情報を生成し、
    前記提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、
    入力した前記判定情報と前記規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定する
    請求項1から請求項6のうちのいずれか1項に記載の情報抽出規則作成支援システム。
  9. 前記抽出規則絞込手段は、前記規則関係生成手段が生成した前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率に基づいて、抽出規則を選択する請求項7又は請求項8記載の情報抽出規則作成支援システム。
  10. 前記抽出規則絞込手段は、前記規則関係生成手段が生成した前記規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数に基づいて、抽出規則を選択する請求項7又は請求項8記載の情報抽出規則作成支援システム。
  11. 前記抽出規則絞込手段は、前記規則関係生成手段が生成した前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率と、前記規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数を用いて算出されるスコア値とに基づいて、抽出規則を選択する請求項7又は請求項8記載の情報抽出規則作成支援システム。
  12. 前記抽出規則絞込手段により採用と判定された抽出規則を用いて情報抽出を行ったときの抽出結果より、過去に指示情報で指定された抽出箇所の情報とは異なる情報を選出する情報選出手段を備え、
    前記情報選出手段は、選出した情報と、選出した情報を含む抽出対象文書を特定可能な情報とを含む抽出対象文書を出力する機能を有する
    請求項7又は請求項8記載の情報抽出規則作成支援システム。
  13. 情報抽出対象の電子文書である抽出対象文書を記憶装置に記憶する記憶ステップと、
    前記抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力ステップと、
    入力した前記各抽出規則を用いて、前記記憶装置が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出ステップと、
    求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成ステップとを
    含むことを特徴とする情報抽出規則作成支援方法。
  14. 情報抽出対象の電子文書である抽出対象文書を記憶装置に記憶する記憶ステップと、
    前記抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力ステップと、
    入力した前記抽出規則生成用文書及び前記指示情報に基づいて、前記指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成ステップと、
    生成した前記各抽出規則を用いて、前記記憶装置が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出ステップと、
    求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成ステップとを
    含むことを特徴とする情報抽出規則作成支援方法。
  15. 前記規則関係生成ステップで、求めた各抽出結果の間の重複関係を分析して前記各抽出結果の間の重複関係を示す重複率を求め、求めた前記重複率に基づいて、対応する抽出規則をリンク付ける請求項13又は請求項14記載の情報抽出規則作成支援方法。
  16. 前記規則関係生成ステップで、求めた各抽出結果の間に包含関係がある場合にのみ、対応する抽出規則をリンク付ける請求項13又は請求項14記載の情報抽出規則作成支援方法。
  17. 生成した前記規則関係ネットワークを、各抽出規則の関係を示す規則関係情報として出力する出力ステップを含む請求項13から請求項16のうちのいずれか1項に記載の情報抽出規則作成支援方法。
  18. 生成した前記規則関係ネットワークと、前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の差分を示す情報とを、各抽出規則の関係を示す規則関係情報として出力する出力ステップを含む請求項13から請求項16のうちのいずれか1項に記載の情報抽出規則作成支援方法。
  19. 抽出規則の絞り込みを行なう抽出規則絞込ステップを含み、
    前記抽出規則絞込ステップで、
    所定の優先度に基づいて、生成した前記規則関係ネットワークに含まれるリンクを選択し、
    選択したリンクに対応する各抽出規則を用いて情報抽出を行なったときの抽出結果を含む提示情報を生成し、
    前記提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、
    入力した前記判定情報と前記規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定する
    請求項13から請求項18のうちのいずれか1項に記載の情報抽出規則作成支援方法。
  20. 抽出規則の絞り込みを行なう抽出規則絞込ステップを含み、
    前記抽出規則絞込ステップで、
    所定の優先度に基づいて、生成した前記規則関係ネットワークに含まれるリンクを選択し、
    選択したリンクに対応する各抽出規則のうち、抽出規則を用いて情報抽出を行なったときの抽出結果が多い方の抽出規則を用いて抽出した抽出結果であり、かつ抽出規則を用いて情報抽出を行なったときの抽出結果が少ない方の抽出規則の抽出結果ではない情報を少なくとも含む提示情報を生成し、
    前記提示情報に含まれる抽出結果に対する正否を示す判定情報を入力し、
    入力した前記判定情報と前記規則関係ネットワークとに基づいて、1つ以上の抽出規則について採用の正否を判定する
    請求項13から請求項18のうちのいずれか1項に記載の情報抽出規則作成支援方法。
  21. 前記抽出規則絞込ステップで、生成した前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率に基づいて、抽出規則を選択する請求項19又は請求項20記載の情報抽出規則作成支援方法。
  22. 前記抽出規則絞込ステップで、生成した前記規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数に基づいて、抽出規則を選択する請求項19又は請求項20記載の情報抽出規則作成支援方法。
  23. 前記抽出規則絞込ステップで、生成した前記規則関係ネットワークでリンク付けられた抽出規則に対応する抽出結果の数の比率と、前記規則関係ネットワークでリンク付けられた抽出規則の子孫ノードの数を用いて算出されるスコア値とに基づいて、抽出規則を選択する請求項19又は請求項20記載の情報抽出規則作成支援方法。
  24. 採用と判定された抽出規則を用いて情報抽出を行ったときの抽出結果より、過去に指示情報で指定された抽出箇所の情報とは異なる情報を選出する情報選出ステップを含み、
    前記情報選出ステップで、選出した情報と、選出した情報を含む抽出対象文書を特定可能な情報とを含む抽出対象文書を出力する
    請求項19又は請求項20記載の情報抽出規則作成支援方法。
  25. 情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段を備えたコンピュータに、
    前記抽出対象文書から情報を抽出するための規則である複数の抽出規則を入力する入力処理と、
    入力した前記各抽出規則を用いて、前記記憶手段が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出処理と、
    求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成処理とを
    実行させるための情報抽出規則作成支援プログラム。
  26. 情報抽出対象の電子文書である抽出対象文書を記憶する記憶手段を備えたコンピュータに、
    前記抽出対象文書から情報を抽出するための規則である抽出規則を生成するための電子文書である抽出規則生成用文書と、当該抽出規則生成用文書中の抽出箇所を示す指示情報とを入力する入力処理と、
    入力した前記抽出規則生成用文書及び前記指示情報に基づいて、前記指示情報で指定される抽出箇所の情報を抽出するための抽出規則を複数生成する抽出規則生成処理と、
    生成した前記各抽出規則を用いて、前記記憶装置が記憶する前記抽出対象文書から、前記各抽出規則に合致する抽出結果をそれぞれ求める情報抽出処理と、
    求めた各抽出結果の間の重複関係又は包含関係を分析して、分析した結果に基づいて前記各抽出規則をリンク付けることによって、前記各抽出規則の関係を示す規則関係ネットワークを生成する規則関係生成処理とを
    実行させるための情報抽出規則作成支援プログラム。
JP2008556057A 2007-01-29 2008-01-22 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム Active JP5040925B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008556057A JP5040925B2 (ja) 2007-01-29 2008-01-22 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007018583 2007-01-29
JP2007018583 2007-01-29
JP2008556057A JP5040925B2 (ja) 2007-01-29 2008-01-22 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
PCT/JP2008/050823 WO2008093569A1 (ja) 2007-01-29 2008-01-22 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム

Publications (2)

Publication Number Publication Date
JPWO2008093569A1 true JPWO2008093569A1 (ja) 2010-05-20
JP5040925B2 JP5040925B2 (ja) 2012-10-03

Family

ID=39673881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008556057A Active JP5040925B2 (ja) 2007-01-29 2008-01-22 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム

Country Status (3)

Country Link
US (1) US8380650B2 (ja)
JP (1) JP5040925B2 (ja)
WO (1) WO2008093569A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928260B2 (en) * 2008-02-11 2018-03-27 Nuix Pty Ltd Systems and methods for scalable delocalized information governance
US8065116B2 (en) * 2008-10-08 2011-11-22 Robert Bosch Gmbh Systems, methods, and tools for proofing a computer-aided design object
US8095341B2 (en) 2008-10-08 2012-01-10 Robert Bosch Gmbh Systems, methods, and tools for proofing a computer-aided design object
US20100087943A1 (en) * 2008-10-08 2010-04-08 Robert Bosch Gmbh Systems, methods, and tools for proofing a computer-aided design object
JP5326781B2 (ja) * 2009-04-30 2013-10-30 日本電気株式会社 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP5340847B2 (ja) * 2009-07-27 2013-11-13 株式会社日立ソリューションズ 文書データ処理装置
JP5317922B2 (ja) * 2009-10-16 2013-10-16 株式会社野村総合研究所 情報抽出ルール作成支援システム
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
US9076152B2 (en) * 2010-10-20 2015-07-07 Microsoft Technology Licensing, Llc Semantic analysis of information
CN102737125B (zh) * 2012-06-15 2014-05-21 武汉大学 基于Web时态对象模型的过时网页信息自动发现方法
KR20150130387A (ko) 2013-03-15 2015-11-23 테라노스, 인코포레이티드 시료 준비용 기기, 시스템 및 방법
FR3027130B1 (fr) * 2014-10-14 2016-12-30 Airbus Operations Sas Integration automatique de donnees relatives a une operation de maintenance
CN104866629B (zh) * 2015-06-16 2018-08-31 成都博元科技有限公司 基于模糊理论的大数据信息挖掘方法
CN108701339A (zh) 2016-02-23 2018-10-23 开利公司 从自然语言文档中提取策略以用于物理访问控制
US11874873B2 (en) 2018-03-07 2024-01-16 Nec Corporation Knowledge expansion system, method, and program
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统
US11501183B2 (en) * 2019-07-15 2022-11-15 HCL Australia Services Pty. Ltd Generating a recommendation associated with an extraction rule for big-data analysis

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11259524A (ja) * 1998-03-06 1999-09-24 Omron Corp 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2000132556A (ja) * 1998-10-22 2000-05-12 Hitachi Ltd 障害情報検索支援方法
JP2001318792A (ja) 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP2006023968A (ja) 2004-07-08 2006-01-26 Hitachi Ltd 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP2006040166A (ja) * 2004-07-29 2006-02-09 Oki Electric Ind Co Ltd 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US8380650B2 (en) 2013-02-19
US20100005049A1 (en) 2010-01-07
WO2008093569A1 (ja) 2008-08-07
JP5040925B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
JP5040925B2 (ja) 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム
KR100650427B1 (ko) 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴
CN101739335B (zh) 建议的应用评估系统
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
US20060167873A1 (en) Editor for deriving regular expressions by example
US8533140B2 (en) Method and system for design check knowledge construction
WO2006046523A1 (ja) 文書解析システム、及び文書適応システム
US11243971B2 (en) System and method of database creation through form design
JPWO2006038498A1 (ja) 配列の生成方法、及び、配列生成プログラム
US7401071B2 (en) Structured data retrieval apparatus, method, and computer readable medium
JP2010015458A (ja) プログラム修正支援システム、プログラム修正支援方法、およびプログラム修正支援プログラム
CN110188207A (zh) 知识图谱构建方法及装置、可读存储介质、电子设备
JP2021089668A (ja) 情報処理装置及びプログラム
JP2015162004A (ja) 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム
JP2007257369A (ja) 情報検索装置
JPH08255253A (ja) グラフ表示処理装置およびグラフ表示処理方法
JP2003281149A (ja) アクセス権限設定方法および構造化文書管理システム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP5648336B2 (ja) 不整合検出装置、プログラム及び方法、修正支援装置、プログラム及び方法
US20100138735A1 (en) Document processing device
JP2006277282A (ja) モデル評価解析システムおよびモデル評価解析プログラム
JPH09245052A (ja) 構造化文書処理装置
JP2001344230A (ja) マルチメディア文書生成装置及び方法、及びこれらをコンピュータに実行させるプログラムを記録した記録媒体
JP2005173671A (ja) リンク診断装置、リンク診断方法およびリンク診断プログラム。
JP6807201B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120625

R150 Certificate of patent or registration of utility model

Ref document number: 5040925

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3