JPWO2016194054A1 - 情報抽出システム、情報抽出方法、及び記録媒体 - Google Patents
情報抽出システム、情報抽出方法、及び記録媒体 Download PDFInfo
- Publication number
- JPWO2016194054A1 JPWO2016194054A1 JP2017521323A JP2017521323A JPWO2016194054A1 JP WO2016194054 A1 JPWO2016194054 A1 JP WO2016194054A1 JP 2017521323 A JP2017521323 A JP 2017521323A JP 2017521323 A JP2017521323 A JP 2017521323A JP WO2016194054 A1 JPWO2016194054 A1 JP WO2016194054A1
- Authority
- JP
- Japan
- Prior art keywords
- target
- filter
- word
- information
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 139
- 230000014509 gene expression Effects 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims description 44
- 239000000284 extract Substances 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Abstract
情報抽出システムは、抽出対象の文字列の集合を示す対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれの所定距離以内に配置された単語である近傍語と、を対象文書から抽出し、近傍語それぞれの対象文書中の出現頻度、又は対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、近傍語を含むフィルタ適用対象語集合に、フィルタを適用し、フィルタ適用対象語集合にフィルタを適用して得られた抽出対象語集合を出力する。
Description
本発明は、情報抽出システム、情報抽出方法、及び記録媒体に関する。
対象文書に記載されている情報を、機械処理可能な形で抽出し、様々な対象文書における分析を行う分析システムがある。分析システムは、例えば、対象文書であるショッピングウェブサイトから製造者名、商品名、及びシリーズ名等の所謂、固有名を抽出することができれば、製造者毎の製品情報の統計を行う等の分析を実施することができる。
このように、非定形の文書又は文書画像から、必要な情報を抽出する技術が知られている。本技術分野の背景技術として特開2013−232127号公報(特許文献1)がある。特許文献1には、「抜粋部101は、原文書が表示される画面において、相対的に大きく表示されるべき文字を原文書から抜粋することにより抜粋文書を得る。修正部103は、抜粋文書が画面に表示されるべき量が所定の量に収まらない場合、抜粋部101が文字を抜粋する相対的な大きさの基準を修正する。」と記載されている(要約参照)。
分析システムは、例えば、予め用意された辞書や複数の雛型等を用いて、非定形文書から情報抽出を行う。しかし、非定型文書においては、すべての文書に対する適切な雛型を予め用意することができるとは限らない。また、抽出の対象となる単語の辞書を容易に得られるとは限らない。
また、特許文献1には、ウェブサイトにおいて、文の表示サイズに基づく情報抽出方法が開示されているが、利用者にとって必要な情報が、対象文書中に適切な表示サイズで記述されているとは限らないという問題がある。
本発明の一態様は、ウェブサイトや文書画像等の多様な非定形文書から、事前に用意された辞書、及びHTML等の論理構造等に依存せず、利用者が必要とする情報を高精度に抽出することを目的とする。
上記課題を解決するため、本発明の一態様は、以下の構成を採用する。対象文書から情報を抽出する情報抽出システムであって、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、前記プロセッサは、情報抽出処理を行い、前記情報抽出処理において、抽出対象の文字列の集合を示す対象情報の入力を受け付け、前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、前記フィルタ適用対象語集合に前記フィルタを適用して得られた抽出対象語集合を出力する、情報抽出システム。
本発明の一態様は、予め用意された辞書、及びHTML等の論理構造等に依存せず、多様な非定形文書から、利用者が必要とする情報を高精度に抽出することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
以下、本発明の実施形態について図面を参照して説明する。本実施形態は対象文書から情報を抽出する情報抽出システムを説明する。情報抽出システムは、抽出対象の文字列の集合を示す対象情報の入力を利用者から受け付けると、対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれと物理的距離が近い位置にある近傍語と、を対象文書から抽出する。情報抽出システムは、利用者により直接的に指定された抽出対象である対象表現のみならず、近傍語を取得することにより、対象表現に関連する利用者にとって必要な可能性のある情報を、辞書等を用いることなく広く取得することができる。
情報抽出システムは、近傍語それぞれの対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成する。情報抽出システムは、近傍語を含むフィルタ適用対象語集合に生成したフィルタを適用することで、辞書等を用いることなく、利用者にとって不要な近傍語を削除することができる、即ち利用者が必要とする情報を高精度に取得することができる。
図1は、情報抽出システムの構成例を示す。情報抽出システム101は、例えば、プロセッサ(CPU)111、メモリ112、補助記憶装置113及び通信インターフェース114を有する計算機によって構成される。
プロセッサ111は、メモリ112に格納されたプログラムを実行する。メモリ112は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ111が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
補助記憶装置113は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置であり、プロセッサ111が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、メモリ112又は補助記憶装置113から読み出されて、メモリ112にロードされて、プロセッサ111によって実行される。
情報抽出システム101は、入力インターフェース115及び出力インターフェース118を有してもよい。入力インターフェース115は、キーボード116やマウス117などが接続され、利用者からの入力を受けるインターフェースである。出力インターフェース118は、ディスプレイ装置119やプリンタなどが接続され、プログラムの実行結果を利用者が視認可能な形式で出力するインターフェースである。
通信インターフェース114は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。また、通信インターフェース114は、例えば、USB等のシリアルインターフェースを含む。
プロセッサ111が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなどなどのコンピュータ読み取り可能な可搬性の非一時的記憶媒体)又はネットワークを介して情報抽出システム101に提供され、非一時的記憶媒体である不揮発性の補助記憶装置113に格納されてもよい。このため、情報抽出システム101は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
情報抽出システム101は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
情報抽出システム101は、例えば入力インターフェース115又は通信インターフェース114を介して、対象文書102と対象情報109の入力を受け付ける。対象文書102は、例えば、文書画像であってもよいしHTML及びCSS等で記述されたウェブサイトであってもよい。文書画像とは、紙等の媒体に印刷された文書が電子化された画像を示す。
対象情報109は、情報抽出の基点となる文字列集合の情報を示し、利用者によって指定される。対象情報109は、例えば、正規表現や単語、文、ワイルドカードを含む文、品詞、対象の文書ID、及び対象の文IDの少なくとも1つを含む情報である。「¥?,???− ¥3,*− ¥[1−4],000−」はワイルドカードの一例であり、「¥¥¥d[,].¥d{2,4}−」は正規表現の一例である。情報抽出システム101は、対象文書102から、対象情報109によって指定された情報、及び対象情報109に基づく情報を抽出する。
メモリ112は、例えば、プログラムである文抽出部103、座標抽出部104、対象選定部106、及び結果生成部108を含む。また、メモリ112は、データを格納する領域である蓄積部105を含む。また、メモリ112は、データを格納する領域及びプログラムを含むフィルタ部107を含む。
プロセッサ111は、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。例えば、プロセッサ111は、文抽出部103に従って動作することで文抽出部として機能し、座標抽出部104に従って動作することで座標抽出部として機能する。さらに、プロセッサ111は、各プログラムが実行する複数の処理のそれぞれを実現する機能部としても動作する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
文抽出部103は、入力された対象文書102それぞれから文を抽出する。本実施例における文とは、対象文書102に含まれる全ての文字からなる文字列を、所定のルールで分割した1以上の文字からなる文字列それぞれを示し、必ずしも文法上の文とは一致しない概念である。句点、読点、カンマ、ピリオド、又はスペース等の所定の文字又は記号の間に挟まれた文字列は文の一例である。対象文書102に含まれる文法上の文は本実施例の文の一例である。また、対象文書102に含まれる単語それぞれは文の一例である。文抽出部103は、入力された対象文書102それぞれに文書IDを、抽出した文それぞれに文IDを付与する。
座標抽出部104は、文抽出部103が抽出した文それぞれの座標情報を抽出する。座標情報は、例えば、対象文書102の紙面又は表示装置における座標で表される。文全体を囲う最小サイズの矩形の対角を成す2頂点の座標は、文の座標情報の一例である。文抽出部103又は座標抽出部104の一方は、入力された対象文書に文書IDを付与する。文抽出部103及び座標抽出部104は、例えば、ウェブブラウザのレンダリング機能及びOCR機能を含む。
蓄積部105は、例えば、対象文書102の文書IDと、抽出された文と、抽出された文の文ID及び座標情報と、の対応を示す情報を保持する。対象選定部106は、蓄積部105が保持する情報を参照して、対象情報109に合致する文、合致する文の座標、及び合致する文の近傍語を選定し、選定した文、座標、及び近傍語をフィルタ部107に送信する。近傍語については後述する。なお、対象選定部106が選定した対象情報109に合致する文を、対象表現と呼ぶ。
フィルタ部107は、例えば、対象選定部106が選定した文座標、及び近傍語に基づき、選定した文、座標、及び近傍語から抽出対象外となる文、近傍語、及び座標を除去し、除去後の文、座標、及び近傍語を結果生成部108に送信する。
結果生成部108は、フィルタ部107から受信した文、座標、及び近傍語を適切な形式で、出力インターフェース118を介して、情報抽出結果110として出力する。また、結果生成部108は、蓄積部105に情報抽出結果110を適切な文書IDを付与して後述する文データとして蓄積してもよい。
情報抽出システム101は上述の構成により、利用者から入力された対象情報109に基づき、適切に情報抽出結果110を出力することができる。また、情報抽出システム101は、情報抽出結果110から、新たに設定された対象情報109に基づいて、再度情報抽出を行うことができる。
図2Aは、対象文書102の一例である、ショッピングウェブサイトの一例を示す。図2Aのショッピングウェブサイトには、複数の同一種類の商品が列挙され、各商品についてそれぞれ異なる商品情報(製造者、固有名、値段等)が記載されている。図2Aのようにウェブサイトが対象文書102である場合、文抽出部103及び座標抽出部104は、例えば、ウェブブラウザのレンダリング機能を利用して、文及び文の座標を抽出する。
図2Bは、対象文書102の一例である、文書画像の一例を示す。図2Bの文書画像には、石名、深さ、及び詳細が様々なレイアウトで表示されている。図2Bのように文書画像が対象文書102である場合、文抽出部103及び座標抽出部104は、例えば、OCR機能を利用して、文及び文の座標を抽出する。
図3は、蓄積部105におけるデータ管理方法の一例を示す。文データ300は、Key Value Store(KVS)と呼ばれる方法によって蓄積されたデータである。文データ300は、文書ID301、文ID302、及び文情報303を含む。文書ID301は、対象文書102を一意に識別する情報である。文ID302は、各対象文書内の文を一意に識別する情報である。文情報303は、対応する文IDの文及び当該文のアノテーション情報を含む。文の座標情報、及び文に含まれるフォント情報は、アノテーション情報の一例である。
KVS方式を用いることによって、このように、所望のキーに対し、その値を複数の階層で保持することができる。情報抽出システム101は、例えば、所望の文書ID、又は文IDが与えられた場合、対応する文を出力することができる。また、例えば、文書IDのみが与えられた場合、情報抽出システム101は、対応する文IDのリストを出力することができる。
なお、本実施形態及び他の実施形態において、情報抽出システム101が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。
以下、対象選定部106による、選定方法の例を示す。図4は、対象選定部106による、正規表現を用いた選定方法の例を示す。対象選定部106は、文書ID、文ID、及び正規表現を含む対象情報109の入力を受け付ける(S401)。なお、対象情報109は、文書ID及び文IDを含まなくてもよい。
続いて、対象選定部106は、対象情報109に含まれる文書ID及び文IDに対応する対象文を蓄積部105の文データ300から抽出し、各対象文中に対象情報109に含まれる正規表現に合致する表現、即ち対象表現が含まれるか否かを検査する。(S402)。なお、対象選定部106は、例えば、利用者の指示に従って、文データ300から結果生成部108が生成した抽出対象語に含まれない語を削除したデータから、再度対象文の抽出を行ってもよい。これにより、情報抽出システム101は、一度フィルタリングされたデータにさらにフィルタを適用することができ、情報抽出の精度を高めることができる。また、対象情報109に文書ID及び文IDが含まれていない場合、対象選定部106は、文データ300に含まれる全ての文を対象文として抽出する。
全ての対象文中に対象表現が含まれない場合(S402:no)、処理を終了する。対象表現が含まれる対象文が存在する場合、即ち対象情報109に含まれる対象表現を含む対象文が存在する場合(S402:yes)、対象選定部106は、対象表現、対象表現の座標、及び対象表現の近傍語を取得し、例えば、取得した情報と、対象表現が含まれる文ID及び文書IDと、を対象選定結果データブロックに含め、フィルタ部107に出力する(S403)。対象選定結果データブロックについては後述する。
対象表現を囲う最小サイズの矩形座標、及び対象表現を含む対象文全体を囲う最小サイズの矩形座標は、対象表現の座標は、ステップS403において対象選定部106が出力する座標の一例である。また、対象表現の近傍語とは、文書中において当該対象表現と座標上で近い位置に存在する単語を示す。対象選定部106は、例えば、対象表現から所定距離以内にある、所定個数以内の単語を当該対象表現の近傍語として取得する。対象選定部106は、近傍語を取得することにより、例えば、利用者にとって必要な単語であり、かつ利用者が知らない単語、を取得することができる。
図5は、対象選定部106による、品詞を用いた選定方法の例を示す。対象選定部106は、文書ID、文ID、及び品詞を含む対象情報109の入力を受け付ける(S501)。対象選定部106は、対象情報109に含まれる文書ID、及び文IDに対応する対象文を蓄積部105から抽出し、各対象文中に対象情報に含まれる品詞に合致する単語が存在するか否かを検査する(S502)。また、図4の説明と同様に、対象情報109は、文書ID及び文IDを含まなくてもよいし、対象選定部106は、結果生成部108が生成した文データ300から、対象文の抽出を行ってもよい。
全ての対象文中に対象表現が含まれない場合(S502:no)、処理を終了する。対象表現が含まれる対象文が存在する場合、即ち対象情報109に含まれる合致する単語を含む対象文が存在する場合(S502:yes)、対象表現、座標、及び、対象表現の近傍語を取得し、取得した情報と、対象表現が含まれる文ID及び文書IDと、を対象選定結果データブロックに含め、フィルタ部107に出力する(S503)。なお、対象選定部106は、例えば、一般的な形態素解析手法を用いて、文中の単語の認識及び品詞の同定を行えばよい。
なお、ステップS403及びステップS503の処理において、1つの対象文に複数の対象表現が含まれる場合、対象選定部106は、例えば、当該対象文において先頭から所定個数以内の対象表現を抽出してもよいし、当該対象文に含まれる全ての対象表現を抽出してもよい。
図4に正規表現を用いた対象選定の例、及び図5に品詞を用いた対象選定の例を示したが、対象選定部106は、ワイルドカードや単語等を含む対象情報109を用いた対象選定を同様に行うことができる。また、対象選定部106は、適宜、複数種類の対象情報109を、例えば論理和や論理積を用いて組み合わせて対象選定を行ってもよい。具体的には、対象選定部106は、例えば、特定の正規表現に合致し、かつ/又は特定の品詞を含む対象表現を抽出してもよい。
図6は、対象選定部106が生成する対象選定結果データブロックの例を示す。対象選定結果データブロック600は、例えば、文書ID601、対象表現ID602、及び対象表現情報603を含み、例えば、KVS方式で蓄積されたデータである。文書ID601は、対象文書102を一意に識別する情報である。対象表現ID602は、対象文書102中の対象表現を一意に識別する情報であり、例えば、対象選定部106によって付与される。対象表現情報603は、対象表現に関する情報であり、例えば、対象表現、近傍語、及び座標を含む。このように対象選定結果データブロック600が構成されることにより、情報抽出システム101は、選定された対象毎に実際の表現、近傍語、座標を容易に取得することができる。
図7は、フィルタ部107の構成例を示す。フィルタ部107は、例えば、プログラムであるフィルタ学習部702及びフィルタ適用部704、並びにデータを格納する領域であるフィルタモデル蓄積部703を含む。
フィルタ部107に、対象表現、座標、及び近傍語を有する対象データ701が入力されると、フィルタ学習部702は対象データ701に含まれる所定の情報と、フィルタモデル蓄積部703に存在するフィルタモデルと、を取得し、取得した情報とモデルデータとに基づいて、フィルタモデルを学習する。
なお、対象選定結果データブロック600は、対象データ701の一例である。なお、フィルタ学習部702は、フィルタ学習に際して、フィルタモデル蓄積部703のフィルタモデルを使用しなくてもよい。フィルタ学習部702は、生成したフィルタモデルを、フィルタモデル蓄積部703に送信し、フィルタモデル蓄積部703はフィルタモデルを蓄積する。
フィルタ適用部704は、フィルタモデル蓄積部703に存在する適切なフィルタモデルを対象データ701に対して適用する。最後にフィルタ適用部704においてフィルタが適用された結果データ705を出力する。
図8は、フィルタ学習部702によるフィルタ学習処理の一例を示す。図8におけるフィルタ学習手法は、所謂、教師なし学習手法である。フィルタ学習部702は、対象データ701に含まれる単語を取得し、文データ300における当該単語の出現頻度を取得する(S801)。例えば、対象データ701に含まれる近傍語は、ステップS801において、フィルタ学習部702が取得する単語である。また、ステップS801において、フィルタ学習部702は、例えば、対象表現を形態素解析することにより得られる単語を併せて取得してもよい。以下、取得した単語をw1,…,wnとする。
なお、フィルタ学習部702は、ステップS801において、文書ID等で指定された学習範囲のみにおける単語及び、当該学習範囲における当該単語の出現頻度を取得してもよく、このとき以降の処理についても当該学習範囲に対して行う。当該学習範囲は、例えば、利用者等によって指定される。
フィルタ学習部702は、ステップS801で取得した単語wi(1≦i≦n)それぞれに対して、変数χi(0または1)、変数πij(0≦πij≦1,1≦j≦n)、及び実数パラメータθiの各初期値を、各定義域の範囲内において、設定する(S802)。フィルタ学習部702は、初期値の設定において、例えばχiを全て1とし、πij及びθiを予め定められた値とすることができる。また、フィルタ学習部702は、各初期値を、各定義域の範囲内において、乱数的に設定してもよい。
続いて、フィルタ学習部702は、単語wiそれぞれに対して、R(wi)=PD/PNを計算する(S803)。ここで、PDはwiが抽出対象の単語である確率であり、PNは単語wiがフィルタ語である確率である。以下、PD及びPNの算出方法について説明する。フィルタ学習部702は各単語wiについて、PDを例えば以下のように計算する。
ここで、χiは、単語wiが抽出対象の単語であるか否かを表すフラグであり、χi=1のとき単語wiが抽出対象の単語である、χi=0のとき単語wiが抽出対象の単語でない即ちフィルタ語である、ことを示す。πijは単語wiが単語wjから派生している確率である。なお、「単語wiがwjから派生している」とは、文抽出部103が、対象文書中の単語wjを、例えばOCRエラー等により、単語wiと誤って抽出してしまった状態を示す。
また、dm(wi,wj)は単語wiと単語wjの類似度を示し、類似度として例えば編集距離が用いられる。P(wi|χi=1)は、χi=1である全ての単語の総出現頻度のうち、単語wiの出現頻度が占める割合を示す。フィルタ学習部702は、PDの算出に、dmやπijを利用することにより、OCRエラー等により誤って認識されている単語に対しても、高精度にフィルタ学習を行うことができる。ここで、フィルタ学習部702は、P(dm|θ)を例えば、以下のように計算する。
ここでは、フィルタ学習部702は、ポアソン分布を用いてP(dm|θ)を計算しているが、単語の生成モデルに合わせて適当な確率密度関数を用いることができる。フィルタ学習部702は、例えば、ベルヌーイ分布、二項分布、多項分布、正規分布、指数分布、t分布、カイ2乗分布、ガンマ分布、ベータ分布、F分布、又はラプラス分布等の指数分布族の他の分布を用いてもよい。一方、フィルタ学習部702は、PNを、例えば、以下のように計算する。
P(wi|χi=0)は、χi=0である全ての単語の総出現頻度のうち、単語wiの出現頻度が占める割合を示す。フィルタ学習部702は、R(wi)>1である全ての単語について、変数χiの値を1に再設定し、R(wi)≦1である全ての単語について変数χiの値を0に再設定し、再設定したχiに基づいてπij及びθiを再設定する(S804)。なお、フィルタ学習部702は、R(wi)≧1である全ての単語について、変数χiの値を1に再設定し、R(wi)<1である全ての単語について変数χiの値を0に再設定してもよい。
ステップS804において、フィルタ学習部702は、このようにR(wi)に基づき、変数χiの値を再設定するが、この際の閾値を上記例のように、1としてもよいし、R(wi)の定義域内(0以上の実数)の他の値としてもよい。ここで、利便性のために、変数γik(1≦k≦n)を以下のように定義する。
また、変数Γiを以下のように定義する。
フィルタ学習部702は、以上の値を用いて、πijを例えば、以下のように再設定する。
また、フィルタ学習部702は、パラメータθkを例えば、以下のように再設定する。
なお、上述したパラメータθkの再設定の例は、P(dm|θ)の算出にポワソン分布が用いられた場合に対応するものである。P(dm|θ)の算出にポワソン分布以外の分布が用いられた場合、フィルタ学習部702は、例えば、以下に示すθkについての更新式を解くことにより、θkを再設定する。
続いて、フィルタ学習部702は、全単語における現在のパラメータに対する同時確率を以下のように計算する(S805)。
フィルタ学習部702は、上記の同時確率が収束したか否かを判定する(S806)。フィルタ学習部702は、例えば、同時確率が所定範囲に含まれる値であった場合に同時確率が収束したと判定する。また、フィルタ学習部702は、例えば、上記の同時確率と前回計算した同時確率とを比較して、一定値又は一定比以上、上昇しなかった場合に、同時確率が収束したと判定してもよい。
フィルタ学習部702が、同時確率が収束したと判定した場合(S806;yes)、処理を終了する。フィルタ学習部702が、同時確率が収束していないと判定した場合(S806:no)、ステップS803に戻る。
フィルタ学習部702は、処理終了時点における単語wiそれぞれに対応するχiの値に従って、単語wiそれぞれが抽出対象語であるかフィルタ語であるかを選定することができる。フィルタ学習部702は、例えば、抽出対象語の集合と、フィルタ語の集合と、フィルタモデル蓄積部703に送信する。
図9は、フィルタ適用部704によるフィルタ適用処理の一例を示す。図9におけるフィルタ適用処理は、図8におけるフィルタ学習処理を用いる例を示す。フィルタ適用部704は、フィルタモデル蓄積部703から抽出対象語の集合を取得し、対象データ701からフィルタ適用対象語集合を取得する(S901)。フィルタモデル蓄積部703が保持する抽出対象語の集合は、図8に示した教師なし学習手段によって得られた集合である。対象データ701に含まれる近傍語からなる集合はフィルタ適用対象語集合の一例である。フィルタ適用部704は、例えば、対象データ701に含まれる対象表現に対する形態素解析により得られた単語を、フィルタ適用対象語集合に含めてもよい。
続いて、フィルタ適用部704は、フィルタ適用対象語集合に抽出対象語が含まれているかを検査する(S902)。この際、フィルタ適用部704は、フィルタ適用対象語集合の単語それぞれと抽出対象語それぞれとの完全一致による検査を行ってもよいし、編集距離などの単語間の類似性に基づく尺度によって検査を行ってもよい。
また、フィルタ適用部704は、抽出対象語の全てを含むかどうかの検査を行ってもよいし、一つ又は複数の抽出対象語を含むかどうかの検査を行ってもよい。フィルタ適用部704が、フィルタ適用対象語集合に抽出対象語が含まれていないと判定した場合(S902:no)、フィルタ適用対象語集合の単語は全てフィルタ語であるため、何も出力せず、処理を終了する。
フィルタ適用部704が、フィルタ適用対象語集合に抽出対象語が含まれていると判定した場合(S902:yes)、フィルタ適用部704は、フィルタ適用後の結果データ705を出力し(S903)、処理を終了する。対象データ701から、フィルタ語と、フィルタ語に対応する座標と、を除去したデータは、フィルタ適用後の結果データ705の一例である。
図10は、フィルタ部107による、単語に対するフィルタ結果の例を示す。「正解」は実際に対象とすべき単語を示し、「不正解」は実際に対象ではない単語を示す。「取得」は前述の教師なし学習によって、抽出対象語であると判定された単語を示し、「非取得」は前述の教師なし学習手法によって、フィルタ語であると判定された単語を示す。抽出対象語においては、(正解かつ取得)/{(正解かつ取得)+(不正解かつ取得)}で定義される精度75%、(正解かつ取得)/{(正解かつ取得)+(正解かつ非取得)}で定義される再現率56.8%であった。情報抽出システム101は前述した方法により、多くの単語から、少数の抽出対象語を、教師によらず判定できる。
図11は、フィルタ学習部702によるフィルタ学習処理の第二の例を示す。本例は、座標に対するフィルタの学習処理である。フィルタ学習部702は、対象データ701中の対象表現の座標情報を取得する(S1101)。なお、フィルタ学習部702は、例えば、対象データ中の近傍語の座標情報を併せて取得してもよい。
続いて、フィルタ学習部702は、実数パラメータηの初期値を設定する(S1102)。ηの初期値は、予め指定されていてもよいし、例えば利用者などによって指定されてもよい。ηの初期値は、対象文書102のサイズに従って指定されるのが好ましく、具体的には、例えば、対象文書102の1行の面積を所定の増加関数に代入して得られる値に指定されるのが好ましい。また、ηは、抽出結果に合わせて調整されてもよい。続いて、フィルタ学習部702は、カーネル密度推定の関数p(x)を以下の数式に従って学習し(S1103)、学習した結果を出力して終了する。p(x)は、座標xが抽出対象の座標である確率密度を示す。
ここで、NはステップS1101で取得した座標の数、Dは座標の次元、xは任意の座標を示す変数、xnはステップS1101で取得した各座標を示す。図11の例において、フィルタ学習部702はカーネル密度推定を用いて確率密度の推定を行っているが、例えば、k近傍法、ヒストグラム法、又は混合ガウス分布などの他の確率密度推定法を用いてもよい。
図12は、フィルタ適用部704によるフィルタ適用処理の第二の例を示す。本例は、図11に示した座標に対するフィルタを適用する処理である。フィルタ適用部704は、対象データ701に含まれる対象表現及び対象表現の座標、並びに閾値を取得する(S1201)。閾値は、利用者などより与えられてもよいし、予め設定されていてもよいし、出力結果の正否判定に基づいてフィルタ適用部704によって設定されてもよい。
フィルタ適用部704は、取得した座標それぞれを図11で例示した座標に対するフィルタモデルp(x)に代入して、取得した座標それぞれの尤度(確率値)を算出し、算出した尤度それぞれが取得した閾値以上であるか否かを判定する(S1202)。フィルタ適用部704は、算出した全ての尤度が閾値より小さいと判定した場合(S1202:no)、抽出対象の座標が存在しないため、処理を終了する。
フィルタ適用部704は、閾値以上である尤度が存在すると判定した場合(S1202:yes)、フィルタ適用後の結果データ705を出力し(S1203)、処理を終了する。閾値未満である尤度に対応する座標の対象表現、当該対象表現の近傍語、及び当該対象表現の座標を除去した対象データ701は、フィルタ適用後の結果データ705の一例である。なお、図11及び図12に示した座標に対するフィルタが用いられる場合、対象選定部106は、対象表現の近傍語を取得しなくてもよい。
図13は、フィルタ学習部702によるフィルタ学習処理の第三の例を示す。本例は、複数のフィルタモデルを結合するフィルタ学習処理である。フィルタ学習部702は、対象データ701と複数のフィルタモデルを取得する(S1301)。
フィルタ学習部702は、取得した複数のフィルタモデルから生成されるフィルタ結合モデルを初期化する(S1302)。フィルタ結合モデルは、例えば、各フィルタモデルが出力する値又は判定結果を数値化したものを入力とする、例えば、線形識別、サポートベクタマシン、決定木などの機械学習等を利用することができる。例えば、複数のフィルタモデルの重み付き和でフィルタ結合モデルが定義されている場合、フィルタ学習部702は、フィルタ結合モデルの初期化において、重みを初期化する。
フィルタ学習部702は、正誤情報、又は重み情報に基づき、フィルタ結合モデルを学習する(S1303)。以下、フィルタ結合モデルに線形識別が用いられる例を説明する。フィルタ学習部702は、下記の不等式が成立する場合にフィルタすると判定し、成立しない場合にフィルタしないと判定する。
フィルタ学習部702は、上記不等式が示す線形識別において、各フィルタモデルの出力値を要素とするスコアベクトルXとフィルタモデル毎に設定された実数ベクトルWとの内積Sを算出し、算出した内積Sと閾値Uとを比較する。以下、内積Sをフィルタ結合モデルによる出力値と呼ぶ。
フィルタ学習部702は、フィルタ結果に対する正誤情報の入力を利用者から受け付けてもよい。フィルタ学習部702は、入力された正誤情報(正誤情報を行列化したものをTとする)に基づいて、例えば、下記の数式が示す二乗和誤差等の評価関数Eを最適化することにより、適切なWを再設定してもよい。
また、利用者により、重み情報が与えられた場合は、フィルタ学習部702は、当該重み情報を実数行列Wと設定してもよい。また、重み情報(重み情報を行列化したものをVとする)と共に正誤情報が与えられた場合は、フィルタ学習部702は、下記数式のように評価関数内における実数行列Wの重み実数行列Vとして設定して、最適化を実行してもよい。
また、フィルタ学習部702は、再設定したWに対するフィルタ結果に対する正誤情報の入力を再度受けつけ、再度受け付けた正誤情報に基づいて、Wを再設定する処理を繰り返してもよい。評価関数上述したフィルタ方法は、識別モデルとその評価関数を適切に定義すれば、線形識別に限定されず適用可能である。
図14は、フィルタ適用部704によるフィルタ適用処理の第三の例を示す。本例は、フィルタ結合モデルにおけるフィルタの適用処理である。
フィルタ適用部704は、対象データ701、複数のフィルタモデル、及び当該複数のフィルタモデルが結合されたフィルタ結合モデルを取得する(S1401)。続いて、フィルタ適用部704は、対象データ701を取得した各フィルタモデルに入力し、各フィルタモデルの出力値を取得する(S1402)。
続いて、フィルタ適用部704は、S1402で算出した各フィルタモデルの出力値を、フィルタ結合モデルに入力し、フィルタ結合モデルの出力値を取得する(S1403)。続いて、フィルタ適用部704は、フィルタ結合モデルの出力値が、例えば閾値U以上であるか否かを判定する(S1404)。フィルタ結合モデルの出力値が、閾値Uより小さい場合(S1404:no)、処理を終了する。
フィルタ結合モデルの出力値が、閾値U以上である場合(S1404:yes)、フィルタ適用部704は、フィルタ適用後の結果データ705を出力して終了する(S1405)。
図15は、利用者へのユーザインターフェースの第一の例を示す。ユーザインターフェース1500は、例えば、対象ID入力セクション1501、対象情報入力セクション1502、フィルタ調整用のチェックボックス1503〜1505、抽出結果表示セクション1506、及び正誤指定セクション1507を含む。
対象ID入力セクション1501は、例えば、文データ300に含まれる文ID、文書ID、及び対象選定結果データブロック600に含まれる対象ID等の入力を受け付ける。対象情報入力セクション1502は、例えば対象情報109の入力を受け付ける。
チェックボックス1503〜1504は、学習及び適用するフィルタを選択するためのチェックボックスである。例えば、チェックボックス1503は座標によるフィルタ、チェックボックス1504は単語によるフィルタ、を選択するためのチェックボックスである。利用者は、例えば、チェックボックス1503、及びチェックボックス1504の双方にチェックを入れることにより、例えば、座標によるフィルタと単語によるフィルタとを結合したフィルタ結合モデルが選択することができる。チェックボックス1505は、正誤判定結果より自動的に学習を行うか否かを選択するためのチェックボックスである。
抽出結果表示セクション1506は、フィルタ適用後の抽出結果を列挙して表示する。抽出結果表示セクション1506は、例えば、当該抽出結果に含まれる対象表現、当該対象表現の近傍語、及び当該対象表現を含む対象文全文を表示する。また、抽出結果表示セクション1506は、例えば、当該対象表現の座標を表示してもよい。抽出結果表示セクション1506は、例えば、リスト形式で表示されるが、リスト内の表示順序はフィルタ部107が算出したフィルタ適用時の値(例えば、R(wi)等の値)に従っていてもよい。正誤指定セクション1507は、例えば、抽出結果が適切であったか否かについて、利用者が正誤判定した結果の入力を受け付ける。
図16は、利用者へのユーザインターフェースの第二の例を示す。ユーザインターフェース1600は、ユーザインターフェース1500の構成に加え、例えば、フィルタ調整セクション1601〜1602を含む。
フィルタ調整セクション1601〜1602は、フィルタ学習及びフィルタ適用に関する情報の入力を受け付ける。フィルタ調整セクション1601は、例えば、線形識別によるフィルタ結合モデルにおける座標の重みの初期値の入力を受け付ける。フィルタ調整セクション1602は、例えば、線形識別によるフィルタ結合モデルにおける単語の重みの初期値の入力を受け付ける。
図15、又は図16のようにユーザインターフェースが構成されることで、利用者は、任意の文章、文、又は抽出結果に対し、適切な対象情報を与えることができ、更に、フィルタ調整を行いつつ情報抽出を行うことができる。また、利用者は、抽出結果に基づき、正誤判定を指定できるようになると共に、抽出結果に合わせて、対象情報を変更することができる。
以上、本実施例の情報抽出システム101によって、利用者は抽出対象の単語等を事前に調べることなく、試行錯誤的に情報抽出を行うことができる。つまり情報抽出システム101は、事前に辞書やHTML等の論理構造に依存せず、多様な非定形文書から、利用者が必要とする情報を高精度に抽出することができる。
図17には、情報抽出システムの第二の構成例を示す。情報抽出システム1701は、例えば、実施例1の情報抽出システム101と同様の構成を含む。情報抽出システム1701は、以下の点において、実施例1の情報抽出システム101と異なる。対象選定部106が、対象文書102の入力を受け付け、対象文書102から対象情報109に合致する文及び座標を選定し、文抽出部103及び座標抽出部104に対象選定結果を送信する。文抽出部103/座標抽出部104は、対象文書102ではなく対象選定結果から文/座標抽出を行う。
このように、情報抽出システム1701を構成することで、情報抽出システム1701は、利用者からの対象情報109に基づき、適切に情報抽出結果110を出力することができる。また、情報抽出システム1701は、情報抽出結果110を入力として、新たに対象情報を設定して情報抽出を行うことができる。
以上のように情報抽出システム1701を構成することで、利用者が、抽出対象の単語等を事前に調べることなく、試行錯誤的に情報抽出を行うことができるシステム・方法及びプログラムが実現できる。これにより、情報抽出システム1701は、多様な非定形文書から、事前に辞書やHTML等の論理構造に依存せず、利用者が必要とする情報を高精度に抽出することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
Claims (10)
- 対象文書から情報を抽出する情報抽出システムであって、
プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記プロセッサは、情報抽出処理を行い、
前記情報抽出処理において、
抽出対象の文字列の集合を示す対象情報の入力を受け付け、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、
前記フィルタ適用対象語集合に前記フィルタを適用して得られた抽出対象語集合を出力する、情報抽出システム。 - 請求項1に記載の情報抽出システムであって、
前記プロセッサは、
前記フィルタの生成において、前記近傍語それぞれが、抽出対象語であるか、抽出非対象であるフィルタ語であるか、を示すフラグそれぞれの設定処理を繰り返し、
前記設定処理において、
前記近傍語それぞれのフラグを取得し、
前記近傍語のフラグに対する同時確率が収束したと判定した場合、前記近傍語それぞれのフラグに従って、前記近傍語それぞれが抽出対象語であるかフィルタ語であるかを決定して、前記設定処理を終了し、
前記同時確率が収束していないと判定した場合、
抽出対象語であることを示すフラグに対応する近傍語の前記対象文書中の総出現頻度のうち、前記近傍語それぞれの前記対象文書中の出現頻度が占める割合に基づいて、前記近傍語それぞれについて当該近傍語が抽出対象語である第1確率を算出し、
フィルタ語であることを示すフラグに対応する近傍語の前記対象文書中の総出現頻度のうち、前記近傍語それぞれの前記対象文書中の出現頻度が占める割合に基づいて、前記近傍語それぞれについて当該近傍語がフィルタ語である第2確率を算出し、
前記近傍語それぞれの第1確率と第2確率との比に基づいて、次回の設定処理における前記近傍語それぞれのフラグを決定し、
前記フィルタの適用において、前記フィルタ適用対象語集合から、前記決定した抽出対象語を抽出する、情報抽出システム。 - 請求項2に記載の情報抽出システムであって、
前記プロセッサは、前記設定処理において、前記近傍語それぞれの間の類似度に基づいて、前記近傍語それぞれの第1確率を算出する、情報抽出システム。 - 請求項2に記載の情報抽出システムであって、
前記同時確率は、下記数式で表され、
- 請求項1に記載の情報抽出システムであって、
前記フィルタ適用対象語集合は前記対象表現を含み、
前記プロセッサは、
前記フィルタの生成において、前記対象表現それぞれの前記対象文書中の座標に基づいて、前記対象文書中の抽出対象である座標を示す確率変数の確率密度関数を推定し、
前記フィルタの適用において、前記推定した確率密度関数に基づいて、前記対象表現それぞれの座標について当該座標が抽出対象座標である確率を算出し、前記算出した確率が閾値以上である対象表現と当該対象表現の近傍語とを、前記フィルタ適用対象語集合から抽出する、情報抽出システム。 - 請求項5に記載の情報抽出システムであって、
表示装置をさらに含み、
前記プロセッサは、前記抽出対象語集合と、前記抽出対象語集合に含まれる対象表現の前記対象文書中の座標と、を前記表示装置に表示する、情報抽出システム。 - 請求項1に記載の情報抽出システムであって、
前記プロセッサは、前記対象文書から前記抽出対象語集合に含まれない語を削除した対象文書に対して、前記情報抽出処理を再度行う、情報抽出システム。 - 請求項1に記載の情報抽出システムであって、
前記プロセッサは、
前記フィルタの生成において、
前記教師なし学習に基づいて、複数のフィルタを生成し、
前記複数のフィルタの所定の重み値による重み付き和である第1フィルタ結合モデルを生成し、
前記フィルタ適用対象語集合に前記第1フィルタ結合モデルを適用し、
前記フィルタ適用対象語集合に前記第1フィルタ結合モデルを適用して得られた抽出語集合に含まれる抽出語それぞれの正誤を示す正誤情報の入力を受け付け、
前記第1フィルタ結合モデルと、前記正誤情報と、に基づいて、新たな重み値を決定し、
前記複数のフィルタの前記決定した新たな重み値による重み付き和である第2フィルタ結合モデルを生成し、
前記第2フィルタ結合モデルは前記適用するフィルタである、情報抽出システム。 - 情報抽出システムが、対象文書から情報を抽出する方法であって、
前記情報抽出システムは、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記方法は、前記情報抽出システムが、
抽出対象の文字列の集合を示す対象情報の入力を受け付け、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、
前記フィルタ適用対象語集合に前記フィルタを適用した結果データを出力する、方法。 - 対象文書からの情報抽出を、コンピュータに実行させるプログラムを保持する、コンピュータ読み取り可能な非一時的記録媒体であって、
前記コンピュータは、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記プログラムは、
抽出対象の文字列の集合を示す対象情報の入力を受け付ける手順と、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出する手順と、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成する手順と、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用する手順と、
前記フィルタ適用対象語集合に前記フィルタを適用した結果データを出力する手順と、を前記コンピュータに実行させる、コンピュータ読み取り可能な非一時的記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/065594 WO2016194054A1 (ja) | 2015-05-29 | 2015-05-29 | 情報抽出システム、情報抽出方法、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016194054A1 true JPWO2016194054A1 (ja) | 2017-08-31 |
JP6334062B2 JP6334062B2 (ja) | 2018-05-30 |
Family
ID=57441961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017521323A Expired - Fee Related JP6334062B2 (ja) | 2015-05-29 | 2015-05-29 | 情報抽出システム、情報抽出方法、及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6334062B2 (ja) |
WO (1) | WO2016194054A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259670A (ja) * | 1999-03-12 | 2000-09-22 | Dainippon Printing Co Ltd | 文書解析システム及び記録媒体 |
US20060080321A1 (en) * | 2004-09-22 | 2006-04-13 | Whenu.Com, Inc. | System and method for processing requests for contextual information |
JP2009129098A (ja) * | 2007-11-21 | 2009-06-11 | Kddi Corp | 情報検索装置およびコンピュータプログラム |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
JP2013140499A (ja) * | 2012-01-05 | 2013-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法及び装置及びプログラム |
-
2015
- 2015-05-29 WO PCT/JP2015/065594 patent/WO2016194054A1/ja active Application Filing
- 2015-05-29 JP JP2017521323A patent/JP6334062B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259670A (ja) * | 1999-03-12 | 2000-09-22 | Dainippon Printing Co Ltd | 文書解析システム及び記録媒体 |
US20060080321A1 (en) * | 2004-09-22 | 2006-04-13 | Whenu.Com, Inc. | System and method for processing requests for contextual information |
JP2009129098A (ja) * | 2007-11-21 | 2009-06-11 | Kddi Corp | 情報検索装置およびコンピュータプログラム |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
JP2013140499A (ja) * | 2012-01-05 | 2013-07-18 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法及び装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2016194054A1 (ja) | 2016-12-08 |
JP6334062B2 (ja) | 2018-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
JP2019008778A (ja) | 画像の領域のキャプション付加 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
DE102017005880A1 (de) | Fontersetzung auf Grundlage optischer Ähnlichkeit | |
US20160117405A1 (en) | Information Processing Method and Apparatus | |
US11379536B2 (en) | Classification device, classification method, generation method, classification program, and generation program | |
US9286526B1 (en) | Cohort-based learning from user edits | |
US9946813B2 (en) | Computer-readable recording medium, search support method, search support apparatus, and responding method | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
JP6492880B2 (ja) | 機械学習装置、機械学習方法、および機械学習プログラム | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
US20140207712A1 (en) | Classifying Based on Extracted Information | |
US20130202208A1 (en) | Information processing device and information processing method | |
US9437020B2 (en) | System and method to check the correct rendering of a font | |
US11972625B2 (en) | Character-based representation learning for table data extraction using artificial intelligence techniques | |
JP6334062B2 (ja) | 情報抽出システム、情報抽出方法、及び記録媒体 | |
JP2017151678A (ja) | トピック推定装置、トピック推定方法、およびプログラム | |
CN108733637B (zh) | 信息处理设备和信息处理方法 | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
JP4545614B2 (ja) | 文書分類プログラム及び文書分類装置 | |
WO2022215433A1 (ja) | 情報表現構造解析装置、および情報表現構造解析方法 | |
CN116991983B (zh) | 一种面向公司资讯文本的事件抽取方法及系统 | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6334062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |