JPWO2016194054A1

JPWO2016194054A1 - 情報抽出システム、情報抽出方法、及び記録媒体

Info

Publication number: JPWO2016194054A1
Application number: JP2017521323A
Authority: JP
Inventors: 太亮尾崎; 真岩山; 彬童; 義行小林; 高橋　寿一; 寿一高橋; 新庄　広; 広新庄
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2017-08-31
Anticipated expiration: 2035-05-29
Also published as: WO2016194054A1; JP6334062B2

Abstract

情報抽出システムは、抽出対象の文字列の集合を示す対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれの所定距離以内に配置された単語である近傍語と、を対象文書から抽出し、近傍語それぞれの対象文書中の出現頻度、又は対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、近傍語を含むフィルタ適用対象語集合に、フィルタを適用し、フィルタ適用対象語集合にフィルタを適用して得られた抽出対象語集合を出力する。

Description

本発明は、情報抽出システム、情報抽出方法、及び記録媒体に関する。

対象文書に記載されている情報を、機械処理可能な形で抽出し、様々な対象文書における分析を行う分析システムがある。分析システムは、例えば、対象文書であるショッピングウェブサイトから製造者名、商品名、及びシリーズ名等の所謂、固有名を抽出することができれば、製造者毎の製品情報の統計を行う等の分析を実施することができる。

このように、非定形の文書又は文書画像から、必要な情報を抽出する技術が知られている。本技術分野の背景技術として特開２０１３−２３２１２７号公報（特許文献１）がある。特許文献１には、「抜粋部１０１は、原文書が表示される画面において、相対的に大きく表示されるべき文字を原文書から抜粋することにより抜粋文書を得る。修正部１０３は、抜粋文書が画面に表示されるべき量が所定の量に収まらない場合、抜粋部１０１が文字を抜粋する相対的な大きさの基準を修正する。」と記載されている（要約参照）。

特開２０１３-２３２１２７号公報

分析システムは、例えば、予め用意された辞書や複数の雛型等を用いて、非定形文書から情報抽出を行う。しかし、非定型文書においては、すべての文書に対する適切な雛型を予め用意することができるとは限らない。また、抽出の対象となる単語の辞書を容易に得られるとは限らない。

また、特許文献１には、ウェブサイトにおいて、文の表示サイズに基づく情報抽出方法が開示されているが、利用者にとって必要な情報が、対象文書中に適切な表示サイズで記述されているとは限らないという問題がある。

本発明の一態様は、ウェブサイトや文書画像等の多様な非定形文書から、事前に用意された辞書、及びＨＴＭＬ等の論理構造等に依存せず、利用者が必要とする情報を高精度に抽出することを目的とする。

上記課題を解決するため、本発明の一態様は、以下の構成を採用する。対象文書から情報を抽出する情報抽出システムであって、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、前記プロセッサは、情報抽出処理を行い、前記情報抽出処理において、抽出対象の文字列の集合を示す対象情報の入力を受け付け、前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、前記フィルタ適用対象語集合に前記フィルタを適用して得られた抽出対象語集合を出力する、情報抽出システム。

本発明の一態様は、予め用意された辞書、及びＨＴＭＬ等の論理構造等に依存せず、多様な非定形文書から、利用者が必要とする情報を高精度に抽出することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

実施例１における情報抽出システムの全体構成例を示すブロック図である。実施例１における対象文書の一例であるショッピングウェブサイトの例を示す図である。実施例１における対象文書の一例である文書画像の例を示す図である。実施例１における蓄積部のデータ蓄積方法の例を示す図である。実施例１における対象選定処理の第一の例を示すフローチャートである。実施例１における対象選定処理の第二の例を示すフローチャートである。実施例１における対象選定結果の例を示す図である。実施例１におけるフィルタ部の構成例を示すブロック図である。実施例１におけるフィルタ学習処理の第一の例を示すフローチャートである。実施例１におけるフィルタ適用処理第一の例を示すフローチャートである。実施例１におけるフィルタ適用結果の例を示す図である。実施例１におけるフィルタ学習処理の第二の例を示すフローチャートである。実施例１におけるフィルタ適用処理の第二の例を示すフローチャートである。実施例１におけるフィルタ学習処理の第三の例を示すフローチャートである。実施例１におけるフィルタ適用処理の第三の例を示すフローチャートである。実施例１におけるユーザインターフェースの第一の例を示す図である。実施例１におけるユーザインターフェースの第二の例を示す図である。実施例２における情報抽出システムの全体構成例を示すブロック図である。

以下、本発明の実施形態について図面を参照して説明する。本実施形態は対象文書から情報を抽出する情報抽出システムを説明する。情報抽出システムは、抽出対象の文字列の集合を示す対象情報の入力を利用者から受け付けると、対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、対象表現それぞれと物理的距離が近い位置にある近傍語と、を対象文書から抽出する。情報抽出システムは、利用者により直接的に指定された抽出対象である対象表現のみならず、近傍語を取得することにより、対象表現に関連する利用者にとって必要な可能性のある情報を、辞書等を用いることなく広く取得することができる。

情報抽出システムは、近傍語それぞれの対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成する。情報抽出システムは、近傍語を含むフィルタ適用対象語集合に生成したフィルタを適用することで、辞書等を用いることなく、利用者にとって不要な近傍語を削除することができる、即ち利用者が必要とする情報を高精度に取得することができる。

図１は、情報抽出システムの構成例を示す。情報抽出システム１０１は、例えば、プロセッサ（ＣＰＵ）１１１、メモリ１１２、補助記憶装置１１３及び通信インターフェース１１４を有する計算機によって構成される。

プロセッサ１１１は、メモリ１１２に格納されたプログラムを実行する。メモリ１１２は、不揮発性の記憶素子であるＲＯＭ及び揮発性の記憶素子であるＲＡＭを含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ）などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ１１１が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

補助記憶装置１１３は、例えば、磁気記憶装置（ＨＤＤ）、フラッシュメモリ（ＳＳＤ）等の大容量かつ不揮発性の記憶装置であり、プロセッサ１１１が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、メモリ１１２又は補助記憶装置１１３から読み出されて、メモリ１１２にロードされて、プロセッサ１１１によって実行される。

情報抽出システム１０１は、入力インターフェース１１５及び出力インターフェース１１８を有してもよい。入力インターフェース１１５は、キーボード１１６やマウス１１７などが接続され、利用者からの入力を受けるインターフェースである。出力インターフェース１１８は、ディスプレイ装置１１９やプリンタなどが接続され、プログラムの実行結果を利用者が視認可能な形式で出力するインターフェースである。

通信インターフェース１１４は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。また、通信インターフェース１１４は、例えば、ＵＳＢ等のシリアルインターフェースを含む。

プロセッサ１１１が実行するプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなどなどのコンピュータ読み取り可能な可搬性の非一時的記憶媒体）又はネットワークを介して情報抽出システム１０１に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１１３に格納されてもよい。このため、情報抽出システム１０１は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

情報抽出システム１０１は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

情報抽出システム１０１は、例えば入力インターフェース１１５又は通信インターフェース１１４を介して、対象文書１０２と対象情報１０９の入力を受け付ける。対象文書１０２は、例えば、文書画像であってもよいしＨＴＭＬ及びＣＳＳ等で記述されたウェブサイトであってもよい。文書画像とは、紙等の媒体に印刷された文書が電子化された画像を示す。

対象情報１０９は、情報抽出の基点となる文字列集合の情報を示し、利用者によって指定される。対象情報１０９は、例えば、正規表現や単語、文、ワイルドカードを含む文、品詞、対象の文書ＩＤ、及び対象の文ＩＤの少なくとも１つを含む情報である。「￥？，？？？− ￥３，＊− ￥［１−４］，０００−」はワイルドカードの一例であり、「￥￥￥ｄ［，］．￥ｄ｛２，４｝−」は正規表現の一例である。情報抽出システム１０１は、対象文書１０２から、対象情報１０９によって指定された情報、及び対象情報１０９に基づく情報を抽出する。

メモリ１１２は、例えば、プログラムである文抽出部１０３、座標抽出部１０４、対象選定部１０６、及び結果生成部１０８を含む。また、メモリ１１２は、データを格納する領域である蓄積部１０５を含む。また、メモリ１１２は、データを格納する領域及びプログラムを含むフィルタ部１０７を含む。

プロセッサ１１１は、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。例えば、プロセッサ１１１は、文抽出部１０３に従って動作することで文抽出部として機能し、座標抽出部１０４に従って動作することで座標抽出部として機能する。さらに、プロセッサ１１１は、各プログラムが実行する複数の処理のそれぞれを実現する機能部としても動作する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

文抽出部１０３は、入力された対象文書１０２それぞれから文を抽出する。本実施例における文とは、対象文書１０２に含まれる全ての文字からなる文字列を、所定のルールで分割した１以上の文字からなる文字列それぞれを示し、必ずしも文法上の文とは一致しない概念である。句点、読点、カンマ、ピリオド、又はスペース等の所定の文字又は記号の間に挟まれた文字列は文の一例である。対象文書１０２に含まれる文法上の文は本実施例の文の一例である。また、対象文書１０２に含まれる単語それぞれは文の一例である。文抽出部１０３は、入力された対象文書１０２それぞれに文書ＩＤを、抽出した文それぞれに文ＩＤを付与する。

座標抽出部１０４は、文抽出部１０３が抽出した文それぞれの座標情報を抽出する。座標情報は、例えば、対象文書１０２の紙面又は表示装置における座標で表される。文全体を囲う最小サイズの矩形の対角を成す２頂点の座標は、文の座標情報の一例である。文抽出部１０３又は座標抽出部１０４の一方は、入力された対象文書に文書ＩＤを付与する。文抽出部１０３及び座標抽出部１０４は、例えば、ウェブブラウザのレンダリング機能及びＯＣＲ機能を含む。

蓄積部１０５は、例えば、対象文書１０２の文書ＩＤと、抽出された文と、抽出された文の文ＩＤ及び座標情報と、の対応を示す情報を保持する。対象選定部１０６は、蓄積部１０５が保持する情報を参照して、対象情報１０９に合致する文、合致する文の座標、及び合致する文の近傍語を選定し、選定した文、座標、及び近傍語をフィルタ部１０７に送信する。近傍語については後述する。なお、対象選定部１０６が選定した対象情報１０９に合致する文を、対象表現と呼ぶ。

フィルタ部１０７は、例えば、対象選定部１０６が選定した文座標、及び近傍語に基づき、選定した文、座標、及び近傍語から抽出対象外となる文、近傍語、及び座標を除去し、除去後の文、座標、及び近傍語を結果生成部１０８に送信する。

結果生成部１０８は、フィルタ部１０７から受信した文、座標、及び近傍語を適切な形式で、出力インターフェース１１８を介して、情報抽出結果１１０として出力する。また、結果生成部１０８は、蓄積部１０５に情報抽出結果１１０を適切な文書ＩＤを付与して後述する文データとして蓄積してもよい。

情報抽出システム１０１は上述の構成により、利用者から入力された対象情報１０９に基づき、適切に情報抽出結果１１０を出力することができる。また、情報抽出システム１０１は、情報抽出結果１１０から、新たに設定された対象情報１０９に基づいて、再度情報抽出を行うことができる。

図２Ａは、対象文書１０２の一例である、ショッピングウェブサイトの一例を示す。図２Ａのショッピングウェブサイトには、複数の同一種類の商品が列挙され、各商品についてそれぞれ異なる商品情報（製造者、固有名、値段等）が記載されている。図２Ａのようにウェブサイトが対象文書１０２である場合、文抽出部１０３及び座標抽出部１０４は、例えば、ウェブブラウザのレンダリング機能を利用して、文及び文の座標を抽出する。

図２Ｂは、対象文書１０２の一例である、文書画像の一例を示す。図２Ｂの文書画像には、石名、深さ、及び詳細が様々なレイアウトで表示されている。図２Ｂのように文書画像が対象文書１０２である場合、文抽出部１０３及び座標抽出部１０４は、例えば、ＯＣＲ機能を利用して、文及び文の座標を抽出する。

図３は、蓄積部１０５におけるデータ管理方法の一例を示す。文データ３００は、ＫｅｙＶａｌｕｅＳｔｏｒｅ（ＫＶＳ）と呼ばれる方法によって蓄積されたデータである。文データ３００は、文書ＩＤ３０１、文ＩＤ３０２、及び文情報３０３を含む。文書ＩＤ３０１は、対象文書１０２を一意に識別する情報である。文ＩＤ３０２は、各対象文書内の文を一意に識別する情報である。文情報３０３は、対応する文ＩＤの文及び当該文のアノテーション情報を含む。文の座標情報、及び文に含まれるフォント情報は、アノテーション情報の一例である。

ＫＶＳ方式を用いることによって、このように、所望のキーに対し、その値を複数の階層で保持することができる。情報抽出システム１０１は、例えば、所望の文書ＩＤ、又は文ＩＤが与えられた場合、対応する文を出力することができる。また、例えば、文書ＩＤのみが与えられた場合、情報抽出システム１０１は、対応する文ＩＤのリストを出力することができる。

なお、本実施形態及び他の実施形態において、情報抽出システム１０１が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

以下、対象選定部１０６による、選定方法の例を示す。図４は、対象選定部１０６による、正規表現を用いた選定方法の例を示す。対象選定部１０６は、文書ＩＤ、文ＩＤ、及び正規表現を含む対象情報１０９の入力を受け付ける（Ｓ４０１）。なお、対象情報１０９は、文書ＩＤ及び文ＩＤを含まなくてもよい。

続いて、対象選定部１０６は、対象情報１０９に含まれる文書ＩＤ及び文ＩＤに対応する対象文を蓄積部１０５の文データ３００から抽出し、各対象文中に対象情報１０９に含まれる正規表現に合致する表現、即ち対象表現が含まれるか否かを検査する。（Ｓ４０２）。なお、対象選定部１０６は、例えば、利用者の指示に従って、文データ３００から結果生成部１０８が生成した抽出対象語に含まれない語を削除したデータから、再度対象文の抽出を行ってもよい。これにより、情報抽出システム１０１は、一度フィルタリングされたデータにさらにフィルタを適用することができ、情報抽出の精度を高めることができる。また、対象情報１０９に文書ＩＤ及び文ＩＤが含まれていない場合、対象選定部１０６は、文データ３００に含まれる全ての文を対象文として抽出する。

全ての対象文中に対象表現が含まれない場合（Ｓ４０２：ｎｏ）、処理を終了する。対象表現が含まれる対象文が存在する場合、即ち対象情報１０９に含まれる対象表現を含む対象文が存在する場合（Ｓ４０２：ｙｅｓ）、対象選定部１０６は、対象表現、対象表現の座標、及び対象表現の近傍語を取得し、例えば、取得した情報と、対象表現が含まれる文ＩＤ及び文書ＩＤと、を対象選定結果データブロックに含め、フィルタ部１０７に出力する（Ｓ４０３）。対象選定結果データブロックについては後述する。

対象表現を囲う最小サイズの矩形座標、及び対象表現を含む対象文全体を囲う最小サイズの矩形座標は、対象表現の座標は、ステップＳ４０３において対象選定部１０６が出力する座標の一例である。また、対象表現の近傍語とは、文書中において当該対象表現と座標上で近い位置に存在する単語を示す。対象選定部１０６は、例えば、対象表現から所定距離以内にある、所定個数以内の単語を当該対象表現の近傍語として取得する。対象選定部１０６は、近傍語を取得することにより、例えば、利用者にとって必要な単語であり、かつ利用者が知らない単語、を取得することができる。

図５は、対象選定部１０６による、品詞を用いた選定方法の例を示す。対象選定部１０６は、文書ＩＤ、文ＩＤ、及び品詞を含む対象情報１０９の入力を受け付ける（Ｓ５０１）。対象選定部１０６は、対象情報１０９に含まれる文書ＩＤ、及び文ＩＤに対応する対象文を蓄積部１０５から抽出し、各対象文中に対象情報に含まれる品詞に合致する単語が存在するか否かを検査する（Ｓ５０２）。また、図４の説明と同様に、対象情報１０９は、文書ＩＤ及び文ＩＤを含まなくてもよいし、対象選定部１０６は、結果生成部１０８が生成した文データ３００から、対象文の抽出を行ってもよい。

全ての対象文中に対象表現が含まれない場合（Ｓ５０２：ｎｏ）、処理を終了する。対象表現が含まれる対象文が存在する場合、即ち対象情報１０９に含まれる合致する単語を含む対象文が存在する場合（Ｓ５０２：ｙｅｓ）、対象表現、座標、及び、対象表現の近傍語を取得し、取得した情報と、対象表現が含まれる文ＩＤ及び文書ＩＤと、を対象選定結果データブロックに含め、フィルタ部１０７に出力する（Ｓ５０３）。なお、対象選定部１０６は、例えば、一般的な形態素解析手法を用いて、文中の単語の認識及び品詞の同定を行えばよい。

なお、ステップＳ４０３及びステップＳ５０３の処理において、１つの対象文に複数の対象表現が含まれる場合、対象選定部１０６は、例えば、当該対象文において先頭から所定個数以内の対象表現を抽出してもよいし、当該対象文に含まれる全ての対象表現を抽出してもよい。

図４に正規表現を用いた対象選定の例、及び図５に品詞を用いた対象選定の例を示したが、対象選定部１０６は、ワイルドカードや単語等を含む対象情報１０９を用いた対象選定を同様に行うことができる。また、対象選定部１０６は、適宜、複数種類の対象情報１０９を、例えば論理和や論理積を用いて組み合わせて対象選定を行ってもよい。具体的には、対象選定部１０６は、例えば、特定の正規表現に合致し、かつ／又は特定の品詞を含む対象表現を抽出してもよい。

図６は、対象選定部１０６が生成する対象選定結果データブロックの例を示す。対象選定結果データブロック６００は、例えば、文書ＩＤ６０１、対象表現ＩＤ６０２、及び対象表現情報６０３を含み、例えば、ＫＶＳ方式で蓄積されたデータである。文書ＩＤ６０１は、対象文書１０２を一意に識別する情報である。対象表現ＩＤ６０２は、対象文書１０２中の対象表現を一意に識別する情報であり、例えば、対象選定部１０６によって付与される。対象表現情報６０３は、対象表現に関する情報であり、例えば、対象表現、近傍語、及び座標を含む。このように対象選定結果データブロック６００が構成されることにより、情報抽出システム１０１は、選定された対象毎に実際の表現、近傍語、座標を容易に取得することができる。

図７は、フィルタ部１０７の構成例を示す。フィルタ部１０７は、例えば、プログラムであるフィルタ学習部７０２及びフィルタ適用部７０４、並びにデータを格納する領域であるフィルタモデル蓄積部７０３を含む。

フィルタ部１０７に、対象表現、座標、及び近傍語を有する対象データ７０１が入力されると、フィルタ学習部７０２は対象データ７０１に含まれる所定の情報と、フィルタモデル蓄積部７０３に存在するフィルタモデルと、を取得し、取得した情報とモデルデータとに基づいて、フィルタモデルを学習する。

なお、対象選定結果データブロック６００は、対象データ７０１の一例である。なお、フィルタ学習部７０２は、フィルタ学習に際して、フィルタモデル蓄積部７０３のフィルタモデルを使用しなくてもよい。フィルタ学習部７０２は、生成したフィルタモデルを、フィルタモデル蓄積部７０３に送信し、フィルタモデル蓄積部７０３はフィルタモデルを蓄積する。

フィルタ適用部７０４は、フィルタモデル蓄積部７０３に存在する適切なフィルタモデルを対象データ７０１に対して適用する。最後にフィルタ適用部７０４においてフィルタが適用された結果データ７０５を出力する。

図８は、フィルタ学習部７０２によるフィルタ学習処理の一例を示す。図８におけるフィルタ学習手法は、所謂、教師なし学習手法である。フィルタ学習部７０２は、対象データ７０１に含まれる単語を取得し、文データ３００における当該単語の出現頻度を取得する（Ｓ８０１）。例えば、対象データ７０１に含まれる近傍語は、ステップＳ８０１において、フィルタ学習部７０２が取得する単語である。また、ステップＳ８０１において、フィルタ学習部７０２は、例えば、対象表現を形態素解析することにより得られる単語を併せて取得してもよい。以下、取得した単語をｗ_１，…，ｗ_ｎとする。

なお、フィルタ学習部７０２は、ステップＳ８０１において、文書ＩＤ等で指定された学習範囲のみにおける単語及び、当該学習範囲における当該単語の出現頻度を取得してもよく、このとき以降の処理についても当該学習範囲に対して行う。当該学習範囲は、例えば、利用者等によって指定される。

フィルタ学習部７０２は、ステップＳ８０１で取得した単語ｗ_ｉ（１≦ｉ≦ｎ）それぞれに対して、変数χ_ｉ（０または１）、変数π_ｉｊ（０≦π_ｉｊ≦１，１≦ｊ≦ｎ）、及び実数パラメータθ_ｉの各初期値を、各定義域の範囲内において、設定する（Ｓ８０２）。フィルタ学習部７０２は、初期値の設定において、例えばχ_ｉを全て1とし、π_ｉｊ及びθ_ｉを予め定められた値とすることができる。また、フィルタ学習部７０２は、各初期値を、各定義域の範囲内において、乱数的に設定してもよい。

続いて、フィルタ学習部７０２は、単語ｗ_ｉそれぞれに対して、Ｒ（ｗ_ｉ）＝Ｐ_Ｄ／Ｐ_Ｎを計算する（Ｓ８０３）。ここで、Ｐ_Ｄはｗ_ｉが抽出対象の単語である確率であり、Ｐ_Ｎは単語ｗ_ｉがフィルタ語である確率である。以下、Ｐ_Ｄ及びＰ_Ｎの算出方法について説明する。フィルタ学習部７０２は各単語ｗ_ｉについて、Ｐ_Ｄを例えば以下のように計算する。

ここで、χ_ｉは、単語ｗ_ｉが抽出対象の単語であるか否かを表すフラグであり、χ_ｉ＝１のとき単語ｗ_ｉが抽出対象の単語である、χ_ｉ＝０のとき単語ｗ_ｉが抽出対象の単語でない即ちフィルタ語である、ことを示す。π_ｉｊは単語ｗ_ｉが単語ｗ_ｊから派生している確率である。なお、「単語ｗ_ｉがｗ_ｊから派生している」とは、文抽出部１０３が、対象文書中の単語ｗ_ｊを、例えばＯＣＲエラー等により、単語ｗ_ｉと誤って抽出してしまった状態を示す。

また、ｄ_ｍ（ｗ_ｉ，ｗ_ｊ）は単語ｗ_ｉと単語ｗ_ｊの類似度を示し、類似度として例えば編集距離が用いられる。Ｐ（ｗ_ｉ｜χ_ｉ＝１）は、χ_ｉ＝１である全ての単語の総出現頻度のうち、単語ｗ_ｉの出現頻度が占める割合を示す。フィルタ学習部７０２は、Ｐ_Ｄの算出に、ｄ_ｍやπ_ｉｊを利用することにより、ＯＣＲエラー等により誤って認識されている単語に対しても、高精度にフィルタ学習を行うことができる。ここで、フィルタ学習部７０２は、Ｐ（ｄ_ｍ｜θ）を例えば、以下のように計算する。

ここでは、フィルタ学習部７０２は、ポアソン分布を用いてＰ（ｄ_ｍ｜θ）を計算しているが、単語の生成モデルに合わせて適当な確率密度関数を用いることができる。フィルタ学習部７０２は、例えば、ベルヌーイ分布、二項分布、多項分布、正規分布、指数分布、ｔ分布、カイ２乗分布、ガンマ分布、ベータ分布、Ｆ分布、又はラプラス分布等の指数分布族の他の分布を用いてもよい。一方、フィルタ学習部７０２は、Ｐ_Ｎを、例えば、以下のように計算する。

Ｐ（ｗ_ｉ｜χ_ｉ＝０）は、χ_ｉ＝０である全ての単語の総出現頻度のうち、単語ｗ_ｉの出現頻度が占める割合を示す。フィルタ学習部７０２は、Ｒ（ｗ_i）＞１である全ての単語について、変数χ_ｉの値を１に再設定し、Ｒ（ｗ_i）≦１である全ての単語について変数χ_ｉの値を０に再設定し、再設定したχ_ｉに基づいてπ_ｉｊ及びθ_ｉを再設定する（Ｓ８０４）。なお、フィルタ学習部７０２は、Ｒ（ｗ_i）≧１である全ての単語について、変数χ_ｉの値を１に再設定し、Ｒ（ｗ_i）＜１である全ての単語について変数χ_ｉの値を０に再設定してもよい。

ステップＳ８０４において、フィルタ学習部７０２は、このようにＲ（ｗ_ｉ）に基づき、変数χ_ｉの値を再設定するが、この際の閾値を上記例のように、１としてもよいし、Ｒ（ｗ_ｉ）の定義域内（０以上の実数）の他の値としてもよい。ここで、利便性のために、変数γ_ｉｋ（１≦ｋ≦ｎ）を以下のように定義する。

また、変数Γ_ｉを以下のように定義する。

フィルタ学習部７０２は、以上の値を用いて、π_ｉｊを例えば、以下のように再設定する。

また、フィルタ学習部７０２は、パラメータθ_ｋを例えば、以下のように再設定する。

なお、上述したパラメータθ_ｋの再設定の例は、Ｐ（ｄ_ｍ｜θ）の算出にポワソン分布が用いられた場合に対応するものである。Ｐ（ｄ_ｍ｜θ）の算出にポワソン分布以外の分布が用いられた場合、フィルタ学習部７０２は、例えば、以下に示すθ_ｋについての更新式を解くことにより、θ_ｋを再設定する。

続いて、フィルタ学習部７０２は、全単語における現在のパラメータに対する同時確率を以下のように計算する（Ｓ８０５）。

フィルタ学習部７０２は、上記の同時確率が収束したか否かを判定する（Ｓ８０６）。フィルタ学習部７０２は、例えば、同時確率が所定範囲に含まれる値であった場合に同時確率が収束したと判定する。また、フィルタ学習部７０２は、例えば、上記の同時確率と前回計算した同時確率とを比較して、一定値又は一定比以上、上昇しなかった場合に、同時確率が収束したと判定してもよい。

フィルタ学習部７０２が、同時確率が収束したと判定した場合（Ｓ８０６；ｙｅｓ）、処理を終了する。フィルタ学習部７０２が、同時確率が収束していないと判定した場合（Ｓ８０６：ｎｏ）、ステップＳ８０３に戻る。

フィルタ学習部７０２は、処理終了時点における単語ｗ_ｉそれぞれに対応するχ_ｉの値に従って、単語ｗ_ｉそれぞれが抽出対象語であるかフィルタ語であるかを選定することができる。フィルタ学習部７０２は、例えば、抽出対象語の集合と、フィルタ語の集合と、フィルタモデル蓄積部７０３に送信する。

図９は、フィルタ適用部７０４によるフィルタ適用処理の一例を示す。図９におけるフィルタ適用処理は、図８におけるフィルタ学習処理を用いる例を示す。フィルタ適用部７０４は、フィルタモデル蓄積部７０３から抽出対象語の集合を取得し、対象データ７０１からフィルタ適用対象語集合を取得する（Ｓ９０１）。フィルタモデル蓄積部７０３が保持する抽出対象語の集合は、図８に示した教師なし学習手段によって得られた集合である。対象データ７０１に含まれる近傍語からなる集合はフィルタ適用対象語集合の一例である。フィルタ適用部７０４は、例えば、対象データ７０１に含まれる対象表現に対する形態素解析により得られた単語を、フィルタ適用対象語集合に含めてもよい。

続いて、フィルタ適用部７０４は、フィルタ適用対象語集合に抽出対象語が含まれているかを検査する（Ｓ９０２）。この際、フィルタ適用部７０４は、フィルタ適用対象語集合の単語それぞれと抽出対象語それぞれとの完全一致による検査を行ってもよいし、編集距離などの単語間の類似性に基づく尺度によって検査を行ってもよい。

また、フィルタ適用部７０４は、抽出対象語の全てを含むかどうかの検査を行ってもよいし、一つ又は複数の抽出対象語を含むかどうかの検査を行ってもよい。フィルタ適用部７０４が、フィルタ適用対象語集合に抽出対象語が含まれていないと判定した場合（Ｓ９０２：ｎｏ）、フィルタ適用対象語集合の単語は全てフィルタ語であるため、何も出力せず、処理を終了する。

フィルタ適用部７０４が、フィルタ適用対象語集合に抽出対象語が含まれていると判定した場合（Ｓ９０２：ｙｅｓ）、フィルタ適用部７０４は、フィルタ適用後の結果データ７０５を出力し（Ｓ９０３）、処理を終了する。対象データ７０１から、フィルタ語と、フィルタ語に対応する座標と、を除去したデータは、フィルタ適用後の結果データ７０５の一例である。

図１０は、フィルタ部１０７による、単語に対するフィルタ結果の例を示す。「正解」は実際に対象とすべき単語を示し、「不正解」は実際に対象ではない単語を示す。「取得」は前述の教師なし学習によって、抽出対象語であると判定された単語を示し、「非取得」は前述の教師なし学習手法によって、フィルタ語であると判定された単語を示す。抽出対象語においては、（正解かつ取得）/｛（正解かつ取得）＋（不正解かつ取得）｝で定義される精度７５％、（正解かつ取得）/｛（正解かつ取得）＋（正解かつ非取得）｝で定義される再現率５６．８％であった。情報抽出システム１０１は前述した方法により、多くの単語から、少数の抽出対象語を、教師によらず判定できる。

図１１は、フィルタ学習部７０２によるフィルタ学習処理の第二の例を示す。本例は、座標に対するフィルタの学習処理である。フィルタ学習部７０２は、対象データ７０１中の対象表現の座標情報を取得する（Ｓ１１０１）。なお、フィルタ学習部７０２は、例えば、対象データ中の近傍語の座標情報を併せて取得してもよい。

続いて、フィルタ学習部７０２は、実数パラメータηの初期値を設定する（Ｓ１１０２）。ηの初期値は、予め指定されていてもよいし、例えば利用者などによって指定されてもよい。ηの初期値は、対象文書１０２のサイズに従って指定されるのが好ましく、具体的には、例えば、対象文書１０２の１行の面積を所定の増加関数に代入して得られる値に指定されるのが好ましい。また、ηは、抽出結果に合わせて調整されてもよい。続いて、フィルタ学習部７０２は、カーネル密度推定の関数ｐ（ｘ）を以下の数式に従って学習し（Ｓ１１０３）、学習した結果を出力して終了する。ｐ（ｘ）は、座標ｘが抽出対象の座標である確率密度を示す。

ここで、ＮはステップＳ１１０１で取得した座標の数、Ｄは座標の次元、ｘは任意の座標を示す変数、ｘ_ｎはステップＳ１１０１で取得した各座標を示す。図１１の例において、フィルタ学習部７０２はカーネル密度推定を用いて確率密度の推定を行っているが、例えば、ｋ近傍法、ヒストグラム法、又は混合ガウス分布などの他の確率密度推定法を用いてもよい。

図１２は、フィルタ適用部７０４によるフィルタ適用処理の第二の例を示す。本例は、図１１に示した座標に対するフィルタを適用する処理である。フィルタ適用部７０４は、対象データ７０１に含まれる対象表現及び対象表現の座標、並びに閾値を取得する（Ｓ１２０１）。閾値は、利用者などより与えられてもよいし、予め設定されていてもよいし、出力結果の正否判定に基づいてフィルタ適用部７０４によって設定されてもよい。

フィルタ適用部７０４は、取得した座標それぞれを図１１で例示した座標に対するフィルタモデルｐ（ｘ）に代入して、取得した座標それぞれの尤度（確率値）を算出し、算出した尤度それぞれが取得した閾値以上であるか否かを判定する（Ｓ１２０２）。フィルタ適用部７０４は、算出した全ての尤度が閾値より小さいと判定した場合（Ｓ１２０２：ｎｏ）、抽出対象の座標が存在しないため、処理を終了する。

フィルタ適用部７０４は、閾値以上である尤度が存在すると判定した場合（Ｓ１２０２：ｙｅｓ）、フィルタ適用後の結果データ７０５を出力し（Ｓ１２０３）、処理を終了する。閾値未満である尤度に対応する座標の対象表現、当該対象表現の近傍語、及び当該対象表現の座標を除去した対象データ７０１は、フィルタ適用後の結果データ７０５の一例である。なお、図１１及び図１２に示した座標に対するフィルタが用いられる場合、対象選定部１０６は、対象表現の近傍語を取得しなくてもよい。

図１３は、フィルタ学習部７０２によるフィルタ学習処理の第三の例を示す。本例は、複数のフィルタモデルを結合するフィルタ学習処理である。フィルタ学習部７０２は、対象データ７０１と複数のフィルタモデルを取得する（Ｓ１３０１）。

フィルタ学習部７０２は、取得した複数のフィルタモデルから生成されるフィルタ結合モデルを初期化する（Ｓ１３０２）。フィルタ結合モデルは、例えば、各フィルタモデルが出力する値又は判定結果を数値化したものを入力とする、例えば、線形識別、サポートベクタマシン、決定木などの機械学習等を利用することができる。例えば、複数のフィルタモデルの重み付き和でフィルタ結合モデルが定義されている場合、フィルタ学習部７０２は、フィルタ結合モデルの初期化において、重みを初期化する。

フィルタ学習部７０２は、正誤情報、又は重み情報に基づき、フィルタ結合モデルを学習する（Ｓ１３０３）。以下、フィルタ結合モデルに線形識別が用いられる例を説明する。フィルタ学習部７０２は、下記の不等式が成立する場合にフィルタすると判定し、成立しない場合にフィルタしないと判定する。

フィルタ学習部７０２は、上記不等式が示す線形識別において、各フィルタモデルの出力値を要素とするスコアベクトルＸとフィルタモデル毎に設定された実数ベクトルＷとの内積Ｓを算出し、算出した内積Ｓと閾値Ｕとを比較する。以下、内積Ｓをフィルタ結合モデルによる出力値と呼ぶ。

フィルタ学習部７０２は、フィルタ結果に対する正誤情報の入力を利用者から受け付けてもよい。フィルタ学習部７０２は、入力された正誤情報（正誤情報を行列化したものをＴとする）に基づいて、例えば、下記の数式が示す二乗和誤差等の評価関数Ｅを最適化することにより、適切なＷを再設定してもよい。

また、利用者により、重み情報が与えられた場合は、フィルタ学習部７０２は、当該重み情報を実数行列Ｗと設定してもよい。また、重み情報（重み情報を行列化したものをＶとする）と共に正誤情報が与えられた場合は、フィルタ学習部７０２は、下記数式のように評価関数内における実数行列Ｗの重み実数行列Ｖとして設定して、最適化を実行してもよい。

また、フィルタ学習部７０２は、再設定したＷに対するフィルタ結果に対する正誤情報の入力を再度受けつけ、再度受け付けた正誤情報に基づいて、Ｗを再設定する処理を繰り返してもよい。評価関数上述したフィルタ方法は、識別モデルとその評価関数を適切に定義すれば、線形識別に限定されず適用可能である。

図１４は、フィルタ適用部７０４によるフィルタ適用処理の第三の例を示す。本例は、フィルタ結合モデルにおけるフィルタの適用処理である。

フィルタ適用部７０４は、対象データ７０１、複数のフィルタモデル、及び当該複数のフィルタモデルが結合されたフィルタ結合モデルを取得する（Ｓ１４０１）。続いて、フィルタ適用部７０４は、対象データ７０１を取得した各フィルタモデルに入力し、各フィルタモデルの出力値を取得する（Ｓ１４０２）。

続いて、フィルタ適用部７０４は、Ｓ１４０２で算出した各フィルタモデルの出力値を、フィルタ結合モデルに入力し、フィルタ結合モデルの出力値を取得する（Ｓ１４０３）。続いて、フィルタ適用部７０４は、フィルタ結合モデルの出力値が、例えば閾値Ｕ以上であるか否かを判定する（Ｓ１４０４）。フィルタ結合モデルの出力値が、閾値Ｕより小さい場合（Ｓ１４０４：ｎｏ）、処理を終了する。

フィルタ結合モデルの出力値が、閾値Ｕ以上である場合（Ｓ１４０４：ｙｅｓ）、フィルタ適用部７０４は、フィルタ適用後の結果データ７０５を出力して終了する（Ｓ１４０５）。

図１５は、利用者へのユーザインターフェースの第一の例を示す。ユーザインターフェース１５００は、例えば、対象ＩＤ入力セクション１５０１、対象情報入力セクション１５０２、フィルタ調整用のチェックボックス１５０３〜１５０５、抽出結果表示セクション１５０６、及び正誤指定セクション１５０７を含む。

対象ＩＤ入力セクション１５０１は、例えば、文データ３００に含まれる文ＩＤ、文書ＩＤ、及び対象選定結果データブロック６００に含まれる対象ＩＤ等の入力を受け付ける。対象情報入力セクション１５０２は、例えば対象情報１０９の入力を受け付ける。

チェックボックス１５０３〜１５０４は、学習及び適用するフィルタを選択するためのチェックボックスである。例えば、チェックボックス１５０３は座標によるフィルタ、チェックボックス１５０４は単語によるフィルタ、を選択するためのチェックボックスである。利用者は、例えば、チェックボックス１５０３、及びチェックボックス１５０４の双方にチェックを入れることにより、例えば、座標によるフィルタと単語によるフィルタとを結合したフィルタ結合モデルが選択することができる。チェックボックス１５０５は、正誤判定結果より自動的に学習を行うか否かを選択するためのチェックボックスである。

抽出結果表示セクション１５０６は、フィルタ適用後の抽出結果を列挙して表示する。抽出結果表示セクション１５０６は、例えば、当該抽出結果に含まれる対象表現、当該対象表現の近傍語、及び当該対象表現を含む対象文全文を表示する。また、抽出結果表示セクション１５０６は、例えば、当該対象表現の座標を表示してもよい。抽出結果表示セクション１５０６は、例えば、リスト形式で表示されるが、リスト内の表示順序はフィルタ部１０７が算出したフィルタ適用時の値（例えば、Ｒ（ｗ_ｉ）等の値）に従っていてもよい。正誤指定セクション１５０７は、例えば、抽出結果が適切であったか否かについて、利用者が正誤判定した結果の入力を受け付ける。

図１６は、利用者へのユーザインターフェースの第二の例を示す。ユーザインターフェース１６００は、ユーザインターフェース１５００の構成に加え、例えば、フィルタ調整セクション１６０１〜１６０２を含む。

フィルタ調整セクション１６０1〜１６０２は、フィルタ学習及びフィルタ適用に関する情報の入力を受け付ける。フィルタ調整セクション１６０１は、例えば、線形識別によるフィルタ結合モデルにおける座標の重みの初期値の入力を受け付ける。フィルタ調整セクション１６０２は、例えば、線形識別によるフィルタ結合モデルにおける単語の重みの初期値の入力を受け付ける。

図１５、又は図１６のようにユーザインターフェースが構成されることで、利用者は、任意の文章、文、又は抽出結果に対し、適切な対象情報を与えることができ、更に、フィルタ調整を行いつつ情報抽出を行うことができる。また、利用者は、抽出結果に基づき、正誤判定を指定できるようになると共に、抽出結果に合わせて、対象情報を変更することができる。

以上、本実施例の情報抽出システム１０１によって、利用者は抽出対象の単語等を事前に調べることなく、試行錯誤的に情報抽出を行うことができる。つまり情報抽出システム１０１は、事前に辞書やＨＴＭＬ等の論理構造に依存せず、多様な非定形文書から、利用者が必要とする情報を高精度に抽出することができる。

図１７には、情報抽出システムの第二の構成例を示す。情報抽出システム１７０１は、例えば、実施例１の情報抽出システム１０１と同様の構成を含む。情報抽出システム１７０１は、以下の点において、実施例１の情報抽出システム１０１と異なる。対象選定部１０６が、対象文書１０２の入力を受け付け、対象文書１０２から対象情報１０９に合致する文及び座標を選定し、文抽出部１０３及び座標抽出部１０４に対象選定結果を送信する。文抽出部１０３／座標抽出部１０４は、対象文書１０２ではなく対象選定結果から文／座標抽出を行う。

このように、情報抽出システム１７０１を構成することで、情報抽出システム１７０１は、利用者からの対象情報１０９に基づき、適切に情報抽出結果１１０を出力することができる。また、情報抽出システム１７０１は、情報抽出結果１１０を入力として、新たに対象情報を設定して情報抽出を行うことができる。

以上のように情報抽出システム１７０１を構成することで、利用者が、抽出対象の単語等を事前に調べることなく、試行錯誤的に情報抽出を行うことができるシステム・方法及びプログラムが実現できる。これにより、情報抽出システム１７０１は、多様な非定形文書から、事前に辞書やＨＴＭＬ等の論理構造に依存せず、利用者が必要とする情報を高精度に抽出することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims

対象文書から情報を抽出する情報抽出システムであって、
プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記プロセッサは、情報抽出処理を行い、
前記情報抽出処理において、
抽出対象の文字列の集合を示す対象情報の入力を受け付け、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、
前記フィルタ適用対象語集合に前記フィルタを適用して得られた抽出対象語集合を出力する、情報抽出システム。
請求項１に記載の情報抽出システムであって、
前記プロセッサは、
前記フィルタの生成において、前記近傍語それぞれが、抽出対象語であるか、抽出非対象であるフィルタ語であるか、を示すフラグそれぞれの設定処理を繰り返し、
前記設定処理において、
前記近傍語それぞれのフラグを取得し、
前記近傍語のフラグに対する同時確率が収束したと判定した場合、前記近傍語それぞれのフラグに従って、前記近傍語それぞれが抽出対象語であるかフィルタ語であるかを決定して、前記設定処理を終了し、
前記同時確率が収束していないと判定した場合、
抽出対象語であることを示すフラグに対応する近傍語の前記対象文書中の総出現頻度のうち、前記近傍語それぞれの前記対象文書中の出現頻度が占める割合に基づいて、前記近傍語それぞれについて当該近傍語が抽出対象語である第１確率を算出し、
フィルタ語であることを示すフラグに対応する近傍語の前記対象文書中の総出現頻度のうち、前記近傍語それぞれの前記対象文書中の出現頻度が占める割合に基づいて、前記近傍語それぞれについて当該近傍語がフィルタ語である第２確率を算出し、
前記近傍語それぞれの第１確率と第２確率との比に基づいて、次回の設定処理における前記近傍語それぞれのフラグを決定し、
前記フィルタの適用において、前記フィルタ適用対象語集合から、前記決定した抽出対象語を抽出する、情報抽出システム。
請求項２に記載の情報抽出システムであって、
前記プロセッサは、前記設定処理において、前記近傍語それぞれの間の類似度に基づいて、前記近傍語それぞれの第１確率を算出する、情報抽出システム。
請求項２に記載の情報抽出システムであって、
前記同時確率は、下記数式で表され、

上記数式における、ｉ及びｊは近傍語の個数以下の自然数を、ｗ_ｉ及びｗ_ｊは近傍語を、χ_ｉは近傍語ｗ_ｉの前記フラグを、χ_ｊは近傍語ｗ_ｊの前記フラグを、π_ｉｊは単語ｗ_ｉが単語ｗ_ｊから派生している確率を、ｄ_ｍ（ｗ_ｉ，ｗ_ｊ）は近傍語ｗ_ｉと近傍語ｗ_ｊの類似度、Ｐ（ｗ_ｊ｜χ_ｊ＝１）はχ_ｊ＝１である全ての近傍語の総出現頻度に占める近傍語ｗ_ｊの出現頻度の割合を、Ｐ（ｗ_ｉ｜χ_ｉ＝０）はχ_ｉ＝０である全ての近傍語の総出現頻度に占める近傍語ｗ_ｉの出現頻度の割合を、Ｐ（ｄ_ｍ（ｗ_ｉ，ｗ_ｊ）｜θ_ｊ）は所定の確率分布の確率密度関数であって、パラメータがθ_ｊである確率密度関数において確率変数がｄ_ｍ（ｗ_ｉ，ｗ_ｊ）であるときの確率を、示す、情報抽出システム。
請求項１に記載の情報抽出システムであって、
前記フィルタ適用対象語集合は前記対象表現を含み、
前記プロセッサは、
前記フィルタの生成において、前記対象表現それぞれの前記対象文書中の座標に基づいて、前記対象文書中の抽出対象である座標を示す確率変数の確率密度関数を推定し、
前記フィルタの適用において、前記推定した確率密度関数に基づいて、前記対象表現それぞれの座標について当該座標が抽出対象座標である確率を算出し、前記算出した確率が閾値以上である対象表現と当該対象表現の近傍語とを、前記フィルタ適用対象語集合から抽出する、情報抽出システム。
請求項５に記載の情報抽出システムであって、
表示装置をさらに含み、
前記プロセッサは、前記抽出対象語集合と、前記抽出対象語集合に含まれる対象表現の前記対象文書中の座標と、を前記表示装置に表示する、情報抽出システム。
請求項１に記載の情報抽出システムであって、
前記プロセッサは、前記対象文書から前記抽出対象語集合に含まれない語を削除した対象文書に対して、前記情報抽出処理を再度行う、情報抽出システム。
請求項１に記載の情報抽出システムであって、
前記プロセッサは、
前記フィルタの生成において、
前記教師なし学習に基づいて、複数のフィルタを生成し、
前記複数のフィルタの所定の重み値による重み付き和である第１フィルタ結合モデルを生成し、
前記フィルタ適用対象語集合に前記第１フィルタ結合モデルを適用し、
前記フィルタ適用対象語集合に前記第１フィルタ結合モデルを適用して得られた抽出語集合に含まれる抽出語それぞれの正誤を示す正誤情報の入力を受け付け、
前記第１フィルタ結合モデルと、前記正誤情報と、に基づいて、新たな重み値を決定し、
前記複数のフィルタの前記決定した新たな重み値による重み付き和である第２フィルタ結合モデルを生成し、
前記第２フィルタ結合モデルは前記適用するフィルタである、情報抽出システム。
情報抽出システムが、対象文書から情報を抽出する方法であって、
前記情報抽出システムは、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記方法は、前記情報抽出システムが、
抽出対象の文字列の集合を示す対象情報の入力を受け付け、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出し、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成し、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用し、
前記フィルタ適用対象語集合に前記フィルタを適用した結果データを出力する、方法。
対象文書からの情報抽出を、コンピュータに実行させるプログラムを保持する、コンピュータ読み取り可能な非一時的記録媒体であって、
前記コンピュータは、プログラムを実行するプロセッサと、前記プロセッサがアクセスするメモリと、を含み、
前記プログラムは、
抽出対象の文字列の集合を示す対象情報の入力を受け付ける手順と、
前記対象情報に含まれる文字列のいずれかに合致する文字列である対象表現と、前記対象表現それぞれの所定距離以内に配置された単語である近傍語と、を前記対象文書から抽出する手順と、
前記近傍語それぞれの前記対象文書中の出現頻度、又は前記対象表現それぞれの前記対象文書中の座標、に基づく教師なし学習を用いてフィルタを生成する手順と、
前記近傍語を含むフィルタ適用対象語集合に、前記フィルタを適用する手順と、
前記フィルタ適用対象語集合に前記フィルタを適用した結果データを出力する手順と、を前記コンピュータに実行させる、コンピュータ読み取り可能な非一時的記録媒体。