WO2022201578A1

WO2022201578A1 - 文書情報抽出システム、および文書情報抽出方法

Info

Publication number: WO2022201578A1
Application number: PCT/JP2021/029973
Authority: WO
Inventors: 絵理照屋; 理竹内
Original assignee: 株式会社日立製作所
Priority date: 2021-03-24
Filing date: 2021-08-17
Publication date: 2022-09-29
Also published as: JP2022148430A

Abstract

機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量の設定を支援する。文書情報抽出システムは、文書群を管理し、機械学習のモデルを用いて文書群の文書から情報を抽出し、モデルのパラメータを構成する複数の特徴量と、特徴量の夫々について情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶し、複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、評価対象特徴量の抽出元の１つ以上の文章と、評価対象特徴量に現在設定されている重みと、を表示しつつ、評価対象特徴量の作用種別または重みの設定を受け付け、受け付けた作用種別または重みに基づきパラメータを更新する。

Description

文書情報抽出システム、および文書情報抽出方法

　本発明は、文書情報抽出システム、および文書情報抽出方法に関する。

　本出願は、２０２１年３月２４日に出願された日本特許出願２０２１－０５０１０８号に基づく優先権を主張し、その開示全体を援用して本出願に取り込むものである。

　特許文献１には、入力データから抽出される複数の特徴量から、入力データの分類に用いる特徴量を選択する情報処理装置について記載されている。上記情報処理装置は、入力データから抽出される複数の特徴量の組み合わせを生成し、生成した組み合わせに対して、入力データの分類の判定に適しているか否かを評価する第一評価値を算出し、特徴量の組み合わせを評価する第二評価値を算出する際に使用するパラメータを複数生成し、複数のパラメータごとに第一評価値に基づき第二評価値を算出し、複数のパラメータごとに第二評価値に基づいて特徴量を選択し特徴量のサブセットを生成して、特徴量の組み合わせの選択において特徴量の選択を行えるようにする。

　特許文献２には、音声認識や画像認識における特徴量の分類を行う特徴量分類システムに関して記載されている。特徴量分類システムは、与えられた特徴量を変換すると共に、教師データである正解クラスラベルを用いて特徴量変換を行うための識別基準の学習を行う特徴量変換器と、特徴量変換器で変換された変換特徴量を分類する分類器とを備え、特徴量変換器は、他の特徴量分類システムの分類器の誤り傾向を考慮すべく、上記学習に際して他の特徴量分類システムの分類器の事後確率を用い、他の特徴量変換器とは異なる特徴量変換を行う。

特開２０１７－１０３１８号公報国際公開第２０１６／０２１０６０号

　膨大な文書の中から有用な情報を抽出する方法として、固有表現抽出等の機械学習の仕組みを用いて文書から単語や関連語を抽出する技術がある。しかし機械学習の仕組みによって質の高い情報を抽出するには、モデルの特徴量を適切に設定する必要がある。ここで文書からの情報の抽出に用いる特徴量とは、例えば、単語の最終語や単語の左右に出現する単語等の文の性質である。こうした特徴量の設定を適切に行うには、抽出対象となる情報についての知識（ドメイン知識）を有しているだけでなく、機械学習についての知識や経験も必要とされ、特徴量の設定にかかる人的負荷が高いことが課題となっている。

　特許文献１には、入力データの分類に用いる特徴量を選択する技術に関して記載されている。しかし同文献に記載の技術は、検査対象物を撮影した画像から画素値の平均や分散等の特徴量群を抽出する技術に関するものであり、文書から有用な情報を抽出する技術に関するものではない。また、同文献では、入力データから抽出される複数の特徴量の組み合わせについて機械的な総当たり方式で特徴量を選択しており、抽出精度を得るために相当な数の学習データを準備する必要もある。

　特許文献２には、音声認識や画像認識における特徴量を分類する技術に関して記載されている。しかし同文献には、与えられた特徴量の分類に用いる分類器の調整に関する技術が記載されているに過ぎず、特徴量の設定に関する技術については記載されていない。

　本発明は、このような背景に鑑みてなされたものであり、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量の設定を支援する仕組みを備えた文書情報抽出システム、および文書情報抽出方法を提供することを目的とする。

　上記目的を達成するための本発明の１つは、文書情報抽出システムであって、情報処理装置を用いて構成され、文書群を管理する文書管理部と、機械学習のモデルを用いて前記文書群の文書から情報を抽出する文書情報抽出部と、前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶する記憶部と、前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の１つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するパラメータ更新部と、を備える。

　その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。

　本発明によれば、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量の設定を支援することができる。

文書情報抽出システムの主な構成を説明するシステムフロー図である。文書情報抽出システムの主な構成を説明するブロック図である。優先度の決定に用いる特徴量の正性らしさの評価方法を説明する図である。特徴量評価テーブルの一例である。特徴量頻度テーブルの一例である。特徴量類似度テーブルの一例である。特徴量共起度テーブルの一例である。表示優先度算出テーブルの一例である。特徴量表示優先度テーブルの一例である。パラメータ設定画面の一例である。更新前後対比画面の一例である。特徴量抽出元情報テーブルの一例である。文字飾りの一例である。マッピング対象特徴量テーブルの一例である。特徴量評価設定情報テーブルの一例である。特徴量抽出状況表示テーブルの一例である。特徴量評価設定情報テーブル生成処理を説明するフローチャートである。特徴量抽出状況表示テーブル生成処理を説明するフローチャートである。文書情報抽出システムの実現に用いる情報処理装置の一例である。

　以下、実施形態について図面を参照しつつ説明する。尚、以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略もしくは簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

　以下の説明において、同一または類似の構成について同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップを意味する。また、以下の説明では、「テーブル」、「情報」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。

　以下、本発明の一実施形態として、機械学習の方法を用いて、膨大な数の文書（文書群）から有用な情報を抽出してユーザに提供する情報処理システム（以下、「文書情報抽出システム１」と称する。）について説明する。文書情報抽出システム１は、例えば、膨大な文書群（特許文献、各種論文、ビジネスレポート、企業レポート、ニュース等）から、新材料の研究や開発の指針を立案する上で有用な情報、例えば、材料の構造と特性や機能との相関関係等を抽出し、抽出した結果をユーザに提供する、いわゆるＭＩ（Materials Informatics、マテリアルズインフォマティクス）を用いたデータ駆動型の材料開発に利用される。

　図１は、文書情報抽出システム１の主な構成を説明するシステムフロー図である。また、図２は、文書情報抽出システム１の主な構成を説明するブロック図である。図１に示すように、文書情報抽出システム１は、文書情報抽出部１７０およびパラメータ設定部１８０の各機能を備える。このうち文書情報抽出部１７０は、蓄積された文書１１１から機械学習のモデル（学習モデル）を用いて情報を抽出してユーザに提示する。また、パラメータ設定部１８０は、上記モデルのパラメータ（特徴量、特徴量の重み）を、ユーザインタフェースを介したユーザとの対話形式により設定する。

　図１または図２に示すように、文書情報抽出部１７０は、単語／関連語抽出部１７１および文書情報提示部１７２を含む。単語／関連語抽出部１７１は、初期辞書１１２や単語／関連語辞書１１３を参照しつつ、機械学習の仕組みにより、単語、単語の関連語、単語の類義語等（以下、「単語／関連語１１４」と称する。）の情報を文書１１１から抽出する。上記機械学習の仕組みとして、例えば、ＲＮＮ（Recurrent Neural Network）やＬＳＴＭ（Long short-term memory）を用いて実現される固有表現抽出技術によるものがある。但し、上記機械学習の種類は必ずしも限定されない。

　上記モデルは、例えば、特徴量と各特徴量の重みの情報を含んだ行列やベクトルにより表現される。文書１１１からの情報を抽出する上記モデルの特徴量として、例えば、周辺単語の特徴（左右単語、左右単語の品詞、係り受け）、単語自身の特徴（始単語(prefix)、終単語(suffix)、文字数、大文字小文字、品詞、文字の種類(数字、漢字等)）等がある。

　文書１１１は、図２に示す文書管理部１６０によって管理される。文書１１１は、多数の文書（例えば、ＷｅｂスクレイピングやＷｅｂクローリングによってインターネットを介して取得された文書やユーザによって登録された文書）を含む。尚、本実施形態では、所定のトピックについて記述された、１つ以上の文、１つ以上の文章、１つ以上の節、１つ以上の節や句、２つ以上の単語等が纏まったものを文書と称する。以下では、文書情報抽出システム１により行われる各種の情報処理が文書を単位として行われる場合を例として説明するが、処理の単位は必ずしも限定されない。また以下では、文書１１１はテキスト形式のデータ（テキストデータ）として管理されるものとするが、文書１１１の管理方法は必ずしも限定されない。以下に説明する各種情報処理の対象となる文書は、例えば、形態素解析技術によって適宜形態素に分解され、また、各形態素は、例えば、適宜分散表現（単語埋め込み）に変換されて取り扱われる。

　文書情報抽出部１７０が参照する初期辞書１１２や単語／関連語辞書１１３は、図２に示す辞書管理部１６１によって管理される。このうち初期辞書１１２には、例えば、上記機械学習による抽出対象の方向性等を示す単語が設定される。例えば、熱化学に関する文書１１１から温度に関する情報を抽出する場合、初期辞書１１２には、例えば、「３０度」、「１０度」等の単語が設定される。尚、この場合、文書情報抽出部１７０は、例えば、「３０℃」、「１０℃」等を関連語として抽出する。単語／関連語辞書１１３には、単語にその関連語や類義語を対応づけた情報が管理される。初期辞書１１２や単語／関連語辞書１１３の内容は、例えば、ユーザが設定してもよいし、インターネット等から取得されるコーパスや辞書等を用いて設定してもよい。ユーザは、例えば、有用な情報を得たい技術分野や抽出しようとする情報の種類等に応じた内容の初期辞書１１２や単語／関連語辞書１１３を準備する。

　文書情報提示部１７２は、単語／関連語抽出部１７１によって抽出された単語／関連語１１４や、抽出された単語／関連語１１４に基づき生成した情報（以下、「文書抽出情報１１５」と称する。）をユーザに提供する。ユーザは、例えば、文書情報抽出システム１が備えるユーザインタフェースや、文書情報抽出システム１と通信可能に接続する他の情報処理装置を介して、文書情報提示部１７２が提供する文書抽出情報１１５を利用する。

　パラメータ設定部１８０は、特徴量情報生成部１８１、特徴量表示優先度設定部１８２、パラメータ設定画面生成部１８３、パラメータ設定受付部１８４、およびパラメータ更新部１８５の各機能を有する。

　このうち特徴量情報生成部１８１は、単語／関連語抽出部１７１から現状のモデルのパラメータ（特徴量と各特徴量の重み）（以下、「現状パラメータ１５５」と称する。）を取得し、取得した現状パラメータ１５５に基づき、特徴量表示優先度設定部１８２等によって参照される情報である特徴量情報１２０（特徴量評価テーブル１２１、特徴量頻度テーブル１２２、特徴量類似度テーブル１２３、特徴量共起度テーブル１２４、および特徴量抽出元情報テーブル１２５）を生成する。特徴量情報１２０の詳細については後述する。

　特徴量表示優先度設定部１８２は、特徴量情報生成部１８１が生成した特徴量情報１２０に基づき、ユーザとの対話処理によりモデルのパラメータの設定を行う際の特徴量の表示優先度（以下、「特徴量表示優先度」と称する。）の算出に用いる表示優先度算出テーブル１３１を生成する。特徴量表示優先度設定部１８２は、表示優先度算出テーブル１３１に基づき特徴量表示優先度を求め、求めた特徴量表示優先度を特徴量表示優先度テーブル１３２に格納する。

　パラメータ設定画面生成部１８３は、特徴量表示優先度に従った順序で特徴量を表示し、表示した特徴量のパラメータの設定に関する情報をユーザから受け付ける画面（図１０に示すパラメータ設定画面１０００）を生成する。パラメータ設定画面生成部１８３は、パラメータ設定画面１０００の生成に際し、パラメータ設定画面情報１４０（文字飾り定義テーブル１４１、マッピング対象特徴量テーブル１４２、特徴量評価設定情報テーブル１４３、および特徴量抽出状況表示テーブル１４４）を参照もしくは生成する。パラメータ設定画面情報１４０の詳細については後述する。

　パラメータ設定受付部１８４は、パラメータ設定画面１０００を表示しつつユーザからパラメータの設定に関する情報を受け付ける。

　パラメータ更新部１８５は、パラメータ設定受付部１８４がユーザから受け付けた情報に基づき特徴量評価テーブル１２１を更新する（記憶部１１０は、更新の前後における特徴量評価テーブル１２１の双方の内容を記憶する）。また、パラメータ更新部１８５は、更新前後の特徴量評価テーブル１２１の差分の情報（以下、「パラメータ更新情報１５２」と称する。）を生成し、生成したパラメータ更新情報１５２に基づき、単語／関連語抽出部１７１が用いるモデルのパラメータを更新する。

　続いて、特徴量表示優先度設定部１８２によって行われる特徴量表示優先度の算出方法について説明する。特徴量表示優先度設定部１８２は、ユーザに優先的に確認してもらいたい特徴量（文書１１１からの有用な情報の抽出精度に対する影響が大きいと考えられる特徴量）がパラメータ設定画面１０００に優先的に表示されるように、特徴量表示優先度を設定する。具体的には、特徴量表示優先度設定部１８２は、以下の（１）～（３）のいずれかに該当する特徴量に対して高い特徴量表示優先度を設定する。尚、以下において、文書１１１から抽出すべき情報を抽出するように作用する特徴量のことを「正性特徴量」と、また、文書１１１から有用でない情報を抽出しないように作用する特徴量のことを「負性特徴量」と、「正性特徴量」にも「負性特徴量」にも該当しない特徴量のことを「中性特徴量」と、夫々称する。
（１）正性特徴量だが、現状パラメータ１５５では、特徴量の重みがゼロ付近もしくはマイナスに設定されている特徴量（以下、「誤評価正性特徴量」と称する。）。
（２）負性特徴量だが、現状パラメータ１５５では、特徴量の重みが大きく（ゼロ付近もしくはプラス等）設定されている特徴量（以下、「誤評価負性特徴量」と称する。）。
（３）中性特徴量だが、現状パラメータ１５５では、特徴量の絶対値が大きく設定されている特徴量（以下、「誤評価中性特徴量」と称する。）。

　例えば、特徴量表示優先度設定部１８２は、（１）の誤評価正性特徴量に該当する可能性を示す指標（以下、「正性らしさ」と称する。）を、評価対象の特徴量（以下、「当該特徴量」と称する。）と現在のモデルに用いられている他の正性特徴量（以下、「比較正性特徴量」と称する。）との類似度、当該特徴量と比較正性特徴量との共起度、現状パラメータ１５５における当該特徴量の重み、および文書１１１における当該特徴量の出現頻度に基づき評価する。

　また、例えば、特徴量表示優先度設定部１８２は、上記（２）に該当する可能性を示す指標（以下、「負性らしさ」と称する。）を、評価対象の特徴量（以下、「当該特徴量」と称する。）と現在のモデルに用いられている他の負性特徴量（以下、「比較負性特徴量」と称する。）との類似度、当該特徴量と比較負性特徴量との共起度、現状パラメータ１５５における当該特徴量の重み、および文書１１１における当該特徴量の出現頻度に基づき評価する。

　また、例えば、特徴量表示優先度設定部１８２は、上記（３）に該当する可能性を示す指標（以下、「中性らしさ」と称する。）を、評価対象の特徴量（以下、「当該特徴量」と称する。）と現在のモデルに用いられている他の中性特徴量（以下、「比較中性特徴量」と称する。）との類似度、当該特徴量と比較中性特徴量との共起度、現状パラメータ１５５における当該特徴量の重みの絶対値、および文書１１１における当該特徴量の出現頻度に基づき評価する。

　尚、上記のいずれの場合においても、評価対象の特徴量の文書１１１における出現頻度を評価に用いているのは、文書１１１における出現頻度が少ない特徴量は、文書１１１からの情報の抽出精度に与える影響も少ないと考えられるからである。

　図３は、上記（１）への該当性の評価の概念を一例として示した図である。同図には、例示する文書１１１から、「温度」を表す単語を抽出する特徴量の「正性らしさ」を算出する場合を例示している。同図に示すように、初期辞書１１２には、温度を示す単語をモデルに学習させるための「３０度」、「１０度」等が設定され、また、比較正性特徴量として、「終単語：度」（末尾が「度」で終わる単語）、「左単語：温度は」（左側に「温度は」の文字列が存在する単語）が存在するものとする。

　同図に示す「終単語：回」（末尾が「回」で終わる単語）、「終単語：℃」（末尾が「℃」で終わる単語）、および「左単語：低下し」（左側に「低下し」の文字列が存在する単語）は、いずれも上記（１）への該当性の評価対象となる特徴量である。尚、本例では、評価対象の各特徴量は、いずれも文書１１１における出現頻度が十分に高いものとする。

　本例の場合、評価対象の「終単語：回」という特徴量は、比較正性特徴量である「終単語：度」のみと類似性があり、評価対象の「左単語：低下し」という特徴量は、比較正性特徴量である「左単語：温度は」のみと共起性がある。また、評価対象の「終単語：℃」という特徴量は、比較正性特徴量である「終単語：度」と類似性があり、かつ、比較正性特徴量である「左単語：温度は」と共起性がある。このため、本例では、当該特徴量「終単語：℃」は、他の２つの特徴量（「終単語：回」、「左単語：低下し」）よりも上記（１）に該当する可能性、即ち「正性らしさ」が高く評価される。

　特徴量表示優先度設定部１８２は、以上のようにして各特徴量について評価した「正性らしさ」、「負性らしさ」、「中性らしさ」に基づき、ユーザに提示する際に用いる特徴量表示優先度を求める。例えば、特徴量表示優先度設定部１８２は、「正性らしさ」が高い（予め設定した閾値を超えている）特徴量に高い特徴量表示優先度を設定する。また例えば、特徴量表示優先度設定部１８２は、「負性らしさ」が高い（予め設定した閾値を超えている）特徴量に高い特徴量表示優先度を設定する。また例えば、特徴量表示優先度設定部１８２は、「中性らしさ」が高い（予め設定した閾値を超えている）特徴量に高い特徴量表示優先度を設定する。尚、特徴量表示優先度設定部１８２が、例えば、「正性らしさ」、「負性らしさ」、「中性らしさ」のいずれか２つ以上を総合的に評価して各特徴量の特徴量表示優先度を設定するようにしてもよい。

　続いて、特徴量表示優先度の算出方法について、具体的なテーブルを例示しつつ説明する。特徴量表示優先度設定部１８２は、特徴量表示優先度の算出に際し、特徴量情報１２０（特徴量評価テーブル１２１、特徴量頻度テーブル１２２、特徴量類似度テーブル１２３、特徴量共起度テーブル１２４）を参照もしくは生成（更新の意味を含む）する。

　図４に、特徴量評価テーブル１２１の一例を示す。特徴量評価テーブル１２１には、モデルの現在のもしくはユーザにより変更された後における各特徴量の重みと評価に関する情報が管理される。同図に示すように、特徴量評価テーブル１２１は、特徴量１２１１、重み１２１２、および評価１２１３の各項目を有する複数のエントリ（レコード）で構成される。特徴量評価テーブル１２１の１つのエントリは１つの特徴量に対応している。

　上記項目のうち、特徴量１２１１には、特徴量が格納される。重み１２１２には、当該特徴量の重みが格納される。評価１２１３には、当該特徴量の作用特性に応じた種別（以下、「作用種別」と称する。）を示す情報（正性特徴量であれば「正性」、負性特徴量であれば「負性」、中性特徴量であれば「中性」）が設定される。尚、作用種別が未設定の特徴量については、評価１２１３に「－」が設定される。

　図５に、特徴量頻度テーブル１２２の一例を示す。特徴量頻度テーブル１２２には、現在のモデルに用いられている各特徴量の文書１１１（文書群）における出現頻度が管理される。同図に示すように、特徴量頻度テーブル１２２は、特徴量１２２１および頻度１２２２の各項目を有する複数のエントリ（レコード）で構成される。特徴量頻度テーブル１２２の１つのエントリは１つの特徴量に対応している。上記項目のうち、特徴量１２２１には、特徴量が格納される。頻度１２２２には、文書１１１における当該特徴量の出現頻度が格納される。

　図６に、特徴量類似度テーブル１２３の一例を示す。特徴量類似度テーブル１２３には、モデルを構成する異なる特徴量の間の類似度が管理される。同図に示すように、特徴量類似度テーブル１２３は、第１特徴量１２３１、第２特徴量１２３２、および類似度１２３３の各項目を有する複数のエントリ（レコード）で構成される。特徴量類似度テーブル１２３の１つのエントリは１つの特徴量の組に対応している。

　上記項目のうち、第１特徴量１２３１には、上記組の一方の特徴量（以下、「第１特徴量」と称する。）が格納される。第２特徴量１２３２には、上記組の他方の特徴量（以下、「第２特徴量」と称する。）が格納される。類似度１２３３には、第１特徴量と第２特徴量の類似度が格納される。尚、特徴量情報生成部１８１は、例えば、コサイン類似度やレーベンシュタイン（Levenshtein）距離に基づき類似度を求める。

　図７に、特徴量共起度テーブル１２４の一例を示す。特徴量共起度テーブル１２４には、モデルを構成する異なる特徴量の共起度が管理される。同図に示すように、特徴量共起度テーブル１２４は、第１特徴量１２４１、第２特徴量１２４２、および共起度１２４３の各項目を有する複数のエントリ（レコード）で構成される。特徴量共起度テーブル１２４の１つのエントリは１つの特徴量の組に対応している。

　上記項目のうち、第１特徴量１２４１には、上記組の一方の特徴量（以下、「第１特徴量」と称する。）が格納される。第２特徴量１２４２には、上記組の他方の特徴量（以下、「第２特徴量」と称する。）が格納される。共起度１２４３には、第１特徴量と第２特徴量の共起度が格納される。尚、特徴量情報生成部１８１は、例えば、単語について単語分散表現（例えば、word2vec, BERT等により生成される分散表現）を生成し、生成した各単語の分散表現を用いて２つの単語の共起度を求める。

　図８に、表示優先度算出テーブル１３１の一例を示す。表示優先度算出テーブル１３１には、特徴量評価テーブル１２１、特徴量頻度テーブル１２２、特徴量類似度テーブル１２３、および特徴量共起度テーブル１２４の内容に基づく情報が管理される。同図に示すように、表示優先度算出テーブル１３１は、第１特徴量１３１１、第２特徴量１３１２、類似度１３１３、共起度１３１４、第１特徴量重み１３１５、第２特徴量重み１３１６、および第２特徴量頻度１３１７の各項目を有する複数のエントリ（レコード）で構成される。表示優先度算出テーブル１３１の１つのエントリは１つの特徴量の組に対応している。

　上記項目のうち、第１特徴量１３１１には、上記組の一方の特徴量（以下、「第１特徴量」と称する。）が格納される。第２特徴量１３１２には、上記組の他方の特徴量（以下、「第２特徴量」と称する。）が格納される。類似度１３１３には、第１特徴量と第２特徴量の類似度が格納される。共起度１３１４には、第１特徴量と第２特徴量の共起度が格納される。第１特徴量重み１３１５には、第１特徴量の重みが格納される。第２特徴量重み１３１６には、第２特徴量の重みが格納される。第２特徴量頻度１３１７には、文書１１１における第２特徴量の出現頻度が格納される。

　図９に、特徴量表示優先度テーブル１３２の一例を示す。特徴量表示優先度テーブル１３２には、特徴量表示優先度設定部１８２が表示優先度算出テーブル１３１に基づき生成した、各特徴量の特徴量表示優先度の設定に用いる情報が管理される。同図に示すように、特徴量表示優先度テーブル１３２は、特徴量１３２１、正性らしさ１３２２、負性らしさ１３２３、および中性らしさ１３２４の各項目を有する複数のエントリ（レコード）で構成される。特徴量表示優先度テーブル１３２の１つのエントリは１つの特徴量に対応している。

　上記項目のうち、特徴量１３２１には特徴量が格納される。

　正性らしさ１３２２には、表示優先度算出テーブル１３１に基づき次式から求めた値（正性らしさ）が格納される。尚、次式において、特徴量ｉは、表示優先度算出テーブル１３１における第２特徴量１３１２が対応し、特徴量ｊは、同テーブルにおける第１特徴量１３１１が対応する。次式におけるａ、ｂ、ｃ、ｄは定数である。

　負性らしさ１３２２には、表示優先度算出テーブル１３１に基づき次式から求めた値（負性らしさ）が格納される。尚、次式において、特徴量ｉは、表示優先度算出テーブル１３１における第２特徴量１３１２が対応し、特徴量ｊは、同テーブルにおける第１特徴量１３１１が対応する。次式におけるａ、ｂ、ｃ、ｄは定数である。

　中性らしさ１３２３には、表示優先度算出テーブル１３１に基づき次式から求めた値（中性らしさ）が格納される。尚、次式において、特徴量ｉは、表示優先度算出テーブル１３１における第２特徴量１３１２が対応し、特徴量ｊは、同テーブルにおける第１特徴量１３１１が対応する。次式におけるａ、ｂ、ｃ、ｄは定数である。

　前述したように、パラメータ設定画面生成部１８３は、ユーザとの対話形式によりパラメータを設定する際、以上により求めた、正性らしさ１３２２、負性らしさ１３２３、および中性らしさ１３２４に基づき特徴量表示優先度を求める。

　以上のように、文書情報抽出システム１は、各特徴量について、正性らしさ、負性らしさ、中性らしさのうちの少なくともいずれかを求め、求めた値に基づき特徴量表示優先度を設定するので、調整することにより得られる効果の高い特徴量（文書１１１からより適切な単語や関連語を抽出できる可能性の高い特徴量）を優先してユーザに提示することができ、ユーザは効率よくパラメータを調整（チューニング）することができる。

　続いて、文書情報抽出システム１がユーザとの間の対話処理により行うパラメータの設定について説明する。尚、以下では、説明の簡単のため、文書１１１から単語を抽出する場合を例として説明する。

　図１０は、パラメータ設定画面生成部１８３がユーザとの対話処理によりパラメータの設定を行う際に表示する画面（以下、「パラメータ設定画面１０００」と称する。）の一例である。同図に示すように、パラメータ設定画面１０００は、特徴量評価設定欄１０１０、特徴量抽出状況表示欄１０２０、更新前後比較ボタン１０３０、および確定ボタン１０４０を有する。

　特徴量評価設定欄１０１０には、ユーザに確認を促す特徴量が、特徴量表示優先度テーブル１３２の特徴量表示優先度の高いものから順に表示される。同図に示すように、特徴量評価設定欄１０１０は、特徴量１０１１、重み１０１２、文章１０１３、および評価１０１４の各項目を有する複数のエントリで構成される。特徴量評価設定欄１０１０の１つのエントリは１つの特徴量に対応している。

　上記項目のうち、特徴量１０１１には、ユーザに確認を促す特徴量が表示される。重み１０１２には、当該特徴量に設定されている重みが表示される。ユーザは当該特徴量に設定されている重みを確認しながら、当該特徴量を評価することができる。重み１０１２の値は、ユーザが当該画面を利用して手動で変更することも可能である。

　文章１０１３には、当該特徴量による単語が抽出された１つ以上の文章（文書１１１の要素である文章）が表示される。文章１０１３の特徴量に相当する部分は強調表示（本例ではアンダーラインと斜体字）されており、ユーザは、文章における特徴量の位置を容易に把握することができる。

　評価１０１４には、当該特徴量について設定されている作用種別が表示される。過去に作用種別が設定されている特徴量については、評価１０１４に既に設定されている特徴量がデフォルト値として自動表示される。また、過去に作用種別が設定されていない特徴量については、例えば、評価１０１４に、パラメータ設定部１８０が特徴量表示優先度テーブル１３２の内容に基づき判定した作用種別がデフォルト値として表示される。例えば、正性らしさ１３２２が予め設定されている閾値を超える特徴量については「正性」が、負性らしさ１３２３が予め設定されている閾値を超える特徴量については「負性」が、中性らしさ１３２４が予め設定されている閾値を超える特徴量については「中性」が、デフォルト値として評価１０１４に表示される。尚、デフォルト値を自動的に判定する方法は必ずしも限定されない。評価１０１４の内容は、当該画面を利用してユーザが手動で変更することも可能である。ユーザは、例えば、プルダウンメニューとして表示される作用種別（「正性」、「負性」、「中性」）を操作して評価１０１４の内容を変更する。

　特徴量抽出状況表示欄１０２０には、特徴量評価設定欄１０１０に表示されている各特徴量の抽出の状況（様子）を示した情報が表示される。同図に示すように、特徴量抽出状況表示欄１０２０は、文書ＩＤ１０２１、抽出単語１０２２、抽出元文章１０２３、およびマッピング外特徴量１０２４の各項目を有する複数のエントリで構成される。特徴量抽出状況表示欄１０２０の１つのエントリは文書１１１から抽出された１つの単語に対応している。

　上記項目のうち、文書ＩＤ１０２１には、抽出元の文書の識別子である文書ＩＤ（本例では抽出元の文書のファイル名）が表示される。抽出単語１０２２には、特徴量評価設定欄１０１０に表示されている特徴量１０１１によって抽出された単語が表示される。

　抽出元文章１０２３には、当該単語の抽出元の文章が表示される。同図に示すように、抽出元文章１０２３の特徴量に相当する部分には、特徴量の重みに応じた文字飾り（実線アンダーライン、枠囲み、斜体字、破線アンダーライン、飾り無し）が付されている。尚、抽出元文章１０２３において文字飾りが付される特徴量は、後述するマッピング対象特徴量テーブル１４２に定義されている特徴量が対象となる。本例では、各特徴量に設定されている重み（効き方）の違いを文字飾りの種類を変えることで区別しているが、色分け等の他の方法で区別するようにしてもよい。

　本例では、文字飾りのうち、実線アンダーラインは、温度を示す単語を抽出するのに大きく作用する特徴量（正性特徴量）に付され、また、枠囲みは、温度を示す単語を抽出するのに作用する特徴量（正性特徴量）に付され、また、斜体字は、温度でない単語を抽出しないように作用する特徴量（負性特徴量）に付され、また、破線アンダーラインは、温度でない単語を抽出しないように大きく作用する特徴量（負性特徴量）に付され、また、飾り無しは、正性特徴量および負性特徴量のいずれにも該当しない特徴量（中性特徴量）に付される。

　マッピング外特徴量１０２４には、当該単語を抽出に寄与した他の特徴量（本例では文字数）が表示される。マッピング外特徴量１０２４に表示される他の特徴量の例として、例えば、「数字か文字か」、「英語か日本語か」、「ローマ字か漢字か」、「大文字か小文字か」がある。

　ユーザが更新前後比較ボタン１０３０を操作すると、パラメータ設定部１８０は、ユーザが変更操作を行う前の特徴量評価設定欄１０１０の内容と、ユーザが変更操作を行った後の特徴量評価設定欄１０１０の内容とを対比可能な状態で示した画面（以下、「更新前後対比画面１１００」と称する。）を表示する。

　図１１に、更新前後対比画面１１００の一例を示す。同図に示すように、例示する更新前後対比画面１１００は、更新前の特徴量評価設定欄１０１０の内容が表示される特徴量評価設定欄（更新前）１１１１と、更新前の特徴量評価設定欄１０１０の内容が表示される特徴量評価設定欄（更新後）１１１２とを有する。ユーザは、更新前後対比画面１１００を参照することで、自分がいずれの特徴量の評価や重みをどのように変更したのかを容易に確認することができる。尚、ユーザが特徴量の評価１０１４の内容を変更すると、特徴量表示優先度設定部１８２によって更新後の評価（作用種別）および重みに基づき特徴量表示優先度が再計算され、特徴量の表示順も更新される。

　図１０に戻り、ユーザが、確定ボタン１０４０を操作すると、パラメータ更新部１８５が、パラメータ設定画面１０００の設定内容（重み１０１２、評価１０１４）に基づきパラメータ更新情報１５２を生成し、生成したパラメータ更新情報１５２に基づき、単語／関連語抽出部１７１が用いるモデルのパラメータを更新する。尚、パラメータ更新部１８５が、パラメータ設定画面１０００の評価１０１４に基づき、対応する特徴量の重みを自動設定するようにしてもよい。その場合、各特徴量について自動設定する重みは、例えば、特徴量表示優先度テーブル１３２における夫々の正性らしさ１３２２、負性らしさ１３２３、中性らしさ１３２４に基づき設定する。

　以上のように、パラメータ設定画面１０００の特徴量評価設定欄１０１０には、特徴量１０１１とともに当該特徴量の抽出元の文章１０１３が表示されるので、ユーザは、特徴量について適切な評価１０１４を設定することができる。また、特徴量抽出状況表示欄１０２０には、特徴量評価設定欄１０１０に表示されている特徴量についての抽出状況に関する情報（抽出単語１０２２、抽出元文章１０２３、マッピング外特徴量１０２４）が表示されるので、ユーザは、単語の抽出に際し特徴量がどのように作用するのかを視覚的に確認することができ、機械学習についての知識や経験の少ないユーザであっても、これらの情報を参考にして特徴量を効率よく適切に設定することができる。そのため、例えば、機械学習については不慣れだが、対象とする情報分野に精通しているドメインユーザの豊富な知識や経験を有効に活用することができる。

　続いて、パラメータ設定画面１０００および更新前後対比画面１１００の生成に用いる各種テーブルの例を示す。

　図１２は、特徴量抽出元情報テーブル１２５の一例である。特徴量抽出元情報テーブル１２５には、特徴量の抽出元に関する情報が管理される。同図に示すように、特徴量抽出元情報テーブル１２５は、文書ＩＤ１２５１、単語１２５２、抽出元文章１２５３、単語始点１２５４、単語終点１２５５、特徴量１２５６、特徴量始点１２５７、および特徴量終点１２５８の各項目を有する複数のエントリ（レコード）で構成される。特徴量抽出元情報テーブル１２５の１つのエントリは１つの特徴量に対応している。

　上記項目のうち、文書ＩＤ１２５１には、当該特徴量の抽出元の文書の文書ＩＤが格納される。単語１２５２には、当該特徴量によって抽出された単語が格納される。抽出元文章１２５３には、当該単語の抽出元の文章が格納される。単語始点１２５４および単語終点１２５５には夫々、当該単語の文書における位置（始点、終点）が格納される。特徴量１２５６には、当該特徴量が格納される。特徴量始点１２５７および特徴量終点１２５８には夫々、当該抽出元の文章における当該特徴量の出現する位置（始点、終点）が格納される。

　図１３は、文字飾り定義テーブル１４１の一例である。文字飾り定義テーブル１４１には、特徴量の重みに応じた文字飾りを示す情報が管理される。文字飾り定義テーブル１４１の内容は、例えば、システム管理者やユーザが設定する。同図に示すように、文字飾り定義テーブル１４１は、重み１４１１と文字飾り１４１２の各項目を有する複数のレコードで構成される。重み１４１１には、重みの範囲を示す情報が格納される。また、文字飾り１４１２には文字飾りの種類を示す情報が格納される。

　図１４は、マッピング対象特徴量テーブル１４２の一例である。マッピング対象特徴量テーブル１４２には、パラメータ設定画面１０００の特徴量抽出状況表示欄１０２０の抽出元文章１０２３やマッピング外特徴量１０２４に表示される特徴量のうち、文字飾りを付す対象とする特徴量（対象特徴量１４２１）が管理される。マッピング対象特徴量テーブル１４２の内容は、例えば、システム管理者やユーザが設定する。

　図１５は、特徴量評価設定情報テーブル１４３の一例である。特徴量評価設定情報テーブル１４３には、パラメータ設定画面１０００の特徴量評価設定欄１０１０に表示する情報が管理される。同図に示すように、特徴量評価設定情報テーブル１４３は、特徴量１４３１、重み１４３２、抽出元文章１４３３、特徴量始点１４３４、特徴量終点１４３５、および評価１４３６の各項目を有する複数のエントリ（レコード）で構成される。特徴量評価設定情報テーブル１４３の１つのエントリは１つの特徴量に対応している。

　上記項目のうち特徴量１４３１には、評価の対象となる特徴量が格納される。重み１４３２には、当該特徴量の重みが格納される。抽出元文章１４３３には、当該特徴量の抽出元の文章が格納される。特徴量始点１４３４および特徴量終点１４３５には夫々、抽出元文章１４３３における当該特徴量の位置を示す情報（始点、終点）が格納される。評価１４３６には、前述したデフォルト値またはユーザが設定した評価（「正性」、「負性」、「中性」のいずれか）が設定される。

　図１６は、特徴量抽出状況表示テーブル１４４の一例である。特徴量抽出状況表示テーブル１４４には、パラメータ設定画面１０００の特徴量抽出状況表示欄１０２０に表示する情報が管理される。同図に示すように、特徴量抽出状況表示テーブル１４４は、文書ＩＤ１４４１、単語１４４２、抽出元文章１４４３、単語始点１４４４、単語終点１４４５、特徴量１４４６、特徴量始点１４４７、特徴量終点１４４８、重み１４４９、文字飾り１４５０、およびマッピング外特徴量１４５１の各項目を有する複数のレコードで構成される。特徴量抽出状況表示テーブル１４４の１つのエントリは文書１１１から抽出される１つの単語に対応している。

　文書ＩＤ１４４１には、当該単語（単語１４４２）の抽出元の文書１１１の文書ＩＤが格納される。単語１４４２には、当該特徴量（特徴量１４４６）によって抽出された単語が格納される。抽出元文章１４４３には、当該単語の抽出元の文章が格納される。単語始点１４４４および単語終点１４４５には、当該単語の抽出元文章１４４３における位置（始点、終点）が格納される。特徴量１４４６には、当該単語の抽出に用いた特徴量が格納される。特徴量始点１４４７および特徴量終点１４４８には夫々、抽出元文章１４４３における当該特徴量の位置を示す情報（始点、終点）が格納される。

　重み１４４９には、当該特徴量（特徴量１４４６）に設定されている重みが格納される。文字飾り１４５０には、当該特徴量の表示に際して付する文字飾りを示す情報が格納される。マッピング外特徴量１４５１には、当該単語の抽出に寄与した、マッピング対象特徴量テーブル１４２に定義されていない他の特徴量が格納される。

　続いて、特徴量評価設定情報テーブル１４３や特徴量抽出状況表示テーブル１４４の生成に際しパラメータ設定部１８０が行う処理について説明する。

　図１７は、パラメータ設定部１８０が、特徴量評価設定情報テーブル１４３の生成に際し行う処理（以下、「特徴量評価設定情報テーブル生成処理Ｓ１７００」と称する。）を説明するフローチャートである。以下、同図とともに特徴量評価設定情報テーブル生成処理Ｓ１７００について説明する。

　まず、パラメータ設定部１８０は、特徴量抽出元情報テーブル１２５と特徴量評価テーブル１２１を読み込む（Ｓ１７１１～Ｓ１７１２）。

　続いて、パラメータ設定部１８０は、特徴量評価テーブル１２１のエントリを１つ選択する（Ｓ１７１３）。

　続いて、パラメータ設定部１８０は、Ｓ１７１３で選択したエントリの特徴量に対応する特徴量抽出元情報テーブル１２５の抽出元文章１２５３を関連づけた内容を設定したエントリを特徴量評価設定情報テーブルに追加する（Ｓ１７１４）。

　続いて、パラメータ設定部１８０は、Ｓ１７１３で特徴量評価テーブルＳ１７１３の全てのエントリを選択済か否かを判定する（Ｓ１７１５）。全てのエントリを選択済でなければ（Ｓ１７１５：ＮＯ）、処理はＳ１７１３に戻り、未選択のエントリを選択して以上と同様の処理を行う。一方、全てのエントリを選択済であれば（Ｓ１７１５：ＹＥＳ）、特徴量評価設定情報テーブル生成処理Ｓ１７００は終了する。

　図１８は、パラメータ設定部１８０が、特徴量抽出状況表示テーブル１４４の生成に際し行う処理（以下、「特徴量抽出状況表示テーブル生成処理Ｓ１８００」と称する。）を説明するフローチャートである。以下、同図とともに特徴量抽出状況表示テーブル生成処理Ｓ１８００について説明する。

　まず、パラメータ設定部１８０は、特徴量抽出元情報テーブル１２５、特徴量評価テーブル１２１、文字飾り定義テーブル１４１、およびマッピング対象特徴量テーブル１４２を読み込む（Ｓ１８１１～Ｓ１８１４）。

　続いて、パラメータ設定部１８０は、特徴量抽出元情報テーブル１２５のエントリを１つ選択し、選択したエントリの内容を用いて特徴量抽出状況表示テーブル１４４にエントリを１つ追加する（Ｓ１８１５）。

　続いて、パラメータ設定部１８０は、追加したエントリの重み１４４９に、特徴量評価テーブル１２１の対応する特徴量の重みを格納する（Ｓ１８１６）。

　続いて、パラメータ設定部１８０は、追加したエントリの文字飾り１４５０に、文字飾り定義テーブル１４１におけるＳ１８１６で格納した重みに対応する文字飾りを格納する（Ｓ１８１７）。

　続いて、パラメータ設定部１８０は、マッピング対象特徴量テーブル１４２に、Ｓ１８１５で追加したエントリの特徴量１４４６と同じ特徴量があるか否かを判定する（Ｓ１８１８）。同じ特徴量があれば（Ｓ１８１８：ＹＥＳ）、パラメータ設定部１８０は、追加したエントリのマッピング外特徴量１４５１に空白を設定し、その後、処理はＳ１８２０に進む。同じ特徴量がなければ（Ｓ１８１８：ＮＯ）、パラメータ設定部１８０は、追加したエントリのマッピング外特徴量１４５１に当該特徴量を格納し（Ｓ１８１９）、その後、処理はＳ１８２０に進む。

　続いて、パラメータ設定部１８０は、Ｓ１８１５で特徴量抽出元情報テーブル１２５の全てのエントリを選択済か否かを判定する（Ｓ１８２０）。全てのエントリを選択済でなければ（Ｓ１８２０：ＮＯ）、処理はＳ１８１５に戻り、未選択のエントリを選択して以上と同様の処理を行う。一方、全てのエントリを選択済であれば（Ｓ１８１５：ＹＥＳ）、特徴量抽出状況表示テーブル生成処理Ｓ１８００は終了する。

　続いて、以上に説明した文書情報抽出システム１の構成に用いる情報処理装置（コンピュータ）について説明する。

　図１９は、文書情報抽出システム１の構成に用いる情報処理装置の一例である。同図に示すように、例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、および通信装置１６を備える。　

　文書情報抽出システム１は、例えば、通信可能に接続された複数の情報処理装置１０を用いて実現してもよい。また、情報処理装置１０は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置１０によって提供される機能の全部または一部は、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい。

　また、情報処理装置１０によって提供される機能の全部または一部は、例えば、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）等を利用して実現されるものであってもよい。

　同図に示すプロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

　主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

　補助記憶装置１３は、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

　入力装置１４は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

　出力装置１５は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

　入力装置１４と出力装置１５は、ユーザとの間での対話処理（情報の受け付け、情報の提示等）を実現するユーザインタフェースを構成する。

　通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信ネットワーク５（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、公衆通信網、専用線等）を介して他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

　情報処理装置１０には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。文書情報抽出システム１は、前述した各種の情報（データ）を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。

　文書情報抽出システム１が提供する各種の機能は、プロセッサ１１が、主記憶装置１２に格納されているプログラムを読み出して実行することにより、もしくは、文書情報抽出システム１を構成するハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）自体によって実現される。また、文書情報抽出システム１の各種の機能は、例えば、テキストデータマイニング等の公知の各種データマイニング手法、公知の各種自然言語処理手法（形態素解析、構文解析、意味解析、文脈解析、特徴量抽出、単語分散表現、固有表現抽出、テキスト分類、系列ラベリング）、公知の各種機械学習手法（深層学習（ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Network）等）を用いて実現される。

　以上詳細に説明したように、本実施形態の文書情報抽出システム１は、パラメータ（特徴量、重み）の設定に際し、評価対象特徴量と、評価対象特徴量の抽出元の１つ以上の文章と、評価対象特徴量に設定されている重みとを表示しつつ、作用種別または重みの設定を受け付けるので、ユーザは、抽出元の文章や重みを確認しつつ（どのような特徴量にどのような設定がされているのかを確認しつつ）評価対象特徴量を効率よく適切に設定することができる。

　また、パラメータ設定画面１０００の特徴量評価設定欄１０１０の文章１０１３において評価対象特徴量の部分が強調表示されるので、ユーザは、評価対象特徴量が文書にどのように作用するのかを容易に確認することができる。

　また、パラメータ設定画面１０００の特徴量抽出状況表示欄１０２０の抽出元文章１０２３には、表示する文章の評価対象特徴量の部分が、作用種別ごとに区別した文字飾りや色等で強調表示されるので、ユーザは、作用種別ごとの評価対象特徴量の作用特性を認識しつつ、評価対象特徴量を効率よく適切に設定することができる。

　また、パラメータ設定画面１０００の特徴量抽出状況表示欄１０２０には、文書から抽出した単語が表示されるので、ユーザは、どのように特徴量が作用してどのような単語が抽出されるのかを認識しつつ、評価対象特徴量を効率よく適切に設定することができる。

　また、パラメータ設定画面１０００の特徴量抽出状況表示欄１０２０には、評価対象特徴量により文書から抽出した情報の抽出に作用した他の特徴量（マッピング外特徴量１０２４）も表示されるので、ユーザは、他の特徴量も参考にしつつ、評価対象特徴量を効率よく適切に設定することができる。

　このように、本実施形態の文書情報抽出システム１によれば、機械学習の方法により文書から有用な情報を抽出する際に用いるモデルの特徴量に関する設定を支援することができる。そのため、例えば、抽出しようとする情報の分野についての知識（ドメイン知識）は有しているが機械学習についての知識や経験が無い者でも、特徴量を効率よく適切に行うことができ、ドメインユーザの知識を有効に活用して特徴量を適切に設定することができる。

　以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

　例えば、以上では、各種の処理が文書を単位として行われる場合を例として説明したが、処理の単位は必ずしも限定されず、本実施形態の文書情報抽出システム１は、文書に代え文章（１つ以上の文からなる文章）を単位としても同様の処理を行うことができる。

　また、以上では、文書情報抽出部１７０が、蓄積された文書１１１から機械学習のモデル（学習モデル）により情報を抽出し、抽出した情報をシステム管理者やユーザに提示する場合を示したが、例えば、システム管理者やユーザが定義した抽出ルールを用いて情報を抽出し、システム管理者やユーザに提示するようにしてもよい。その場合、例えば、図１０に示したパラメータ設定画面１０００において、マッピング外特徴量１０２４に、ルールにマッチしたか否かを示す情報を表示するようにしてもよい。

　また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

　また、前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１　文書情報抽出システム、１１０　記憶部、１１１　文書、１１２　初期辞書、１１３　単語／関連語辞書、１１４　単語／関連語、１１５　文書抽出情報、１２０　特徴量情報、１２１　特徴量評価テーブル、１２２　特徴量頻度テーブル、１２３　特徴量類似度テーブル、１２４　特徴量共起度テーブル、１２５　特徴量抽出元情報テーブル、１３１　表示優先度算出テーブル、１３２　特徴量表示優先度テーブル、１４０　パラメータ設定画面情報、１４１　文字飾り定義テーブル、１４２　マッピング対象特徴量テーブル、１４３　特徴量評価設定情報テーブル、１４４　特徴量抽出状況表示テーブル、１５２　パラメータ更新情報、１５５　現状パラメータ、１６０　文書管理部、１６１　辞書管理部、１７０　文書情報抽出部、１７１　単語／関連語抽出部、１７２　文書情報提示部、１８０　パラメータ設定部、１８１　特徴量情報生成部、１８２　特徴量表示優先度設定部、１８３　パラメータ設定画面生成部、１８４　パラメータ設定受付部、１８５　パラメータ更新部、１０００　パラメータ設定画面、１１００　更新前後対比画面、Ｓ１７００　特徴量評価設定情報テーブル生成処理、Ｓ１８００　特徴量抽出状況表示テーブル生成処理

Claims

　情報処理装置を用いて構成され、
　文書群を管理する文書管理部と、
　機械学習のモデルを用いて前記文書群の文書から情報を抽出する文書情報抽出部と、
　前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶する記憶部と、
　前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の１つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、
　受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するパラメータ更新部と、
　を備える、文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記作用種別は、前記特徴量が前記文書群から抽出すべき情報を抽出するように作用することを示す正性、前記特徴量が前記文書群から抽出すべきでない情報を抽出しないように作用することを示す負性、前記特徴量の作用が前記正性および前記負性のいずれにも該当しない中性、のうちの少なくともいずれかを含む、
　文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記パラメータ設定受付部は、表示する前記文章の前記評価対象特徴量の部分を強調表示する、
　文書情報抽出システム。
　請求項３に記載の文書情報抽出システムであって、
　前記パラメータ設定受付部は、表示する前記文章における前記評価対象特徴量の部分を、前記評価対象特徴量の前記作用種別ごとに区別して強調表示する、
　文書情報抽出システム。
　請求項４に記載の文書情報抽出システムであって、
　前記パラメータ設定受付部は、表示する前記文章における前記評価対象特徴量の部分を、前記評価対象特徴量の前記作用種別ごとに異なる文字飾りもしくは異なる色を付すことにより区別して強調表示する、
　文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記パラメータ設定受付部は、前記評価対象特徴量により前記文書から抽出した情報の抽出に作用した他の特徴量を更に表示する、
　文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記パラメータ設定受付部は、前記評価対象特徴量により前記文書から抽出した情報を更に表示する、
　文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記評価対象特徴量の夫々について、前記文書群における前記評価対象特徴量と前記作用種別が共通する他の前記特徴量との類似度、前記文書群における前記他の特徴量との共起度、前記評価対象特徴量に現在設定されている重み、および前記評価対象特徴量の前記文書群における出現頻度、のうちの少なくともいずれかに基づき前記評価対象特徴量を表示する優先度である特徴量表示優先度を求める特徴量表示優先度設定部と、
　前記特徴量表示優先度に従って前記評価対象特徴量を表示しつつ前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるパラメータ設定受付部と、
　を更に備える、文書情報抽出システム。
　請求項８に記載の文書情報抽出システムであって、
　前記作用種別は、前記特徴量が前記文書群から抽出すべき情報を抽出するように作用することを示す正性、前記特徴量が前記文書群から抽出すべきでない情報を抽出しないように作用することを示す負性、前記特徴量の作用が前記正性および前記負性のいずれにも該当しない中性、のうちの少なくともいずれかを含む、
　文書情報抽出システム。
　請求項９に記載の文書情報抽出システムであって、
　前記特徴量表示優先度設定部は、前記正性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが小さい程、前記特徴量表示優先度を高く設定する、
　文書情報抽出システム。
　請求項９に記載の文書情報抽出システムであって、
　前記特徴量表示優先度設定部は、前記負性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが大きい程、前記特徴量表示優先度を高く設定する、
　文書情報抽出システム。
　請求項９に記載の文書情報抽出システムであって、
　前記特徴量表示優先度設定部は、前記中性の前記作用種別に分類されている前記評価対象特徴量について、前記文書群における、前記評価対象特徴量と作用種別が共通する他の特徴量との類似度が高く、前記他の特徴量との共起度が高く、現在設定されている重みが大きい程、前記特徴量表示優先度を高く設定する、
　文書情報抽出システム。
　請求項１に記載の文書情報抽出システムであって、
　前記情報は、単語または単語の関連語である、
　文書情報抽出システム。
　情報処理装置が、
　文書群を管理するステップ、
　機械学習のモデルを用いて前記文書群の文書から情報を抽出するステップ、
　前記モデルのパラメータを構成する複数の特徴量と、前記特徴量の夫々について前記情報を抽出する際の作用の特性を示す情報である作用種別と、を記憶するステップ、
　前記複数の特徴量のうち評価の対象とする特徴量である評価対象特徴量と、前記評価対象特徴量の抽出元の１つ以上の文章と、前記評価対象特徴量に現在設定されている重みと、を表示しつつ、前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるステップ、および、
　受け付けた前記作用種別または前記重みに基づき前記パラメータを更新するステップ、
　を実行する、文書情報抽出方法。
　請求項１４に記載の文書情報抽出方法であって、
　前記情報処理装置が、
　前記評価対象特徴量の夫々について、前記文書群における前記評価対象特徴量と前記作用種別が共通する他の前記特徴量との類似度、前記文書群における前記他の特徴量との共起度、前記評価対象特徴量に現在設定されている重み、および前記評価対象特徴量の前記文書群における出現頻度、のうちの少なくともいずれかに基づき前記評価対象特徴量を表示する優先度である特徴量表示優先度を求めるステップ、および、
　前記特徴量表示優先度に従って前記評価対象特徴量を表示しつつ前記評価対象特徴量の前記作用種別または前記重みの設定を受け付けるステップ、
　を更に実行する、文書情報抽出方法。