JPWO2014064777A1 - 文書評価支援システム、及び文書評価支援方法 - Google Patents
文書評価支援システム、及び文書評価支援方法 Download PDFInfo
- Publication number
- JPWO2014064777A1 JPWO2014064777A1 JP2014543056A JP2014543056A JPWO2014064777A1 JP WO2014064777 A1 JPWO2014064777 A1 JP WO2014064777A1 JP 2014543056 A JP2014543056 A JP 2014543056A JP 2014543056 A JP2014543056 A JP 2014543056A JP WO2014064777 A1 JPWO2014064777 A1 JP WO2014064777A1
- Authority
- JP
- Japan
- Prior art keywords
- document
- structure data
- standard
- data
- input document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
予め定義した任意の文書内容の語句と語句、及び、2つの語句の関係を記述した文書構造データを使って、入力した文書の内容の想定外の要注意箇所の判断を支援する文書評価支援システムを提供する。任意の文書の内容についての標準文書構造データを保管する標準文書構造データ保管装置、入力文書を文書構造化データに変換する構造文書変換装置、構造文書変換装置によって変換された文書構造データを保管する文書構造データ保管装置、標準文書構造データと入力文書構造データとを比較、評価する構造データ比較評価装置、入力した文書の中から要注意箇所を抽出して、要注意箇所を保管する要注意箇所保管装置、標準文書構造データと入力文書構造データとの比較結果から1または複数文の標準割合を算出して蓄積する評価結果保管装置、評価結果に応じてグラフや文書、語句の表示を変更する評価結果出力装置を備える。
Description
本発明は、入力文書に記述されている文のどこに注意すべき内容が記述されているかを示すために、その文書の内容に関して想定できる語句と語句、及び2つの語句の関係をあらかじめ知識ネットワーク構造として定義し、入力文書を前記と同様の知識ネットワーク構造で表して、2つの知識ネットワーク構造を比較することにより、入力文書内の任意の文ごとに想定できる内容の割合を評価し、その評価結果に応じて入力文書内の文を強調表示したり文を並び替えて表示することによって、任意の文が要注意箇所か否かの判断を支援するとともに、その判断結果を蓄積する手段を備えた文書評価支援システムに関する。
従来から、文書内の文を構造化データとして記述し、他のデータベースをもとに任意の情報を検索したり、検索結果についてユーザが経験と裁量をもとに判断して、その結果を活用したりしていた。
任意の内容についての語句と語句、及び2つの語句の関係のように、ある知識ベース上の概念を体系的に表す技術としてオントロジが知られている。また、オントロジを表す構造化データを記述する形式として、XML(eXensible Makeup Language)形式や、RDF(Resourc Description Framework)がある。
自然言語文をオントロジ記述形式で記述した照会文により情報を検索する方法として[特許文献1]、検索キーワードとオントロジ概念とをマッチングしてユーザの意図した検索結果を提供する方法として[特許文献2]に示すような情報検索システム、情報検索プログラムがある。
オントロジを使って拡張された検索要求を用いて文書内を検索し、検索結果についてユーザが入力した評価情報をフィードバックする方法として[特許文献3]に示すような情報検索システム、情報検索方法がある。
従来の検索方法では、文書内の文の中から検索語句や検索文、及びその語句や文に関連する情報を任意のデータベースをもとに検索することを実現していた。
その結果、指定した検索語句や検索文を含む要注意箇所や関連する文を抽出することはできるが、想定外の要注意箇所については、重要度の低い文とともに見落とされてしまう可能性がある。
任意の文書内容に関して想定できる、語句と語句、及び2つの語句の関係を記述した知識ネットワーク構造データ(以後、標準文書構造データとよぶ)を予め定義し、入力文書を前記標準文書構造データと同様の形式である、語句と語句、及び2つの語句の関係を記述した知識ネットワーク構造データ(以後、入力文書構造データとよぶ)に変換し、入力文書構造データの中の、標準文書構造データの2つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、前記入力文書の1、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合(以後、標準割合とよぶ)を評価し、その評価結果を少なくとも2つ以上に分類して、分類した結果に応じて入力文書構造データを構成した1、または複数の文の出力を色、形、音、数値の少なくとも1つを使って強調出力情報にする出力手段を備えたことを特徴とする文書評価支援システム。
本発明の文書評価支援システムによれば、想定外の記述についての分類や選択の支援が可能になる。
本発明について、実施例を用いて説明するが、これに限定されるものではない。
想定外の要注意箇所については、重要度の低い文とともに見落とされてしまう可能性があり、想定外の要注意箇所を見分けるためには、入力文書の記述内容について想定した要注意箇所を表す語句と語句、及び2つの語句の関係を検索するだけでなく、入力文書の任意の文の知識ネットワーク構造に想定できる知識ネットワーク構造データが含まれる割合を評価し、評価結果に対応して、入力文書の知識ネットワーク構造データを構成する文や語句の表示を変えることにより、入力文書の任意の文の特徴を判断して分類することができる手段が必要である。
また、新しく抽出した要注意箇所を表す文や想定できると判断された文について、その構造データを蓄積することにより、次回からの要注意箇所の抽出精度の向上に貢献する手段が必要である。これらの課題を解決するために、以下の例が挙げられる。
任意の文書の内容に関する語句と語句、及び2つの語句の関係を表す想定内の知識ネットワーク構造を保管する手段、入力文書を前記と同様に、語句と語句、及び2つの語句の関係を表し、その文書内に含まれる語句で構成される知識ネットワーク構造に変換する手段、入力文書の中から選択した文の知識ネットワーク構造と、前記想定内の知識ネットワーク構造とを比較し、全て、または一部が一致する箇所を検索する手段、文書の任意の文ごとに一致する割合を評価する手段、入力文書を任意の文ごとの表示を上記の評価結果に応じて変更する手段、を備えた。
また、本発明の文書評価支援システムにおいて、前記入力文書を知識ネットワーク構造に変換する手段とは、入力文書の各文を構文解析して、主語、述語、目的語等の関係を語句と語句、及びその関係として表し、想定できる知識ネットワーク構造と同様の関係に変換する。
また、本発明の文書評価支援システムにおいて、前記入力文書の知識ネットワーク構造と予め定義した知識ネットワーク構造が一致する箇所というのは、入力文書の中の各文の知識ネットワーク構造の中に予め定義した知識ネットワーク構造と同じ知識ネットワーク構造が存在した場合であり、予め定義した知識ネットワーク構造の中には、要注意箇所を語句と語句、及び2つの語句の関係で記述した構造データが含まれる。
また、前記入力文書の知識ネットワーク構造の想定できる知識ネットワーク構造の割合とは、入力文書の中の任意の文の知識ネットワーク構造の語句と語句、及び2つの語句の関係の中に、想定できる知識ネットワーク構造の語句と語句、及び2つの語句の関係がどのくらい存在するかを評価した割合である。
本発明の文書評価支援システムによれば、入力文書内の要注意箇所について、その特徴が可視化され、特に、想定外の記述についての分類や選択の支援が可能になるとともに、結果を蓄積することにより、要注意箇所の抽出精度が向上できる。
以下、図面を用いて説明する。
以下に図1から図11を用いて本発明に係る情報参照支援システムの一実施形態について説明する。
図1に本発明の文書評価支援システムの全体構成を示す。本システムは、任意の文書内容について想定できる語句と語句、及びそれら2つの語句の関係を記述したネットワーク構造データ(以後、標準文書構造データと呼ぶ)を保管する標準文書構造データベース(101)、標準文書構造データの中で任意の文書内容における要注意箇所として、語句と語句、及び2つの語句の関係として記述したデータ(以後、要注意箇所抽出ルールとよぶ)を保管する要注意箇所抽出ルールデータベース(102)、入力文書(103)を知識ネットワーク構造データに変換する構造データ作成装置(104)、構造データ作成装置によって入力文書を標準文書構造データと同様の形式である、語句と語句、及び2つの語句の関係を記述した知識ネットワーク構造データに変換されたデータ(以後、入力文書構造データとよぶ)を保管する入力文書構造データベース(105)、標準文書構造データと入力文書構造データを比較、評価することによって、要注意箇所を抽出したり、評価値を算出する構造データ比較評価装置(106)、入力文書構造データの任意の文ごとに評価した結果を蓄積する評価結果データベース(107)、指定した閾値データ(108)をもとに、評価結果から対象となる文や評価値を選択する選択装置(109)、選択結果に応じて文書内の文や語句の表示を変更したり、表を並び替えて表示したり、文の構造データを画面上に表示する評価結果出力装置(110)、入力文書の構造データを要注意箇所や想定できる構造データとして更新するかを分類する入力文書分類装置(111)、指定された更新する構造データを標準文書構造データベース(101)、要注意箇所抽出ルールデータベース(102)に更新する構造データ/ルール更新装置(112)によって構成されている。選択装置(109)、評価結果出力装置(110)、入力文書分類装置(111)は、入力文書の1、または複数の文ごとに作成した入力文書構造データの中の標準文書構造データと一致する割合(以後、標準割合とよぶ)を評価し、その評価結果を少なくとも2つ以上に分類して、分類した結果に応じて入力文書構造データを構成した1、または複数の文の出力を色、形、音、数値の少なくとも1つを使って強調出力情報にする出力装置(113)の一例である。入力文書分類装置(111)、構造データ/ルール更新装置(112)は、データを更新する知識データベース更新装置(114)の一例である。標準文書構造データベース(101)、要注意箇所抽出ルールデータベース(102)は、新たな入力文書(103)の要注意箇所を抽出するための知識を記録した知識データベース(115)の一例である。
文書を処理する目的に応じてこれら処理装置の全てを用いても良いし、一部を用いても良い。また、評価結果出力装置(110)及び出力装置(113)は、ディスプレイなどの表示装置を含んでもよいし、ディスプレイなどの表示装置を含まずディスプレイへの表示情報を出力する出力端子などの出力部でも良い。
図2に図1に図示した本発明の文書評価支援システムにおいて入力文書の中から要注意箇所を抽出し、文を評価する時の処理手順の一例をフローチャートで示す。
開始(ステップ201)後、標準文書構造データを読み込む(ステップ202)。標準文書構造データは、対象とする文書の内容によって、予め想定できる語句と語句、及び2つの語句の関係が定義されている。例えば、ある製品の技術仕様書のような契約文書を対象とした場合は、その製品の技術仕様書として、どのような内容が記述されているかといった観点で、構成品や実施事項等について、必要とされる語句と語句、及び2つの語句の関係が知識ネットワーク構造データで記述されている。さらに、標準文書構造データには、要注意箇所についての構造データも含まれている。例えば、「Fuelの種類はGasである」という内容が要注意箇所であれば。語句「Fuel」と語句「Gas」、及び2つの語句の関係「種類(属性)である」といったデータ構造が記述されている。
次に、入力文書を読込み(ステップ203)、評価する文の対象単位を指定する(ステップ204)。文の対象単位は、例えば文書を章や段落ごとに分割したり、任意のn文ずつ分割して、1つまたは複数の文によって構成される。この指定された対象単位の文ごとに標準文書構造データと同様の知識ネットワーク構造に変換して、入力文書構造データを作成する(ステップ205)。
次に、前記入力文書構造データに含まれる対象単位文の各構造データを選択して(ステップ206)、その中から標準文書構造データの一部、または全てが一致する構造データを検索し要注意箇所を抽出する(ステップ207)。さらに、入力文書構造データの対象単位文ごとに標準文書構造データの出現度を定量的に評価(ステップ208)、これを入力文書が終了するまで実行する(ステップ209)。このとき、各対象単位文の中にある、要注意箇所抽出ルールで定義した標準構造データの出現度に関する評価スコアをルールスコア(Ssr)、標準文書構造データで定義した2つの語句の一部が一致したときに一致しなかったもう一方の語句を要注意箇所としてその要注意箇所に関する評価スコアを標準外スコア(Sss)、各対象単位文の中の標準文書構造データの出現割合を標準割合(Sr)とよぶ。要注意箇所抽出方法と定量的評価方法については図3、図5などで後述する。
入力文書構造データの全ての対象単位文について評価が終了したら、入力文書構造データの各対象単位文の評価スコアを集計して(ステップ210)評価データを作成し終了する(ステップ211)。
図3に、本発明の文書評価支援システムにおける、図1に図示した構造データ比較評価装置(106)による要注意箇所抽出例を示す。
入力文書を分割した対象単位文の入力文書構造データ(301)の例を示す。この例では、対象となった文の中に、語句(主語)と語句(目的語)、及び2つの語句の関係が4組(302、303、304、305)あることを表している。
ここで、標準文書構造データに含まれる要注意箇所抽出ルールの一つを標準文書構造データ(306)で示す。この例では、「語句「主語A」と語句「目的語C」の関係が「関係b」である」という内容が入力文書に記述されていれば、その文は要注意箇所であることを示している。この要注意箇所抽出ルールの構造データ(306)と入力文書構造データ中の構造データ(303)が一致することにより入力文書の中から要注意箇所が抽出される。
次に、想定できる標準文書構造データ(307)の例を示す。この例では、「語句「主語A」と語句「目的語E」の関係が「関係b」である」ということを表す標準文書構造データ(308)と語句「主語A」と語句「目的語B」の関係が「関係a」である」ということを表す標準文書構造データ(309)が、想定されるデータとして定義されている。このとき、入力文書構造化データの「語句「主語A」と語句「目的語B」の関係が「関係a」である」という構造データ(302)は、標準文書構造データとして想定されている(309)ので要注意箇所でないが、「語句「主語A」と語句「目的語D」の関係が「関係c」である」という構造データ(304)の中の「目的語D」は主語Aの目的語として想定されていないので、要注意箇所として抽出される。
さらに、入力文書構造化データの「語句「主語X」と語句「目的語Y」の関係が「関係d」である」という構造データ(305)は、標準文書構造データに存在しないため、想定できるデータでないということから要注意箇所として抽出されない。
構造データの例として、自然言語処理など、形式言語の解析で使用される構文解析の結果として抽出される文法的な語句の係り受け関係のうち、文中の主語と目的語の関係の例を示したが、必ずしも主語と目的語の関係に限定していない。予め定義した2つの語句で、2つの語句の間に何らかの関係性があればよい。
図4に、本発明の文書評価支援システムにおける、図1に図示した構造データ作成装置(104)によって入力文書を変換して入力文書構造データベース(105)に保管された入力文章構造データを模式的にグラフで表した例(400)を示す。
入力文書を分割した対象単位文の「文a」「文b」「文c」の構造データが、それぞれグラフで表わされている(401、402、403)。楕円で示されているのが主語や目的語等、それぞれの語句で、2つの語句の間に何らかの関係がある場合は語句と語句の間を結ぶ線で示す。1つの語句が複数の語句と関係がある場合もある。
図5に、本発明の文書評価支援システムにおいて、図1に図示した構造データ比較評価装置(106)が標準文書構造データベースの中の要注意箇所抽出ルールによって要注意箇所抽出したときに算出される評価スコアの例を示す。
図中の入力文書構造データの1つとして、入力文書に記載されている文bが文解析等によって解析した結果の構造データを示す(501)。このとき文bには、主語「Fuel」(504)と目的語「Gas」(505)は予め定義した「attribute_of」の関係があり、かつ、主語「Fuel」(504)と目的語「Oil」(506)もまた「attribute_of」の関係があることが記述されている。
また、図1に図示した要注意箇所抽出ルールのデータベース(102)に定義されている要注意箇所抽出ルール(502)の例を示す。これは、文中に主語「Fuel」と目的語「Gas」の組合せがあれば(この例では関係は省略されている)その部分は要注意箇所であり、その要注意箇所のスコア(Sc)は「10」、重み(W)は「1.0」であることを示している。
この要注意箇所抽出ルールが文bの構造データの一部と2語句とも一致するので、文bに要注意箇所が含まれていることがわかる。
さらに、このときの文bの要注意度を示す評価スコア(ルールスコア)と文の想定できる構造データの割合(標準割合)の評価例を示す。(507、508)ルールスコア(Ssr)は、要注意箇所抽出ルール(503)が抽出されたことから、
Ssr(文b)= Σ (各要注意箇所抽出ルールのスコア)×(重み)
= (10×1.0)=10.0
標準割合は、2つの構造データ(「Fuel」−「Gas」、「Fuel」−「Oil」)に対して、構造化データの主語と目的語が標準文書構造データである組合せが1つ(「Fuel」−「Gas」)、構造化データの主語と目的語のどちらか標準文書構造データである組合せが1つ(「Fuel」−「Oil」)、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが0であることから、
Sr(文b)={ 2つの語句が標準構造データに一致する組合せ数×W1
+どちらか1つの語句が標準構造データである組合せ数×W2
+2つの語句が標準構造データに一致しない組合せ数×W3 }
/構造化データ総数
={ 1×1.0+1×0.5+0×0.0 }/2 =0.75
W1、W2、W3(W1>W2>W3)は任意の値を定義する。
Ssr(文b)= Σ (各要注意箇所抽出ルールのスコア)×(重み)
= (10×1.0)=10.0
標準割合は、2つの構造データ(「Fuel」−「Gas」、「Fuel」−「Oil」)に対して、構造化データの主語と目的語が標準文書構造データである組合せが1つ(「Fuel」−「Gas」)、構造化データの主語と目的語のどちらか標準文書構造データである組合せが1つ(「Fuel」−「Oil」)、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが0であることから、
Sr(文b)={ 2つの語句が標準構造データに一致する組合せ数×W1
+どちらか1つの語句が標準構造データである組合せ数×W2
+2つの語句が標準構造データに一致しない組合せ数×W3 }
/構造化データ総数
={ 1×1.0+1×0.5+0×0.0 }/2 =0.75
W1、W2、W3(W1>W2>W3)は任意の値を定義する。
この結果を使って、入力文書は各対象単位文ごとに評価することができる。
図6に、本発明の文書評価支援システムにおいて、図1に図示した構造データ比較評価装置(106)が標準文書構造データによって要注意箇所抽出したときに算出される評価スコアの例を示す。
図の中の入力文書構造データの1つとして、入力文書に記載されている文cが文解析等によって解析された結果の構造データを示す(601)。このとき文cには、主語「Certificate」(604)と目的語「KOSHA」(605)は予め定義している「attribute_of」の関係があり、かつ、主語「Certificate」(601)と目的語「ASME」(606)もまた「attribute_of」の関係があることが記述されている。
また、図1に図示した標準文書構造データベース(101)に、定義されている想定できる文書構造データ(602)の例(603)を示す。これは、文中に主語「Certificate」と目的語「ASME」の組合せがあれば(この例では関係は省略されている)その部分は想定できる記述であることを表す。また、文中の構造データの主語、目的語のどちらか一方の語句だけが標準文書構造データに含まれる場合、もう一方の語句は想定外の語句であることから要注意箇所であり、その要注意箇所のスコア(Sc)は、想定できる文書構造に含まれる語句が「Certificate」のときは「10」、「ASEM」のときは「5」、各語句の重み(W)は、それぞれ「2.0」、「1.0」であることを示している。
文cの文書構造データに含まれる構造データの中に、主語「Certificate」(604)と目的語「KOSHA」(605)の関係(「attribute_of」)があり、この構造データは、標準文書構造で定義した語句の組合せのひとつの語句「Certificate」(604)のみが一致するので、文cのもう一方の語句「KOSHA」は想定外に出現した要注意箇所であることがわかる。
さらに、このときの文cの要注意度を示す評価スコア(標準外スコア)と文の想定できる構造データの割合(標準割合)の評価例を示す(607、608)。
標準外スコア(Sss)は、標準文書構造(603)で定義された2つの語句のうちの片方をもつ構造データが抽出されたことから、
Sss(文c)= (各標準文書構造の一致した語句のスコア)×(重み)
= (10×2.0)=20.0
標準割合は、2つの構造データ(「Certificate」−「KOSHA」、「Certificate」−「ASEM」)に対して、構造化データの主語と目的語が標準文書構造データである組合せが1つ(「Certificate」−「ASEM」)、構造化データの主語と目的語のどちらか標準文書構造データである組合せが1つ(「Certificate」−「KOSHA」)、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが0であることから、
Sr(文c)={ 2つの語句が標準構造データに一致する組合せ数×W1
+どちらか1つの語句が標準構造データである組合せ数×W2
+2つの語句が標準構造データに一致しない組合せ数×W3 }
/構造化データ総数
={ 1×1.0+1×0.5+0×0.0 }/2 =0.75
この結果を使って、入力文書は各対象単位文ごとに評価することができる。
Sss(文c)= (各標準文書構造の一致した語句のスコア)×(重み)
= (10×2.0)=20.0
標準割合は、2つの構造データ(「Certificate」−「KOSHA」、「Certificate」−「ASEM」)に対して、構造化データの主語と目的語が標準文書構造データである組合せが1つ(「Certificate」−「ASEM」)、構造化データの主語と目的語のどちらか標準文書構造データである組合せが1つ(「Certificate」−「KOSHA」)、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが0であることから、
Sr(文c)={ 2つの語句が標準構造データに一致する組合せ数×W1
+どちらか1つの語句が標準構造データである組合せ数×W2
+2つの語句が標準構造データに一致しない組合せ数×W3 }
/構造化データ総数
={ 1×1.0+1×0.5+0×0.0 }/2 =0.75
この結果を使って、入力文書は各対象単位文ごとに評価することができる。
図7に、本発明の文書評価支援システムにおいて、図1に図示した構造データ比較評価装置(106)が入力文書構造データから標準文書構造データを検索することによって算出される標準割合の別の例を示す。
例えば、入力文書に記載されている対象文(700)が文解析等によって解析された語句と語句、および2つの語句の関係の構造データを示す(710)。この結果から、対象文には主語「System」と目的語「operation」に「p/o」(part_of)の関係、主語「System」と目的語「normal shutdown」に「p/o」の関係、主語「System」と目的語「Emergency shutdown condition」に「p/o」の関係、主語「Emergency shutdown condition」と目的語「upset situation」に「p/o」の関係が記述されていることがわかる。
また図1に図示した標準文書構造データベース(101)には、想定できる文書構造データ(720)が定義されている。この例では、主語「System」と目的語「condition」、「control」、「Auxiliary」、「Test」等がそれぞれ「p/o」の関係で記述されることを想定している。
入力文の構造データと標準文書構造データを比較して(2語以上で構成される熟語については最右語句を代表語句として比較する)入力文の構造データの中に標準文書構造データの何れかが存在するかを評価するとき、主語「System」と目的語「condition」の関係が存在することがわかる。(721、713)また、その他の入力文の構造データのうち、「operation」、「shutdown」は「System」の目的語として想定外の語句であり、「situation」もまた「condition」の目的語として想定外の語句である。
このとき、対象文(700)の標準割合は、4つの構造データ(「System」−「operation」、「System」−「shutdown」、「System」−「condition」、「condition」−「situation」)に対して、構造化データの主語と目的語が標準構造データである組合せが1つ(「System」−「condition」)、構造化データの主語と目的語のどちらか標準構造データである組合せが3つ(「System」−「operation」、「System」−「shutdown」、「condition」−「situation」)、構造化データの主語と目的語のどちらも標準構造データでない組合せが0であることから、
Sr(文)={ 1×W1(1.0)+3×W2(0.5)+0×W3(0.0) }/4 =0.625
ここで、もし入力文書の対象文の「System」が「Device」、「Emergency shutdown condition」が「Emergency shutdown status」であった場合、入力文書構造データのいずれの構造も標準構造データに存在しなければ、標準文書構造データをもとに要注意箇所を抽出することはできない。対象文の標準割合は
Sr(文)={ 0×1.0+0×0.5+4×0.0 }/4 =0
標準割合が0のときは、全く問題ないのに標準文書構造データに定義していない、または要注意箇所があったにもかかわらず標準文書構造データ(要注意箇所抽出ルールに定義していない、のどちらかであるが、その内容の差は大きいと考えられる。このため、標準割合を考慮してデータを確認することが重要である。
Sr(文)={ 1×W1(1.0)+3×W2(0.5)+0×W3(0.0) }/4 =0.625
ここで、もし入力文書の対象文の「System」が「Device」、「Emergency shutdown condition」が「Emergency shutdown status」であった場合、入力文書構造データのいずれの構造も標準構造データに存在しなければ、標準文書構造データをもとに要注意箇所を抽出することはできない。対象文の標準割合は
Sr(文)={ 0×1.0+0×0.5+4×0.0 }/4 =0
標準割合が0のときは、全く問題ないのに標準文書構造データに定義していない、または要注意箇所があったにもかかわらず標準文書構造データ(要注意箇所抽出ルールに定義していない、のどちらかであるが、その内容の差は大きいと考えられる。このため、標準割合を考慮してデータを確認することが重要である。
図8に、本発明の文書評価支援システムにおける、図1に示した閾値データベース(108)の閾値データに従って評価結果を選択する選択装置(109)において、対象文単位や閾値データを指定する画面例である評価方法設定画面(800)と、選択装置からの入力を用いて、評価結果に応じた入力文書、及び入力文書を構成する文や語句の表示を変更する選択結果出力装置(110)で情報を出力した表示装置の画面例を示す。
この例では、評価方法設定画面(800)で入力文書の対象単位文の設定(801)と、入力文書の構造データと要注意箇所抽出ルールとの比較によって抽出した要注意箇所を評価するルールスコア(802)、入力文書の構造データと標準文書構造データとの比較によって抽出した要注意箇所を評価する標準外スコア(803)、入力文書構造データの対象単位文ごとに予め定義した想定できる文書構造データ(標準文書構造データ)と一致する割合(標準割合)(804、805)を使って閾値データを設定する。
次に文書を表示した画面に評価結果を表示した例を示す(810)。要注意箇所抽出ルールによって抽出した要注意箇所は、ルールスコアが指定した閾値以上場合、要注意箇所の語句を色(例えば文字色を赤)や字体(例えば太字)を使って強調表示する(811)。例えば、図8の破線の丸で囲んだ「control」、「system」を赤文字で表示する。同様に標準構造データによって抽出した要注意箇所は、標準外スコアが指定した閾値以上の場合、要注意箇所の語句を色(例えば文字色を青)や字体(例えば斜体)を使って強調表示する(812)。例えば、図8のアンダーラインをひいた「operation」、「normal shutdown」を青文字、斜体で表示する。
また、標準割合の大きさにが100%のときや任意の値以上のとき、任意の値以下のとき、0%のとき等、2つ以上に分類して異なる背景色や字体等を使って表示する(813)。例えば、図8の破線で囲んだ「system .... conditions」の文章を、黄色の背景表示として表示する。これによって、例えば、契約文書の内容の特徴や注意すべき箇所を把握し、想定内の記述であるか、想定外の記述であるか、また、想定外の文書が含まれているかを分割した文(複数文、段落、章)ごとに留意しながら読むことができる。
図9に、本発明の文書評価支援システムにおける、図8に図示した評価方法に応じて入力文書を表示した出力画面(910)を入力文書の対象(単位)文ごとに評価して標準割合の値に従って並び替えて表示した例を示す(920)。
入力文書の対象文(921)がその文の標準割合(922)とともに提示され、さらに標準割合の降順、または昇順に並び替えを行う(923)。
また、各対象文が要注意箇所ルールや標準文書構造データとして定義されていないと判断したとき、どちらかに該当するかを判断して(924)その構造データをデータベースに登録する。具体的な処理は図11で示す。
図10に、本発明の文書評価支援システムにおいて、図8に図示した評価結果を入力文書の文書構造データを構成する語句を使って構造的に表示した出力画面例を示す(1010)。
評価結果の表示方法として、要注意箇所として抽出された語句、及び語句と語句を拡大して表示したり、標準割合の大きい(小さい)、または指定した範囲の標準割合である文の構造データを拡大表示することを可能とする。
この例では、標準割合の小さい文の構造データを拡大表示している(1020)。
図11に、本発明の文書評価支援システムにおいて、図1の入力文書分類装置(111)により、図9で示した入力文書の評価結果によって対象(単位)文が要注意箇所ルール、または標準文書構造データのいずれかを指定して標準文書構造データベースに登録する構造データ/ルール更新装置の実行概略を示す。
入力文書の対象(単位)文(1210)が要注意箇所(1101)、または想定できる標準文書(1102)のどちらかである場合、それぞれ文章解析結果から作成した構造データ(1103、1104)を要注意箇所抽出ルールに追加、または既存の同じ構造データの出現度などを更新(1105)、及び標準文書データベースに追加、または既存の構造データの出現度などを更新(1106)する。
上述した実施例では、図1の構造データ比較評価装置106が図2の要注意箇所抽出時の処理手順を実施し、評価データを作成して、図1の選択装置109が図8〜図10の評価結果の表示を行ったが、構造データ比較評価装置106と選択装置109とを分けた別の装置としても良い。予め、図2の処理による評価結果データ、又は他の方法による図2の処理による評価結果データと同様なデータを評価結果データベース107に作成しておき、選択装置109が評価結果データベース107にアクセスすることによる図8〜図10の評価結果の表示処理としても良い。
また、上述した実施例では、図3のような用語の接続関係を含む構造データでの比較を前提としていたが、このような構造データを用いた用語の比較のみではなく、他の用語同士のデータで比較することとしても良い。
図8のように、任意の入力文書のデータに関して表示させる文書評価支援システムのコンピュータが、1又は複数の文の入力文書のデータのうち標準文書のデータに一致する割合である標準割合(805)のデータと、入力文書の用語のデータのうち標準文書の用語のデータに一致しない程度を表す標準外スコア(803)のデータを記録したデータベースを有し、入力文書データを表示し(810)、入力文書データのうち、ある所定の標準割合の条件に合致するデータと、ある所定の標準外スコアに合致するデータとを同じ入力文書データを表示した画面上で強調出力する文書評価支援方法により、想定外の記述についての分類や選択の支援ができる。これは標準データには無い用語の記載について、文の長さの関係としての標準割合と、用語の関係としての標準外スコアという異なる物差しで想定外の記述を抽出するものである。また、ここでの標準外スコア(803)は、図6で説明した標準文書構造(603)で定義された2つの語句のうちの片方をもつ構造データが抽出されたことによる標準外スコア(Sss)と同様であるが、また、2つの語句のうちの片方をもたない構造データが抽出されたことに着目する場合や、このような構造データではない用語比較では用語同士の一致しない点が抽出されたことに着目する場合などがある。
上述した実施例のように、入力文書構造データの中の、標準文書構造データの2つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、入力文書の1、または複数の文ごとに作成した入力文書構造データの中の標準文書構造データと一致する割合(標準割合)を評価し、その評価結果を少なくとも2つ以上に分類して、分類した結果に応じて入力文書構造データを構成した1、または複数の文の出力を色、形、音、数値の少なくとも1つを使って強調出力情報にする出力手段を備えた文書評価支援システムにより、入力文書内の要注意箇所について、その特徴が可視化され、特に、想定外の記述についての作業者による分類や選択を支援することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、装置、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、コンピュータのプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル、測定情報、算出情報等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。よって、各処理、各構成は、処理部、処理ユニット、プログラムモジュールなどとして各機能を実現可能である。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
101 標準文書構造データベース
102 要注意箇所抽出ルールデータベース
103 入力文書
104 構造データ作成装置
105 入力文書構造データベース
106 構造データ比較評価装置
107 評価結果データベース
108 閾値データベース
109 選択装置
110 選択結果出力装置
111 入力文書分類装置
112 構造データ/ルール更新装置
102 要注意箇所抽出ルールデータベース
103 入力文書
104 構造データ作成装置
105 入力文書構造データベース
106 構造データ比較評価装置
107 評価結果データベース
108 閾値データベース
109 選択装置
110 選択結果出力装置
111 入力文書分類装置
112 構造データ/ルール更新装置
Claims (11)
- 任意の文書内容に関して想定できる、語句と語句、及び2つの語句の関係を記述した知識ネットワーク構造データ(以後、標準文書構造データとよぶ)を予め定義し、入力文書を前記標準文書構造データと同様の形式である、語句と語句、及び2つの語句の関係を記述した知識ネットワーク構造データ(以後、入力文書構造データとよぶ)に変換し、入力文書構造データの中の、標準文書構造データの2つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、
前記入力文書の1、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合(以後、標準割合とよぶ)を評価し、その評価結果を少なくとも2つ以上に分類して、分類した結果に応じて入力文書構造データを構成した1、または複数の文の出力を色、形、音、数値の少なくとも1つを使って強調出力情報にする出力手段を備えたことを特徴とする文書評価支援システム。 - 請求項1の文書評価支援システムにおいて、
前記標準文書構造データに、任意の文書内容における要注意箇所として、語句と語句、及び2つの語句の関係として記述したデータ(以後、要注意箇所抽出ルールとよぶ)を含み、前記入力文書構造データの中から前記要注意箇所抽出ルールによって定義された語句と語句、及び2つの語句の関係を記述した構造データが一致することにより、前記入力文書の特定の箇所を入力文書の要注意箇所として抽出することを特徴とする文書評価支援システム。 - 請求項1の文書評価支援システムにおいて、
前記入力文書を、1、または複数の文ごとに入力文書構造データに変換して、それぞれの標準割合を評価するとき、その評価対象となる1、または複数の文は入力文書を任意の数で分割した文、各章に含まれる文、または各段落に含まれる文として指定して評価することを特徴とする文書評価支援システム。 - 請求項1の文書評価支援システムにおいて、
前記入力文書の1、または複数の文ごとに作成した入力文書構造データの中のそれぞれの標準割合を評価し、評価結果に応じて、入力文書を構成する構造データを構成した1、または複数の文の表示を可視化するときに、設定した入力文書の任意の文ごとに文書中の背景色を変え、標準割合の値によって評価結果を並び替え、入力文書構造データを表すネットワーク図の表示を標準割合の値に応じて区別して強調表示することのいずれかを実行することを特徴とする文書評価支援システム。 - 請求項1の文書評価支援システムにおいて、
入力文書の任意の文ごとに標準割合の値によって評価結果を並び替えた結果をもとに、想定外の文が要注意箇所として扱うか、想定できる文として扱うかについて判断し、その結果を、要注意箇所抽出ルールデータベース、または、標準文書構造データベースに、フィードバックして、新規に追加又は、データベースに含まれる重み若しくは出現度のパラメータを変更して、要注意箇所抽出の精度を向上させる手段をもつことを特徴とする文書評価支援システム。 - 任意の文書内容に関して想定できる、語句と語句、及びそれら語句の関係を記述した知識ネットワーク構造データ(以後、標準文書構造データとよぶ)を予め定義したデータベースを有する文書評価支援システムのコンピュータが、
入力文書を前記標準文書構造データと同様の形式である、語句と語句、及びそれら語句の関係を記述した知識ネットワーク構造データ(以後、入力文書構造データとよぶ)に変換し、
入力文書構造データの中の、前記標準文書構造データの2つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出し、
前記入力文書の1、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合(以後、標準割合とよぶ)を評価し、
その評価結果を少なくとも2つ以上に分類して、分類した結果に応じて入力文書構造データを構成した1、または複数の文の出力を色、形、音、数値の少なくとも1つを使って強調出力情報にすることを特徴とする文書評価支援方法。 - 請求項6の文書評価支援方法において、
前記標準文書構造データに、任意の文書内容における要注意箇所として、語句と語句、及び2つの語句の関係として記述したデータ(以後、要注意箇所抽出ルールとよぶ)を含み、前記入力文書構造データの中から前記要注意箇所抽出ルールによって定義された語句と語句、及び2つの語句の関係を記述した構造データが一致することにより、前記入力文書の特定の箇所を入力文書の要注意箇所として抽出することを特徴とする文書評価支援方法。 - 請求項6の文書評価支援方法において、
前記入力文書を、1、または複数の文ごとに入力文書構造データに変換して、それぞれの標準割合を評価するとき、その評価対象となる1、または複数の文は入力文書を任意の数で分割した文、各章に含まれる文、または各段落に含まれる文として指定して評価することを特徴とする文書評価支援方法。 - 請求項6の文書評価支援方法において、
前記入力文書の1、または複数の文ごとに作成した入力文書構造データの中のそれぞれの標準割合を評価し、評価結果に応じて、入力文書を構成する構造データを構成した1、または複数の文の表示を可視化するときに、設定した入力文書の任意の文ごとに文書中の背景色を変え、標準割合の値によって評価結果を並び替え、入力文書構造データを表すネットワーク図の表示を標準割合の値に応じて区別して強調表示することのいずれかを実行することを特徴とする文書評価支援方法。 - 請求項6の文書評価支援方法において、
入力文書の任意の文ごとに標準割合の値によって評価結果を並び替えた結果をもとに、想定外の文が要注意箇所として扱うか、想定できる文として扱うかについて判断し、その結果を、要注意箇所抽出ルールデータベース、または、標準文書構造データベースに、フィードバックして、新規に追加又は、データベースに含まれる重み若しくは出現度のパラメータを変更して、要注意箇所抽出の精度を向上させる手段をもつことを特徴とする文書評価支援システム。 - 任意の入力文書のデータに関して表示させる文書評価支援システムのコンピュータが、1又は複数の文の前記入力文書のデータのうち標準文書のデータに一致する割合である標準割合のデータと、前記入力文書の用語のデータのうち標準文書の用語のデータに一致しない程度を表す標準外スコアのデータを記録したデータベースを有し、前記入力文書データを表示し、前記入力文書データのうち、ある所定の前記標準割合の条件に合致するデータと、ある所定の前記標準外スコアに合致するデータとを同じ前記入力文書データを表示した画面上で強調出力する文書評価支援方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/077392 WO2014064777A1 (ja) | 2012-10-24 | 2012-10-24 | 文書評価支援システム、及び文書評価支援方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014064777A1 true JPWO2014064777A1 (ja) | 2016-09-05 |
Family
ID=50544175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014543056A Pending JPWO2014064777A1 (ja) | 2012-10-24 | 2012-10-24 | 文書評価支援システム、及び文書評価支援方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014064777A1 (ja) |
WO (1) | WO2014064777A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018116459A1 (ja) * | 2016-12-22 | 2018-06-28 | 日本電気株式会社 | 文章評価装置、文章評価方法および記録媒体 |
US10783138B2 (en) * | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
CN109324963B (zh) * | 2018-08-22 | 2024-03-15 | 中国平安人寿保险股份有限公司 | 自动测试收益结果的方法及终端设备 |
JP6975118B2 (ja) * | 2018-09-26 | 2021-12-01 | Kddi株式会社 | 抽出装置及びプログラム |
JP7358132B2 (ja) * | 2019-09-13 | 2023-10-10 | 株式会社日立製作所 | 計算機システム及び文書の分類方法 |
US11995411B1 (en) * | 2023-02-28 | 2024-05-28 | Casetext, Inc. | Large language model artificial intelligence text evaluation system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062404A (ja) * | 2002-07-26 | 2004-02-26 | Sharp Corp | 文章表示装置、文章表示方法、文章表示プログラム、および、記録媒体 |
JP2009265770A (ja) * | 2008-04-22 | 2009-11-12 | Dainippon Printing Co Ltd | 重要文提示システム |
JP2011085986A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約方法、その装置およびプログラム |
JP2012178078A (ja) * | 2011-02-28 | 2012-09-13 | Hitachi Ltd | 文書処理装置 |
-
2012
- 2012-10-24 JP JP2014543056A patent/JPWO2014064777A1/ja active Pending
- 2012-10-24 WO PCT/JP2012/077392 patent/WO2014064777A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062404A (ja) * | 2002-07-26 | 2004-02-26 | Sharp Corp | 文章表示装置、文章表示方法、文章表示プログラム、および、記録媒体 |
JP2009265770A (ja) * | 2008-04-22 | 2009-11-12 | Dainippon Printing Co Ltd | 重要文提示システム |
JP2011085986A (ja) * | 2009-10-13 | 2011-04-28 | Nippon Telegr & Teleph Corp <Ntt> | テキスト要約方法、その装置およびプログラム |
JP2012178078A (ja) * | 2011-02-28 | 2012-09-13 | Hitachi Ltd | 文書処理装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2014064777A1 (ja) | 2014-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
WO2014064777A1 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
US10031839B2 (en) | Constraint extraction from natural language text for test data generation | |
US9465838B2 (en) | Numeric range search device, numeric range search method, and numeric range search program | |
US20150032747A1 (en) | Method for systematic mass normalization of titles | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
US20170154294A1 (en) | Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device | |
US8996357B2 (en) | Method for generating diagrams, and information processing apparatus for same | |
US9594757B2 (en) | Document management system, document management method, and document management program | |
WO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
JP2006323517A (ja) | テキスト分類装置およびプログラム | |
KR20220041337A (ko) | 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
US20170220585A1 (en) | Sentence set extraction system, method, and program | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP5417359B2 (ja) | 文書評価支援システム、及び文書評価支援方法 | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
WO2014188555A1 (ja) | テキスト処理装置、及び、テキスト処理方法 | |
JP2020113048A (ja) | 情報処理装置及びプログラム | |
KR102449580B1 (ko) | 컴포넌트 네트워크 기반의 분석 시스템을 이용한 비정형 데이터 분석 방법 | |
KR20200057206A (ko) | 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템 | |
JP7243196B2 (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160426 |