JPWO2014064777A1

JPWO2014064777A1 - 文書評価支援システム、及び文書評価支援方法

Info

Publication number: JPWO2014064777A1
Application number: JP2014543056A
Authority: JP
Inventors: 薫川端; 横田　毅; 毅横田; 待井　君吉; 君吉待井; 義行小林; 正和藤尾
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2016-09-05
Also published as: WO2014064777A1

Abstract

予め定義した任意の文書内容の語句と語句、及び、２つの語句の関係を記述した文書構造データを使って、入力した文書の内容の想定外の要注意箇所の判断を支援する文書評価支援システムを提供する。任意の文書の内容についての標準文書構造データを保管する標準文書構造データ保管装置、入力文書を文書構造化データに変換する構造文書変換装置、構造文書変換装置によって変換された文書構造データを保管する文書構造データ保管装置、標準文書構造データと入力文書構造データとを比較、評価する構造データ比較評価装置、入力した文書の中から要注意箇所を抽出して、要注意箇所を保管する要注意箇所保管装置、標準文書構造データと入力文書構造データとの比較結果から１または複数文の標準割合を算出して蓄積する評価結果保管装置、評価結果に応じてグラフや文書、語句の表示を変更する評価結果出力装置を備える。

Description

本発明は、入力文書に記述されている文のどこに注意すべき内容が記述されているかを示すために、その文書の内容に関して想定できる語句と語句、及び２つの語句の関係をあらかじめ知識ネットワーク構造として定義し、入力文書を前記と同様の知識ネットワーク構造で表して、２つの知識ネットワーク構造を比較することにより、入力文書内の任意の文ごとに想定できる内容の割合を評価し、その評価結果に応じて入力文書内の文を強調表示したり文を並び替えて表示することによって、任意の文が要注意箇所か否かの判断を支援するとともに、その判断結果を蓄積する手段を備えた文書評価支援システムに関する。

従来から、文書内の文を構造化データとして記述し、他のデータベースをもとに任意の情報を検索したり、検索結果についてユーザが経験と裁量をもとに判断して、その結果を活用したりしていた。

任意の内容についての語句と語句、及び２つの語句の関係のように、ある知識ベース上の概念を体系的に表す技術としてオントロジが知られている。また、オントロジを表す構造化データを記述する形式として、XML（eXensible Makeup Language）形式や、RDF（Resourc Description Framework）がある。

自然言語文をオントロジ記述形式で記述した照会文により情報を検索する方法として［特許文献１］、検索キーワードとオントロジ概念とをマッチングしてユーザの意図した検索結果を提供する方法として［特許文献２］に示すような情報検索システム、情報検索プログラムがある。

オントロジを使って拡張された検索要求を用いて文書内を検索し、検索結果についてユーザが入力した評価情報をフィードバックする方法として［特許文献３］に示すような情報検索システム、情報検索方法がある。

特開２００５−１６５９５８号公報特開２０１０−２０５２６５号公報特開２００３−１０８５９７号公報

従来の検索方法では、文書内の文の中から検索語句や検索文、及びその語句や文に関連する情報を任意のデータベースをもとに検索することを実現していた。

その結果、指定した検索語句や検索文を含む要注意箇所や関連する文を抽出することはできるが、想定外の要注意箇所については、重要度の低い文とともに見落とされてしまう可能性がある。

任意の文書内容に関して想定できる、語句と語句、及び２つの語句の関係を記述した知識ネットワーク構造データ（以後、標準文書構造データとよぶ）を予め定義し、入力文書を前記標準文書構造データと同様の形式である、語句と語句、及び２つの語句の関係を記述した知識ネットワーク構造データ（以後、入力文書構造データとよぶ）に変換し、入力文書構造データの中の、標準文書構造データの２つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、前記入力文書の１、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合（以後、標準割合とよぶ）を評価し、その評価結果を少なくとも２つ以上に分類して、分類した結果に応じて入力文書構造データを構成した１、または複数の文の出力を色、形、音、数値の少なくとも１つを使って強調出力情報にする出力手段を備えたことを特徴とする文書評価支援システム。

本発明の文書評価支援システムによれば、想定外の記述についての分類や選択の支援が可能になる。

全体構成図標準文書構造データによる要注意箇所抽出時の処理手順要注意箇所抽出方法入力文書構造データ例要注意箇所抽出評価例（１）要注意箇所抽出評価例（２）入力文書の標準割合評価例標準割合の表示方法（文書内表示）例評価結果の表示方法（標準割合一覧）例文書構造表示例フィードバック手順

本発明について、実施例を用いて説明するが、これに限定されるものではない。

想定外の要注意箇所については、重要度の低い文とともに見落とされてしまう可能性があり、想定外の要注意箇所を見分けるためには、入力文書の記述内容について想定した要注意箇所を表す語句と語句、及び２つの語句の関係を検索するだけでなく、入力文書の任意の文の知識ネットワーク構造に想定できる知識ネットワーク構造データが含まれる割合を評価し、評価結果に対応して、入力文書の知識ネットワーク構造データを構成する文や語句の表示を変えることにより、入力文書の任意の文の特徴を判断して分類することができる手段が必要である。

また、新しく抽出した要注意箇所を表す文や想定できると判断された文について、その構造データを蓄積することにより、次回からの要注意箇所の抽出精度の向上に貢献する手段が必要である。これらの課題を解決するために、以下の例が挙げられる。

任意の文書の内容に関する語句と語句、及び２つの語句の関係を表す想定内の知識ネットワーク構造を保管する手段、入力文書を前記と同様に、語句と語句、及び２つの語句の関係を表し、その文書内に含まれる語句で構成される知識ネットワーク構造に変換する手段、入力文書の中から選択した文の知識ネットワーク構造と、前記想定内の知識ネットワーク構造とを比較し、全て、または一部が一致する箇所を検索する手段、文書の任意の文ごとに一致する割合を評価する手段、入力文書を任意の文ごとの表示を上記の評価結果に応じて変更する手段、を備えた。

また、本発明の文書評価支援システムにおいて、前記入力文書を知識ネットワーク構造に変換する手段とは、入力文書の各文を構文解析して、主語、述語、目的語等の関係を語句と語句、及びその関係として表し、想定できる知識ネットワーク構造と同様の関係に変換する。

また、本発明の文書評価支援システムにおいて、前記入力文書の知識ネットワーク構造と予め定義した知識ネットワーク構造が一致する箇所というのは、入力文書の中の各文の知識ネットワーク構造の中に予め定義した知識ネットワーク構造と同じ知識ネットワーク構造が存在した場合であり、予め定義した知識ネットワーク構造の中には、要注意箇所を語句と語句、及び２つの語句の関係で記述した構造データが含まれる。

また、前記入力文書の知識ネットワーク構造の想定できる知識ネットワーク構造の割合とは、入力文書の中の任意の文の知識ネットワーク構造の語句と語句、及び２つの語句の関係の中に、想定できる知識ネットワーク構造の語句と語句、及び２つの語句の関係がどのくらい存在するかを評価した割合である。

本発明の文書評価支援システムによれば、入力文書内の要注意箇所について、その特徴が可視化され、特に、想定外の記述についての分類や選択の支援が可能になるとともに、結果を蓄積することにより、要注意箇所の抽出精度が向上できる。

以下、図面を用いて説明する。

以下に図１から図１１を用いて本発明に係る情報参照支援システムの一実施形態について説明する。

図１に本発明の文書評価支援システムの全体構成を示す。本システムは、任意の文書内容について想定できる語句と語句、及びそれら２つの語句の関係を記述したネットワーク構造データ（以後、標準文書構造データと呼ぶ）を保管する標準文書構造データベース（１０１）、標準文書構造データの中で任意の文書内容における要注意箇所として、語句と語句、及び２つの語句の関係として記述したデータ（以後、要注意箇所抽出ルールとよぶ）を保管する要注意箇所抽出ルールデータベース（１０２）、入力文書（１０３）を知識ネットワーク構造データに変換する構造データ作成装置（１０４）、構造データ作成装置によって入力文書を標準文書構造データと同様の形式である、語句と語句、及び２つの語句の関係を記述した知識ネットワーク構造データに変換されたデータ（以後、入力文書構造データとよぶ）を保管する入力文書構造データベース（１０５）、標準文書構造データと入力文書構造データを比較、評価することによって、要注意箇所を抽出したり、評価値を算出する構造データ比較評価装置（１０６）、入力文書構造データの任意の文ごとに評価した結果を蓄積する評価結果データベース（１０７）、指定した閾値データ（１０８）をもとに、評価結果から対象となる文や評価値を選択する選択装置（１０９）、選択結果に応じて文書内の文や語句の表示を変更したり、表を並び替えて表示したり、文の構造データを画面上に表示する評価結果出力装置（１１０）、入力文書の構造データを要注意箇所や想定できる構造データとして更新するかを分類する入力文書分類装置（１１１）、指定された更新する構造データを標準文書構造データベース（１０１）、要注意箇所抽出ルールデータベース（１０２）に更新する構造データ／ルール更新装置（１１２）によって構成されている。選択装置（１０９）、評価結果出力装置（１１０）、入力文書分類装置（１１１）は、入力文書の１、または複数の文ごとに作成した入力文書構造データの中の標準文書構造データと一致する割合（以後、標準割合とよぶ）を評価し、その評価結果を少なくとも２つ以上に分類して、分類した結果に応じて入力文書構造データを構成した１、または複数の文の出力を色、形、音、数値の少なくとも１つを使って強調出力情報にする出力装置（１１３）の一例である。入力文書分類装置（１１１）、構造データ／ルール更新装置（１１２）は、データを更新する知識データベース更新装置（１１４）の一例である。標準文書構造データベース（１０１）、要注意箇所抽出ルールデータベース（１０２）は、新たな入力文書（１０３）の要注意箇所を抽出するための知識を記録した知識データベース（１１５）の一例である。

文書を処理する目的に応じてこれら処理装置の全てを用いても良いし、一部を用いても良い。また、評価結果出力装置（１１０）及び出力装置（１１３）は、ディスプレイなどの表示装置を含んでもよいし、ディスプレイなどの表示装置を含まずディスプレイへの表示情報を出力する出力端子などの出力部でも良い。

図２に図１に図示した本発明の文書評価支援システムにおいて入力文書の中から要注意箇所を抽出し、文を評価する時の処理手順の一例をフローチャートで示す。

開始（ステップ２０１）後、標準文書構造データを読み込む（ステップ２０２）。標準文書構造データは、対象とする文書の内容によって、予め想定できる語句と語句、及び２つの語句の関係が定義されている。例えば、ある製品の技術仕様書のような契約文書を対象とした場合は、その製品の技術仕様書として、どのような内容が記述されているかといった観点で、構成品や実施事項等について、必要とされる語句と語句、及び２つの語句の関係が知識ネットワーク構造データで記述されている。さらに、標準文書構造データには、要注意箇所についての構造データも含まれている。例えば、「Ｆｕｅｌの種類はＧａｓである」という内容が要注意箇所であれば。語句「Ｆｕｅｌ」と語句「Ｇａｓ」、及び２つの語句の関係「種類（属性）である」といったデータ構造が記述されている。

次に、入力文書を読込み（ステップ２０３）、評価する文の対象単位を指定する（ステップ２０４）。文の対象単位は、例えば文書を章や段落ごとに分割したり、任意のｎ文ずつ分割して、１つまたは複数の文によって構成される。この指定された対象単位の文ごとに標準文書構造データと同様の知識ネットワーク構造に変換して、入力文書構造データを作成する（ステップ２０５）。

次に、前記入力文書構造データに含まれる対象単位文の各構造データを選択して（ステップ２０６）、その中から標準文書構造データの一部、または全てが一致する構造データを検索し要注意箇所を抽出する（ステップ２０７）。さらに、入力文書構造データの対象単位文ごとに標準文書構造データの出現度を定量的に評価（ステップ２０８）、これを入力文書が終了するまで実行する（ステップ２０９）。このとき、各対象単位文の中にある、要注意箇所抽出ルールで定義した標準構造データの出現度に関する評価スコアをルールスコア（Ｓｓｒ）、標準文書構造データで定義した２つの語句の一部が一致したときに一致しなかったもう一方の語句を要注意箇所としてその要注意箇所に関する評価スコアを標準外スコア（Ｓｓｓ）、各対象単位文の中の標準文書構造データの出現割合を標準割合（Ｓｒ）とよぶ。要注意箇所抽出方法と定量的評価方法については図３、図５などで後述する。

入力文書構造データの全ての対象単位文について評価が終了したら、入力文書構造データの各対象単位文の評価スコアを集計して（ステップ２１０）評価データを作成し終了する（ステップ２１１）。

図３に、本発明の文書評価支援システムにおける、図１に図示した構造データ比較評価装置（１０６）による要注意箇所抽出例を示す。

入力文書を分割した対象単位文の入力文書構造データ（３０１）の例を示す。この例では、対象となった文の中に、語句（主語）と語句（目的語）、及び２つの語句の関係が４組（３０２、３０３、３０４、３０５）あることを表している。

ここで、標準文書構造データに含まれる要注意箇所抽出ルールの一つを標準文書構造データ（３０６）で示す。この例では、「語句「主語Ａ」と語句「目的語Ｃ」の関係が「関係ｂ」である」という内容が入力文書に記述されていれば、その文は要注意箇所であることを示している。この要注意箇所抽出ルールの構造データ（３０６）と入力文書構造データ中の構造データ（３０３）が一致することにより入力文書の中から要注意箇所が抽出される。

次に、想定できる標準文書構造データ（３０７）の例を示す。この例では、「語句「主語Ａ」と語句「目的語Ｅ」の関係が「関係ｂ」である」ということを表す標準文書構造データ（３０８）と語句「主語Ａ」と語句「目的語Ｂ」の関係が「関係ａ」である」ということを表す標準文書構造データ（３０９）が、想定されるデータとして定義されている。このとき、入力文書構造化データの「語句「主語Ａ」と語句「目的語Ｂ」の関係が「関係ａ」である」という構造データ（３０２）は、標準文書構造データとして想定されている（３０９）ので要注意箇所でないが、「語句「主語Ａ」と語句「目的語Ｄ」の関係が「関係ｃ」である」という構造データ（３０４）の中の「目的語Ｄ」は主語Ａの目的語として想定されていないので、要注意箇所として抽出される。

さらに、入力文書構造化データの「語句「主語Ｘ」と語句「目的語Ｙ」の関係が「関係ｄ」である」という構造データ（３０５）は、標準文書構造データに存在しないため、想定できるデータでないということから要注意箇所として抽出されない。

構造データの例として、自然言語処理など、形式言語の解析で使用される構文解析の結果として抽出される文法的な語句の係り受け関係のうち、文中の主語と目的語の関係の例を示したが、必ずしも主語と目的語の関係に限定していない。予め定義した２つの語句で、２つの語句の間に何らかの関係性があればよい。

図４に、本発明の文書評価支援システムにおける、図１に図示した構造データ作成装置（１０４）によって入力文書を変換して入力文書構造データベース（１０５）に保管された入力文章構造データを模式的にグラフで表した例（４００）を示す。

入力文書を分割した対象単位文の「文ａ」「文ｂ」「文ｃ」の構造データが、それぞれグラフで表わされている（４０１、４０２、４０３）。楕円で示されているのが主語や目的語等、それぞれの語句で、２つの語句の間に何らかの関係がある場合は語句と語句の間を結ぶ線で示す。１つの語句が複数の語句と関係がある場合もある。

図５に、本発明の文書評価支援システムにおいて、図１に図示した構造データ比較評価装置（１０６）が標準文書構造データベースの中の要注意箇所抽出ルールによって要注意箇所抽出したときに算出される評価スコアの例を示す。

図中の入力文書構造データの１つとして、入力文書に記載されている文ｂが文解析等によって解析した結果の構造データを示す（５０１）。このとき文ｂには、主語「Fuel」（５０４）と目的語「Gas」（５０５）は予め定義した「attribute_of」の関係があり、かつ、主語「Fuel」（５０４）と目的語「Oil」（５０６）もまた「attribute_of」の関係があることが記述されている。

また、図１に図示した要注意箇所抽出ルールのデータベース（１０２）に定義されている要注意箇所抽出ルール（５０２）の例を示す。これは、文中に主語「Fuel」と目的語「Gas」の組合せがあれば（この例では関係は省略されている）その部分は要注意箇所であり、その要注意箇所のスコア（Sc）は「10」、重み（W）は「1.0」であることを示している。

この要注意箇所抽出ルールが文ｂの構造データの一部と２語句とも一致するので、文ｂに要注意箇所が含まれていることがわかる。

さらに、このときの文ｂの要注意度を示す評価スコア（ルールスコア）と文の想定できる構造データの割合（標準割合）の評価例を示す。（５０７、５０８）ルールスコア（Ssr）は、要注意箇所抽出ルール（５０３）が抽出されたことから、
Ssr（文ｂ）＝ Σ （各要注意箇所抽出ルールのスコア）×（重み）
＝（10×1.0）＝10.0
標準割合は、２つの構造データ（「Fuel」−「Gas」、「Fuel」−「Oil」）に対して、構造化データの主語と目的語が標準文書構造データである組合せが１つ（「Fuel」−「Gas」）、構造化データの主語と目的語のどちらか標準文書構造データである組合せが１つ（「Fuel」−「Oil」）、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが０であることから、
Sr（文ｂ）＝｛２つの語句が標準構造データに一致する組合せ数×W1
＋どちらか１つの語句が標準構造データである組合せ数×W2
＋２つの語句が標準構造データに一致しない組合せ数×W3 ｝
／構造化データ総数
＝｛ 1×1.0＋1×0.5＋0×0.0 ｝／2 ＝0.75
W1、W2、W3（W1＞W2＞W3）は任意の値を定義する。

この結果を使って、入力文書は各対象単位文ごとに評価することができる。

図６に、本発明の文書評価支援システムにおいて、図１に図示した構造データ比較評価装置（１０６）が標準文書構造データによって要注意箇所抽出したときに算出される評価スコアの例を示す。

図の中の入力文書構造データの１つとして、入力文書に記載されている文ｃが文解析等によって解析された結果の構造データを示す（６０１）。このとき文ｃには、主語「Certificate」（６０４）と目的語「KOSHA」（６０５）は予め定義している「attribute_of」の関係があり、かつ、主語「Certificate」（６０１）と目的語「ASME」（６０６）もまた「attribute_of」の関係があることが記述されている。

また、図１に図示した標準文書構造データベース（１０１）に、定義されている想定できる文書構造データ（６０２）の例（６０３）を示す。これは、文中に主語「Certificate」と目的語「ASME」の組合せがあれば（この例では関係は省略されている）その部分は想定できる記述であることを表す。また、文中の構造データの主語、目的語のどちらか一方の語句だけが標準文書構造データに含まれる場合、もう一方の語句は想定外の語句であることから要注意箇所であり、その要注意箇所のスコア（Sc）は、想定できる文書構造に含まれる語句が「Certificate」のときは「10」、「ASEM」のときは「5」、各語句の重み（W）は、それぞれ「2.0」、「1.0」であることを示している。

文ｃの文書構造データに含まれる構造データの中に、主語「Certificate」（６０４）と目的語「KOSHA」（６０５）の関係（「attribute_of」）があり、この構造データは、標準文書構造で定義した語句の組合せのひとつの語句「Certificate」(６０４）のみが一致するので、文ｃのもう一方の語句「KOSHA」は想定外に出現した要注意箇所であることがわかる。

さらに、このときの文ｃの要注意度を示す評価スコア（標準外スコア）と文の想定できる構造データの割合（標準割合）の評価例を示す（６０７、６０８）。

標準外スコア（Sss）は、標準文書構造（６０３）で定義された２つの語句のうちの片方をもつ構造データが抽出されたことから、
Sss（文ｃ）＝（各標準文書構造の一致した語句のスコア）×（重み）
＝（10×2.0）＝20.0
標準割合は、２つの構造データ（「Certificate」−「KOSHA」、「Certificate」−「ASEM」）に対して、構造化データの主語と目的語が標準文書構造データである組合せが１つ（「Certificate」−「ASEM」）、構造化データの主語と目的語のどちらか標準文書構造データである組合せが１つ（「Certificate」−「KOSHA」）、構造化データの主語と目的語のどちらも標準文書構造データでない組合せが０であることから、
Sr（文ｃ）＝｛２つの語句が標準構造データに一致する組合せ数×W1
＋どちらか１つの語句が標準構造データである組合せ数×W2
＋２つの語句が標準構造データに一致しない組合せ数×W3 ｝
／構造化データ総数
＝｛ 1×1.0＋1×0.5＋0×0.0 ｝／2 ＝0.75
この結果を使って、入力文書は各対象単位文ごとに評価することができる。

図７に、本発明の文書評価支援システムにおいて、図１に図示した構造データ比較評価装置（１０６）が入力文書構造データから標準文書構造データを検索することによって算出される標準割合の別の例を示す。

例えば、入力文書に記載されている対象文（７００）が文解析等によって解析された語句と語句、および２つの語句の関係の構造データを示す（７１０）。この結果から、対象文には主語「System」と目的語「operation」に「p/o」（part_of）の関係、主語「System」と目的語「normal shutdown」に「p/o」の関係、主語「System」と目的語「Emergency shutdown condition」に「p/o」の関係、主語「Emergency shutdown condition」と目的語「upset situation」に「p/o」の関係が記述されていることがわかる。

また図１に図示した標準文書構造データベース（１０１）には、想定できる文書構造データ（７２０）が定義されている。この例では、主語「System」と目的語「condition」、「control」、「Auxiliary」、「Test」等がそれぞれ「p/o」の関係で記述されることを想定している。

入力文の構造データと標準文書構造データを比較して（２語以上で構成される熟語については最右語句を代表語句として比較する）入力文の構造データの中に標準文書構造データの何れかが存在するかを評価するとき、主語「System」と目的語「condition」の関係が存在することがわかる。（７２１、７１３）また、その他の入力文の構造データのうち、「operation」、「shutdown」は「System」の目的語として想定外の語句であり、「situation」もまた「condition」の目的語として想定外の語句である。

このとき、対象文（７００）の標準割合は、４つの構造データ（「System」−「operation」、「System」−「shutdown」、「System」−「condition」、「condition」−「situation」）に対して、構造化データの主語と目的語が標準構造データである組合せが１つ（「System」−「condition」）、構造化データの主語と目的語のどちらか標準構造データである組合せが３つ（「System」−「operation」、「System」−「shutdown」、「condition」−「situation」）、構造化データの主語と目的語のどちらも標準構造データでない組合せが０であることから、
Sr（文）＝｛ 1×W1(1.0)＋3×W2(0.5)＋0×W3(0.0) ｝／4 ＝0.625
ここで、もし入力文書の対象文の「System」が「Device」、「Emergency shutdown condition」が「Emergency shutdown status」であった場合、入力文書構造データのいずれの構造も標準構造データに存在しなければ、標準文書構造データをもとに要注意箇所を抽出することはできない。対象文の標準割合は
Sr（文）＝｛ 0×1.0＋0×0.5＋4×0.0 ｝／4 ＝0
標準割合が０のときは、全く問題ないのに標準文書構造データに定義していない、または要注意箇所があったにもかかわらず標準文書構造データ（要注意箇所抽出ルールに定義していない、のどちらかであるが、その内容の差は大きいと考えられる。このため、標準割合を考慮してデータを確認することが重要である。

図８に、本発明の文書評価支援システムにおける、図１に示した閾値データベース（１０８）の閾値データに従って評価結果を選択する選択装置（１０９）において、対象文単位や閾値データを指定する画面例である評価方法設定画面（８００）と、選択装置からの入力を用いて、評価結果に応じた入力文書、及び入力文書を構成する文や語句の表示を変更する選択結果出力装置（１１０）で情報を出力した表示装置の画面例を示す。

この例では、評価方法設定画面（８００）で入力文書の対象単位文の設定（８０１）と、入力文書の構造データと要注意箇所抽出ルールとの比較によって抽出した要注意箇所を評価するルールスコア（８０２）、入力文書の構造データと標準文書構造データとの比較によって抽出した要注意箇所を評価する標準外スコア（８０３）、入力文書構造データの対象単位文ごとに予め定義した想定できる文書構造データ（標準文書構造データ）と一致する割合（標準割合）（８０４、８０５）を使って閾値データを設定する。

次に文書を表示した画面に評価結果を表示した例を示す（８１０）。要注意箇所抽出ルールによって抽出した要注意箇所は、ルールスコアが指定した閾値以上場合、要注意箇所の語句を色（例えば文字色を赤）や字体（例えば太字）を使って強調表示する（８１１）。例えば、図８の破線の丸で囲んだ「control」、「system」を赤文字で表示する。同様に標準構造データによって抽出した要注意箇所は、標準外スコアが指定した閾値以上の場合、要注意箇所の語句を色（例えば文字色を青）や字体（例えば斜体）を使って強調表示する（８１２）。例えば、図８のアンダーラインをひいた「operation」、「normal shutdown」を青文字、斜体で表示する。

また、標準割合の大きさにが１００％のときや任意の値以上のとき、任意の値以下のとき、０％のとき等、２つ以上に分類して異なる背景色や字体等を使って表示する（８１３）。例えば、図８の破線で囲んだ「system .... conditions」の文章を、黄色の背景表示として表示する。これによって、例えば、契約文書の内容の特徴や注意すべき箇所を把握し、想定内の記述であるか、想定外の記述であるか、また、想定外の文書が含まれているかを分割した文（複数文、段落、章）ごとに留意しながら読むことができる。

図９に、本発明の文書評価支援システムにおける、図８に図示した評価方法に応じて入力文書を表示した出力画面（９１０）を入力文書の対象（単位）文ごとに評価して標準割合の値に従って並び替えて表示した例を示す（９２０）。

入力文書の対象文（９２１）がその文の標準割合（９２２）とともに提示され、さらに標準割合の降順、または昇順に並び替えを行う（９２３）。

また、各対象文が要注意箇所ルールや標準文書構造データとして定義されていないと判断したとき、どちらかに該当するかを判断して（９２４）その構造データをデータベースに登録する。具体的な処理は図１１で示す。

図１０に、本発明の文書評価支援システムにおいて、図８に図示した評価結果を入力文書の文書構造データを構成する語句を使って構造的に表示した出力画面例を示す（１０１０）。

評価結果の表示方法として、要注意箇所として抽出された語句、及び語句と語句を拡大して表示したり、標準割合の大きい（小さい）、または指定した範囲の標準割合である文の構造データを拡大表示することを可能とする。

この例では、標準割合の小さい文の構造データを拡大表示している（１０２０）。

図１１に、本発明の文書評価支援システムにおいて、図１の入力文書分類装置（１１１）により、図９で示した入力文書の評価結果によって対象（単位）文が要注意箇所ルール、または標準文書構造データのいずれかを指定して標準文書構造データベースに登録する構造データ／ルール更新装置の実行概略を示す。

入力文書の対象（単位）文（１２１０）が要注意箇所（１１０１）、または想定できる標準文書（１１０２）のどちらかである場合、それぞれ文章解析結果から作成した構造データ（１１０３、１１０４）を要注意箇所抽出ルールに追加、または既存の同じ構造データの出現度などを更新（１１０５）、及び標準文書データベースに追加、または既存の構造データの出現度などを更新（１１０６）する。

上述した実施例では、図１の構造データ比較評価装置１０６が図２の要注意箇所抽出時の処理手順を実施し、評価データを作成して、図１の選択装置１０９が図８〜図１０の評価結果の表示を行ったが、構造データ比較評価装置１０６と選択装置１０９とを分けた別の装置としても良い。予め、図２の処理による評価結果データ、又は他の方法による図２の処理による評価結果データと同様なデータを評価結果データベース１０７に作成しておき、選択装置１０９が評価結果データベース１０７にアクセスすることによる図８〜図１０の評価結果の表示処理としても良い。

また、上述した実施例では、図３のような用語の接続関係を含む構造データでの比較を前提としていたが、このような構造データを用いた用語の比較のみではなく、他の用語同士のデータで比較することとしても良い。

図８のように、任意の入力文書のデータに関して表示させる文書評価支援システムのコンピュータが、１又は複数の文の入力文書のデータのうち標準文書のデータに一致する割合である標準割合（８０５）のデータと、入力文書の用語のデータのうち標準文書の用語のデータに一致しない程度を表す標準外スコア（８０３）のデータを記録したデータベースを有し、入力文書データを表示し（８１０）、入力文書データのうち、ある所定の標準割合の条件に合致するデータと、ある所定の標準外スコアに合致するデータとを同じ入力文書データを表示した画面上で強調出力する文書評価支援方法により、想定外の記述についての分類や選択の支援ができる。これは標準データには無い用語の記載について、文の長さの関係としての標準割合と、用語の関係としての標準外スコアという異なる物差しで想定外の記述を抽出するものである。また、ここでの標準外スコア（８０３）は、図６で説明した標準文書構造（６０３）で定義された２つの語句のうちの片方をもつ構造データが抽出されたことによる標準外スコア（Sss）と同様であるが、また、２つの語句のうちの片方をもたない構造データが抽出されたことに着目する場合や、このような構造データではない用語比較では用語同士の一致しない点が抽出されたことに着目する場合などがある。

上述した実施例のように、入力文書構造データの中の、標準文書構造データの２つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、入力文書の１、または複数の文ごとに作成した入力文書構造データの中の標準文書構造データと一致する割合（標準割合）を評価し、その評価結果を少なくとも２つ以上に分類して、分類した結果に応じて入力文書構造データを構成した１、または複数の文の出力を色、形、音、数値の少なくとも１つを使って強調出力情報にする出力手段を備えた文書評価支援システムにより、入力文書内の要注意箇所について、その特徴が可視化され、特に、想定外の記述についての作業者による分類や選択を支援することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、装置、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、コンピュータのプロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル、測定情報、算出情報等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。よって、各処理、各構成は、処理部、処理ユニット、プログラムモジュールなどとして各機能を実現可能である。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１標準文書構造データベース
１０２要注意箇所抽出ルールデータベース
１０３入力文書
１０４構造データ作成装置
１０５入力文書構造データベース
１０６構造データ比較評価装置
１０７評価結果データベース
１０８閾値データベース
１０９選択装置
１１０選択結果出力装置
１１１入力文書分類装置
１１２構造データ／ルール更新装置

Claims

任意の文書内容に関して想定できる、語句と語句、及び２つの語句の関係を記述した知識ネットワーク構造データ（以後、標準文書構造データとよぶ）を予め定義し、入力文書を前記標準文書構造データと同様の形式である、語句と語句、及び２つの語句の関係を記述した知識ネットワーク構造データ（以後、入力文書構造データとよぶ）に変換し、入力文書構造データの中の、標準文書構造データの２つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出する文書評価支援システムにおいて、
前記入力文書の１、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合（以後、標準割合とよぶ）を評価し、その評価結果を少なくとも２つ以上に分類して、分類した結果に応じて入力文書構造データを構成した１、または複数の文の出力を色、形、音、数値の少なくとも１つを使って強調出力情報にする出力手段を備えたことを特徴とする文書評価支援システム。
請求項１の文書評価支援システムにおいて、
前記標準文書構造データに、任意の文書内容における要注意箇所として、語句と語句、及び２つの語句の関係として記述したデータ（以後、要注意箇所抽出ルールとよぶ）を含み、前記入力文書構造データの中から前記要注意箇所抽出ルールによって定義された語句と語句、及び２つの語句の関係を記述した構造データが一致することにより、前記入力文書の特定の箇所を入力文書の要注意箇所として抽出することを特徴とする文書評価支援システム。
請求項１の文書評価支援システムにおいて、
前記入力文書を、１、または複数の文ごとに入力文書構造データに変換して、それぞれの標準割合を評価するとき、その評価対象となる１、または複数の文は入力文書を任意の数で分割した文、各章に含まれる文、または各段落に含まれる文として指定して評価することを特徴とする文書評価支援システム。
請求項１の文書評価支援システムにおいて、
前記入力文書の１、または複数の文ごとに作成した入力文書構造データの中のそれぞれの標準割合を評価し、評価結果に応じて、入力文書を構成する構造データを構成した１、または複数の文の表示を可視化するときに、設定した入力文書の任意の文ごとに文書中の背景色を変え、標準割合の値によって評価結果を並び替え、入力文書構造データを表すネットワーク図の表示を標準割合の値に応じて区別して強調表示することのいずれかを実行することを特徴とする文書評価支援システム。
請求項１の文書評価支援システムにおいて、
入力文書の任意の文ごとに標準割合の値によって評価結果を並び替えた結果をもとに、想定外の文が要注意箇所として扱うか、想定できる文として扱うかについて判断し、その結果を、要注意箇所抽出ルールデータベース、または、標準文書構造データベースに、フィードバックして、新規に追加又は、データベースに含まれる重み若しくは出現度のパラメータを変更して、要注意箇所抽出の精度を向上させる手段をもつことを特徴とする文書評価支援システム。
任意の文書内容に関して想定できる、語句と語句、及びそれら語句の関係を記述した知識ネットワーク構造データ（以後、標準文書構造データとよぶ）を予め定義したデータベースを有する文書評価支援システムのコンピュータが、
入力文書を前記標準文書構造データと同様の形式である、語句と語句、及びそれら語句の関係を記述した知識ネットワーク構造データ（以後、入力文書構造データとよぶ）に変換し、
入力文書構造データの中の、前記標準文書構造データの２つの語句の一部、または全てが一致する語句をもとに、入力文書の特定の箇所を抽出し、
前記入力文書の１、または複数の文ごとに作成した入力文書構造データの中の前記標準文書構造データと一致する割合（以後、標準割合とよぶ）を評価し、
その評価結果を少なくとも２つ以上に分類して、分類した結果に応じて入力文書構造データを構成した１、または複数の文の出力を色、形、音、数値の少なくとも１つを使って強調出力情報にすることを特徴とする文書評価支援方法。
請求項６の文書評価支援方法において、
前記標準文書構造データに、任意の文書内容における要注意箇所として、語句と語句、及び２つの語句の関係として記述したデータ（以後、要注意箇所抽出ルールとよぶ）を含み、前記入力文書構造データの中から前記要注意箇所抽出ルールによって定義された語句と語句、及び２つの語句の関係を記述した構造データが一致することにより、前記入力文書の特定の箇所を入力文書の要注意箇所として抽出することを特徴とする文書評価支援方法。
請求項６の文書評価支援方法において、
前記入力文書を、１、または複数の文ごとに入力文書構造データに変換して、それぞれの標準割合を評価するとき、その評価対象となる１、または複数の文は入力文書を任意の数で分割した文、各章に含まれる文、または各段落に含まれる文として指定して評価することを特徴とする文書評価支援方法。
請求項６の文書評価支援方法において、
前記入力文書の１、または複数の文ごとに作成した入力文書構造データの中のそれぞれの標準割合を評価し、評価結果に応じて、入力文書を構成する構造データを構成した１、または複数の文の表示を可視化するときに、設定した入力文書の任意の文ごとに文書中の背景色を変え、標準割合の値によって評価結果を並び替え、入力文書構造データを表すネットワーク図の表示を標準割合の値に応じて区別して強調表示することのいずれかを実行することを特徴とする文書評価支援方法。
請求項６の文書評価支援方法において、
入力文書の任意の文ごとに標準割合の値によって評価結果を並び替えた結果をもとに、想定外の文が要注意箇所として扱うか、想定できる文として扱うかについて判断し、その結果を、要注意箇所抽出ルールデータベース、または、標準文書構造データベースに、フィードバックして、新規に追加又は、データベースに含まれる重み若しくは出現度のパラメータを変更して、要注意箇所抽出の精度を向上させる手段をもつことを特徴とする文書評価支援システム。
任意の入力文書のデータに関して表示させる文書評価支援システムのコンピュータが、１又は複数の文の前記入力文書のデータのうち標準文書のデータに一致する割合である標準割合のデータと、前記入力文書の用語のデータのうち標準文書の用語のデータに一致しない程度を表す標準外スコアのデータを記録したデータベースを有し、前記入力文書データを表示し、前記入力文書データのうち、ある所定の前記標準割合の条件に合致するデータと、ある所定の前記標準外スコアに合致するデータとを同じ前記入力文書データを表示した画面上で強調出力する文書評価支援方法。