WO2011129198A1

WO2011129198A1 - 不整合検出システム、方法、およびプログラム

Info

Publication number: WO2011129198A1
Application number: PCT/JP2011/058370
Authority: WO
Inventors: 由希子黒岩
Original assignee: 日本電気株式会社
Priority date: 2010-04-12
Filing date: 2011-03-25
Publication date: 2011-10-20
Also published as: US9015161B2; JPWO2011129198A1; JP5751431B2; US20130031098A1

Abstract

　不整合検出システムは、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、を含む。類型化部は、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する。不整合検出システムは更に、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部を含む。

Description

[規則37.2に基づきISAが決定した発明の名称]　不整合検出システム、方法、およびプログラム

　本発明は、文書の不整合検出に関し、特に要求の記載された文書から要求の不整合を検出する不整合検出に関する。

　システム開発における要求の抜け漏れは、後工程からの手戻りによる修正コストが大きくなるため、早期に検出する必要性が広く知られている。従来、要求の抜け漏れの検出では、予め用意した検査項目を見ながら、要求の記載された文書に問題がないかを人が目視で検査していた。また、提案依頼書（ＲＦＰ：Ｒｅｑｕｅｓｔ　Ｆｏｒ　Ｐｒｏｐｏｓａｌ）に対する提案書や、提案書に対する仕様書などのように反映元文書と反映先文書がある場合、反映元文書に記載された個々の事柄に対し反映先文書に該当箇所があるかどうかについても、人が目視で検査していた。しかし、量が多く重複した記載のある文書の検査には、コスト（人件費と時間）がかかり、また、人手では見逃す場合があるという問題があった。
　これに対し、対象をモデル化し形式的検証を行う技術が、特許文献１に開示されており、記述された事柄について問題があるかを検証することができる。しかし、記述や解読にはユーザが時間をかけて学習する必要があり、また、自然言語である文書から形式的な記述への変換が不正確であると的確に検証できないという問題があった。
　形式的検証の支援技術が、特許文献２、特許文献３、特許文献４などに開示されているが、入力が容易になるものの、利用に学習が必要という問題は解決されていない。また、一般の文書においても、文書の矛盾点や曖昧な点や、元文書から別文書を作成したときの元文書の事柄の抜け漏れなどについて、人手でレビューしており、コスト（人件費と時間）がかかり、また、人手では見逃す場合があるという問題は同様であった。

特開２００８−３１０６６３号公報特開２００９−１１６６４８号公報特開２００９−０７５６８１号公報特開平５−１１９９８７号公報

　本発明の企図するところは、自然言語で記載された文書に対し、他の形式に変換せずに文書の不整合を検出できるようにすることにある。

　本発明の態様に係る不整合検出システムは、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、を備えることを特徴とする。
　本発明の別の態様によれば、自然言語で記載された所与の文書を分割して言明単位の集合を抽出し、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成し、予め定めた検査内容の集合と前記言明の構成で生成された言明の集合とを併合したデータ集合を生成し、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明の構成で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する、ことを含むことを特徴とする不整合検出方法が提供される。
　本発明の更に別の態様によれば、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラムが提供される。

　本発明によれば、文書を自然言語で記載されたままで入力するため、自然言語を他の形式に変換せずに文書の不整合を検出することができる。
　本発明によればまた、元のデータ集合に対し、類似したデータを連結した新たなデータへと変換して情報の増えたデータで類似度を計算するため、高い精度で不整合を検出することができる。

　図１は、本発明に係る不整合検出システムの第１の実施形態の構成例を示すブロック図である。
　図２は、図１の言明単位記憶部１００に記憶された言明単位の例を示す説明図である。
　図３は、図１の言明記憶部１０１に記憶された言明の例を示す説明図である。
　図４は、図１の検査内容記憶部１０２に記憶された検査内容の例を示す説明図である。
　図５は、図１のデータ記憶部１０３に記憶されたデータ集合の例を示す説明図である。
　図６は、図１の類型化結果記憶部１０４に記憶された類型化結果の例を示す説明図である。
　図７は、本発明に係る不整合検出システムの第１の実施形態の処理経過の例を示すフローチャートである。
　図８は、図１の言明単位抽出部１０５において、行の最大文字数を計算する場合の例を示す説明図である。
　図９は、図１の言明単位記憶部１００に記憶される別の言明単位の例を示す説明図である。
　図１０は、本発明に係る不整合検出システムの第１の実施形態の１つの検査対象の完全性ｉに対する検出部１０９の処理経過の例を示すフローチャートである。
　図１１は、本発明に係る不整合検出システムの第２の実施形態の構成例を示すブロック図である。
　図１２は、本発明に係る不整合検出システムの第２の実施形態の１つの検査対象の無矛盾性ｉに対する検出部２００の処理経過の例を示すフローチャートである。
　図１３は、本発明に係る不整合検出システムの第３の実施形態の構成例を示すブロック図である。
　図１４は、図１３の変換語句記憶部３００に記憶された変換語句の例を示す説明図である。
　図１５は、本発明に係る不整合検出システムの第３の実施形態のデータ生成部３０１の処理経過の例を示すフローチャートである。
　図１６は、本発明に係る不整合検出システムの第３の実施形態の１つの検査対象の非曖昧性ｉに対する検出部３０２の処理経過の例を示すフローチャートである。
　図１７は、図１３の検査内容記憶部１０２に記憶された検査内容の例を示す説明図である。
　図１８は、本発明に係る不整合検出システムの第４の実施形態の構成例を示すブロック図である。
　図１９は、図１８の言明単位記憶部４００に記憶される言明単位の例を示す説明図である。
　図２０は、図１８の言明記憶部４０１に記憶された言明の例を示す説明図である。
　図２１は、本発明に係る不整合検出システムの第４の実施形態の処理経過の例を示すフローチャートである。
　図２２は、図１８の変換語句記憶部３００に記憶された変換語句の例を示す説明図である。
　図２３は、図１８のデータ記憶部１０３に記憶されたデータ集合の例を示す説明図である。

　以下に、本発明を不整合検出システムに適用したいくつかの実施形態について説明するが、不整合検出システムは不整合検出装置として解釈されてもよい。
（第１の実施形態）
　本発明による不整合検出システムの第１の実施形態について図面を参照して詳細に説明する。第１の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書が完全性を満たさなければ、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。
　提案依頼書（ＲＦＰ：Ｒｅｑｕｅｓｔ　Ｆｏｒ　Ｐｒｏｐｏｓａｌ）は、発注元である官公庁や企業が情報システムやＩＴサービスなどを調達する際に、発注先となるＩＴベンダに対して提案を要請するための文書である。提案依頼書は、調達依頼書、入札依頼書、提案要請書、提案要求書、提案要望書、提案募集書、見積依頼書、提案書提出要請書などとも呼ばれる。提案依頼書には、例えば、概要と目的、必要な機能、サービスレベル、契約条件などの具体的な要求事項が記載される。
　提案書（Ｐｒｏｐｏｓａｌ）とは、ＩＴベンダが具体的な提案事項を記載した文書である。提案書は、企画書、企画提案書などとも呼ばれる。提案書には、例えば、目的やねらい、機能やサービスレベルの実現手段、開発体制などの具体的な提案事項が記載される。
　仕様書は、システムやサービスが満たすべき事項である要件事項を記載した文書である。仕様書は、要求仕様書、要求定義書、要件定義書、機能仕様書、設計書などとも呼ばれる。仕様書には、発注元と発注先との間で取り決められた要件事項が整理されて記載される。
　図１を参照すると、第１の実施形態に係る不整合検出システムは、キーボードなどの入力部１０と、情報を記憶する記憶部１１と、プログラム制御により動作する計算部１２と、ディスプレイ装置や印刷装置などの出力部１３とから構成されている。
　記憶部１１は、言明単位記憶部１００と、言明記憶部１０１と、検査内容記憶部１０２と、データ記憶部１０３と、類型化結果記憶部１０４とを備える。
　言明単位記憶部１００は、言明単位を記憶する。ここで、言明単位とは、言明の意味を示す表現の単位であり、文、箇条書き、表題、図の一部である。言語単位は、例えば、具体的には、「・・・入力される。」のような文や、「・・・入力されること」のような箇条書きや、「１．はじめに」のような章の表題や、「図１　実施形態１のブロック図」のような図や表の表題や、「入力部１０」、「変換語句記憶部」のような図の一部である。
　図２は、言明単位記憶部１００に記憶された言明単位の例を示す説明図である。図２に示すように、言明単位は、言明単位の番号を示す言明単位ＩＤと共に記憶される。
　言明記憶部１０１は、言明を内容と文脈との組として記憶する。文脈とは、例えば、章や節などの表題や、図や表のタイトルなどとする。言明とは、１つの完結した意味を示す表現である。言明は、提案依頼書ではそれぞれの要求事項、提案書ではそれぞれの提案事項、仕様書ではそれぞれの要件事項のことを指す。
　図３は、言明記憶部１０１に記憶された言明の例を示す説明図である。図３に示すように、言明は、文脈と内容との組として記憶する。ここで、図３は、図２から構成した言明の例である。後述するように、該当する内容のない文脈は削除されるため、図１の“サーバ要件”は削除されている。
　検査内容記憶部１０２は、予め定めた検査内容を記憶する。
　図４は、検査内容記憶部１０２に記憶された検査内容の例を示す説明図である。図４は、サーバ要件の例であり、検査ＩＤと検査内容と検査方法の組として記憶する。なお、検査内容は、文章でもキーワードの羅列でもよい。また、ここでは、検査方法の例として、完全性、無矛盾性、非曖昧性の場合を示したが、それ以外の方法を設定してもよい。
　データ記憶部１０３は、検査内容記憶部１０２に記憶された検査内容の集合と言明記憶部１０１に記憶された言明の集合とを併合したデータ集合を記憶する。
　図５は、データ記憶部１０３に記憶されたデータ集合の例を示す説明図である。図５に示すように、データは、例えば、データの番号を示すデータＩＤとデータの内容と文書の番号を示す文書ＩＤとして記憶する。文書ＩＤは、データが検査内容の場合は１、言明の場合は２などとする。
　類型化結果記憶部１０４は、データを類型化した結果を記憶する。
　図６は、類型化結果記憶部１０４に記憶された類型化結果の例を示す説明図である。図６に示すように、類型化結果は、例えば、類型化結果の番号を示すＩＤと、類型化結果と、文書ＩＤとして記憶する。図５を類型化した結果、データ２とデータ８が類似のため同じデータに変換された場合、データ１以外が言明を含むとして抽出され、図６のような類型化結果を記憶する。
　計算部１２は、言明単位抽出部１０５と、言明構成部１０６と、データ生成部１０７と、類型化部１０８と、検出部１０９とを備える。
　言明単位抽出部１０５は、入力部１０を介して入力された文書を整形し、分割して言明単位を抽出し、言明単位記憶部１００に記憶する。
　言明構成部１０６は、言明単位を言明の内容と文脈とに分類し、内容とその直前の文脈との組として言明を構成し、言明記憶部１０１に記憶する。
　データ生成部１０７は、言明記憶部１０１に記憶された言明と検査内容記憶部１０２に記憶された検査内容とを併合したデータ集合を生成し、データ記憶部１０３に記憶する。
　類型化部１０８は、データ記憶部１０３に記憶されたデータ間の類似度が予め定めた第一の閾値より小さくなるまで２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から言明構成部１０６で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、生成した類型化結果集合を類型化結果記憶部１０４に記憶する。
　検出部１０９は、予め定めた検査対象と検査内容記憶部１０２に記憶された完全性を示す検査内容との組に対し、類型化結果記憶部１０４に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部１３に検出結果を出力する。
　次に、図１に加えて、図７のフローチャートを参照して第１の実施形態の全体の動作について詳細に説明する。
　入力部１０を介して、提案依頼書（ＲＦＰ）、提案書、仕様書などの文書がテキスト形式で入力されると、言明単位抽出部１０５は、まず、文書中の不要な定型行を除く（ステップＡ１）。ここで、不要な定型行とは、例えば、空行やページを示す行である。ページを示す行は、例えば、数字のみの行や、−数字−という形式である。あるいは、文書の全てのページに記載された文字列、例えば、“Ｃｏｐｙｒｉｇｈｔ　．．．，Ａｌｌ　ｒｉｇｈｔｓ　ｒｅｓｅｒｖｅｄ．”や企業名、日付などがあれば、削除する。これらの削除すべき文字列は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。
　言明単位抽出部１０５は、次に、行の最大文字数を計算する（ステップＡ２）。ここで、日本語には半角と全角の区別があり、全角文字の多い一般の行の最大文字数を計算するため、その文字数の行の数が文書の一定の割合以上の数があるものとする。一定の割合とは、例えば全行数の１％などとする。
　図８は、言明単位抽出部１０５において、行の最大文字数を計算する場合の例を示す説明図である。ここで、図８は、１０１行以上ある文書の一部とする。文書が図８のように、文章の形式で各行に改行が入っている場合には、１行目が５文字、２行目から５行目と７行目が２５文字、６行目が２６文字、８行目が５文字となる。最大文字数は２６文字であるが、２６文字は１行しかないとすると、１％以上にならないため、言明単位抽出部１０５は最大文字数が２５文字であると計算する。
　言明単位抽出部１０５は、次に、各行の近傍行の文字数を調べて、不要な改行を削除する（ステップＡ３）。近傍行とは、例えば５行などである。ある行および近傍行の文字数がほとんど最大文字数であれば、その行の改行を削除する。ほとんどとは、例えば、ある行自身および近傍５行のうちの３行以上が最大文字数±３文字の範囲の文字数の場合である。これらの条件は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図８では、１行目は５文字であり、自分自身が最大文字数±３文字の範囲でないので、１行目の改行は削除されない。２行目は２５文字であり、３行目から５行目は、２５文字あるいは２６文字で、最大文字数±３文字の範囲内なので、２行目の改行は削除される。３行目も、自分自身および２行目、４行目から６行目が最大文字数±３文字の範囲内なので、３行目の改行は削除される。同様に、４行目、５行目、６行目の改行も削除される。７行目は、１行目と同様に文字数が少ないので、改行が削除されない。なお、文書中に表がある場合には、全文書の行の最大文字数の代わりに、近傍行の最大文字数を用いて、同様な方法で不要な改行を削除してもよい。
　言明単位抽出部１０５は、次に、各行に対し、前の行末とその行の行頭とを連結することで単語となるかを調べて、単語になるなら不要な改行があったとして、前の行末の改行を削除する（ステップＡ４）。ここで、単語になるかを調べるには、一般的な形態素解析を行い、一つの単語として分割されるかで判断することができる。形態素解析は、例えば、形態素解析エンジンであるＭｅｃａｂやＣｈａｓｅｎなどにより行うことができる。形態素解析とは、例えば、“東京都にいる”という入力文に対し、“東京”、“都”、“に”、“いる”、という形態素の出力系列を選ぶことである。ここで、別の出力系列の例は、“東”、“京都”、“に”、“いる”である。形態素解析では、一般的な大量の文書を用意し、それらの文書から、それぞれの名詞や動詞などの形態素の出現しやすさや連結しやすさのスコアを求めておき、ある入力文に対しては、最もスコアの高い分割を選択すればよい。例えば、一般的な大量の文書では、“東”と“京都”とが連結する場合より、“東京”と“都”とが連結する場合が多い。そのため、“東京”と“都”との連結しやすさのスコアの方が“東”と“京都”との連結しやすさのスコアより高くなり、入力文“東京都にいる”に対して、“東京”、“都”、“に”、“いる”という形態素へ分割する出力系列を得ることができる。ここでは、前の行末と行頭とを連結してから形態素解析を行い、前の行末と行頭とで１つの単語となるなら、前の行の改行を削除する。例えば、図８の４行目の例では、ステップＡ３で３行目の改行は削除されているが、仮に３行目の改行が削除されていなかったとすると、前の行末と行頭とを連結すると、“…計算サーバでは、…”となり、形態素解析を行うと、名詞“サーバ”となり、前の行末とその行の行頭とで１つの単語になるので、前の行である３行目の改行は削除される。同様に、仮に７行目の改行が削除されていなかったとすると、８行目に対し、前の行末とその行の行頭との連結で、“…運用管理を…”となり、形態素解析を行うと、名詞“管理”に分割されるので、７行目の改行は削除される。
　言明単位抽出部１０５は、次に、文書の句点の後に改行を挿入する（ステップＡ５）。句点は、“。”や“．”である。
　言明単位抽出部１０５は、次に、文書を行単位に分割し、各行を言明単位として言明単位記憶部１００に記憶する（ステップＡ６）。
　図９は、言明単位記憶部１００に記憶される別の言明単位の例を示す説明図である。ここで、図９は、図８で示す文書から抽出した言明単位である。図８の文書は、ステップＡ３で不要な改行が削除され、一行目が“サーバ要件”、二行目がそれ以外となる。次に、ステップＡ４では改行は削除されず、ステップＡ５で句点の後に改行を挿入されて８行となり、ステップＡ６により、図９の言明単位となる。なお、分析精度を向上するため、言明単位記憶部１００に記憶された言明単位を出力部１３に出力して、システムのユーザが言明単位への分割結果を確認して誤りがあれば修正してもよい。
　次に、言明構成部１０６は、言明単位を文脈と内容とに分類する（ステップＡ７）。ここで、文脈は、例えば、章や節や段落、図や表などの表題とする。言明構成部１０６は、章や節、図や表などの表題は、言明単位中の動詞の有無で判定する。言明構成部１０６は、例えば、要求単位が図２の場合、言明単位ＩＤが１の言明単位（言明単位１とする）は動詞がないので文脈、言明単位２も動詞がないので文脈、言明単位３は動詞があるので内容と分類する。言明構成部１０６は、同様に、言明単位４、７、１０は文脈、言明単位５、６、８、９、１１、１２は内容と分類する。言明構成部１０６は、図９の場合、言明単位１は動詞がないので文脈、それ以外は動詞があるので内容と分類する。
　文脈と内容に分類する別の方法としては、予め定めた文字数より短い言明単位を文脈、予め定めた文字数以上の言明単位を内容としてもよい。または、例えば、言明単位の行頭が数字、あるいは“第”と数字、あるいは、“（“と数字と”）”ならば、数字を章や節、段落の番号と仮定し、それ以前の章や節、段落の番号の連番ならば、章や節である文脈だと分類してもよい。図や表についても、言明単位の行頭が“図”や“表”で次が数字やＡなどのアルファベットならば、数字を図や表の番号と仮定し、それ以前の図や表の番号の連番ならば、図や表の表題である文脈だと分類してもよい。
　言明構成部１０６は、次に、内容に対し、最も近い前の文脈との組として言明を構成し、言明記憶部１０１に記憶する（ステップＡ８）。言明単位が図２の場合の言明は、図３のようになる。ここで、文脈が連続することで、前の文脈に対する内容がない場合は、言明構成部１０６は、その言明を削除する。例えば、言明１は削除する。なお、内容に対し、それ以前の内容が存在するまでの文脈全てを組として言明を構成してもよい。例えば、図２の場合、最初の言明を文脈である“サーバ要件”と“（１）認証サーバ”、内容である“認証を行う。”という組としてもよい。
　次に、データ生成部１０７は、言明記憶部１０１に記憶された言明と検査内容記憶部１０２に記憶された検査内容とからデータを生成し、データ記憶部１０３に記憶する（ステップＡ９）。言明のデータは、言明の文脈と内容を予め定めた区切り記号を用いて連結した文字列とする。ここで、区切り記号は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、言明が図３で区切り記号が“：”と指定された場合、言明１のデータは、“（１）認証サーバ：認証を行う。”、言明２のデータは、“（２）計算サーバ：サーバは２台で負荷分散構成とし、ラウンドロビン方式を用いる。”となる。なお、区切り記号は、“空”としてもよい。検査内容のデータは、検査内容とする。例えば、検査内容が図４の場合、検査内容１のデータは、“サーバは、負荷分散で、アクティブ・スタンバイ”、検査内容２のデータは、“サーバはシングル”となる。なお、言明を内容とそれ以前の内容までの文脈全てとの組とする場合は、図２の場合、最初のデータは、“サーバ要件：（１）認証サーバ：認証を行う。”としてもよい。
　次に、類型化部１０８は、データ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して、新たなデータ集合を生成し、データ記憶部１０３に記憶された言明を含むデータのみを抽出し、それらを類型化結果の集合として類型化結果記憶部１０４に記憶する（ステップＡ１０）。データへの変換は、全てのデータ間の類似度が予め定めた第一の閾値より大きくなるまで行う。第一の閾値は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図５のデータ２とデータ８、データ４とデータ６が類型化されたとすると、図６のような類型化結果となる。ここで、類型化のための類似度の計算方法は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、類似度は、形態素解析によりテキストから単語を抽出し、単語の出現頻度に基づいて計算することができる。しかし、“高速”と“迅速”という単語は同一とみなされないため、同一とみなすには同義語変換を行う必要がある。また、類似度は、コルモゴロフ複雑性の近似計算法を用いて計算することができる。
　例えば、対象を圧縮するアルゴリズムを予め定めると、対象ｉと対象ｊとの間の類似度ｓ（ｉ，ｊ）は、対象ｉを圧縮した場合のサイズをＣ（ｉ）、対象ｊを圧縮した場合のサイズをＣ（ｊ）、対象ｉとｊとを連結させた新たな対象を圧縮した場合のサイズをＣ（ｉｊ）とすると、例えば、ｄ（ｉ，ｊ）＝１−Ｃ（ｉｊ）／｛Ｃ（ｉ）＋Ｃ（ｊ）｝あるいはｄ（ｉ，ｊ）＝１−［Ｃ（ｉｊ）−ｍｉｎ｛Ｃ（ｉ），Ｃ（ｊ）｝］／ｍａｘ｛Ｃ（ｉ），Ｃ（ｊ）｝に示す数式によって計算することができる。指定される圧縮アルゴリズムは、例えば、ｇｉｐ、ｚｇｉｐなどである。圧縮アルゴリズムでは、例えば、文字列に対し、文字である記号あるいは以前の部分文字列との（一致長、一致位置）のペアで符号化する。符号化では、例えば、文字列に出現する記号の個数を求め、個数の多い希望ほど短い符号を割り当てる。したがって、コルモゴロフ複雑性の近似計算法を用いると、“高速に動作”と“迅速に動作”という文は、“速に動作”に短い符号を割り当てることとなり、高い類似度として計算することができる。
　類型化部１０８は、次に、類型化結果記憶部１０４に記憶された類型化結果を順に調べて、言明記憶部１０１に記憶された言明のいずれも含まれない類型化結果があれば、類型化結果記憶部１０４から削除する（ステップＡ１１）。
　次に、検出部１０９は、完全性に関する言明の不整合を検出する（ステップＡ１２）。詳細な処理は、後述する。それから、検出部１０９は、システムの動作を終了する。
　次に、図１に加えて、図１０のフローチャートを参照して第１の実施形態の１つの検査対象の完全性ｉに対する検出部１０９の動作について詳細に説明する。
　検出部１０９は、まず、検査内容を示す番号であるｍを１に初期化する（ステップＡ１３）。
　検出部１０９は、次に、検査内容記憶部１０２を参照して、検査内容ｍの完全性がｉかどうかを調べる（ステップＡ１４）。完全性がｉならばステップＡ１５に移行し、完全性がｉでないならばステップＡ２１に移行する。例えば、ｉが１、ｍが１のとき、図４の検査ＩＤが１である検査内容の完全性を調べると１となるので、ステップＡ１５に移行する。
　検出部１０９は、検査対象と検査内容ｍとから検査事項を生成する（ステップＡ１５）。検査事項は、検査対象と検査内容とを、予め定めた区切り記号を用いて連結させた文字列とする。検査対象は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。ここで、デフォルトとは、文脈から自動的に生成することである。例えば、ｉが１、ｍが１のとき、検査対象として“認証サーバ”が指定され、区切り記号が“：”と定められていた場合、検査対象と検査内容の組である検査事項は、“認証サーバ：サーバは、負荷分散で、アクティブ・スタンバイ”となる。
　検出部１０９は、次に、類型化結果を示す番号であるｎを１に初期化する（ステップＡ１６）。
　次に、検出部１０９は、検査事項と類型化結果ｎとの類似度を計算する（ステップＡ１７）。
　次に、検出部１０９は、類似度と予め定めた第二の閾値とを比較する（ステップＡ１８）。第二の閾値は、システムのユーザがキーボードなどの入力部１０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。このように、類型化結果との類似度を計算するのは、言明は、一文程度と短く情報が少ないため、単に検査事項と言明との間の類似度を計算しても分析精度が低いが、類型化部１０８の処理により分析精度を向上させることができるためである。
　例えば、検査対象を“処理サーバ”とする。人間は、図５のデータ４から計算サーバが負荷分散であり、その方式がラウンドロビン方式であるため、図５のデータ６から、ラウンドロビン方式の処理サーバも負荷分散だと推定することができる。しかし、類型化前の図５のデータ６だけでは、シングルとも負荷分散とも異なるので、負荷分散だと推定できない。一方、類型化後の図６では、類型化結果４が負荷分散を示す検査１との類似度が高くなり、処理サーバを負荷分散だと推定可能となる。類似度が第二の閾値以上ならば、ステップＡ２４に移行し、第二の閾値未満ならば、ステップＡ１９に移行する。
　ステップＡ１９では、検出部１０９は、ｎをインクリメントする。
　検出部１０９は、次に、ｎと類型化結果数Ｎとを比較する（ステップＡ２０）。ｎがＮ以下ならば、ステップＡ１７に移行し、ｎがＮより大きいならば、ステップＡ２１に移行する。
　ステップＡ２１では、検出部１０９は、ｍをインクリメントする。
　検出部１０９は、ｍと検査内容数Ｍとを比較する（ステップＡ２２）。ｍがＭ以下ならば、ステップＡ１４に移行し、ｍがＭより大きいならば、ステップＡ２３に移行する。
　検出部１０９は、ｍがＭより大きいならば、不整合ありと検出する（ステップＡ２３）。例えば、検査対象として、“認証サーバ”が指定された場合、データは、“認証サーバ：サーバは、負荷分散で、アクティブ・スタンバイ”と“認証サーバ：サーバはシングル”となるが、どちらも図６のような類型化結果のいずれとも類似していない。これは、認証サーバについて検査内容に関する記載が不足しているためであり、検出部１０９は、不整合ありと検出することができる。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部１３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。それから、検出部１０９は動作を終了する。
　ステップＡ１８で類似度が第二の閾値以上で移行してきたならば、検出部１０９は、不整合なしと検出する（ステップＡ２４）。例えば、検査対象として、“計算サーバ”が指定した場合、“計算サーバ：サーバは、負荷分散で、アクティブ・スタンバイ”に対して、図６のそれぞれの類型化結果との類似度を計算すると、類型化結果３の“２）計算サーバ：サーバは２台で負荷分散構成とし、ラウンドロビン方式を用いる。（３）処理サーバ：計算サーバと同様にラウンドロビン方式とする。”との類似度が高いので、不整合なしと検出することができる。また、検査対象として、“運用管理サーバ”を指定した場合、データの“運用管理サーバ：サーバはシングル”と類型化結果１の“サーバはシングル（３）運用管理サーバ：シングル構成とする。”との類似度が高いので、不整合なしと検出することができる。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部１３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。それから、検出部１０９は動作を終了する。検出部１０９のこれらの処理は、全ての完全性ｉ、および、完全性ｉに適した全ての検査対象に対して実行することができる。
（第１の実施形態の効果）
　第１の実施形態によれば、自然言語で記載された文書を入力すると、言明単位抽出部および言明構成部で自動的に言明を構成して言明の不整合を検出するという構成のため、文書を他の形式に手動で変換せずに言明の不整合を検出することができるという効果がある。
　また、言明は、一文程度と短く情報が少ないため、単に類似度を計算しても分析精度が低いが、第１の実施形態では、類型化により言明や検査内容を連結した文章との類似度を計算するため、高い精度で分析することができる。
　なお、例では、検査内容１に、“ラウンドロビン方式”を追加すれば、負荷分散だと推定可能だが、一般に、文書には業務知識や特殊用語があり、全ての関連語句を事前に指定できない。しかし、第１の実施形態では、全ての関連語句を事前に指定しなくても類型化を用いることで、高い精度で分析することができるという効果がある。
　第１の実施形態は、完全性に関する不整合検出であり、ある検査対象に対して、いずれかを記載すれば完全性を満たすような検査内容との連結である検査事項を作成し、いずれかの検査事項に該当する言明が文書中にあれば不整合なし、なければ不整合ありと検出することができるという効果がある。
（第２の実施形態）
　次に、本発明による不整合検出システムの第２の実施形態について図面を参照して詳細に説明する。第２の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書に矛盾があるならば、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。なお、第１の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
　図１１を参照すると、第２の実施形態に係る不整合検出システムは、キーボードなどの入力部２０と、情報を記憶する記憶部２１と、プログラム制御により動作する計算部２２と、ディスプレイ装置や印刷装置などの出力部２３とから構成されている。
　記憶部２１は、言明単位記憶部１００と、言明記憶部１０１と、検査内容記憶部１０２と、データ記憶部１０３と、類型化結果記憶部１０４とを備える。
　言明単位記憶部１００、言明記憶部１０１、検査内容記憶部１０２、データ記憶部１０３、類型化結果記憶部１０４は、第１の実施形態と同様である。
　計算部２２は、言明単位抽出部１０５と、言明構成部１０６と、データ生成部１０７と、類型化部１０８と、検出部２００とを備える。
　言明単位抽出部１０５、言明構成部１０６、データ生成部１０７、類型化部１０８は、第１の実施形態と同様である。
　検出部２００は、予め定めた検査対象と検査内容記憶部１０２に記憶された無矛盾性を示す検査内容との組に対し、類型化結果記憶部１０４に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部２３に検出結果を出力する。
　次に、図１１に加えて、図１２のフローチャートを参照して第２の実施形態の１つの検査対象の無矛盾性ｉに対する検出部２００の動作について詳細に説明する。
　検出部２００は、まず、無矛盾性の該当数を示す番号であるＮｍａｔｃｈを０に初期化する（ステップＡ２５）。
　検出部２００は、次に、検査内容を示す番号であるｍを１に初期化する（ステップＡ２６）。
　次に、検出部２００は、検査内容記憶部１０２を参照して、検査内容ｍの無矛盾性がｉかどうかを調べる（ステップＡ２７）。無矛盾性がｉならばステップＡ２８に移行し、無矛盾性がｉでないならばステップＡ３６に移行する。
　検出部２００は、無矛盾性がｉならば、検査対象と検査内容ｍとから検査事項を生成する（ステップＡ２８）。
　検出部２００は、次に、類型化結果を示す番号であるｎを１に初期化する（ステップＡ２９）。
　次に、検出部２００は、検査事項と類型化結果ｎとの類似度を計算する（ステップＡ３０）。
　次に、検出部２００は、類似度と予め定めた第二の閾値とを比較する（ステップＡ３１）。第二の閾値は、システムのユーザがキーボードなどの入力部２０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。類似度が第二の閾値以上ならばステップＡ３４に移行し、第二の閾値未満ならばステップＡ３２に移行する。
　ステップＡ３２では、検出部２００は、ｎをインクリメントする。
　検出部２００は、次に、ｎと類型化結果数Ｎとを比較する（ステップＡ３３）。ｎがＮ以下ならば、ステップＡ３０に戻り、ｎがＮより大きいならば、ステップＡ３６に移行する。
　検出部２００は、ステップＡ３１で類似度が第二の閾値以上ならば、Ｎｍａｔｃｈをインクリメントする（ステップＡ３４）。
　検出部２００は、次に、該当数Ｎｍａｔｃｈが２以上であるかを調べる（ステップＡ３５）。２以上ならステップＡ３８に移行し、２未満ならステップＡ３６に移行する。
　ステップＡ３６では、検出部２００は、ｍをインクリメントする。
　次に、検出部２００は、ｍと検査内容数Ｍとを比較する（ステップＡ３７）。ｍがＭ以下ならばステップＡ２７に戻り、ｍがＭより大きいならばステップＡ３９に移行する。
　ステップＡ３８では、検出部２００は、不整合ありと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部２３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、矛盾した部分を示すため、該当する検査内容ｍと類型化結果ｎとを記憶しておき、全ての該当する検査内容と類型化結果を同時に出力してもよい。
　ステップＡ３９では、検出部２００は、不整合なしと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部２３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。それから、無矛盾性ｉとある検査対象に対する検出部２００の動作を終了する。検出部２００のこれらの処理は、全ての無矛盾性ｉ、および、無矛盾性ｉに適した全ての検査対象について実行することができる。
（第２の実施形態の効果）
　第２の実施形態によれば、第１の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。第２の実施形態は、無矛盾性に関する不整合検出であり、複数が記載されれば矛盾するような検査内容について矛盾を検出することができるという効果がある。
（第３の実施形態）
　次に、本発明による不整合検出システムの第３の実施形態について図面を参照して詳細に説明する。第３の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書に曖昧な部分があるならば、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。なお、第１（第２）の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
　図１３を参照すると、第３の実施形態に係る不整合検出システムは、キーボードなどの入力部３０と、情報を記憶する記憶部３１と、プログラム制御により動作する計算部３２と、ディスプレイ装置や印刷装置などの出力部３３とから構成されている。
　記憶部３１は、言明単位記憶部１００と、言明記憶部１０１と、検査内容記憶部１０２と、変換語句記憶部３００と、データ記憶部１０３と、類型化結果記憶部１０４とを備える。
　言明単位記憶部１００、言明記憶部１０１、検査内容記憶部１０２、データ記憶部１０３、類型化結果記憶部１０４は、第１（第２）の実施形態と同様である。
　変換語句記憶部３００は、同義語句や不要語句などの変換語句を記憶する。
　図１４は、変換語句記憶部３００に記憶された変換語句の例を示す説明図である。図１４で、１列目が語句の代表語句となる変化後の語句、２列目以降が変換前の語句である。
　計算部３２は、言明単位抽出部１０５と、言明構成部１０６と、データ生成部３０１と、類型化部１０８と、検出部３０２とを備える。
　言明単位抽出部１０５、言明構成部１０６は、類型化部１０８は、第１（第２）の実施形態と同様である。
　データ生成部３０１は、言明記憶部１０１に記憶された言明と検査内容記憶部１０２に記憶された検査内容とを併合したデータ集合を生成し、変換語句記憶部３００に記憶された同義語句や不要語句に基づいてデータ集合のそれぞれのデータを変換し、変換したデータ集合をデータ記憶部１０３に記憶する。
　検出部３０２は、予め定めた検査対象と検査内容記憶部１０２に記憶された曖昧性を示す検査内容との組に対し、類型化結果記憶部１０４に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部３３に検出結果を出力する。
　次に、図１３に加えて、図１５のフローチャートを参照して第３の実施形態のデータ生成部３０１の動作について詳細に説明する。
　データ生成部３０１は、まず、言明記憶部１０１に記憶された言明と検査内容記憶部１０２に記憶された検査内容とを用いてデータを生成する（ステップＡ４０）。
　データ生成部３０１は、次に、生成したデータに対し変換語句記憶部３００を検索し、一致する変換前語句があれば変換後語句へ変換し、変換したデータ集合をデータ記憶部１０３に記憶する（ステップＡ４１）。
　例えば、図１４の場合、データ中の“可用性”はそのままで変換されず、“アベイラビリティ”は“可用性”に変換する。データ中の“フォールトトレランス”や“故障許容性”は“耐障害性”に変換する。また、データ中の“とにかく”という単語は削除される。このように、不要語の代表語を空とすることで、同義語の統一と同様の動作で、不要語の削除を行うことができる。変換語句は、一般的な同義語辞書を用いて容易に作成することができ、また、業務用語辞書が用意できるならば、業務用変換語句を追加することができる。なお、コルモゴロフ複雑性の近似計算法を用いる場合、です−ます調と、だ−である調とは類似度が低くなるため、です−ます調を、である調に統一するような変換語句を追加してもよい。
　次に、図１３に加えて、図１６のフローチャートを参照して第３の実施形態の１つの検査対象の非曖昧性ｉに対する検出部３０２の動作について詳細に説明する。
　検出部３０２は、まず、非曖昧性がｉとなる検査内容を選択し、検査対象と検査内容とで検査事項を生成する（ステップＡ４２）。
　図１７は、検査内容記憶部１０２に記憶された検査内容の例を示す説明図である。図１７に示すように、１つの非曖昧性は１つの検査内容に対応している。ステップＡ４２の検査事項生成では、例えば、検査対象を任意の対象を示す空列“　”、区切り記号を空列“　”で、非曖昧性１に対して検出する場合、検査事項は、“将来的に追加される機能にも対応する。”と生成される。
　検出部３０２は、次に、変換語句記憶部３００に記憶された変換語句に基づいて検査事項を変換する（ステップＡ４３）。検出部３０２は、検査事項に対し、変換語句記憶部３００を検索し、一致する変換前語句があれば変換後語句へ変換する。ここで、検査事項に対し、一致する変換前語句がなければ、変換後の検査内容は、変換前の検査事項と同じである。
　検出部３０２は、次に、ｎを１に初期化する（ステップＡ４４）。
　次に、検出部３０２は、検査事項と類型化結果ｎとの類似度を計算する（ステップＡ４５）。
　次に、検出部３０２は、類似度と予め定めた第二の閾値とを比較する（ステップＡ４６）。第二の閾値は、システムのユーザがキーボードなどの入力部３０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。類似度が第二の閾値以上ならばステップＡ４７に移行し、第二の閾値未満ならばステップＡ４８に移行する。
　ステップＡ４７では、検出部３０２は、不整合ありと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部３３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、曖昧性のある部分を示すため、該当する類型化結果ｎを同時に出力してもよい。そのとき、入力された文書が、“将来的な追加機能にも対応すること。対応すべき追加機能とは、機能Ａ、機能Ｂである。”などと曖昧性のある部分の周辺で、曖昧性を低減している可能性があるので、言明記憶部１０１を参照して、類型化結果ｎのそれぞれのデータに該当する言明を近傍の言明を含めて出力してもよい。ここで、近傍とは、例えば、言明の前後３行などとする。
　ステップＡ４８では、検出部３０２は、ｎをインクリメントする。
　検出部３０２は、次に、ｎと類型化結果数Ｎとを比較する（ステップＡ４９）。ｎがＮ以下ならばステップＡ４５に戻り、ｎがＮより大きいならば検出部３０２の動作を終了する。検出部３０２のこれらの処理は、全ての非曖昧性ｉ、さまざまな検査対象について実行することができる。
　なお、第３の実施形態では、変換語句記憶部を追加し、変換語句記憶部に記憶された変換語句に基づいてデータ生成部や検出部で語句変換を行ったが、第１の実施形態、第２の実施形態でも同様に、変換語句記憶部を追加し、語句変換を行ってもよい。また、第１~第３の実施形態では、それぞれ、完全性、無矛盾性、非曖昧性を検出したが、それ以外の検査方法を検査内容記憶部に記憶して、検査方法に対応する検出部の動作を設定してもよい。例えば、“３６５日２４時間故障なく動作する”などのリスクの大きい検査内容を予め定めておき、文書に検査内容と類似した部分があるかを検出してもよい。
（第３の実施形態の効果）
　第３の実施形態によれば、第１、第２の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。
　第３の実施形態は、非曖昧性に関する不整合検出であり、記載すれば曖昧性があるような検査内容を検出することができるという効果がある。また、同義語句を同義語句の代表語句に変換し、不要語句を削除するという構成のため、意味が同じだが文字列の異なる単語があっても言明の不整合を検出することができるという効果がある。
（第４の実施形態）
　次に、本発明による不整合検出システムの第４の実施形態について図面を参照して詳細に説明する。第４の実施形態に係る不整合検出システムは、反映元文書と反映先文書に対応付けできない部分があるならば、不整合として検出する。ここで、入力した文書として、反映元文書が提案依頼書であり反映先文書が提案書の場合、あるいは、反映元文書が提案書であり反映先文書が仕様書の場合を例として説明する。
　反映元文書が提案依頼書の場合、提案依頼書に記載されたそれぞれの要求事項に対し、提案書ではその要求事項に対応する実現手段の提案事項を記載する必要がある。また、反映元文書が提案書の場合、提案書に記載されたそれぞれの提案事項に対し、仕様書ではその提案事項に関する要件事項を記載する必要がある。第４の実施形態では、このような要求事項に対する提案事項や、提案事項に対する要件事項との対応付けにより、不整合を検出する。なお、第３の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
　図１８を参照すると、第４の実施形態に係る不整合検出システムは、キーボードなどの入力部４０と、情報を記憶する記憶部４１と、プログラム制御により動作する計算部４２と、ディスプレイ装置や印刷装置などの出力部４３とから構成されている。
　記憶部４１は、言明単位記憶部４００と、言明記憶部４０１と、変換語句記憶部３００と、データ記憶部１０３と、類型化結果記憶部１０４とを備える。
　言明単位記憶部４００は、提案依頼書に対する提案書または提案書に対する仕様書のように、反映元文書と反映先文書である２つの文書から抽出した言明単位を記憶する。
　図１９は、言明単位記憶部４００に記憶される言明単位の例を示す説明図である。図１９に示すように、言明単位記憶部４００は、言明単位の番号を示すＩＤと言明単位の内容と文書の番号を示す文書ＩＤとを記憶する。ここで、文書ＩＤは、反映元文書を１、反映先文書を２として記憶する。
　言明記憶部４０１は、言明を内容と文脈との組として、文書ＩＤとともに記憶する。
　図２０は、言明記憶部４０１に記憶された言明の例を示す説明図である。図２０に示すように、言明記憶部４０１は、言明を文脈と内容との組として、文書ＩＤとともに記憶する。
　変換語句記憶部３００、データ記憶部１０３、類型化結果記憶部１０４は、第３の実施形態と同様である。
　計算部４２は、言明単位抽出部４０２と、言明構成部４０３と、データ生成部４０４と、類型化部１０８と、検出部４０５とを備える。
　言明単位抽出部４０２は、入力部４０を介して入力された反映元文書と反映先文書とを整形し、分割して言明単位を抽出し、文書ＩＤとともに言明単位記憶部４００に記憶する。
　言明構成部４０３は、言明単位記憶部４００に記憶された言明単位に基づいて言明を構成し、文書ＩＤとともに言明記憶部４０１に言明の集合を記憶する。
　データ生成部４０４は、言明記憶部４０１に記憶された言明からデータを生成し、変換語句記憶部３００に記憶された変換語句を用いて変換して、変換したデータ集合をデータ記憶部１０３に記憶する。
　類型化部１０８は、第３の実施形態と同様である。
　検出部４０５は、類型化結果記憶部１０４に記憶された類型化結果に対し、類型化結果同士の類似度を計算し、計算した類似度に基づいて不整合を検出する。
　次に、図１８に加えて、図２１のフローチャートを参照して第４の実施形態の全体の動作について詳細に説明する。
　言明単位抽出部４０２は、まず、反映元文書および反映先文書を整形して言明単位を抽出し、言明単位記憶部４００に記憶する（ステップＡ５０）。反映元文書および反映先文書の整形方法は、例えば、第１の実施形態などと同様である。
　次に、言明構成部４０３は、言明単位を文脈と内容とに分類する（ステップＡ５１）。
　言明構成部４０３は、次に、文脈と内容の組で言明を構成し、言明記憶部４０１に記憶する（ステップＡ５２）。ここで、文脈と内容とが同じ文書に属する場合に限って言明を構成することとする。例えば、図１９に対して、図２０の要求を構成する。
　次に、データ生成部４０４は、言明記憶部４０１に記憶された言明からデータを生成し、変換語句記憶部３００に記憶された変換語句に基づいてデータを変換し、データ集合としてデータ記憶部１０３に記憶する（ステップＡ５３）。第４の実施形態では、第３の実施形態に追加して、反映元文書と反映先文書との対応付けのための変換語句を記憶してもよい。
　図２２は、変換語句記憶部３００に記憶された変換語句の例を示す説明図である。図２２に示すように、例えば、提案依頼書における“レスポンス低下なく”などの語句は、提案書では“負荷分散”という解決手段の語句に該当すると指定しておくこともできる。また、提案書での定型語句“提案のポイント”などの語句は、不要として予め定めておくことで削除することもできる。
　図２３は、データ記憶部１０３に記憶されたデータ集合の例を示す説明図である。図１９の言明単位を図２２で変換すると、図２３のようになる。
　次に、類型化部１０８は、データ間類似度が第一の閾値未満になるまでデータを類型化し、類型化結果を類型化結果記憶部１０４に記憶する（ステップＡ５４）。
　類型化部１０８は、次に、類型化結果記憶部１０４に記憶された類型化結果を順に調べて、反映先文書の言明を１つも含まない類型化結果があれば、類型化結果記憶部１０４から削除する（ステップＡ５５）。
　次に、検出部４０５は、反映元文書のデータを示す番号ｉを１に初期化する（ステップＡ５６）。
　検出部４０５は、次に、類型化結果を示す番号ｊを１に初期化する（ステップＡ５７）。
　検出部４０５は、次に、反映元文書から構成したデータｉと類型化結果ｊとの間の類似度を計算する（ステップＡ５８）。
　次に、検出部４０５は、計算した類似度が第二の閾値以上かどうかを調べる（ステップＡ５９）。ここで、第二の閾値は、システムのユーザがキーボードなどの入力部４０を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。第二の閾値以上ならばステップＡ６３に移行し、第二の閾値未満ならばステップＡ６０に移行する。
　ステップＡ６０では、検出部４０５は、ｊをインクリメントする。
　検出部４０５は、次に、番号ｊと類型化結果数Ｎとを比較する（ステップＡ６１）。ｊがＮ以下であればステップＡ５８に戻り、Ｎより大きければステップＡ６２に移行する。
　ステップＡ６２では、検出部４０５は、不整合ありと検出する。結果の出力方法は、すぐにディスプレイ装置や印刷装置などの出力部４３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。ここで、反映漏れを示すデータｉを同時に出力してもよい。
　ステップＡ６３では、検出部４０５は、不整合なしと検出する。結果の出力方法は、すぐにディスプレイ装置や印刷装置などの出力部４３を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。
　検出部４０５は、ステップＡ６２の後、ｉをインクリメントする（ステップＡ６４）。
　次に、検出部４０５は、番号ｉと反映元文書のデータ数Ｍとを比較する（ステップＡ６５）。ｉがＭ以下であればステップＡ５７に戻り、Ｍより大きければ処理を終了する。
（第４の実施形態の効果）
　第４の実施形態によれば、提案依頼書に対する提案書、または、提案書に対する仕様書のように、反映元文書と反映先文書である２つの文書間から、言明の対応付けを検出するため、反映元文書の反映先文書への言明の反映漏れを検出できるという効果がある。また、第１、第２、第３の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。
　以上、本発明を、複数の実施形態を参照して説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、請求項に記載された本発明の精神や範囲内で当業者が理解し得る様々な変更をすることができる。
　また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、を含むことを特徴とする不整合検出システム。
（付記２）
　前記言明構成部は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出部は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする付記１に記載の不整合検出システム。
（付記３）
　前記類型化部は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての２つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した２つのデータを連結して新たな１つのデータへと変換することを特徴とする付記１または付記２に記載の不整合検出システム。
（付記４）
　前記検出部は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする付記１から付記３までのいずれか１つに記載の不整合検出システム。
（付記５）
　前記検出部は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が２つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする付記１から付記３までのいずれか１つに記載の不整合検出システム。
（付記６）
　前記検出部は、曖昧な言明の例として予め定めた１つ以上の検査内容に対し、その検査内容のうちの１つと検査対象との組である１つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする付記１から付記３までのいずれか１つに記載の不整合検出システム。
（付記７）
　前記言明単位抽出部は、所与の反映元文書と反映先文書という２つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成部は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化部は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出部は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、２つの文書間の不整合として検出することを特徴とする付記１から付記３までのいずれか１つに記載の不整合検出システム。
（付記８）
　前記データ生成部は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出部は、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする付記１から付記７までのいずれか１つに記載の不整合検出システム。
（付記９）
　前記言明単位抽出部は、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを特徴とする付記１から付記８までのいずれか１つに記載に記載の不整合検出システム。
（付記１０）
　自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出ステップと、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成ステップと、予め定めた検査内容の集合と前記言明構成ステップで生成された言明の集合とを併合したデータ集合を生成するデータ生成ステップと、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成ステップで生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化ステップと、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出ステップと、を含むことを特徴とする不整合検出方法。
（付記１１）
　前記言明構成ステップは、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出ステップは、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする付記１０に記載の不整合検出方法。
（付記１２）
　前記類型化ステップは、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての２つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した２つのデータを連結して新たな１つのデータへと変換することを特徴とする付記１０または付記１１に記載の不整合検出方法。
（付記１３）
　前記検出ステップは、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする付記１０から付記１２までのいずれか１つに記載の不整合検出方法。
（付記１４）
　前記検出ステップは、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が２つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする付記１０から付記１２までのいずれか１つに記載の不整合検出方法。
（付記１５）
　前記検出ステップは、曖昧な言明の例として予め定めた１つ以上の検査内容に対し、その検査内容のうちの１つと検査対象との組である１つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする付記１０から付記１２までのいずれか１つに記載の不整合検出方法。
（付記１６）
　前記言明単位抽出ステップは、所与の反映元文書と反映先文書という２つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成ステップは、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化ステップは、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出ステップは、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、２つの文書間の不整合として検出することを特徴とする付記１０から付記１２までのいずれか１つに記載の不整合検出方法。
（付記１７）
　前記データ生成ステップは、データを生成した後、予め定めた変換方法でデータを変換し、前記検出ステップは、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする付記１０から付記１６までのいずれか１つに記載の不整合検出方法。
（付記１８）
　前記言明単位抽出ステップは、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを特徴とする付記１０から付記１７までのいずれか１つに記載に記載の不整合検出方法。
（付記１９）
　自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラム。
（付記２０）
　前記言明構成処理は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出処理は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを前記コンピュータに実行させるための付記１９に記載の不整合検出プログラム。
（付記２１）
　前記類型化処理は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての２つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した２つのデータを連結して新たな１つのデータへと変換することを前記コンピュータに実行させるための付記１９または付記２０に記載の不整合検出プログラム。
（付記２２）
　前記検出処理は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを前記コンピュータに実行させるための付記１９から付記２１までのいずれか１つに記載の不整合検出プログラム。
（付記２３）
　前記検出処理は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が２つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを前記コンピュータに実行させるための付記１９から付記２１までのいずれか１つに記載の不整合検出プログラム。
（付記２４）
　前記検出処理は、曖昧な言明の例として予め定めた１つ以上の検査内容に対し、その検査内容のうちの１つと検査対象との組である１つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを前記コンピュータに実行させるための付記１９から付記２１までのいずれか１つに記載の不整合検出プログラム。
（付記２５）
　前記言明単位抽出処理は、所与の反映元文書と反映先文書という２つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成処理は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化処理は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出処理は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、２つの文書間の不整合として検出することを前記コンピュータに実行させるための付記１９から付記２１までのいずれか１つに記載の不整合検出プログラム。
（付記２６）
　前記データ生成処理は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出処理は、検査事項を生成した後、同様の変換方法で検査事項を変換することを前記コンピュータに実行させるための付記１９から付記２５までのいずれか１つに記載の不整合検出プログラム。
（付記２７）
　前記言明単位抽出処理は、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを前記コンピュータに実行させるための付記１９から付記２６までのいずれか１つに記載に記載の不整合検出プログラム。
　この出願は、２０１０年４月１２日に出願された日本出願特願２０１０−０９１２３０号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

　１０、２０、３０、４０　　入力部
　１１、２１、３１、４１　　記憶部
　１２、２２、３２、４２　　計算部
　１３、２３、３３、４３　　出力部

Claims

　自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、
　言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、
　予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、
　生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、
　予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、
を含むことを特徴とする不整合検出システム。
　前記言明構成部は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出部は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする請求項１に記載の不整合検出システム。
　前記類型化部は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての２つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した２つのデータを連結して新たな１つのデータへと変換することを特徴とする請求項１または請求項２に記載の不整合検出システム。
　前記検出部は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする請求項１から請求項３までのいずれか１項に記載の不整合検出システム。
　前記検出部は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの１つと検査対象との組で１つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が２つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする請求項１から請求項３までのいずれか１項に記載の不整合検出システム。
　前記検出部は、曖昧な言明の例として予め定めた１つ以上の検査内容に対し、その検査内容のうちの１つと検査対象との組である１つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする請求項１から請求項３までのいずれか１項に記載の不整合検出システム。
　前記言明単位抽出部は、所与の反映元文書と反映先文書という２つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成部は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化部は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出部は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、２つの文書間の不整合として検出することを特徴とする請求項１から請求項３までのいずれか１項に記載の不整合検出システム。
　前記データ生成部は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出部は、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする請求項１から請求項７までのいずれか１項に記載の不整合検出システム。
　自然言語で記載された所与の文書を分割して言明単位の集合を抽出し、
　言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成し、
　予め定めた検査内容の集合と前記言明の構成で生成された言明の集合とを併合したデータ集合を生成し、
　生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明の構成で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、
　予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する、
ことを含むことを特徴とする不整合検出方法。
　自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、２つの最も類似したデータをそれら２つのデータの連結で生成した新たな１つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラム。