JPWO2013021875A1

JPWO2013021875A1 - データ間の関連性判定システム、データ間の関連性判定方法、および記録媒体

Info

Publication number: JPWO2013021875A1
Application number: JP2013527982A
Authority: JP
Inventors: 由希子黒岩
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-08-08
Filing date: 2012-07-25
Publication date: 2015-03-05
Anticipated expiration: 2032-07-25
Also published as: JP6066089B2; WO2013021875A1

Abstract

すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定する。データ間の関連性判定システムに、生成した１ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択手段と、候補選択手段で選択された候補に対して類似度を計算処理する一方、候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、対比するデータの類似度を出力する類似度計算手段とを設ける。

Description

本発明は、情報処理におけるデータ間の関連性判定システムに関し、特にシステムやソフトウェア開発における仕様間の関連性判定に好適なシステムに関する。

データ間の関連性判定では、対比するデータをそれぞれ文字列に変換し、その文字列間の類似度を計算することで、類似度の大きいデータ間を関連性があると推定処理できる。例えば、非特許文献１に記載されているように、テキスト、画像、時系列データなどのデータに対して、データ間の類似度を計算し、データ間の類似度をデータ間の関連性として推定処理できる。
システムやソフトウェア開発の際にも、データ間の類似度を用いて関連性を推定する場合がある。例えば、非特許文献２では、データ間の類似度を用いて、業務フロー間の関連性を計算している。
しかし、これら技術では、データが異なる概念に属するが文字列が類似の場合に、関連性を高く計算する場合があった。
ここで、概念とは、個々のデータにのみ属する偶発的な性質でなく、複数のデータがもつ同一の本質的な特徴のことである。例えば、データがシステム開発における仕様（テキスト）の場合、概念は、システムのコンポーネントや業務分類などが相当する。
具体的には、類似度の算定処理のために対比する２つの仕様が「受注管理システムは、電話、ＦＡＸ（Ｆａｃｓｉｍｉｌｅ）、ＥＤＩ（ＥｌｅｃｔｒｏｎｉｃＤａｔａＩｎｔｅｒｃｈａｎｇｅ）に対応する。」と「発注管理システムは、電話、ＦＡＸ、ＥＤＩに対応する。」の場合、２つの仕様は、異なるコンポーネント（概念）である「受注管理システム」と「発注管理システム」に属している。このため、直接的には関連性がなく、これら２つの仕様の一方が、「電話には対応しない。」と変更されてもシステムやソフトウェア開発上で問題はない。
しかし、元の２つの仕様は、「受注」と「発注」を除き一致しているので、従来技術を用いると、元の２つの仕様は関連性が高いと計算されがちであった。そのため、一方が「電話には対応しない」と変更された場合に、データ間の関連性を判定処理するシステムによって、開発仕様で矛盾などの不整合が起きたと誤検出されてしまう。
このような問題に対処するために、自動的に概念とその重みを構成する方法は、例えば、非特許文献３に記載されている。この方法では、新聞記事などの文書を大量に集めて、文書の概念を多次元ベクトルにより構成する。多次元ベクトルを用いる理由は、一般的に概念は単純な階層構造とならずに重複部分が概念間にあるためである。
また、概念データベースを参照して概念を取得し、その概念を用いて複数のデータ間の類似度を算定する方法の一例が特許文献１に記載されている。特許文献１では、検索用に入力されたデータの概念を用いて、関連する類似したデータを抽出処理し、それらのデータを用いて情報検索を行なわれることが記載されている。

特開２００６−１０６９７０号公報

ミング（Ｍｉｎｇ）著「ザシミラリティメトリクス（ＴｈｅＳｉｍｉｌａｒｉｔｙＭｅｔｒｉｃ）」２００４年発行の論文誌ＩＥＥＥトランザクションズオンインフォメーションセオリー（ＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ）」５０巻１２号３２５０−３２６４頁キーオ（Ｋｅｏｇｈ）ら著「コンプレッション−ベースドデータマイニングオブシーケンシャルデータ（Ｃｏｍｐｒｅｓｓｉｏｎ−ｂａｓｅｄｄａｔａｍｉｎｉｎｇｏｆｓｅｑｕｅｎｔｉａｌｄａｔａ）」２００７年発行の論文誌データマイニングアンドノリッジディスカバリー（ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ）１４巻１号９９−１２９頁シュッチェ（Ｈ．Ｓｃｈｕｔｚｅ）著「ディメンジョンオブミーニング（ｄｉｍｅｎｓｉｏｎｓｏｆｍｅａｎｉｎｇ）」１９９２年発行のプロシーディングスオブスーパーコンピューティング（Ｐｒｏｃｅｅｄｉｎｇｓｏｆｓｕｐｅｒｃｏｍｐｕｔｉｎｇ）７８７−７９６頁

しかし、例えば、システムやソフトウェア開発の仕様間の関連性においては、多くの文書を用いて分析することができない場合が多い。
なぜなら、多くプロジェクトでは、概念であるコンポーネントや業務フローなどとしてプロジェクト特有の用語を用いる。このため、プロジェクト内（場合によって類似プロジェクト、並行プロジェクトを含む）での文書だけが比較対象となる。このことによって、正確かつ多量の概念データベースの作成が困難である。
上記のように、システムやソフトウェア開発などにおいては、多くの文書を用いて分析できないため、前述したような既存の方法で自動的に概念を構成することは困難である。他方で、システム開発に用いられる文書などは、多くの場合、一般的な文書に比べて用語が限定的であり、また、複数の観点での階層構造化が図られている。
その一方、システム開発で用いられる文書などは、一般的な文書に比べて、２つの概念の要素に重複があったり概念の要素に不足があったりするような不完全な概念情報ならば、容易に構成できる。
本発明は、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定するデータ間の関連性判定システムを提供する。

本発明に係るデータ間の関連性判定システムは、生成した１ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択部と、前記候補選択部で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部とを含み成ることを特徴とする。

本発明によれば、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定するデータ間の関連性判定システムを提供できる。

図１は、データ間の関連性判定システムの第１の実施形態の構成例を示すブロック図である。
図２は、概念記憶部１００に記憶された概念情報の例を示す説明図である。
図３は、データ記憶部１０１に記憶された判定対象となるデータの例を示す説明図である。
図４は、候補記憶部１０２に記憶された候補の例を示す説明図である。
図５は、データ間の関連性判定システムの第１の実施形態の処理経過の例を示すフローチャートである。
図６は、データ間の関連性判定システムの第１の実施形態の概念集合ｉでデータｐとｑが類似度計算の候補かどうかを調べる候補選択部１０３の処理経過の例を示すフローチャートである。
図７は、データ間の関連性判定システムの第２の実施形態の構成例を示すブロック図である。
図８は、用語集記憶部２００に記憶された用語集の例を示す説明図である。
図９は、用語集記憶部２００に記憶された別の用語集の例を示す説明図である。
図１０は、データ間の関連性判定システムの第２の実施形態の概念構成部２０１の処理経過の例を示すフローチャートである。
図１１は、データ間の関連性判定システムの第３の実施形態の構成例を示すブロック図である。
図１２は、構造データ記憶部３００に記憶された構造データの例を示す説明図である。
図１３は、データ間の関連性判定システムの第３の実施形態の概念構成部３０１の処理経過の例を示すフローチャートである。
図１４は、概念構成部３０１で構成された概念の例を示す説明図である。
図１５は、データ間の関連性判定システムの第３の実施形態のデータ生成部３０２の処理経過の例を示すフローチャートである。
図１６は、データ生成部３０２によって生成されたデータの例を示す説明図である。
図１７は、本発明の具現化の一例を示す構成図である。
図１８は、本発明の別の具現化の一例を示す構成図である。

（第１の実施形態）
次に、本発明によるデータ間の関連性判定システムの第１の実施形態について図面を参照して詳細に説明する。第１の実施形態に係るデータ間の関連性判定システムは、予め記憶された概念とデータとに基づいて、データ間の関連性を示す類似度を計算する。なお、ここでは、概念の要素である文字列やデータの文字列として自然言語を用いている場合を例示して説明するが、使用する文字列は、画像や時系列データなどを示す何らかの文字列であっても構わない。
図１を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部１１と、プログラム制御により動作する計算部１２とから構成されている。
記憶部１１は、概念記憶部１００と、データ記憶部１０１と、候補記憶部１０２とを備える。
概念記憶部１００は、複数の概念に対し、概念を示す１つ以上の文字列を記憶する。概念は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。
図２は、概念記憶部１００に記憶された概念を示す語句の例を示す説明図である。図では、１行が１つの概念集合を示し、「，」ごとに１つの概念を示し、１つの概念内で、「／」で区切られた文字列が、同一概念に属する文字列のバリエーションを示す。
１つの概念集合に含まれる複数概念のうち、任意の２つの概念は、互いに素であること（すなわち、一方の概念の要素ともう一方の概念の要素が一致することがないこと）が望ましいが、互いに素であることに限定されない。また、その任意の２つの概念が異なる概念集合の場合は、互いに素でなくてよい。
例えば、図では、文字列「受注管理システム」と文字列「受注システム」は、同一概念の要素であることを示す。また、文字列「発注管理システム」と文字列「発注システム」は、「受注管理システム」と「受注システム」が示す概念とは別の概念の要素であることを示す。また、「電話」と「ＦＡＸ」とは異なる概念の要素であることを示す。注意が必要なことは、「受注管理システム」と「電話」とは同一概念に属することも異なる概念に属することとも示していないことである。
この複数の概念を要素とする概念集合を用いることによって、対比する２つのデータが類似度計算の候補として選択すべきか否かを候補選択部１０３が選択する。
データ記憶部１０１は、関連性を判定する複数のデータを記憶する。個々のデータは文字列で構成され、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図３は、データ記憶部１０１に記憶されたデータの例を示す説明図である。図で、１行目が各列の内容の説明を示しており、１列目はデータのＩＤ番号、２列目はデータの内容を示している。すなわち、図では、第一のデータは、「受注管理システムは、電話、ＦＡＸ、ＥＤＩに対応する」であり、第二のデータは、「発注管理システムは、電話、ＦＡＸ、ＥＤＩに対応する」であり、第三のデータは、「注文管理システムは、電話、ＦＡＸ、ＥＤＩに対応する」であり、第四のデータは、「受注システムは、電話、ＦＡＸ、ＥＤＩに対応する」であることを示している。なお、ここでは、個々のデータは日本語テキストだが、画像や時系列データなどを示す何らかの文字列でもよい。また、以降では、各データを、第一のデータ（ＩＤ＝１）をデータ１、第二のデータ（ＩＤ＝２）をデータ２のように呼ぶこととする。
候補記憶部１０２は、あるデータのＩＤ番号と、そのデータと類似度計算の対象とするデータのＩＤ番号を対応付けて候補として記憶する。図４は、候補記憶部１０２に記憶された候補の例を示す説明図である。ここで、データ１とデータ２との間の類似度は、データ２とデータ１との類似度と同じとみなして、あるデータに対しては、そのデータより番号の大きいデータのみを候補とするなら記述している。各行は、「，」で区切られた最初の番号に対し、以降の番号を類似度計算の候補とすることを示している。すなわち、図は、データ１は、データ３およびデータ４と類似度を計算するが、データ２とは類似度を計算しないことを示す。また、データ２はデータ３と類似度を計算するが、データ４とは類似度を計算しないことを示す。さらに、データ３は、データ４と類似度を計算しないことを示す。
計算部１２は、候補選択部１０３と、類似度計算部１０４とを備える。
候補選択部１０３は、概念記憶部１００に記憶された概念情報とデータ記憶部１０１に記憶された判定対象となるデータとに基づいて、類似度を計算する候補を選択し、選択された候補を候補記憶部１０２に記憶する。
類似度計算部１０４は、候補記憶部１０２に記憶された候補とデータ記憶部１０１に記憶された判定対象となるデータとに基づいて、データ間の類似度を計算する。なお、この際、類似度計算部１０４は、候補選択部１０３で選択されなかった候補（即ち候補記憶部１０２に記憶されていない要素）に対して類似度を予め定めた小さい値に設定する。
次に、図５のフローチャートを参照して、第１の実施形態の全体の動作について詳細に説明する。
まず、候補選択部１０３は、データの番号（図３で例示するＩＤ番号）を示す変数ｐの値を１に初期化する（ステップＡ１）。
次に、候補選択部１０３は、ｐとデータの総数を示すデータ数Ｍとを比較する（ステップＡ２）。ｐがＭ以下ならば、次のステップに移行する。ｐがＭより大ならば、類似度計算部１０４が行なうステップＡ１２に移行する。
次に、候補選択部１０３は、ｐと共に候補とするか判定するデータの番号を示す変数ｑの値をｐ＋１に初期化する（ステップＡ３）。
次に、候補選択部１０３は、ｑとデータ数Ｍとを比較する（ステップＡ４）。ｑがＭ以下ならば、次のステップに移行する。Ｍより大ならば、ステップＡ１１に移行する。
次に、候補選択部１０３は、概念集合を示す変数ｉの値を１に初期化する（ステップＡ５）。以降、ｉ番目の概念集合を概念集合ｉと呼ぶことにする。
次に、候補選択部１０３は、ｉと概念集合の総数を示す概念集合数Ｉとを比較する（ステップＡ６）。ｉがＩ以下ならば、次のステップに移行する。ｉがＩより大ならば、変数ｐと変数ｑによって特定されるデータｐとデータｑの両データがすべての概念集合でデータｐとデータｑが候補だと判定して、ステップＡ９に移行する。
次に、候補選択部１０３は、データｐとデータｑの両データが概念集合ｉを基準に用いた際に類似度を計算する候補になり得るかどうかを調べる処理を行う（ステップＡ７）。処理の詳細は後述する。候補でないならば、ステップＡ１０に移行する（ステップＡ７のＮｏ）。候補ならば、次のステップに移行する（ステップＡ７のＹｅｓ）。
次に、候補選択部１０３は、次の概念集合を基準とするために、ｉをインクリメントする（ステップＡ８）。そして、ステップＡ６に移行する。
ステップＡ６においてｉがＩより大ならば、候補選択部１０３は、ｐとｑとが類似度の計算候補であることを候補記憶部１０２に記憶する（ステップＡ９）。
次に、候補選択部１０３は、ｑをインクリメントする（ステップＡ１０）。そして、ステップＡ４に移行する。
ステップＡ４においてｑがデータ数Ｍより大ならば、候補選択部１０３は、ｐをインクリメントする（ステップＡ１１）。そして、ステップＡ２に移行する。
ステップＡ２においてｐがＭより大ならば、類似度計算部１０４は、候補記憶部１０２に記憶された候補間でデータ間の類似度を計算する（ステップＡ１２）。ここで、候補でないデータ間の類似度は０を設定する。そして、動作を終了する。データ間の類似度は、例えば、コルモゴロフ複雑性の概算を用いて計算することができる。計算した類似度は、すぐにディスプレイ装置や印刷装置などを介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。
次に、図６のフローチャートを参照して、第１の実施の形態の概念集合ｉでデータｐとｑが類似度計算の候補かどうかを調べる候補選択部１０３の動作について詳細に説明する。
まず、候補選択部１０３は、データｐとデータｑとが類似度計算の候補かどうかを示す候補フラグをｔｒｕｅに設定する（ステップＡ１３）。
次に、候補選択部１０３は、データｐが概念を示す文字列を１つ以上含んだかを示す変数ｎ１をｆａｌｓｅに設定し、データｑが概念を示す文字列を１つ以上含んだかを示す変数ｎ２をｆａｌｓｅに設定する（ステップＡ１４）。
次に、候補選択部１０３は、概念記憶部１００に記憶された概念集合ｉにおける概念の番号を示す変数ｊを１に初期化する（ステップＡ１５）。なお、以降では、ｊ番目の概念を概念ｊと呼ぶことにする。
次に、候補選択部１０３は、概念ｊの値と概念集合ｉに含まれる概念の総数を示す概念数Ｊとを比較する（ステップＡ１６）。ｊがＪ以下ならば、次のステップに移行する。ｊがＪより大ならば、ステップＡ２６に移行する。
次に、候補選択部１０３は、データｐが概念ｊを含むかを示すｍ１［ｊ］をｆａｌｓｅに設定し、データｑが概念ｊを含むかを示すｍ２［ｊ］をｆａｌｓｅ１に設定する（ステップＡ１７）。
次に、候補選択部１０３は、概念集合ｉの概念ｊを示す文字列の番号を示す変数ｋを１に初期化する（ステップＡ１８）。なお、以降では、ｋ番目の文字列を文字列ｋと呼ぶことにする。
次に、候補選択部１０３は、ｋと概念集合ｉの概念ｊに含まれる文字列の総数を示す文字列数Ｋとを比較する（ステップＡ１９）。ｋがＫ以下ならば、次のステップに移行する。ｋがＫより大ならば、ステップＡ２５に移行する。
次に、候補選択部１０３は、概念集合ｉの概念ｊの文字列ｋをデータｐが含むかを調べる（ステップＡ２０）。含むならば、次のステップに移行する。含まないならば、ステップＡ２２に移行する。
次に、候補選択部１０３は、ｎ１をｔｒｕｅに設定し、ｍ１［ｊ］をｔｒｕｅに設定する（ステップＡ２１）。例えば、概念記憶部１００に記録されている概念情報が図２であり、データ記憶部１０１に記録されている判定対象とするデータが図３で、ｐが１である場合を考える。この条件では、ｉ＝１、ｊ＝１、ｋ＝１では、概念集合１の概念１の文字列１である「受注管理システム」が、データ１「受注管理システムは、電話、ＦＡＸ、ＥＤＩに対応する」に文字列として含まれている。このため、本ステップに移行して、ｎ１はｔｒｕｅに、ｍ１［１］はｔｒｕｅに設定される。他方、ｉ＝１、ｊ＝１、ｋ＝２では、概念集合１の概念１の文字列２である「受注システム」を、データ１が含まないために、本ステップには移行してこない。同様に、ｉ＝１、ｊ＝２、ｋ＝１のときの「発注管理システム」と、ｉ＝１、ｊ＝２、ｋ＝２のときの「発注システム」との両方ともが、データ１に含まれていないため、本ステップには移行してこない。したがって、図２及び図３に例示した内容では、ｉ＝１に対して、ｎ１＝ｔｒｕｅ、ｍ１［１］＝ｔｒｕｅ、ｍ１［２］＝ｆａｌｓｅと設定される。
次に、候補選択部１０３は、概念集合ｉの概念ｊの文字列ｋをデータｑが含むかを調べる（ステップＡ２２）。含むならば、次のステップに移行する。含まないならば、ステップＡ２４に移行する。
次に、候補選択部１０３は、ｎ２をｔｒｕｅに設定し、ｍ２［ｊ］をｔｒｕｅに設定する（ステップＡ２３）。例えば、概念記憶部１００に記録されている概念情報が図２であり、データ記憶部１０１に記録されている判定対象とするデータが図３で、ｑが２である場合を考える。この条件では、ｉ＝１、ｊ＝１、ｋ＝１では、概念集合１の概念１の文字列１である「受注管理システム」が、データ２「発注管理システムは、電話、ＦＡＸ、ＥＤＩに対応する。」に文字列として含まれていない。このため、本ステップには移行してこない。同様にｉ＝１、ｊ＝１、ｋ＝２でも、「受注システム」がデータ２に含まれていないために、本ステップには移行してこない。他方、ｉ＝１、ｊ＝２、ｋ＝１では、「発注管理システム」がデータ２に含まれるため、本ステップに移行してきて、ｎ２＝ｔｒｕｅ、ｍ２［２］＝ｔｒｕｅに設定される。したがって、図２及び図３に例示した内容では、ｑ＝２、ｉ＝１に対して、ｎ２＝ｔｒｕｅ、ｍ２［１］＝ｆａｌｓｅ、ｍ２［２］＝ｔｒｕｅと設定される。また、ｑが３である場合、ｉ＝１では、いずれのｊ、ｋに対しても、対応する文字列をデータ３が含まないために、本ステップには移行してこない。したがって、ｎ２＝ｆａｌｓｅ、ｍ２［１］＝ｆａｌｓｅ、ｍ２［２］＝ｆａｌｓｅと設定される。また、ｑが４である場合、ｉ＝１、ｊ＝１、ｋ＝２の場合にのみ、本ステップに移行してくる。したがって、ｎ２＝ｔｒｕｅ、ｍ２［１］＝ｔｒｕｅ、ｍ２［２］＝ｆａｌｓｅと設定される。
次に、候補選択部１０３は、ｋをインクリメントする（ステップＡ２４）。そして、ステップＡ１９に移行する。
ステップＡ１９においてｋがＫより大になると、候補選択部１０３は、ｊをインクリメントする（ステップＡ２５）。そして、ステップＡ１６に移行する。
ステップＡ１６においてｊがＪより大になると、候補選択部１０３は、ｎ１とｎ２の両方がｔｒｕｅであるかを調べる（ステップＡ２６）。両方ｔｒｕｅならば、次のステップに移行する。片方あるいは両方がｆａｌｓｅならば、候補フラグがｔｒｕｅのまま、すなわち、データｐとデータｑは概念集合ｉにおいて候補であるとして、動作を終了する。例えば、概念記憶部１００に記録されている概念情報が図２であり、データ記憶部１０１に記録されている判定対象とするデータが図３で、ｐが１である場合、ｎ１＝ｔｒｕｅであり、ｑ＝２では、ｎ２＝ｔｒｕｅなので、次のステップに移行する。ｑ＝３では、ｎ２＝ｆａｌｓｅなので、データ１とデータ３とは候補であるとして、動作を終了する。ｑ＝３では、ｎ２＝ｔｒｕｅなので、次のステップに移行する。このように、データ１とデータ３とは、概念集合１において、概念に属する文字列を含むデータが１つであるため、候補であるとして、動作を終了する。
次に、候補選択部１０３は、候補フラグを仮にｆａｌｓｅに設定する（ステップＡ２７）。
次に、候補選択部１０３は、概念集合ｉの概念番号を示す変数ｊを１に初期化する（ステップＡ２８）。
次に、候補選択部１０３は、ｊと概念集合ｉの概念数Ｊとを比較する（ステップＡ２９）。ｊがＪ以下ならば、次のステップに移行する。ｊがＪより大ならば、候補フラグがｆａｌｓｅのまま、すなわち、データｐとデータｑは概念集合ｉで候補でないとして、動作を終了する。例えば、概念記憶部１００に記録されている概念情報が図２であり、データ記憶部１０１に記録されている判定対象とするデータが図３で、ｐが１である場合、ｑ＝２では、ｍ１［１］＝ｔｒｕｅでｍ２［１］＝ｆａｌｓｅであり、ｍ１［１］＝ｆａｌｓｅでｍ２［２］＝ｔｒｕｅであるため、次のステップで両方ｔｒｕｅとなることがなく、本ステップに移行し、データ１とデータ２とが概念集合１で候補でないとして、動作を終了する。このように、データ１とデータ２とは、同一概念の文字列を含まず、また、概念に属する文字列を含むデータが２つであるため、候補でないとして、動作を終了する。
次に、候補選択部１０３は、ｍ１［ｊ］とｍ２［ｊ］の両方がｔｒｕｅであるかを調べる（ステップＡ３０）。両方がｔｒｕｅならば、ステップＡ３２に移行する。片方でもｆａｌｓｅならば、次のステップに移行する。
次に、候補選択部１０３は、ｊをインクリメントする（ステップＡ３１）。そして、ステップＡ２９に移行する。
ステップＡ３０においてｍ１［ｊ］とｍ２［ｊ］が両方ともｔｒｕｅならば、候補選択部１０３は、候補フラグをｔｒｕｅに設定する（ステップＡ３２）。そして、候補フラグがｔｒｕｅのまま、すなわち、データｐとデータｑは概念集合ｉにおいて候補であるとして、動作を終了する。例えば、概念記憶部１００に記録されている概念情報が図２であり、データ記憶部１０１に記録されている判定対象とするデータが図３で、ｐが１である場合、ｑ＝４では、ｍ１［１］＝ｔｒｕｅかつｍ２［１］＝ｔｒｕｅであるので、本ステップに移行し、データ１とデータ４とが概念集合１において候補であるとして、動作を終了する。このように、データ１とデータ４とは、概念集合１において、同一概念の文字列を含むため、候補であるとして、動作を終了する。
上記のように本実施形態によれば、２つの概念の要素に重複があったり概念の要素に不足があったりするような不完全な概念集合に基づいても、データ間の関連性を正確に判定することができる。
（第２の実施形態）
次に、本発明によるデータ間の関連性判定システムの第２の実施形態について図面を参照して詳細に説明する。第２の実施形態に係るデータ間の関連性判定システムは、予め記憶された用語集から概念を構成し、構成した概念と比較するデータとに基づいて、データ間の関連性を示す類似度を計算する。なお、ここでは、概念を示す文字列やデータが自然言語の場合を例として説明する。
システムやソフトウェア開発では、曖昧さを排除するために、プロジェクト内で用いる用語を整理して用語集を作成することが多い。本実施形態では、そのように整理された用語集を用いて概念を構成してから、第１の実施形態と同様にデータ間の関連性を示す類似度を計算する。なお、第１の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
図７を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部２１と、プログラム制御により動作する計算部２２とから構成されている。
記憶部２１は、用語集記憶部２００と、概念記憶部１００と、データ記憶部１０１と、候補記憶部１０２とを備える。
用語集記憶部２００は、システムやソフトウェア開発で用いる用語集を記憶する。用語集は、文字列である用語を集めたものであり、望ましくは、用語の関連語句とする文字列を含むものである。ここで、関連語句とは、同義語、類義語、関連語などである。図８は、用語集記憶部２００に記憶された用語集の例を示す説明図である。図では、１行目が各列の内容の説明を示しており、１列目は用語、２列目は用語の意味を示しており、３列目は用語の関連語を示している。例えば、図は、「受注」という用語の意味は「注文を受けること」であり、「受注」に関連して特別な受注の場合に用いる「特別受」という用語があることを示す。また、図は、「発注」という用語の意味は「注文を出すこと」であり、「発注」の代わりの特別な場合に用いる「特別発」という用語があることを示す。図９は、用語集記憶部２００に記憶された別の用語集の例を示す説明図である。図９では、１行目が各列の内容の説明を示しており、１列目がコンポーネント名、２列目がコンポーネントの略称を示している。例えば、図９では、「受注管理システム」と「発注管理システム」という２つのコンポーネントがあり、「受注管理システム」の略称が「受注システム」、「発注管理システム」の略称が「発注システム」であることを示している。
記憶部２１の他の構成要素である、概念記憶部１００、データ記憶部１０１、候補記憶部１０２は、実施形態１と同様である。
計算部２２は、概念構成部２０１と、候補選択部１０３と、類似度計算部１０４とを備える。
概念構成部２０１は、用語集記憶部２００に記憶された用語集に基づいて、概念を示す文字列を構成し、概念記憶部１００に記憶する。
候補選択部１０３および類似度計算部１０４は、実施形態１と同様である。
次に、図１０のフローチャートを参照して、第２の実施の形態の概念構成部２０１の動作について詳細に説明する。
まず、概念構成部２０１は、用語集から、指定された場所にある用語を抽出する（ステップＡ３３）。指定された場所は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図８では、用語のある場所として、１行目を除く１列目を指定すればよい。また、図９でも、用語のある場所として、１行目を除く１列目を指定すればよい。
次に、概念構成部２０１は、用語集から指定された場所にある関連語句を抽出する（ステップＡ３４）。指定された場所は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図８では、関連語句のある場所として、１行目を除く３列目を指定すればよい。また、図９では、関連語句のある場所として、１行目を除く２列目を指定すればよい。
次に、概念構成部２０１は、抽出した用語と関連語句をまとめて、概念を示す文字列を構成する（ステップＡ３５）。例えば、図２の形式に構成するには、抽出した用語と関連語句のそれぞれの文字列を「／」で区切って並べて概念を構成すればよい。
次に、概念構成部２０１は、個々の構成した概念を複数まとめて概念集合として構成する（ステップＡ３６）。例えば、図２の形式に構成するには、構成した概念を「，」で区切って並べて概念集合を構成すればよい。構成した概念集合は、概念記憶部１００に記憶する。そして、概念構成部２０１の動作を終了する。例えば、図９では、構成された概念集合は、図２の概念情報の１行目となる。
概念構成部２０１が概念集合を登録した後のデータ間の関連性を示す類似度を計算処理は、第１の実施形態と同様であるので説明を省略する。
上記のように本実施形態によれば、用語集から概念を自動で構成し、その概念を用いてデータ間の関連性を示す類似度を計算することができる。なお、ここでは、用語集から用語や関連語句を抽出する場合を例として説明したが、例えば、データ中に用語の説明がある場合には、データを用語集とみなして、用語を抽出してもよい。
（第３の実施形態）
次に、本発明によるデータ間の関連性判定システムの第３の実施形態について図面を参照して詳細に説明する。なお、第１および第２の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
図１１を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部３１と、プログラム制御により動作する計算部３２とから構成されている。
記憶部３１は、構造データ記憶部３００と、概念記憶部１００と、データ記憶部１０１と、候補記憶部１０２とを備える。
構造データ記憶部３００は、階層的な構造をもち階層構造の項目名と内容とが与えられた構造データを記憶する。構造データはシステムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図１２は、構造データ記憶部３００に記憶された構造データの例を示す説明図である。図では、１行目が各列の内容を示しており、１列目が大分類での項目名、２列目が小分類での項目名、３列目が内容を示す。なお、章・節がある一般的な文書から、章・節情報を項目名として自動抽出して、大分類の項目名を章のタイトル、小分類の項目名を節のタイトルなどとして、構造データを作成してから構造データ記憶部３００に記憶してもよい。
記憶部３１の他の構成要素である、概念記憶部１００、データ記憶部１０１、候補記憶部１０２は、上記説明と同様である。
計算部３２は、概念構成部３０１と、データ生成部３０２と、候補選択部１０３と、類似度計算部１０４とを備える。
概念構成部３０１は、構造データ記憶部３００に記憶された構造データに基づいて、概念を構成し、概念記憶部１００に記憶する。
データ生成部３０２は、構造データ記憶部３００に記憶された構造データに基づいて、データを生成し、データ記憶部１０１に記憶する。
候補選択部１０３と類似度計算部１０４は、上記説明と同様である。
次に、図１３のフローチャートを参照して、第３の実施の形態の概念構成部３０１の動作について詳細に説明する。
まず、概念構成部３０１は、構造データ記憶部３００に記憶された構造データから項目名となる文字列を抽出する（ステップＡ３７）。例えば、図１２では、大分類の文字列「機能仕様」、「画面仕様」や小分類の文字列「受注管理システム」、「発注管理システム」、「設定画面」、「表示画面」を抽出する。
次に、概念構成部３０１は、抽出した項目名から概念を構成する（ステップＡ３８）。例えば、図１２では、大分類の文字列を用いて１つの概念集合、小分類の文字列を用いて別の概念集合を構成する。図１４は、概念構成部３０１で構成された概念の例を示す説明図である。
次に、概念構成部３０１は、構成した概念は、概念記憶部１００に記憶する（ステップＡ３９）。そして、概念構成部３０１の処理を終了する。
次に、図１５のフローチャートを参照して、第３の実施の形態のデータ生成部３０２の動作について詳細に説明する。
まず、データ生成部３０２は、構造データ記憶部３００に記憶された構造データから項目名となる文字列を抽出する（ステップＡ４０）。本ステップは、概念構成部３０１の項目名を抽出する動作と同様である。
次に、データ生成部３０２は、構造データ記憶部３００に記憶された構造データから内容を示す文字列を抽出する（ステップＡ４１）。
次に、データ生成部３０２は、項目名と、内容とを並べて、データを作成する（ステップＡ４２）。図１６は、データ生成部３０２によって生成されたデータの例を示す説明図である。図は、構造データ記憶部３００が図１２の場合にデータ生成部３０２が生成したデータの例である。ここでは、項目名と内容とを、間を「。」で区切って並べることで、データを生成している。
次に、データ生成部３０２は、生成したデータをデータ記憶部１０１に記憶する（ステップＡ４３）。
ここで、構造データ記憶部に記憶された構造データとデータ記憶部に記憶されたデータとは１対１に対応している。したがって、構造データを入力すると、概念構成部３０１が構成して概念記憶部１００に記憶された概念やデータ生成部３０２が生成してデータ記憶部１０１に記憶されたデータを用いて、第１および第２の実施形態と同様の処理で、構造データ間の関連性を判定することができる。
以上、本実施形態によれば、構造のあるデータの構造情報を用いて、概念を自動構成し、データ間の関連性を示す類似度を計算することができる。
なお、データ間の関連性判定システムの各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭにデータ間の関連性判定プログラムが展開され、プログラムに基づいて制御部（ＣＰＵ）等のハードウェアを動作させることによって、各部を各種手段として実現する。データ間の関連性判定プログラムは、オペレーティングシステムや、他の一般的なソフトウェアなどに各処理を実行させて上記各部を構築するようにしてもよい。
また、このプログラムは、固定的に記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。なお、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
また、データ間の関連性判定システムは、図１７や図１８に例示すように、コンピュータ単体として構築してもよいし、サーバ−クライアントシステムとして構築してもよい。
上記実施の形態を別の表現で説明すれば、データ間の関連性判定システムとして動作させる情報処理装置を、ＲＡＭに展開されたデータ間の関連性判定プログラムに基づき、候補選択部、類似度計算部として制御部を動作させることで実現することが可能である。また、加えて、概念構成部、データ生成部として制御部を動作させることで実現することが可能である。
以上説明したように、本発明に係るデータ間の関連性判定システムによれば、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定できる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。また、複数の構成要素の適宜な組合せにより所望の効果を得られる。例えば、実施形態に示される全構成要素の幾つかの構成要素を統合したり削除してもよい。
また、上記の実施形態の一部または全部は、以下のようにも記載されうる。なお、以下の付記は本発明をなんら限定するものではない。
［付記１］
判定対象とする文字列から成る対比するデータの特徴が示された１つ以上の文字列を要素とした概念を複数の要素とする１ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択部と、
前記候補選択部で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部と
を含み成ることを特徴とするデータ間の関連性判定システム。
［付記２］
前記候補選択部は、前記概念集合として、２つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記３］
前記候補選択部は、複数の概念集合を有し、そのすべての概念集合において、対比する２つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記４］
前記類似度計算部は、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記５］
前記概念集合を構成する概念構成部を備えることを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記６］
前記概念構成部は、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として１つの概念をそれぞれ構成し、
構成した個々の概念を要素として１つの概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記７］
前記概念構成部は、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記８］
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成部を備えることを特徴とする上記付記記載のデータ間の関連性判定システム。
［付記９］
判定対象とする文字列から成る対比するデータの特徴が示された１つ以上の文字列を要素とした概念を複数の要素とする１ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択ステップと、
前記候補選択ステップで選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力可能にする類似度計算ステップとを有することを特徴とするデータ間の関連性判定方法。
［付記１０］
前記候補選択ステップは、前記概念集合として、２つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１１］
前記候補選択ステップは、複数の概念集合を用い、そのすべての概念集合において、対比する２つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１２］
前記類似度計算ステップは、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１３］
前記概念集合を構成する概念構成ステップを有することを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１４］
前記概念構成ステップは、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として１つの概念をそれぞれ構成し、
構成した個々の概念を要素として１つの概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１５］
前記概念構成ステップは、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１６］
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成ステップを有することを特徴とする上記付記記載のデータ間の関連性判定方法。
［付記１７］
情報処理装置の制御部に、
判定対象とする文字列から成る対比するデータの特徴が示された１つ以上の文字列を要素とした概念を複数の要素とする１ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択処理と、
前記候補選択処理で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を算定する類似度計算処理と
を実行させることを特徴とするデータ間の関連性判定プログラム。
［付記１８］
前記候補選択処理では、前記概念集合として、２つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記１９］
前記候補選択処理では、複数の概念集合を用いて、そのすべての概念集合において、対比する２つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２０］
前記類似度計算処理では、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２１］
前記概念集合を構成する概念構成処理を行わせることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２２］
前記概念構成処理では、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として１つの概念をそれぞれ構成し、
構成した個々の概念を要素として１つの概念集合を構成して行なわせる
ことを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２３］
前記概念構成処理では、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する処理を行わせる
ことを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２４］
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成処理を行わせることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
［付記２５］
上記付記記載のデータ間の関連性判定プログラムを記録した記録媒体。
本発明は、データ間の類似性を数値化して用いる多くのシステムに使用でき、例えば、仕様書の確認を行うシステムや手順書を確認するシステム、データベースから情報を引き出す際のキーワードを増やして用いるシステムなどに、不完全といえる程度の概念情報を設定することによってもその精度を高めることが可能である。
この出願は、２０１１年８月８日に出願された日本出願特願２０１１−１７２９２４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１１、２１、３１記憶部
１２、２２、３２計算部
１００概念記憶部（概念記憶手段）
１０１データ記憶部（データ記憶手段）
１０２候補記憶部（候補記憶手段）
１０３候補選択部（候補選択手段）
１０４類似度計算部（類似度計算手段）
２００用語集記憶部（用語集記憶手段）
２０１概念構成部（概念構成手段）
３００構造データ記憶部（構造データ記憶手段）
３０１概念構成部（概念構成手段）
３０２データ生成部（データ生成手段）

Claims

生成した１ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択部と、
前記候補選択部で選択された選択候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部と
を含むことを特徴とするデータ間の関連性判定システム。
前記候補選択部は、前記概念集合として、２つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする請求項１に記載のデータ間の関連性判定システム。
前記候補選択部は、複数の概念集合を有し、そのすべての概念集合において、対比する２つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする請求項１または請求項２に記載のデータ間の関連性判定システム。
前記類似度計算部は、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする請求項１ないし請求項３の何れか１項に記載のデータ間の関連性判定システム。
前記概念集合を構成する概念構成部を備えることを特徴とする請求項１ないし請求項４の何れか１項に記載のデータ間の関連性判定システム。
前記概念構成部は、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として１つの概念をそれぞれ構成し、
構成した個々の概念を要素として１つの概念集合を構成する
ことを特徴とする請求項５に記載のデータ間の関連性判定システム。
前記概念構成部は、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する
ことを特徴とする請求項５又は請求項６に記載のデータ間の関連性判定システム。
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成部を備えることを特徴とする請求項１かないし請求項７の何れか１項に記載のデータ間の関連性判定システム。
生成した１ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択ステップと、
前記候補選択ステップで選択された選択候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力可能にする類似度計算ステップと
を有することを特徴とするデータ間の関連性判定方法。
情報処理装置の制御部に、
生成した１ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択処理と、
前記候補選択処理で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を算定する類似度計算処理と
を実行させることを特徴とするデータ間の関連性判定プログラムを記録した記録媒体。