JPWO2013021875A1 - データ間の関連性判定システム、データ間の関連性判定方法、および記録媒体 - Google Patents

データ間の関連性判定システム、データ間の関連性判定方法、および記録媒体 Download PDF

Info

Publication number
JPWO2013021875A1
JPWO2013021875A1 JP2013527982A JP2013527982A JPWO2013021875A1 JP WO2013021875 A1 JPWO2013021875 A1 JP WO2013021875A1 JP 2013527982 A JP2013527982 A JP 2013527982A JP 2013527982 A JP2013527982 A JP 2013527982A JP WO2013021875 A1 JPWO2013021875 A1 JP WO2013021875A1
Authority
JP
Japan
Prior art keywords
data
concept
candidate
similarity
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013527982A
Other languages
English (en)
Other versions
JP6066089B2 (ja
Inventor
由希子 黒岩
由希子 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013527982A priority Critical patent/JP6066089B2/ja
Publication of JPWO2013021875A1 publication Critical patent/JPWO2013021875A1/ja
Application granted granted Critical
Publication of JP6066089B2 publication Critical patent/JP6066089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定する。データ間の関連性判定システムに、生成した1ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択手段と、候補選択手段で選択された候補に対して類似度を計算処理する一方、候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、対比するデータの類似度を出力する類似度計算手段とを設ける。

Description

本発明は、情報処理におけるデータ間の関連性判定システムに関し、特にシステムやソフトウェア開発における仕様間の関連性判定に好適なシステムに関する。
データ間の関連性判定では、対比するデータをそれぞれ文字列に変換し、その文字列間の類似度を計算することで、類似度の大きいデータ間を関連性があると推定処理できる。例えば、非特許文献1に記載されているように、テキスト、画像、時系列データなどのデータに対して、データ間の類似度を計算し、データ間の類似度をデータ間の関連性として推定処理できる。
システムやソフトウェア開発の際にも、データ間の類似度を用いて関連性を推定する場合がある。例えば、非特許文献2では、データ間の類似度を用いて、業務フロー間の関連性を計算している。
しかし、これら技術では、データが異なる概念に属するが文字列が類似の場合に、関連性を高く計算する場合があった。
ここで、概念とは、個々のデータにのみ属する偶発的な性質でなく、複数のデータがもつ同一の本質的な特徴のことである。例えば、データがシステム開発における仕様(テキスト)の場合、概念は、システムのコンポーネントや業務分類などが相当する。
具体的には、類似度の算定処理のために対比する2つの仕様が「受注管理システムは、電話、FAX(Facsimile)、EDI(Electronic Data Interchange)に対応する。」と「発注管理システムは、電話、FAX、EDIに対応する。」の場合、2つの仕様は、異なるコンポーネント(概念)である「受注管理システム」と「発注管理システム」に属している。このため、直接的には関連性がなく、これら2つの仕様の一方が、「電話には対応しない。」と変更されてもシステムやソフトウェア開発上で問題はない。
しかし、元の2つの仕様は、「受注」と「発注」を除き一致しているので、従来技術を用いると、元の2つの仕様は関連性が高いと計算されがちであった。そのため、一方が「電話には対応しない」と変更された場合に、データ間の関連性を判定処理するシステムによって、開発仕様で矛盾などの不整合が起きたと誤検出されてしまう。
このような問題に対処するために、自動的に概念とその重みを構成する方法は、例えば、非特許文献3に記載されている。この方法では、新聞記事などの文書を大量に集めて、文書の概念を多次元ベクトルにより構成する。多次元ベクトルを用いる理由は、一般的に概念は単純な階層構造とならずに重複部分が概念間にあるためである。
また、概念データベースを参照して概念を取得し、その概念を用いて複数のデータ間の類似度を算定する方法の一例が特許文献1に記載されている。特許文献1では、検索用に入力されたデータの概念を用いて、関連する類似したデータを抽出処理し、それらのデータを用いて情報検索を行なわれることが記載されている。
特開2006−106970号公報
ミング(Ming)著「ザ シミラリティ メトリクス(The Similarity Metric)」2004年発行の論文誌IEEE トランザクションズ オン インフォメーション セオリー(Transactions on Information Theory)」50巻12号3250−3264頁 キーオ(Keogh)ら著「コンプレッション−ベースド データ マイニング オブ シーケンシャル データ(Compression−based data mining of sequential data)」2007年発行の論文誌データ マイニング アンド ノリッジ ディスカバリー(Data Mining and Knowledge Discovery)14巻1号99−129頁 シュッチェ(H.Schutze)著「ディメンジョン オブ ミーニング(dimensions of meaning)」1992年発行のプロシーディングス オブ スーパーコンピューティング(Proceedings of supercomputing)787−796頁
しかし、例えば、システムやソフトウェア開発の仕様間の関連性においては、多くの文書を用いて分析することができない場合が多い。
なぜなら、多くプロジェクトでは、概念であるコンポーネントや業務フローなどとしてプロジェクト特有の用語を用いる。このため、プロジェクト内(場合によって類似プロジェクト、並行プロジェクトを含む)での文書だけが比較対象となる。このことによって、正確かつ多量の概念データベースの作成が困難である。
上記のように、システムやソフトウェア開発などにおいては、多くの文書を用いて分析できないため、前述したような既存の方法で自動的に概念を構成することは困難である。他方で、システム開発に用いられる文書などは、多くの場合、一般的な文書に比べて用語が限定的であり、また、複数の観点での階層構造化が図られている。
その一方、システム開発で用いられる文書などは、一般的な文書に比べて、2つの概念の要素に重複があったり概念の要素に不足があったりするような不完全な概念情報ならば、容易に構成できる。
本発明は、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定するデータ間の関連性判定システムを提供する。
本発明に係るデータ間の関連性判定システムは、生成した1ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択部と、前記候補選択部で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部とを含み成ることを特徴とする。
本発明によれば、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定するデータ間の関連性判定システムを提供できる。
図1は、データ間の関連性判定システムの第1の実施形態の構成例を示すブロック図である。
図2は、概念記憶部100に記憶された概念情報の例を示す説明図である。
図3は、データ記憶部101に記憶された判定対象となるデータの例を示す説明図である。
図4は、候補記憶部102に記憶された候補の例を示す説明図である。
図5は、データ間の関連性判定システムの第1の実施形態の処理経過の例を示すフローチャートである。
図6は、データ間の関連性判定システムの第1の実施形態の概念集合iでデータpとqが類似度計算の候補かどうかを調べる候補選択部103の処理経過の例を示すフローチャートである。
図7は、データ間の関連性判定システムの第2の実施形態の構成例を示すブロック図である。
図8は、用語集記憶部200に記憶された用語集の例を示す説明図である。
図9は、用語集記憶部200に記憶された別の用語集の例を示す説明図である。
図10は、データ間の関連性判定システムの第2の実施形態の概念構成部201の処理経過の例を示すフローチャートである。
図11は、データ間の関連性判定システムの第3の実施形態の構成例を示すブロック図である。
図12は、構造データ記憶部300に記憶された構造データの例を示す説明図である。
図13は、データ間の関連性判定システムの第3の実施形態の概念構成部301の処理経過の例を示すフローチャートである。
図14は、概念構成部301で構成された概念の例を示す説明図である。
図15は、データ間の関連性判定システムの第3の実施形態のデータ生成部302の処理経過の例を示すフローチャートである。
図16は、データ生成部302によって生成されたデータの例を示す説明図である。
図17は、本発明の具現化の一例を示す構成図である。
図18は、本発明の別の具現化の一例を示す構成図である。
(第1の実施形態)
次に、本発明によるデータ間の関連性判定システムの第1の実施形態について図面を参照して詳細に説明する。第1の実施形態に係るデータ間の関連性判定システムは、予め記憶された概念とデータとに基づいて、データ間の関連性を示す類似度を計算する。なお、ここでは、概念の要素である文字列やデータの文字列として自然言語を用いている場合を例示して説明するが、使用する文字列は、画像や時系列データなどを示す何らかの文字列であっても構わない。
図1を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部11と、プログラム制御により動作する計算部12とから構成されている。
記憶部11は、概念記憶部100と、データ記憶部101と、候補記憶部102とを備える。
概念記憶部100は、複数の概念に対し、概念を示す1つ以上の文字列を記憶する。概念は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。
図2は、概念記憶部100に記憶された概念を示す語句の例を示す説明図である。図では、1行が1つの概念集合を示し、「,」ごとに1つの概念を示し、1つの概念内で、「/」で区切られた文字列が、同一概念に属する文字列のバリエーションを示す。
1つの概念集合に含まれる複数概念のうち、任意の2つの概念は、互いに素であること(すなわち、一方の概念の要素ともう一方の概念の要素が一致することがないこと)が望ましいが、互いに素であることに限定されない。また、その任意の2つの概念が異なる概念集合の場合は、互いに素でなくてよい。
例えば、図では、文字列「受注管理システム」と文字列「受注システム」は、同一概念の要素であることを示す。また、文字列「発注管理システム」と文字列「発注システム」は、「受注管理システム」と「受注システム」が示す概念とは別の概念の要素であることを示す。また、「電話」と「FAX」とは異なる概念の要素であることを示す。注意が必要なことは、「受注管理システム」と「電話」とは同一概念に属することも異なる概念に属することとも示していないことである。
この複数の概念を要素とする概念集合を用いることによって、対比する2つのデータが類似度計算の候補として選択すべきか否かを候補選択部103が選択する。
データ記憶部101は、関連性を判定する複数のデータを記憶する。個々のデータは文字列で構成され、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図3は、データ記憶部101に記憶されたデータの例を示す説明図である。図で、1行目が各列の内容の説明を示しており、1列目はデータのID番号、2列目はデータの内容を示している。すなわち、図では、第一のデータは、「受注管理システムは、電話、FAX、EDIに対応する」であり、第二のデータは、「発注管理システムは、電話、FAX、EDIに対応する」であり、第三のデータは、「注文管理システムは、電話、FAX、EDIに対応する」であり、第四のデータは、「受注システムは、電話、FAX、EDIに対応する」であることを示している。なお、ここでは、個々のデータは日本語テキストだが、画像や時系列データなどを示す何らかの文字列でもよい。また、以降では、各データを、第一のデータ(ID=1)をデータ1、第二のデータ(ID=2)をデータ2のように呼ぶこととする。
候補記憶部102は、あるデータのID番号と、そのデータと類似度計算の対象とするデータのID番号を対応付けて候補として記憶する。図4は、候補記憶部102に記憶された候補の例を示す説明図である。ここで、データ1とデータ2との間の類似度は、データ2とデータ1との類似度と同じとみなして、あるデータに対しては、そのデータより番号の大きいデータのみを候補とするなら記述している。各行は、「,」で区切られた最初の番号に対し、以降の番号を類似度計算の候補とすることを示している。すなわち、図は、データ1は、データ3およびデータ4と類似度を計算するが、データ2とは類似度を計算しないことを示す。また、データ2はデータ3と類似度を計算するが、データ4とは類似度を計算しないことを示す。さらに、データ3は、データ4と類似度を計算しないことを示す。
計算部12は、候補選択部103と、類似度計算部104とを備える。
候補選択部103は、概念記憶部100に記憶された概念情報とデータ記憶部101に記憶された判定対象となるデータとに基づいて、類似度を計算する候補を選択し、選択された候補を候補記憶部102に記憶する。
類似度計算部104は、候補記憶部102に記憶された候補とデータ記憶部101に記憶された判定対象となるデータとに基づいて、データ間の類似度を計算する。なお、この際、類似度計算部104は、候補選択部103で選択されなかった候補(即ち候補記憶部102に記憶されていない要素)に対して類似度を予め定めた小さい値に設定する。
次に、図5のフローチャートを参照して、第1の実施形態の全体の動作について詳細に説明する。
まず、候補選択部103は、データの番号(図3で例示するID番号)を示す変数pの値を1に初期化する(ステップA1)。
次に、候補選択部103は、pとデータの総数を示すデータ数Mとを比較する(ステップA2)。pがM以下ならば、次のステップに移行する。pがMより大ならば、類似度計算部104が行なうステップA12に移行する。
次に、候補選択部103は、pと共に候補とするか判定するデータの番号を示す変数qの値をp+1に初期化する(ステップA3)。
次に、候補選択部103は、qとデータ数Mとを比較する(ステップA4)。qがM以下ならば、次のステップに移行する。Mより大ならば、ステップA11に移行する。
次に、候補選択部103は、概念集合を示す変数iの値を1に初期化する(ステップA5)。以降、i番目の概念集合を概念集合iと呼ぶことにする。
次に、候補選択部103は、iと概念集合の総数を示す概念集合数Iとを比較する(ステップA6)。iがI以下ならば、次のステップに移行する。iがIより大ならば、変数pと変数qによって特定されるデータpとデータqの両データがすべての概念集合でデータpとデータqが候補だと判定して、ステップA9に移行する。
次に、候補選択部103は、データpとデータqの両データが概念集合iを基準に用いた際に類似度を計算する候補になり得るかどうかを調べる処理を行う(ステップA7)。処理の詳細は後述する。候補でないならば、ステップA10に移行する(ステップA7のNo)。候補ならば、次のステップに移行する(ステップA7のYes)。
次に、候補選択部103は、次の概念集合を基準とするために、iをインクリメントする(ステップA8)。そして、ステップA6に移行する。
ステップA6においてiがIより大ならば、候補選択部103は、pとqとが類似度の計算候補であることを候補記憶部102に記憶する(ステップA9)。
次に、候補選択部103は、qをインクリメントする(ステップA10)。そして、ステップA4に移行する。
ステップA4においてqがデータ数Mより大ならば、候補選択部103は、pをインクリメントする(ステップA11)。そして、ステップA2に移行する。
ステップA2においてpがMより大ならば、類似度計算部104は、候補記憶部102に記憶された候補間でデータ間の類似度を計算する(ステップA12)。ここで、候補でないデータ間の類似度は0を設定する。そして、動作を終了する。データ間の類似度は、例えば、コルモゴロフ複雑性の概算を用いて計算することができる。計算した類似度は、すぐにディスプレイ装置や印刷装置などを介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。
次に、図6のフローチャートを参照して、第1の実施の形態の概念集合iでデータpとqが類似度計算の候補かどうかを調べる候補選択部103の動作について詳細に説明する。
まず、候補選択部103は、データpとデータqとが類似度計算の候補かどうかを示す候補フラグをtrueに設定する(ステップA13)。
次に、候補選択部103は、データpが概念を示す文字列を1つ以上含んだかを示す変数n1をfalseに設定し、データqが概念を示す文字列を1つ以上含んだかを示す変数n2をfalseに設定する(ステップA14)。
次に、候補選択部103は、概念記憶部100に記憶された概念集合iにおける概念の番号を示す変数jを1に初期化する(ステップA15)。なお、以降では、j番目の概念を概念jと呼ぶことにする。
次に、候補選択部103は、概念jの値と概念集合iに含まれる概念の総数を示す概念数Jとを比較する(ステップA16)。jがJ以下ならば、次のステップに移行する。jがJより大ならば、ステップA26に移行する。
次に、候補選択部103は、データpが概念jを含むかを示すm1[j]をfalseに設定し、データqが概念jを含むかを示すm2[j]をfalse1に設定する(ステップA17)。
次に、候補選択部103は、概念集合iの概念jを示す文字列の番号を示す変数kを1に初期化する(ステップA18)。なお、以降では、k番目の文字列を文字列kと呼ぶことにする。
次に、候補選択部103は、kと概念集合iの概念jに含まれる文字列の総数を示す文字列数Kとを比較する(ステップA19)。kがK以下ならば、次のステップに移行する。kがKより大ならば、ステップA25に移行する。
次に、候補選択部103は、概念集合iの概念jの文字列kをデータpが含むかを調べる(ステップA20)。含むならば、次のステップに移行する。含まないならば、ステップA22に移行する。
次に、候補選択部103は、n1をtrueに設定し、m1[j]をtrueに設定する(ステップA21)。例えば、概念記憶部100に記録されている概念情報が図2であり、データ記憶部101に記録されている判定対象とするデータが図3で、pが1である場合を考える。この条件では、i=1、j=1、k=1では、概念集合1の概念1の文字列1である「受注管理システム」が、データ1「受注管理システムは、電話、FAX、EDIに対応する」に文字列として含まれている。このため、本ステップに移行して、n1はtrueに、m1[1]はtrueに設定される。他方、i=1、j=1、k=2では、概念集合1の概念1の文字列2である「受注システム」を、データ1が含まないために、本ステップには移行してこない。同様に、i=1、j=2、k=1のときの「発注管理システム」と、i=1、j=2、k=2のときの「発注システム」との両方ともが、データ1に含まれていないため、本ステップには移行してこない。したがって、図2及び図3に例示した内容では、i=1に対して、n1=true、m1[1]=true、m1[2]=falseと設定される。
次に、候補選択部103は、概念集合iの概念jの文字列kをデータqが含むかを調べる(ステップA22)。含むならば、次のステップに移行する。含まないならば、ステップA24に移行する。
次に、候補選択部103は、n2をtrueに設定し、m2[j]をtrueに設定する(ステップA23)。例えば、概念記憶部100に記録されている概念情報が図2であり、データ記憶部101に記録されている判定対象とするデータが図3で、qが2である場合を考える。この条件では、i=1、j=1、k=1では、概念集合1の概念1の文字列1である「受注管理システム」が、データ2「発注管理システムは、電話、FAX、EDIに対応する。」に文字列として含まれていない。このため、本ステップには移行してこない。同様にi=1、j=1、k=2でも、「受注システム」がデータ2に含まれていないために、本ステップには移行してこない。他方、i=1、j=2、k=1では、「発注管理システム」がデータ2に含まれるため、本ステップに移行してきて、n2=true、m2[2]=trueに設定される。したがって、図2及び図3に例示した内容では、q=2、i=1に対して、n2=true、m2[1]=false、m2[2]=trueと設定される。また、qが3である場合、i=1では、いずれのj、kに対しても、対応する文字列をデータ3が含まないために、本ステップには移行してこない。したがって、n2=false、m2[1]=false、m2[2]=falseと設定される。また、qが4である場合、i=1、j=1、k=2の場合にのみ、本ステップに移行してくる。したがって、n2=true、m2[1]=true、m2[2]=falseと設定される。
次に、候補選択部103は、kをインクリメントする(ステップA24)。そして、ステップA19に移行する。
ステップA19においてkがKより大になると、候補選択部103は、jをインクリメントする(ステップA25)。そして、ステップA16に移行する。
ステップA16においてjがJより大になると、候補選択部103は、n1とn2の両方がtrueであるかを調べる(ステップA26)。両方trueならば、次のステップに移行する。片方あるいは両方がfalseならば、候補フラグがtrueのまま、すなわち、データpとデータqは概念集合iにおいて候補であるとして、動作を終了する。例えば、概念記憶部100に記録されている概念情報が図2であり、データ記憶部101に記録されている判定対象とするデータが図3で、pが1である場合、n1=trueであり、q=2では、n2=trueなので、次のステップに移行する。q=3では、n2=falseなので、データ1とデータ3とは候補であるとして、動作を終了する。q=3では、n2=trueなので、次のステップに移行する。このように、データ1とデータ3とは、概念集合1において、概念に属する文字列を含むデータが1つであるため、候補であるとして、動作を終了する。
次に、候補選択部103は、候補フラグを仮にfalseに設定する(ステップA27)。
次に、候補選択部103は、概念集合iの概念番号を示す変数jを1に初期化する(ステップA28)。
次に、候補選択部103は、jと概念集合iの概念数Jとを比較する(ステップA29)。jがJ以下ならば、次のステップに移行する。jがJより大ならば、候補フラグがfalseのまま、すなわち、データpとデータqは概念集合iで候補でないとして、動作を終了する。例えば、概念記憶部100に記録されている概念情報が図2であり、データ記憶部101に記録されている判定対象とするデータが図3で、pが1である場合、q=2では、m1[1]=trueでm2[1]=falseであり、m1[1]=falseでm2[2]=trueであるため、次のステップで両方trueとなることがなく、本ステップに移行し、データ1とデータ2とが概念集合1で候補でないとして、動作を終了する。このように、データ1とデータ2とは、同一概念の文字列を含まず、また、概念に属する文字列を含むデータが2つであるため、候補でないとして、動作を終了する。
次に、候補選択部103は、m1[j]とm2[j]の両方がtrueであるかを調べる(ステップA30)。両方がtrueならば、ステップA32に移行する。片方でもfalseならば、次のステップに移行する。
次に、候補選択部103は、jをインクリメントする(ステップA31)。そして、ステップA29に移行する。
ステップA30においてm1[j]とm2[j]が両方ともtrueならば、候補選択部103は、候補フラグをtrueに設定する(ステップA32)。そして、候補フラグがtrueのまま、すなわち、データpとデータqは概念集合iにおいて候補であるとして、動作を終了する。例えば、概念記憶部100に記録されている概念情報が図2であり、データ記憶部101に記録されている判定対象とするデータが図3で、pが1である場合、q=4では、m1[1]=trueかつm2[1]=trueであるので、本ステップに移行し、データ1とデータ4とが概念集合1において候補であるとして、動作を終了する。このように、データ1とデータ4とは、概念集合1において、同一概念の文字列を含むため、候補であるとして、動作を終了する。
上記のように本実施形態によれば、2つの概念の要素に重複があったり概念の要素に不足があったりするような不完全な概念集合に基づいても、データ間の関連性を正確に判定することができる。
(第2の実施形態)
次に、本発明によるデータ間の関連性判定システムの第2の実施形態について図面を参照して詳細に説明する。第2の実施形態に係るデータ間の関連性判定システムは、予め記憶された用語集から概念を構成し、構成した概念と比較するデータとに基づいて、データ間の関連性を示す類似度を計算する。なお、ここでは、概念を示す文字列やデータが自然言語の場合を例として説明する。
システムやソフトウェア開発では、曖昧さを排除するために、プロジェクト内で用いる用語を整理して用語集を作成することが多い。本実施形態では、そのように整理された用語集を用いて概念を構成してから、第1の実施形態と同様にデータ間の関連性を示す類似度を計算する。なお、第1の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
図7を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部21と、プログラム制御により動作する計算部22とから構成されている。
記憶部21は、用語集記憶部200と、概念記憶部100と、データ記憶部101と、候補記憶部102とを備える。
用語集記憶部200は、システムやソフトウェア開発で用いる用語集を記憶する。用語集は、文字列である用語を集めたものであり、望ましくは、用語の関連語句とする文字列を含むものである。ここで、関連語句とは、同義語、類義語、関連語などである。図8は、用語集記憶部200に記憶された用語集の例を示す説明図である。図では、1行目が各列の内容の説明を示しており、1列目は用語、2列目は用語の意味を示しており、3列目は用語の関連語を示している。例えば、図は、「受注」という用語の意味は「注文を受けること」であり、「受注」に関連して特別な受注の場合に用いる「特別受」という用語があることを示す。また、図は、「発注」という用語の意味は「注文を出すこと」であり、「発注」の代わりの特別な場合に用いる「特別発」という用語があることを示す。図9は、用語集記憶部200に記憶された別の用語集の例を示す説明図である。図9では、1行目が各列の内容の説明を示しており、1列目がコンポーネント名、2列目がコンポーネントの略称を示している。例えば、図9では、「受注管理システム」と「発注管理システム」という2つのコンポーネントがあり、「受注管理システム」の略称が「受注システム」、「発注管理システム」の略称が「発注システム」であることを示している。
記憶部21の他の構成要素である、概念記憶部100、データ記憶部101、候補記憶部102は、実施形態1と同様である。
計算部22は、概念構成部201と、候補選択部103と、類似度計算部104とを備える。
概念構成部201は、用語集記憶部200に記憶された用語集に基づいて、概念を示す文字列を構成し、概念記憶部100に記憶する。
候補選択部103および類似度計算部104は、実施形態1と同様である。
次に、図10のフローチャートを参照して、第2の実施の形態の概念構成部201の動作について詳細に説明する。
まず、概念構成部201は、用語集から、指定された場所にある用語を抽出する(ステップA33)。指定された場所は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図8では、用語のある場所として、1行目を除く1列目を指定すればよい。また、図9でも、用語のある場所として、1行目を除く1列目を指定すればよい。
次に、概念構成部201は、用語集から指定された場所にある関連語句を抽出する(ステップA34)。指定された場所は、システムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図8では、関連語句のある場所として、1行目を除く3列目を指定すればよい。また、図9では、関連語句のある場所として、1行目を除く2列目を指定すればよい。
次に、概念構成部201は、抽出した用語と関連語句をまとめて、概念を示す文字列を構成する(ステップA35)。例えば、図2の形式に構成するには、抽出した用語と関連語句のそれぞれの文字列を「/」で区切って並べて概念を構成すればよい。
次に、概念構成部201は、個々の構成した概念を複数まとめて概念集合として構成する(ステップA36)。例えば、図2の形式に構成するには、構成した概念を「,」で区切って並べて概念集合を構成すればよい。構成した概念集合は、概念記憶部100に記憶する。そして、概念構成部201の動作を終了する。例えば、図9では、構成された概念集合は、図2の概念情報の1行目となる。
概念構成部201が概念集合を登録した後のデータ間の関連性を示す類似度を計算処理は、第1の実施形態と同様であるので説明を省略する。
上記のように本実施形態によれば、用語集から概念を自動で構成し、その概念を用いてデータ間の関連性を示す類似度を計算することができる。なお、ここでは、用語集から用語や関連語句を抽出する場合を例として説明したが、例えば、データ中に用語の説明がある場合には、データを用語集とみなして、用語を抽出してもよい。
(第3の実施形態)
次に、本発明によるデータ間の関連性判定システムの第3の実施形態について図面を参照して詳細に説明する。なお、第1および第2の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
図11を参照すると、本実施形態に係るデータ間の関連性判定システムは、情報を記憶する記憶部31と、プログラム制御により動作する計算部32とから構成されている。
記憶部31は、構造データ記憶部300と、概念記憶部100と、データ記憶部101と、候補記憶部102とを備える。
構造データ記憶部300は、階層的な構造をもち階層構造の項目名と内容とが与えられた構造データを記憶する。構造データはシステムのユーザがキーボードなどを介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図12は、構造データ記憶部300に記憶された構造データの例を示す説明図である。図では、1行目が各列の内容を示しており、1列目が大分類での項目名、2列目が小分類での項目名、3列目が内容を示す。なお、章・節がある一般的な文書から、章・節情報を項目名として自動抽出して、大分類の項目名を章のタイトル、小分類の項目名を節のタイトルなどとして、構造データを作成してから構造データ記憶部300に記憶してもよい。
記憶部31の他の構成要素である、概念記憶部100、データ記憶部101、候補記憶部102は、上記説明と同様である。
計算部32は、概念構成部301と、データ生成部302と、候補選択部103と、類似度計算部104とを備える。
概念構成部301は、構造データ記憶部300に記憶された構造データに基づいて、概念を構成し、概念記憶部100に記憶する。
データ生成部302は、構造データ記憶部300に記憶された構造データに基づいて、データを生成し、データ記憶部101に記憶する。
候補選択部103と類似度計算部104は、上記説明と同様である。
次に、図13のフローチャートを参照して、第3の実施の形態の概念構成部301の動作について詳細に説明する。
まず、概念構成部301は、構造データ記憶部300に記憶された構造データから項目名となる文字列を抽出する(ステップA37)。例えば、図12では、大分類の文字列「機能仕様」、「画面仕様」や小分類の文字列「受注管理システム」、「発注管理システム」、「設定画面」、「表示画面」を抽出する。
次に、概念構成部301は、抽出した項目名から概念を構成する(ステップA38)。例えば、図12では、大分類の文字列を用いて1つの概念集合、小分類の文字列を用いて別の概念集合を構成する。図14は、概念構成部301で構成された概念の例を示す説明図である。
次に、概念構成部301は、構成した概念は、概念記憶部100に記憶する(ステップA39)。そして、概念構成部301の処理を終了する。
次に、図15のフローチャートを参照して、第3の実施の形態のデータ生成部302の動作について詳細に説明する。
まず、データ生成部302は、構造データ記憶部300に記憶された構造データから項目名となる文字列を抽出する(ステップA40)。本ステップは、概念構成部301の項目名を抽出する動作と同様である。
次に、データ生成部302は、構造データ記憶部300に記憶された構造データから内容を示す文字列を抽出する(ステップA41)。
次に、データ生成部302は、項目名と、内容とを並べて、データを作成する(ステップA42)。図16は、データ生成部302によって生成されたデータの例を示す説明図である。図は、構造データ記憶部300が図12の場合にデータ生成部302が生成したデータの例である。ここでは、項目名と内容とを、間を「。」で区切って並べることで、データを生成している。
次に、データ生成部302は、生成したデータをデータ記憶部101に記憶する(ステップA43)。
ここで、構造データ記憶部に記憶された構造データとデータ記憶部に記憶されたデータとは1対1に対応している。したがって、構造データを入力すると、概念構成部301が構成して概念記憶部100に記憶された概念やデータ生成部302が生成してデータ記憶部101に記憶されたデータを用いて、第1および第2の実施形態と同様の処理で、構造データ間の関連性を判定することができる。
以上、本実施形態によれば、構造のあるデータの構造情報を用いて、概念を自動構成し、データ間の関連性を示す類似度を計算することができる。
なお、データ間の関連性判定システムの各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、RAMにデータ間の関連性判定プログラムが展開され、プログラムに基づいて制御部(CPU)等のハードウェアを動作させることによって、各部を各種手段として実現する。データ間の関連性判定プログラムは、オペレーティングシステムや、他の一般的なソフトウェアなどに各処理を実行させて上記各部を構築するようにしてもよい。
また、このプログラムは、固定的に記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。なお、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
また、データ間の関連性判定システムは、図17や図18に例示すように、コンピュータ単体として構築してもよいし、サーバ−クライアントシステムとして構築してもよい。
上記実施の形態を別の表現で説明すれば、データ間の関連性判定システムとして動作させる情報処理装置を、RAMに展開されたデータ間の関連性判定プログラムに基づき、候補選択部、類似度計算部として制御部を動作させることで実現することが可能である。また、加えて、概念構成部、データ生成部として制御部を動作させることで実現することが可能である。
以上説明したように、本発明に係るデータ間の関連性判定システムによれば、すべての情報が登録されていない不完全な概念情報に基づいてデータ間の関連性を正確に判定できる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。また、複数の構成要素の適宜な組合せにより所望の効果を得られる。例えば、実施形態に示される全構成要素の幾つかの構成要素を統合したり削除してもよい。
また、上記の実施形態の一部または全部は、以下のようにも記載されうる。なお、以下の付記は本発明をなんら限定するものではない。
[付記1]
判定対象とする文字列から成る対比するデータの特徴が示された1つ以上の文字列を要素とした概念を複数の要素とする1ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択部と、
前記候補選択部で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部と
を含み成ることを特徴とするデータ間の関連性判定システム。
[付記2]
前記候補選択部は、前記概念集合として、2つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記3]
前記候補選択部は、複数の概念集合を有し、そのすべての概念集合において、対比する2つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記4]
前記類似度計算部は、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記5]
前記概念集合を構成する概念構成部を備えることを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記6]
前記概念構成部は、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として1つの概念をそれぞれ構成し、
構成した個々の概念を要素として1つの概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記7]
前記概念構成部は、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記8]
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成部を備えることを特徴とする上記付記記載のデータ間の関連性判定システム。
[付記9]
判定対象とする文字列から成る対比するデータの特徴が示された1つ以上の文字列を要素とした概念を複数の要素とする1ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択ステップと、
前記候補選択ステップで選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力可能にする類似度計算ステップとを有することを特徴とするデータ間の関連性判定方法。
[付記10]
前記候補選択ステップは、前記概念集合として、2つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記11]
前記候補選択ステップは、複数の概念集合を用い、そのすべての概念集合において、対比する2つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記12]
前記類似度計算ステップは、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記13]
前記概念集合を構成する概念構成ステップを有することを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記14]
前記概念構成ステップは、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として1つの概念をそれぞれ構成し、
構成した個々の概念を要素として1つの概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記15]
前記概念構成ステップは、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する
ことを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記16]
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成ステップを有することを特徴とする上記付記記載のデータ間の関連性判定方法。
[付記17]
情報処理装置の制御部に、
判定対象とする文字列から成る対比するデータの特徴が示された1つ以上の文字列を要素とした概念を複数の要素とする1ないし複数の概念集合に基づいて、対比するデータが、同一概念の文字列を含む場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択する候補選択処理と、
前記候補選択処理で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を算定する類似度計算処理と
を実行させることを特徴とするデータ間の関連性判定プログラム。
[付記18]
前記候補選択処理では、前記概念集合として、2つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記19]
前記候補選択処理では、複数の概念集合を用いて、そのすべての概念集合において、対比する2つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記20]
前記類似度計算処理では、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算させることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記21]
前記概念集合を構成する概念構成処理を行わせることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記22]
前記概念構成処理では、
文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として1つの概念をそれぞれ構成し、
構成した個々の概念を要素として1つの概念集合を構成して行なわせる
ことを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記23]
前記概念構成処理では、
複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
構成した個々の概念を要素として概念集合を構成する処理を行わせる
ことを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記24]
複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成処理を行わせることを特徴とする上記付記記載のデータ間の関連性判定プログラム。
[付記25]
上記付記記載のデータ間の関連性判定プログラムを記録した記録媒体。
本発明は、データ間の類似性を数値化して用いる多くのシステムに使用でき、例えば、仕様書の確認を行うシステムや手順書を確認するシステム、データベースから情報を引き出す際のキーワードを増やして用いるシステムなどに、不完全といえる程度の概念情報を設定することによってもその精度を高めることが可能である。
この出願は、2011年8月8日に出願された日本出願特願2011−172924号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
11、21、31 記憶部
12、22、32 計算部
100 概念記憶部(概念記憶手段)
101 データ記憶部(データ記憶手段)
102 候補記憶部(候補記憶手段)
103 候補選択部(候補選択手段)
104 類似度計算部(類似度計算手段)
200 用語集記憶部(用語集記憶手段)
201 概念構成部(概念構成手段)
300 構造データ記憶部(構造データ記憶手段)
301 概念構成部(概念構成手段)
302 データ生成部(データ生成手段)

Claims (10)

  1. 生成した1ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択部と、
    前記候補選択部で選択された選択候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力する類似度計算部と
    を含むことを特徴とするデータ間の関連性判定システム。
  2. 前記候補選択部は、前記概念集合として、2つの概念の要素の重複、あるいは概念の要素に不足による不完全な概念集合を用いて、類似度計算の候補を選択することを特徴とする請求項1に記載のデータ間の関連性判定システム。
  3. 前記候補選択部は、複数の概念集合を有し、そのすべての概念集合において、対比する2つのデータが、同一概念の文字列を含むか場合か、あるいは概念に属する文字列を含むデータが一方である場合に、類似度計算の候補として選択することを特徴とする請求項1または請求項2に記載のデータ間の関連性判定システム。
  4. 前記類似度計算部は、対比するデータ間の類似度をコルモゴロフ複雑性の概算を用いて計算することを特徴とする請求項1ないし請求項3の何れか1項に記載のデータ間の関連性判定システム。
  5. 前記概念集合を構成する概念構成部を備えることを特徴とする請求項1ないし請求項4の何れか1項に記載のデータ間の関連性判定システム。
  6. 前記概念構成部は、
    文字列である用語とその関連語句を記述した用語集に基づいて、用語とその関連語句とを要素として1つの概念をそれぞれ構成し、
    構成した個々の概念を要素として1つの概念集合を構成する
    ことを特徴とする請求項5に記載のデータ間の関連性判定システム。
  7. 前記概念構成部は、
    複数の項目名と内容とが与えられた構造データに基づいて、それぞれの項目名を要素としてそれぞれの概念を構成し、
    構成した個々の概念を要素として概念集合を構成する
    ことを特徴とする請求項5又は請求項6に記載のデータ間の関連性判定システム。
  8. 複数の項目名と内容とが与えられた構造データに基づいて、項目名と内容とを連結した文字列をデータとして生成するデータ生成部を備えることを特徴とする請求項1かないし請求項7の何れか1項に記載のデータ間の関連性判定システム。
  9. 生成した1ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択ステップと、
    前記候補選択ステップで選択された選択候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を出力可能にする類似度計算ステップと
    を有することを特徴とするデータ間の関連性判定方法。
  10. 情報処理装置の制御部に、
    生成した1ないし複数の概念集合に基づき、対比するデータ間に、同一概念の文字列を含む場合か、あるいは、データの一方が概念に属する文字列を含む場合に、類似度計算の候補として選択する候補選択処理と、
    前記候補選択処理で選択された候補に対して類似度を計算処理する一方、前記候補選択部で選択されなかった候補に対して類似度を予め定めた小さい値に設定して、前記対比するデータの類似度を算定する類似度計算処理と
    を実行させることを特徴とするデータ間の関連性判定プログラムを記録した記録媒体。
JP2013527982A 2011-08-08 2012-07-25 データ間の関連性判定システム、データ間の関連性判定方法、およびプログラム Active JP6066089B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013527982A JP6066089B2 (ja) 2011-08-08 2012-07-25 データ間の関連性判定システム、データ間の関連性判定方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011172924 2011-08-08
JP2011172924 2011-08-08
JP2013527982A JP6066089B2 (ja) 2011-08-08 2012-07-25 データ間の関連性判定システム、データ間の関連性判定方法、およびプログラム
PCT/JP2012/069520 WO2013021875A1 (ja) 2011-08-08 2012-07-25 データ間の関連性判定システム、データ間の関連性判定方法、および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2013021875A1 true JPWO2013021875A1 (ja) 2015-03-05
JP6066089B2 JP6066089B2 (ja) 2017-01-25

Family

ID=47668386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013527982A Active JP6066089B2 (ja) 2011-08-08 2012-07-25 データ間の関連性判定システム、データ間の関連性判定方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP6066089B2 (ja)
WO (1) WO2013021875A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208590A (ja) * 1993-01-12 1994-07-26 Nippon Denshika Jisho Kenkyusho:Kk 単語間の類似度算出方法
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2004240505A (ja) * 2003-02-03 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 共起シソーラス間類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208590A (ja) * 1993-01-12 1994-07-26 Nippon Denshika Jisho Kenkyusho:Kk 単語間の類似度算出方法
JP2003271656A (ja) * 2002-03-19 2003-09-26 Fujitsu Ltd 関係付候補生成装置,関係付候補生成方法,関係付システム,関係付候補生成プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2004240505A (ja) * 2003-02-03 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 共起シソーラス間類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015036192; 藤原 由希子 他: 'コルモゴロフ複雑性に基づく製品・サービスの価値評価' FIT2009 第8回情報科学技術フォーラム 講演論文集 Vol.2,No.RF-002, 20090820, pp.55-62., 社団法人情報処理学会 社団法人電子情報通信学会 *
JPN6015036194; 藤原 由希子 他: 'コルモゴロフ複雑性に基づく顧客要求抽出' 情報処理学会第72回(平成22年)全国大会講演論文集 Vol.1,No.6B-1, 20100308, pp.1-333〜1-334., 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP6066089B2 (ja) 2017-01-25
WO2013021875A1 (ja) 2013-02-14

Similar Documents

Publication Publication Date Title
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN108292310A (zh) 用于数字实体相关的技术
US20140101544A1 (en) Displaying information according to selected entity type
WO2008106667A1 (en) Searching heterogeneous interrelated entities
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20140101542A1 (en) Automated data visualization about selected text
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
US10546065B2 (en) Information extraction apparatus and method
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
JP2013105321A (ja) 文書処理装置、文書構成要素間の関係解析方法およびプログラム
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
JP5194818B2 (ja) データ分類方法およびデータ処理装置
Liu et al. Radar station: Using kg embeddings for semantic table interpretation and entity disambiguation
CN103473243B (zh) 生成语义网络服务文档的方法和设备
JP5577546B2 (ja) 計算機システム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2021144348A (ja) 情報処理装置及び情報処理方法
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
CN113780454B (zh) 模型训练及调用方法、装置、计算机设备、存储介质
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
JP6066089B2 (ja) データ間の関連性判定システム、データ間の関連性判定方法、およびプログラム
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
JP6753190B2 (ja) 文書検索装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161213

R150 Certificate of patent or registration of utility model

Ref document number: 6066089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150