WO2019171490A1

WO2019171490A1 - ナレッジ拡充システム、方法およびプログラム

Info

Publication number: WO2019171490A1
Application number: PCT/JP2018/008759
Authority: WO
Inventors: 昌史小山田; 諒花房
Original assignee: 日本電気株式会社
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2019-09-12
Also published as: JPWO2019171490A1; US20200410168A1; JP7014288B2; US11874873B2

Abstract

部分グラフ抽出手段７１は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する。ルール作成手段７２は、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成する。ナレッジ追加手段７３は、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加する。

Description

ナレッジ拡充システム、方法およびプログラム

　本発明は、単語と単語との関係を示す単語間関係情報に含まれるナレッジを拡充するナレッジ拡充システム、ナレッジ拡充方法およびナレッジ拡充プログラムに関する。

　単語間関係情報は、単語をノードとし、単語と単語との関係をナレッジとして示す情報である。例えば、単語間関係情報は、知識ベースや概念辞書を指している。図３４は、単語間関係情報の例を示す模式図である。図３４に示すように、単語間関係情報はグラフとして表される。図３４に例示する単語間関係情報に含まれているノードは、単語を表す。また、関係を有する単語同士はリンクで接続され、そのリンクには、その関係の種別が付与される。図３４に示す例では、全てのリンクに「is-a」という種別が付与されている。すなわち、各リンクは、リンクによって接続されている２つの単語の関係がis-a関係であることを示している。ただし、リンクが示す単語間の関係は、is-a関係に限定されない。例えば、単語間の関係が「synonym 」であることを示すナレッジが単語間関係情報に含まれていてもよい。また、is-a関係は、要素（本例では、単語）の階層を表し、リンクにおいて、上位階層側にはアローヘッドが付加され、下位階層側にはアローヘッドは付加されない。なお、図３４に例示する“Oyamada ”，“Hanafusa”，“Takeoka ”，“Fukata”は、人名である。

　また、非特許文献１には、意味に関する関係性を抽出する技術が記載されている。

　また、特許文献１には、文書の見出しの階層関係によりis-a関係を抽出する装置が記載されている。

　また、非特許文献２には、大きなグラフのデータベースから、頻出するサブグラフを見つける技術が記載されている。

特開２００９－１４００５６号公報

Patrick Pantel, Marco Pennacchiotti, "Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relation", Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 113-120, July 2006. Michihiro Kuramochi, George Karypis, "Frequent Subgraph Discovery", IEEE, 2001

　単語間関係情報には、その単語間関係情報を利用しようとする者の所望のナレッジが含まれているとは限らない。そのため、新たなノードやリンクを単語間関係情報に追加することによって、単語間関係情報が示すナレッジを拡充することが好ましい。

　本発明の発明者は、単語間関係情報が示すナレッジを拡充する方法として、以下に示す一般的な技術を想定した。

　この一般的な技術では、文章で記載された文書と、単語間関係情報とが与えられる。与えられた単語間関係情報が示すナレッジを「既知のナレッジ」と記す。ここでは、図３５に示す文書が与えられた場合を例にして説明する。また、図３６に示す単語間関係情報が与えられた場合を例にして説明する。

　この一般的な技術では、まず、与えられた文書から、既知のナレッジを含むセンテンスを抽出する。本例では、図３５に示す文書から、第１センテンスおよび第２センテンスを抽出する。すなわち、図３７に示す２つのセンテンスを抽出する。

　さらに、抽出された各センテンスから、共通の文字パターンを抽出する。このとき、文字パターンにおいて、既知のナレッジが示す単語は符号に置き換える。ここでは、抽出されたセンテンスに含まれる単語（既知のナレッジが示す単語）が、下位階層の単語であれば、その単語を符号“ＸＸＸ”に置き換えるものとする。同様に、抽出されたセンテンスに含まれる単語（既知のナレッジが示す単語）が、上位階層の単語であれば、その単語を符号“ＹＹＹ”に置き換えるものとする。

　本例では、図３７に示す各センテンスから共通の文字パターンとして、“ＸＸＸ　ｉｓ　ａ　ＹＹＹ．”という文字パターンを抽出する。この文字パターンは、与えられた文書（図３５参照）から新たなナレッジを抽出するためのルールである。

　次に、上記のルールを、与えられた文書（図３５参照）に適用して、新たなナレッジを表すセンテンスを抽出する。すなわち、上記のルールに合致するセンテンスを、与えられた文書から抽出する。このとき、既知のナレッジを含むセンテンスは、抽出しなくてよい。本例では、ルールに従って、図３８に示す２つのセンテンスが抽出される。なお、本例では、“a ”と“an”を同一の文字と見なしている。

　次に、ルールに基づいて抽出されたセンテンスが示すナレッジを、与えられた単語間関係情報に追加する。この結果、図３９に示す単語間関係情報が得られる。図３９では、追加されたノードおよびリンクを破線で示している。この結果、単語間関係情報が示すナレッジが拡充される。

　しかし、文書は、例えば、箇条書き、見出し、表等の文書構造を持ち得る。上記の一般的な技術では、文章で記載された文書から既知のナレッジを含むセンテンスを抽出する。そのため、文書構造を有しているが、センテンスとして記述されていない文書からは、既知のナレッジを含むセンテンスを適切に抽出することができない。例えば、図４０に例示する箇条書きの文書が与えられたとする。図４０に示す２行目以外はセンテンスになっていない。図４０に示す２行目以降において、１つの単語を１つのセンテンスと見なすと、図４０に示す文書は、図４１のように表される。しかし、１つの単語を１つのセンテンスと見なしたとしても、既知のナレッジを含むセンテンスを抽出することはできない。そのため、箇条書きのような文書構造を有する文書が与えられた場合には、単語間関係情報が示すナレッジを拡充することはできない。

　本来、文書構造を有する文書は、例えば、上位階層と下位階層の関係等を表しているので、新たなナレッジを得るために利用できることが好ましい。しかし、上記の一般的な技術では、文書構造を有する文書に基づいて単語間関係情報を拡充することはできない。

　そこで、本発明は、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができるナレッジ拡充システム、ナレッジ拡充方法およびナレッジ拡充プログラムを提供することを目的とする。

　本発明によるナレッジ拡充システムは、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出手段と、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成手段と、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加するナレッジ追加手段とを備えることを特徴とする。

　また、本発明によるナレッジ拡充方法は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出し、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成し、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加することを特徴とする。

　また、本発明によるナレッジ拡充プログラムは、コンピュータに、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出処理、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成処理、および、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加するナレッジ追加処理を実行させることを特徴とする。

　本発明によれば、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができる。

本発明の第１の実施形態のナレッジ拡充システムの構成例を示すブロック図である。文書構造グラフの例を示す模式図である。図２に示す文書構造グラフに対応する文書を示す模式図である。単語間関係情報の例を示す模式図である。文書構造グラフから抽出される部分グラフの例を示す模式図である。文書構造グラフに包含されているグラフの一例を示す模式図である。図６に示すグラフから抽出される部分グラフの例を示す模式図である。文書構造グラフに包含されているグラフの一例を示す模式図である。図８に示すグラフに対応する、文書内の表を示す模式図である。図８に示すグラフから抽出される部分グラフの例を示す模式図である。ルールの例を示す模式図である。ルールの例を示す模式図である。ルールに従って抽出される部分グラフの例を示す模式図である。図１３に示す１番目の部分グラフから得られる新たなナレッジを示す模式図である。図１３に示す２番目の部分グラフから得られる新たなナレッジを示す模式図である。図１３に示す３番目の部分グラフから得られる新たなナレッジを示す模式図である。新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。本発明の第１の実施形態のナレッジ拡充システムの処理経過の例を示すフローチャートである。本発明の第１の実施形態のナレッジ拡充システムの処理経過の例を示すフローチャートである。不自然なナレッジが得られる場合の例を示す模式図である。不自然なナレッジが得られる場合の例を示す模式図である。本発明の第２の実施形態のナレッジ拡充システムの構成例を示すブロック図である。変換前の文書構造グラフの例を示す模式図である。図２３に示す文書構造グラフに対応する文書を示す模式図である。変換後の文書構造グラフの例を示す模式図である。図２５に示すグラフから抽出される部分グラフの例を示す模式図である。ルールの例を示す模式図である。ルールに従って抽出される部分グラフの例を示す模式図である。図２８に示す部分グラフから得られる新たなナレッジを示す模式図である。新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。新たなナレッジを追加した後の単語間関係情報の例を示す模式図である。本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。本発明のナレッジ拡充システムの概要を示すブロック図である。単語間関係情報の例を示す模式図である。一般的な技術において、与えられる文書の例を示す模式図である。一般的な技術において、与えられる単語間関係情報の例を示す模式図である。一般的な技術において、文書から抽出されたセンテンスの例を示す模式図である。一般的な技術において、ルールに基づいて抽出されたセンテンスの例を示す模式図である。一般的な技術において、新たなナレッジが追加された単語間関係情報の例を示す模式図である。箇条書きの文書の例を示す模式図である。箇条書きにおける１つの単語を１つのセンテンスと見なした場合の例を示す模式図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明の第１の実施形態のナレッジ拡充システムの構成例を示すブロック図である。第１の実施形態のナレッジ拡充システム１は、文書構造グラフ記憶部２と、単語間関係情報記憶部３と、データ読み込み部４と、部分グラフ抽出部５と、部分グラフ記憶部６と、部分グラフカウント部７と、ルール作成部８と、ルール記憶部９と、ナレッジ追加部１０とを備える。

　文書構造グラフ記憶部２は、文書構造グラフを記憶する記憶装置である。文書構造グラフは、文書構造を示すグラフである。図２は、文書構造グラフの例を示す模式図である。図２に例示する文書構造グラフとして表される文書は、通常の文書として人間に閲覧される場合には、図３に例示する文書として閲覧される。すなわち、図２に示す文書構造グラフは、図３に示す文書の文書構造を示している。

　文書構造グラフは、複数のノードを含んでいる。図２において四角形で示した部分がそれぞれノードに該当する。個々のノードは、少なくとも、ノードの種類を示すノード種類情報を含んでいる。各実施形態では、ノード種類情報はタグで表されるものとして説明する。図２に示す“<Document>”は、文書を意味する。“<Paragraph> ”は、段落を意味する。“<UL>”は、順序付けされていないリスト（Unordered List）を意味する。“<Item>”は、語句を意味する。なお、ノード種類情報は、図２に示す各タグに限定されない。文書構造に応じたタグが、文書構造グラフ内のノードで用いられてよい。

　また、個々のノードが、ノード種類情報に加えて、さらに、テキストを含む場合もある。図２に示す例では、ノード種類情報として<Item>タグを有するノード、および、ノード種類情報として<Paragraph> タグを有するノードがテキストを含んでいる。

　また、関連するノードは、リンクによって接続される（図２参照）。

　文書構造グラフ記憶部２には、予め、ナレッジ拡充システム１の管理者（以下、単に管理者と記す。）によって、文書構造グラフが記憶される。

　また、文書構造グラフの一部分に該当するグラフを部分グラフと記す。

　単語間関係情報記憶部３は、単語間関係情報を記憶する記憶装置である。既に説明したように、単語間関係情報は、単語をノードとし、単語と単語との関係をナレッジとして示す情報であり、グラフとして表される。単語間関係情報に含まれているノードは単語を表す。また、関係を有する単語同士はリンクで接続され、そのリンクには、その関係の種別が付与される。また、リンクにおいて、上位階層側にはアローヘッドが付加され、下位階層側にはアローヘッドは付加されない。単語間関係情報記憶部３には、予め、管理者によって単語間関係情報が記憶される。単語間関係情報記憶部３が記憶する単語間関係情報は、一般に公開されている単語間関係情報であっても、あるいは、管理者が作成した単語間関係情報であってもよい。

　ここでは、説明を簡単にするため、図４に例示する単語間関係情報が単語間関係情報記憶部３に記憶されている場合を例にして説明する。

　データ読み込み部４は、文書構造グラフ記憶部２から文書構造グラフを読み込み、単語間関係情報記憶部３から単語間関係情報を読み込む。

　部分グラフ抽出部５は、単語間関係情報から、関係を有する２つの単語の組をそれぞれ抽出する。例えば、部分グラフ抽出部５は、図４に示す単語間関係情報から、is-a関係を有する２つの単語“Oyamada ”および“Researcher”の組と、is-a関係を有する２つの単語“Hanafusa”および“Researcher”の組をそれぞれ抽出する。

　さらに、部分グラフ抽出部５は、関係を有する２つの単語のうちの一方をテキストに含むノードと、その２つの単語のうちのもう一方をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。

　例えば、is-a関係を有する２つの単語“Oyamada ”および“Researcher”の組に着目した場合、部分グラフ抽出部５は、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。同様に、is-a関係を有する２つの単語“Hanafusa”および“Researcher”の組に着目した場合、部分グラフ抽出部５は、“Hanafusa”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する。図５は、このようにして得られた部分グラフを示す模式図である。

　部分グラフ抽出部５が抽出する部分グラフは、図５に例示する構造に限定されない。

　例えば、文書構造グラフが、図６に示すグラフを包含しているとする。なお、図６に示す“<Header1>”は、大見出しを意味し、“<Header2>”は、小見出しを意味する。また、“Title”は、タイトルを意味する。図６において、“・・・”は、具体的なテキストの図示を省略していることを表している。文書構造グラフが、図６に示すグラフを包含している場合、部分グラフ抽出部５は、さらに、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフとして、図７に例示する部分グラフも抽出する。

　また、例えば、文書構造グラフが、図８に示すグラフを包含しているとする。なお、図８に示すグラフは、図９に示す表に対応する。文書構造グラフが図８に示すグラフを包含しているということは、文書が図９に示す表を包含しているということを意味する。また、図８に示す“<Table> ”は、表の名を意味し、“<Column> ”は、表内の列名を意味する。また、“<Cell>”は、表内のセルを意味する。この場合、部分グラフ抽出部５は、“Oyamada ”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、図８に示すグラフからも抽出する。また、部分グラフ抽出部５は、“Hanafusa”をテキストに含むノードと、“Researcher”をテキストに含むノードとを両端とする最小の部分グラフを、図８に示すグラフからも抽出する。この結果、図１０に示す部分グラフが得られる。

　図５に示す部分グラフ、図７に示す部分グラフ、および、図１０に示す部分グラフは、それぞれ、部分グラフの構造が異なる。ただし、いずれの構造においても、それぞれの部分グラフは、両端のノードの一方に、関係を有する２つの単語の一方を含むテキストを有し、両端のノードのもう一方に、関係を有する２つの単語のもう一方を含むテキストを有している。

　以下の説明では、部分グラフ抽出部５が、図５に示す部分グラフ、図７に示す部分グラフ、および、図１０に示す部分グラフをそれぞれ抽出した場合を例にして説明する。部分グラフ抽出部５は、文書構造グラフから抽出した部分グラフを部分グラフ記憶部６に記憶させる。部分グラフ記憶部６は、部分グラフ抽出部５が文書構造グラフから抽出した部分グラフを記憶する記憶装置である。

　部分グラフカウント部７は、部分グラフ記憶部６からそれぞれの部分グラフを読み込む。そして、部分グラフカウント部７は、部分グラフの構造毎に、部分グラフの数をカウントする。

　例えば、図５に示す部分グラフは、<Item>タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<UL>タグを有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Item>タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部７は、部分グラフ記憶部６から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。

　また、例えば、図７に示す部分グラフは、<Header1> タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<Header2> タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部７は、部分グラフ記憶部６から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。

　また、例えば、図１０に示す部分グラフは、<Table> タグと、単語間関係情報における上位階層の単語を含むテキストとを有するノードが、所定の向きのリンクによって、<Column>タグおよびテキスト“Name”を有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Cell>タグと、単語間関係情報における下位階層の単語を含むテキストとを有するノードに接続されるという構造になっている。部分グラフカウント部７は、部分グラフ記憶部６から読み込んだ部分グラフのうち、この構造の部分グラフの数をカウントする。

　このように、部分グラフカウント部７は、部分グラフ抽出部５が抽出した部分グラフの数を、部分グラフの構造毎にカウントする。

　そして、部分グラフカウント部７は、カウント結果が閾値以上となっている部分グラフの構造を選択する。閾値は、予め定数として定めておけばよい。本例では、部分グラフカウント部７は、図５に示す構造、および、図１０に示す構造を選択した場合を例にして説明する。

　ルール作成部８は、部分グラフと同じ構造の部分グラフを、文書構造グラフから抽出するためのルールを作成する。本実施形態では、ルール作成部８は、部分グラフカウント部７によって選択された構造毎に、その構造に該当する部分グラフに基づいて、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。

　本例では、部分グラフの構造として、図５に示す構造、および、図１０に示す構造が、部分グラフカウント部７によって選択されている。

　この場合、ルール作成部８は、図５に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。このとき、ルール作成部８は、図５に示す構造に該当する部分グラフを１つ取り出す。どの部分グラフを取り出しても、次に説明する置き換え処理の結果は、同じになる。従って、ルール作成部８は、図５に示す構造に該当する部分グラフの中から任意に１つの部分グラフを取り出せばよい。ルール作成部８は、その部分グラフにおいて、単語間関係情報における下位階層の単語を含むテキストを、第１の所定の符号（本例では、“ＸＸＸ”とする。）に置き換える。また、ルール作成部８は、その部分グラフにおいて、単語間関係情報における上位階層の単語を含むテキストを、所定の符号（本例では、“ＹＹＹ”とする。）に置き換える。この置き換え処理の結果が、図５に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールとなる。本例では、ルール作成部８は、上記の置き換え処理によって、図１１に示すルールを作成する。

　同様に、ルール作成部８は、図１０に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。このとき、ルール作成部８は、図１０に示す構造に該当する部分グラフを１つ取り出す。どの部分グラフを取り出しても、上述のような置き換え処理の結果は、同じになる。従って、ルール作成部８は、図１０に示す構造に該当する部分グラフの中から任意に１つの部分グラフを取り出せばよい。ルール作成部８は、その部分グラフにおいて、単語間関係情報における下位階層の単語を含むテキストを、第１の所定の符号（本例では、“ＸＸＸ”とする。）に置き換える。また、ルール作成部８は、その部分グラフにおいて、単語間関係情報における上位階層の単語を含むテキストを、所定の符号（本例では、“ＹＹＹ”とする。）に置き換える。この置き換え処理の結果が、図１０に示す構造と同じ構造の部分グラフを文書構造グラフから抽出するためのルールとなる。本例では、ルール作成部８は、上記の置き換え処理によって、図１２に示すルールを作成する。

　ルール作成部８は、作成した各ルールをルール記憶部９に記憶させる。ルール記憶部９は、ルール作成部８によって作成されたルールを記憶する記憶装置である。

　ナレッジ追加部１０は、ルール作成部８によって作成された各ルールを、ルール記憶部９から読み込む。そして、ナレッジ追加部１０は、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する。このとき、ナレッジ追加部１０は、ルール内の“ＸＸＸ”，“ＹＹＹ”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。この点は、どのルールを用いる場合においても、同様である。ただし、部分グラフ抽出部５が単語間関係情報に基づいて抽出した部分グラフは、ルールに合致していても、抽出しなくてよい。

　ここでは、図１１に示すルールを例にして説明する。図１１に示すルールは、「<Item>タグと任意のテキストとを有するノードが、所定の向きのリンクによって、<UL>タグを有するノードに接続され、さらに、そのノードが、所定の向きのリンクによって、<Item>タグと任意のテキストとを有するノードに接続されている」という条件を満たす部分グラフを抽出することを表している。ナレッジ追加部１０は、図１１に示すルールに従って、上記の条件を満たす部分グラフを抽出する。ただし、前述のように、部分グラフ抽出部５が単語間関係情報に基づいて抽出した部分グラフに関しては、抽出の対象外としてよい。

　図１１に示すルールに従って、ナレッジ追加部１０は、図２に例示する文書構造グラフから、図１３に示す３つの部分グラフを得ることができる。

　ナレッジ追加部１０は、他のルールに関しても、ルールに従って、文書構造グラフから部分グラフを抽出する。

　さらに、ナレッジ追加部１０は、ルールに従って抽出した部分グラフから、新たなナレッジを抽出する。ナレッジ追加部１０は、抽出した部分グラフにおいて、ＹＹＹに該当するテキストと、ＸＸＸに該当するテキストとが関係を有するというナレッジを抽出する。本例では、is-a関係を示すナレッジに基づいて部分グラフ抽出部５が部分グラフを抽出し、その部分グラフに基づいて作成されたルールに従って、ナレッジ追加部１０が部分グラフを抽出している。従って、ナレッジ追加部１０は、抽出した部分グラフにおいて、ＹＹＹに該当するテキストと、ＸＸＸに該当するテキストとがis-a関係を有し、ＹＹＹに相当するテキストが上位階層に該当し、ＸＸＸに該当するテキストが下位階層に該当するというナレッジを抽出する。なお、ＸＸＸに該当するテキストやＹＹＹに該当するテキストは、ルールに従って抽出した部分グラフにおける両端のノードに含まれている。

　例えば、ナレッジ追加部１０は、図１３に示す１番目の部分グラフから、“Researcher”と“Takeoka”とがis-a関係を有し、“Researcher”が上位階層に該当し、“Takeoka”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図１４に示すように表すことができる。

　また、例えば、ナレッジ追加部１０は、図１３に示す２番目の部分グラフから、“Engineer”と“Fukata”とがis-a関係を有し、“Engineer”が上位階層に該当し、“Fukata”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図１５に示すように表すことができる。

　また、例えば、ナレッジ追加部１０は、図１３に示す３番目の部分グラフから、“Engineer”と“Koiwa ”とがis-a関係を有し、“Engineer”が上位階層に該当し、“Koiwa ”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図１６に示すように表すことができる。

　ナレッジ追加部１０は、このようにして部分グラフから抽出した新たなナレッジを、単語間関係情報記憶部３に記憶されている単語間関係情報に追加する。図４に示す単語間関係情報に新たなナレッジを追加した後の単語間関係情報を、図１７に示す。図１７では、追加されたナレッジに該当するノードおよびリンクを、便宜的に破線で示している。

　データ読み込み部４、部分グラフ抽出部５、部分グラフカウント部７、ルール作成部８およびナレッジ追加部１０は、例えば、ナレッジ拡充プログラムに従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array ））によって実現される。この場合、ＣＰＵが、プログラム記憶装置等のプログラム記録媒体からナレッジ拡充プログラムを読み込み、そのナレッジ拡充プログラムに従って、データ読み込み部４、部分グラフ抽出部５、部分グラフカウント部７、ルール作成部８およびナレッジ追加部１０として動作すればよい。

　次に、第１の実施形態の処理経過について説明する。図１８および図１９は、本発明の第１の実施形態のナレッジ拡充システム１の処理経過の例を示すフローチャートである。以下の説明では、既に説明した事項については、適宜、説明を省略する。

　なお、予め、管理者によって、文書構造グラフが文書構造グラフ記憶部２に記憶され、単語間関係情報が単語間関係情報記憶部３に記憶されているものとする。

　まず、データ読み込み部４が、文書構造グラフ記憶部２から文書構造グラフを読み込み、単語間関係情報記憶部３から単語間関係情報を読み込む（ステップＳ１）。

　次に、部分グラフ抽出部５が、その単語間関係情報から、関係を有する２つの単語の組をそれぞれ抽出する（ステップＳ２）。

　さらに、部分グラフ抽出部５が、関係を有する２つの単語のうちの一方をテキストに含むノードと、その２つの単語のうちのもう一方をテキストに含むノードとを両端とする最小の部分グラフを、文書構造グラフから抽出する（ステップＳ３）。部分グラフ抽出部５は、抽出すべき部分グラフが複数存在する場合には、その複数の部分グラフを全て文書構造グラフから抽出する。また、部分グラフ抽出部５は、ステップＳ３の処理を、ステップＳ２で抽出された単語の組毎に実行する。また、部分グラフ抽出部５は、ステップＳ３で得た各部分グラフを、部分グラフ記憶部６に記憶させる。

　次に、部分グラフカウント部７が、部分グラフ記憶部６からそれぞれの部分グラフを読み込み、部分グラフの構造毎に、部分グラフの数をカウントする（ステップＳ４）。

　さらに、部分グラフカウント部７が、ステップＳ４におけるカウント結果が閾値以上となっている部分グラフの構造を選択する（ステップＳ５）。

　次に、ルール作成部８が、ステップＳ５で選択された構造毎に、その構造に該当する部分グラフに基づいて、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する（ステップＳ６）。ルール作成部８は、作成した各ルールを、ルール記憶部９に記憶させる。

　次に、ナレッジ追加部１０が、各ルールをルール記憶部９から読み込み、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する（ステップＳ７）。

　そして、ナレッジ追加部１０が、ステップＳ７で抽出した部分グラフから新たなナレッジを抽出し、そのナレッジを、単語間関係情報記憶部３に記憶されている単語間関係情報に追加する（ステップＳ８）。

　本実施形態によれば、部分グラフ抽出部５が、与えられた単語間関係情報が示すナレッジに基づいて、文書構造グラフから部分グラフを抽出する。そして、ルール作成部８が、部分グラフと同じ構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。さらに、ナレッジ追加部１０が、そのルールに従って文書構造グラフから新たな部分グラフを抽出し、その部分グラフによって得られるナレッジを、与えられた単語間関係情報に追加する。従って、ナレッジ拡充システム１は、与えられた単語間関係情報に含まれるナレッジを拡充することができる。

　また、単語間関係情報に基づいて部分グラフ抽出部５によって抽出された部分グラフであっても、抽出された同一構造の部分グラフの数が少ない場合には、その部分グラフは、２つの単語の関係とは関連していない可能性がある。すなわち、抽出された同一構造の部分グラフの数が少ない場合には、その部分グラフは、単に、２つの単語をテキストとして含んでいるだけであって、２つの単語の関係を表しているわけではない可能性があると考えられる。このような部分グラフに基づいて、ルール作成部８がルールを作成したとしても、適切なナレッジを導出するためのルールが得られるとは限らない。上記の実施形態では、部分グラフカウント部７は、部分グラフ記憶部６に記憶された部分グラフの数（換言すれば、部分グラフ抽出部５によって抽出された部分グラフの数）を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する。そして、ルール作成部８は、選択された構造毎に、その構造の部分グラフを文書構造グラフから抽出するためのルールを作成する。従って、適切なナレッジを導出するためのルールを得ることができる。

実施形態２．
　第１の実施形態では、ナレッジ追加部１０は、ルール内の“ＸＸＸ”，“ＹＹＹ”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。そして、ナレッジ追加部１０は、抽出した部分グラフにおいて、ＹＹＹに該当するテキストと、ＸＸＸに該当するテキストとが関係を有するというナレッジを抽出する。このとき、ＹＹＹに該当するテキストや、ＸＸＸに該当するテキストが、例えば、センテンス等である場合がある。そのような場合、例えば、ＹＹＹに該当するテキストと、ＸＸＸに該当するテキストとがis-a関係を有するというナレッジが不自然になる場合がある。図２０および図２１は、不自然なナレッジが得られる場合の例を示す模式図である。

　図２０（ａ）に示す文書構造グラフが与えられたとする。この文書構造グラフは、“The researchers of this project are as follows. ”というセンテンスを含むノードを有する。また、図４に示す単語間関係情報が与えられたとする。この場合、部分グラフ抽出部５は、図２０（ｂ）に示す部分グラフを抽出する。そして、ルール作成部８が、その部分グラフに基づいて作成するルールは、図２１（ａ）に示すルールとなる。ナレッジ追加部１０がこのルールに従って文書構造グラフ（図２０（ａ）参照）から抽出する部分グラフは、図２１（ｂ）に示す部分グラフとなる。図２１（ｂ）に示す部分グラフからは、図２１（ｃ）に示すナレッジが得られる。しかし。図２１（ｃ）では、“Takeoka ”という単語と、“The researchers of this project are as follows. ”というセンテンスとをそれぞれノードとし、２つのノードの間にis-a関係があることを示している。is-a関係を有する２つのノードにおいて、センテンスが含まれることは不自然である。

　本発明の第２の実施形態のナレッジ拡充システムは、上記のような不自然なナレッジを得ることを防止する。

　図２２は、本発明の第２の実施形態のナレッジ拡充システムの構成例を示すブロック図である。図１に示す要素と同様の要素には、図１と同一の符号を付し、適宜、説明を省略する。第２の実施形態のナレッジ拡充システム１は、文書構造グラフ記憶部２、単語間関係情報記憶部３、データ読み込み部４、部分グラフ抽出部５、部分グラフ記憶部６、部分グラフカウント部７、ルール作成部８、ルール記憶部９およびナレッジ追加部１０に加え、さらに、前処理実行部１１を備える。

　前処理実行部１１は、部分グラフ抽出部５が文書構造グラフから部分グラフを抽出する前に、与えられた文書構造グラフを変換する前処理を行う。

　具体的には、前処理実行部１１は、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分ける。そして、前処理実行部１１は、ノードを分けたことによって得られる複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。前処理実行部１１は、分けられたノードがテキストを有する場合に、そのテキストが単語となるように、ノードを複数のノードに分ける。

　係り受け関係を有していないテキストを含むノードや、テキストを含まないノードに関しては、前処理実行部１１は、複数のノードに分ける処理を実行しない。

　前処理実行部１１が文書構造グラフを変換する例を、具体的に示す。図２３は、与えられた文書構造グラフ（すなわち、前処理実行部１１による変換前の文書構造グラフ）の例を示す模式図である。図２３に示す文書構造グラフは、図２４に示す文書に対応している。すなわち、図２３に示す文書構造グラフは、図２４に示す文書の文書構造を示している。

　図２３に示すノードのうち、<Document>タグを含むノード、および、<UL>タグを含むノードは、テキストを含んでいない。また、<Item>タグを含む各ノードは、いずれも、単語をテキストとして有していて、テキストは、係り受け関係を有していない。従って、前処理実行部１１は、これらのノードに関しては、複数のノードに分ける処理を実行しない。

　一方、図２３に示すノードのうち、<Paragraph> タグを含むノード３１は、“The researchers of this project are as follows. ”というテキストを有する。このテキストは、係り受け関係を有している。従って、前処理実行部１１は、ノード３１を複数のノードに分ける。

　図２５は、ノード３１を複数のノードに分けた後の文書構造グラフの例を示す模式図である。図２５において、破線で囲んだ複数のノードが、ノード３１（図２３参照）から分けられた複数のノードである。前処理実行部１１は、ノード３１のテキストに対して、係り受け解析を行い、そのテキストを個々の単語に分け、個々の単語を含むノードを生成し、また、単語を含むノードを繋げるための、テキストを含まないノードも生成し、ノード同士を繋げるリンクを生成する。そして、前処理実行部１１は、生成した各ノードに対して、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。１つのノードから分けられた複数のノードの中には、ノード種類情報を有しているが、テキストを有していないノードが存在していてもよい。既に説明したように、ノード種類情報はタグで表されるものとして説明する。

　ノード３１から分けられた複数のノードに付与されるノード種類情報の例について、図２５を参照して説明する。

　<Root>タグは、ノード３１から分けられた複数のノードのルートであることを意味する。<S> タグは、主語を意味する。<NP>タグは、名詞句を意味する。<DT>タグは、限定詞を意味する。<NN>タグは、名詞を意味する。<PP>タグは、助詞句を意味する。<IN>タグは、前置詞を意味する。<VP>タグは、動詞句を意味する。<VBP> タグは、動詞を意味する。<ADJP>タグは、形容詞句を意味する。<RB>タグは、副詞を意味する。<JJ>タグは、形容詞を意味する。なお、１つのノードから分けられた複数のノードに付与されるノード種類情報は、図２５に示す例に限定されない。

　前処理実行部１１が、前述の前処理を行うことによって、係り受け関係を有するテキストを有するノードは、存在しなくなる（例えば、図２５を参照）。

　前処理実行部１１が文書構造グラフに対して前処理を行った後の、部分グラフ抽出部５、部分グラフカウント部７、ルール作成部８およびナレッジ追加部１０の動作は、第１の実施形態におけるそれらの動作と同様である。

　データ読み込み部４、部分グラフ抽出部５、部分グラフカウント部７、ルール作成部８およびナレッジ追加部１０と同様に、前処理実行部１１は、例えば、ナレッジ拡充プログラムに従って動作するコンピュータのＣＰＵによって実現される。

　以下、文書構造グラフが図２５に示すように変換された場合における、部分グラフ等について具体的に示す。なお、以下に示す例では、データ読み込み部４が単語間関係情報記憶部３から読み込んだ単語間関係情報は、図４に示す単語間関係情報であったものとする。部分グラフ抽出部５は、図４に示す単語間関係情報に基づいて、前処理後の文書構造グラフ（図２５参照）から、部分グラフを抽出する。この部分グラフは、図２６に示す部分グラフとなる。

　また、部分グラフカウント部７が、図２６に示す部分グラフの構造を選択したとする。この場合、ルール作成部８は、図２７に示すルールを作成する。すると、ナレッジ追加部１０は、そのルールに従って、図２５に示す文書構造グラフから、図２８に示す３つの部分グラフを抽出する。さらに、ナレッジ追加部１０は、その３つの部分グラフから、図２９に示す新たなナレッジを抽出する。なお、このとき、ナレッジ追加部１０は、部分グラフ内で、ＹＹＹに該当するテキストやＸＸＸに該当するテキストが複数形である場合には、単数形に補正してよい。本例では、図２９に示すナレッジを抽出する際に、ナレッジ追加部１０は、図２８に示す“researchers ”を単数形の“researcher”に補正しているものとする。

　ナレッジ追加部１０は、図２９に示す新たなナレッジを、与えられた単語間関係情報（図４参照）に追加する。この結果、図３０に示す単語間関係情報が得られる。

　第２の実施形態によれば、第１の実施形態と同様の効果が得られる。さらに、第２の実施形態では、前処理実行部１１が、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分ける。また、前処理実行部１１は、ノードを分けたことによって得られる複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する。従って、文書構造グラフから、係り受け関係を有するテキストを含むノードが無くなる。よって、第２の実施形態によれば、新たなナレッジとして、図２１（ｃ）に例示するような不自然なナレッジが導出されることを防止することができる。第２の実施形態によれば、新たなナレッジとして、図２９に例示するような適切なナレッジを得ることができる。

実施形態３．
　本発明の第３の実施形態のナレッジ拡充システムは、図２１（ｃ）に例示するような不自然なナレッジを得ることを防止する。この点は、第２の実施形態と同様である。

　本発明の第３の実施形態のナレッジ拡充システムは、第１の実施形態のナレッジ拡充システムと同様に、図１に示すブロック図で表すことができるので、図１を用いて第３の実施形態を説明する。

　第３の実施形態における文書構造グラフ記憶部２、単語間関係情報記憶部３、データ読み込み部４、部分グラフ抽出部５、部分グラフ記憶部６、部分グラフカウント部７、ルール作成部８およびルール記憶部９は、第１の実施形態におけるそれらの各要素と同様である。

　第３の実施形態におけるナレッジ追加部１０は、ルール毎に、ルールに従って、文書構造グラフから部分グラフを抽出する。このとき、ナレッジ追加部１０は、ルール内の“ＸＸＸ”，“ＹＹＹ”に相当する箇所が任意のテキストであるものとして、ルールに合致する部分グラフを、文書構造グラフから抽出する。この点も、第１の実施形態と同様である。なお、ＸＸＸに該当するテキストやＹＹＹに該当するテキストは、ルールに従って抽出した部分グラフにおける両端のノードに含まれている。

　従って、第３の実施形態では、ナレッジ追加部１０がルールに従って抽出した部分グラフにおいて、ＸＸＸに該当するテキストやＹＹＹに該当するテキストが、係り受け関係を有している場合がある。例えば、ナレッジ追加部１０がルールに従って抽出した部分グラフが、図２１（ｂ）に例示する部分グラフである場合がある。

　ナレッジ追加部１０は、ルールに従って抽出した部分グラフにおけるＸＸＸに該当するテキストおよびＹＹＹに該当するテキストから名詞を抽出する。このとき、ＸＸＸに該当するテキストおよびＹＹＹに該当するテキストが助詞句を含んでいる場合、ナレッジ追加部１０は、テキストの中から助詞句に含まれていない名詞を抽出する。そして、ナレッジ追加部１０は、ＹＹＹに該当するテキストから抽出した名詞と、ＸＸＸに該当するテキストとが関係を有するというナレッジを新たなナレッジとして抽出し、その新たなナレッジを単語間関係情報に追加する。例えば、与えられた単語間関係情報が単語同士のis-a関係を示している場合には、ナレッジ追加部１０は、ＹＹＹに該当するテキストから抽出した名詞と、ＸＸＸに該当するテキストから抽出した名詞とがis-a関係を有するというナレッジを新たなナレッジとして抽出すればよい。このとき、ナレッジ追加部１０は、ＹＹＹに該当するテキストから抽出した名詞がis-a関係における上位階層に該当し、ＸＸＸに該当するテキストから抽出した名詞がis-a関係における下位階層に該当すると判定する。

　以下、図２１（ｂ）を参照して、より具体的に説明する。なお、与えられた単語間関係情報は、図４に示す単語間関係情報であるものとする。ナレッジ追加部１０は、ルールに従って、図２１（ｂ）に例示する部分グラフを抽出したとする。この場合、ルールにおけるＸＸＸに該当するテキストは、“Takeoka ”であり、ＹＹＹに該当するテキストは、“The researchers of this project are as follows. ”というセンテンスである。ナレッジ追加部１０は、ＸＸＸに該当するテキスト“Takeoka ”から、“Takeoka ”という名詞を抽出する。ナレッジ追加部１０は、ＹＹＹに該当するテキスト“The researchers of this project are as follows. ”からも名詞を抽出する。“The researchers of this project are as follows. ”というセンテンスには、２つの名詞（“researchers ”，“project ”）が存在する。しかし、“project ”は、“of this project ”という助詞句に含まれる名詞である。そのため、ナレッジ追加部１０は、助詞句に含まれていない名詞“researchers ”を抽出する。ナレッジ追加部１０は、抽出した名詞が複数形である場合には、単数形に補正してよい。本例では、ナレッジ追加部１０は、“researchers ”を抽出し、単数形の“researcher”に補正するものとする。

　この場合、ナレッジ追加部１０は、ＹＹＹに該当するテキストから抽出した名詞“researcher”と、ＸＸＸに該当するテキストから抽出した名詞“Takeoka ”とがis-a関係を有し、ＹＹＹに該当するテキストから抽出した名詞“researcher”が上位階層に該当し、ＸＸＸに該当するテキストから抽出した名詞“Takeoka ”が下位階層に該当するという、新たなナレッジを抽出する。このナレッジは、図１４のように表すことができる。ナレッジ追加部１０は、この新たなナレッジを、与えられた単語間関係情報（図４参照）に追加する。この結果、単語間関係情報は、図３１に示すようになる。

　第３の実施形態によれば、第１の実施形態と同様の効果が得られる。さらに、第３の実施形態では、ナレッジ追加部１０が、ルールに従って抽出した部分グラフから、ＸＸＸに該当するテキストおよびＹＹＹに該当するテキストから名詞を抽出する。そして、ナレッジ追加部１０は、その名詞同士が関係を有するという新たなナレッジを得る。従って、新たなナレッジとして、図２１（ｃ）に例示するような不自然なナレッジが導出されることを防止することができる。

　図３２は、本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４とを備える。

　本発明の各実施形態のナレッジ拡充システム１は、コンピュータ１０００に実装される。ナレッジ拡充システム１の動作は、ナレッジ拡充プログラムの形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、そのナレッジ拡充プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、そのナレッジ拡充プログラムに従って、上記の各実施形態で説明した処理を実行する。

　補助記憶装置１００３は、一時的でない有形の媒体の例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００がそのプログラムを主記憶装置１００２に展開し、上記の処理を実行してもよい。

　また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。

　また、各構成要素の一部または全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

　各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本発明の概要について説明する。図３３は、本発明のナレッジ拡充システムの概要を示すブロック図である。本発明のナレッジ拡充システムは、部分グラフ抽出手段７１と、ルール作成手段７２と、ナレッジ追加手段７３とを備える。

　部分グラフ抽出手段７１（例えば、部分グラフ抽出部５）は、単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、文書構造グラフの一部である部分グラフを抽出する。

　ルール作成手段７２（例えば、ルール作成部８）は、文書構造グラフから、部分グラフと同じ構造の部分グラフを抽出するためのルールを作成する。

　ナレッジ追加手段７３（例えば、ナレッジ追加部１０）は、ルールに従って、文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を単語間関係情報に追加する。

　そのような構成により、文書構造を示す文書構造グラフと、単語間関係情報とに基づいて、その単語間関係情報に含まれるナレッジを拡充することができる。

　また、部分グラフ抽出手段７１によって抽出された部分グラフの数を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する部分グラフカウント手段（例えば、部分グラフカウント部７）を備え、ルール作成手段７２が、選択された構造の部分グラフに基づいて、文書構造グラフからその構造の部分グラフを抽出するためのルールを作成する構成であってもよい。

　また、文書構造グラフが、ノードの種類を示すノード種類情報を有するノードを含み、与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、そのテキストに対して係り受け解析を行うことによって、そのノードを複数のノードに分けるとともに、その複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られたテキストの要素の種類を示す情報を付与する前処理を実行する前処理実行手段（例えば、前処理実行部１１）を備え、部分グラフ抽出手段７１が、前処理後の文書構造グラフから、単語間関係情報に基づいて、関係を有する２つの単語のうちの一方をテキストに含む文書構造グラフ内のノードと、２つの単語のうちのもう一方をテキストに含む文書構造グラフ内のノードとを両端とする部分グラフを抽出する構成であってもよい。

　また、部分グラフ抽出手段７１が、ノードの種類を示すノード種類情報を有するノードを含む文書構造グラフから、単語間関係情報に基づいて、関係を有する２つの単語のうちの一方をテキストに含む文書構造グラフ内のノードと、２つの単語のうちのもう一方をテキストに含む文書構造グラフ内のノードとを両端とする部分グラフを抽出し、ナレッジ追加手段７３が、ルールに従って文書構造グラフから抽出した部分グラフの両端のノードに含まれるテキスト内の名詞を抽出し、両端のノードから得られた名詞同士が関係を有するという情報を単語間関係情報に追加する構成であってもよい。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

　本発明は、単語間関係情報に含まれるナレッジを拡充するナレッジ拡充システムに好適に適用可能である。

　１　ナレッジ拡充システム
　２　文書構造グラフ記憶部
　３　単語間関係情報記憶部
　４　データ読み込み部
　５　部分グラフ抽出部
　６　部分グラフ記憶部
　７　部分グラフカウント部
　８　ルール作成部
　９　ルール記憶部
　１０　ナレッジ追加部
　１１　前処理実行部

Claims

　単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出手段と、
　前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成手段と、
　前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加するナレッジ追加手段とを備える
　ことを特徴とするナレッジ拡充システム。
　部分グラフ抽出手段によって抽出された部分グラフの数を、部分グラフの構造毎にカウントし、カウント結果が閾値以上となっている部分グラフの構造を選択する部分グラフカウント手段を備え、
　ルール作成手段は、
　選択された構造の部分グラフに基づいて、文書構造グラフから前記構造の部分グラフを抽出するためのルールを作成する
　請求項１に記載のナレッジ拡充システム。
　文書構造グラフは、ノードの種類を示すノード種類情報を有するノードを含み、
　与えられた文書構造グラフ内のノードが、係り受け関係を有するテキストを含んでいる場合に、前記テキストに対して係り受け解析を行うことによって、前記ノードを複数のノードに分けるとともに、前記複数のノードに対してそれぞれ、ノード種類情報として、係り受け解析によって得られた前記テキストの要素の種類を示す情報を付与する前処理を実行する前処理実行手段を備え、
　部分グラフ抽出手段は、前記前処理後の文書構造グラフから、単語間関係情報に基づいて、関係を有する２つの単語のうちの一方をテキストに含む前記文書構造グラフ内のノードと、前記２つの単語のうちのもう一方をテキストに含む前記文書構造グラフ内のノードとを両端とする部分グラフを抽出する
　請求項１または請求項２に記載のナレッジ拡充システム。
　部分グラフ抽出手段は、ノードの種類を示すノード種類情報を有するノードを含む文書構造グラフから、単語間関係情報に基づいて、関係を有する２つの単語のうちの一方をテキストに含む前記文書構造グラフ内のノードと、前記２つの単語のうちのもう一方をテキストに含む前記文書構造グラフ内のノードとを両端とする部分グラフを抽出し、
　ナレッジ追加手段は、ルールに従って文書構造グラフから抽出した部分グラフの両端のノードに含まれるテキスト内の名詞を抽出し、前記両端のノードから得られた名詞同士が関係を有するという情報を単語間関係情報に追加する
　請求項１または請求項２に記載のナレッジ拡充システム。
　単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出し、
　前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成し、
　前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加する
　ことを特徴とするナレッジ拡充方法。
　コンピュータに、
　単語と単語との関係を示す単語間関係情報に基づいて、文書構造を示す文書構造グラフから、前記文書構造グラフの一部である部分グラフを抽出する部分グラフ抽出処理、
　前記文書構造グラフから、前記部分グラフと同じ構造の部分グラフを抽出するためのルールを作成するルール作成処理、および、
　前記ルールに従って、前記文書構造グラフから部分グラフを抽出し、当該部分グラフが示す情報を前記単語間関係情報に追加するナレッジ追加処理
　を実行させるためのナレッジ拡充プログラム。