WO2010150910A1

WO2010150910A1 - 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体

Info

Publication number: WO2010150910A1
Application number: PCT/JP2010/060987
Authority: WO
Inventors: 廣美平野
Original assignee: 楽天株式会社
Priority date: 2009-06-26
Filing date: 2010-06-28
Publication date: 2010-12-29
Also published as: CN102460437B; EP2450805A4; US8296319B2; EP2450805A1; CN102460437A; US20120096028A1; JP4768882B2; JPWO2010150910A1

Abstract

　ユーザからの質問に対して、的確に検索結果を回答する情報検索装置等を提供する。　本発明は、収集した文書の文に関する文情報を記憶し、ユーザからのユーザ質問文の情報を端末２から受信し、ユーザ質問文を文節に分解し（Ｓ１０）、ユーザ質問文の文節のうち、アーク文節が共通する文書を抽出し、その文書と質問文を比較して質問文に不足するリーフ文節の検索を行い（Ｓ１２～Ｓ１６）、検索結果を端末２に送信する（Ｓ１９）。

Description

情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体

　本発明は、端末から情報を受信して情報検索を行い、端末に検索結果を送信する情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体の技術分野に関する。

　インターネットの普及と共に、インターネット上の情報が爆発的に増加したため、ユーザは検索エンジンを利用してインターネット上に存在する情報の中からユーザが欲しい情報の検索を行っている。この場合、ユーザは欲しい情報に関連したキーワードを検索エンジンに対して入力して検索を行う。しかし、キーワードの選定の仕方により、検索結果が大きく異なり、欲しい情報に直ちにたどり着けないのが現状であり、ユーザは、欲しい情報に効率よくたどり着けるように、どのようなキーワードにするかが負担になっていた。

　そのため、利用者がキーワードを意識することなく文章を入力するだけで、検索できる検索方法が研究されている。例えば、特許文献１には、入力された文章を形態素解析して文節を判定すると共に文節毎に係り受けを解析し、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成し、入力された文章に複合語を関連付けて文章データベースに記録し、新たに任意の原文が入力された場合に複合語を作成し、原文に対して得られた複合語をキーとして、文章データベースからキーとなる複合語を含む文章を検索する類似文章検索プログラムが開示されている。

特開２００８－２１０２０６号公報

　しかしながら、上記従来技術では、入力した文章に対して類似の文章を回答するが、そのためには回答に近い文章を明確に意識して入力する必要がある。欲しい情報の対象が明確でなく、ユーザに疑問点がある場合、例えば、疑問詞を含むような質問文に対しては、的確な回答を得ることができなかった。
　また、上記従来技術では、仮に回答を得られたとしても、網羅的に検索結果を返すため、ノイズが多くなる。

　本発明の目的は、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。

　本発明の他の目的は、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベースを用意し、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。

　本発明のさらに他の目的は、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答することができる情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体を提供することである。

　上記課題を解決するために、請求項１に記載の発明は、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第１文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第２文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段と、を備えたことを特徴とする。

　請求項２に記載の発明は、前記第１文書係受解析手段が、収集した前記文書の文節間の係り受け関係にアークを付与し、前記第１文書係受解析手段が、さらに、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、前記文書構造記憶手段が、変換後の文節およびアークを記憶することを特徴とする。

　請求項３に記載の発明は、前記文書抽出手段が、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含み、前記ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出することを特徴とする。

　請求項４に記載の発明は、検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、前記送信手段が、前記対ユーザ質問文を前記端末に送信することを特徴とする。

　請求項５に記載の発明は、検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、前記送信手段が、検索した文節に代えて、前記対ユーザ質問文を前記端末に送信することを特徴とする。

　請求項６に記載の発明は、前記質問文作成手段は、検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することを特徴とする。

　請求項７に記載の発明は、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第１文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第２文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、前記文書抽出手段が抽出した文書を前記端末に送信する送信手段とを備えたことを特徴とする。

　請求項８に記載の発明は、文書を収集する文書収集ステップと、収集した前記文書の文を文節に分解する第１文書文節分解ステップと、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析ステップと、前記文書、当該文書の文節および文節種別を文書構造記憶手段に記憶する記憶ステップと、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信ステップと、前記ユーザ質問文を文節に分解する第２文書文節分解ステップと、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析ステップと、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出ステップと、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索ステップと、前記検索手段が検索した文節を前記端末に送信する送信ステップを備えたことを特徴とする。

　請求項９に記載の発明は、コンピュータを、文書を収集する文書収集手段と、
　収集した前記文書の文を文節に分解する第１文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第２文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段として機能させることを特徴とする。

　請求項１０に記載の発明は、コンピュータを、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第１文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第２文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信する送信手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

　本発明によれば、文書を収集する文書収集手段と、収集した前記文書の文を文節に分解する第１文書文節分解手段と、前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、前記ユーザ質問文を文節に分解する第２文書文節分解手段と、前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、前記検索手段が検索した文節を前記端末に送信するので、ユーザからの質問の質問部分に対して、的確に検索結果を回答文として回答することができる。

　また、本発明によれば、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベースを用意しているので、体言止のような主格がルート文節であるような文書であっても、主格につながるリーフ文節を検索用ルート文節に変換して文書をデータベース化するため、ユーザからの質問に対して、より的確に検索結果を回答することができる。

　さらに、本発明によれば、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答するので、検索結果からノイズを除去し、ユーザからの質問に対して、より的確に検索結果を回答することができる。

本発明に係る実施形態に係る情報検索システムの概要構成例を示すブロック図である。図１の知識データベースに記憶される文のデータ構造の一例を示す模式図である。図１の知識データベースに記憶される文のデータ構造の一例を示す模式図である。図２のデータ構造を実現する形態の一例を示す模式図である。図３のデータ構造を実現する形態の一例を示す模式図である。図１の問合せ応答サーバが作成する質問文のデータ構造の一例を示す模式図である。図６のデータ構造を実現する形態の一例を示す模式図である。図１の知識入力管理サーバにおいて、文書の文をデータ構造に変換する動作例を示すフローチャートである。図１の知識入力管理サーバにおけるデータ構造の標準化の一例を示す模式図である。図９のデータ構造の標準化を実現する形態の一例を示す模式図である。図１の情報検索システムにおけてユーザからの問い合わせに対して回答する動作例を示すフローチャートである。図１の知識データベースに記憶されているデータ構造の一例を示す模式図である。図１の問合せ応答サーバにおける質問入力フォームの一例を示す模式図である。

　以下、図面を参照して本発明を実施するための形態について説明する。

　まず、本発明の実施形態に係る情報検索システムの概要構成および機能について、図に基づき説明する。

　図１は、本発明に係る実施形態に係る情報検索システムの概要構成例を示すブロック図である。

　図１に示すように、情報検索システム１は、インターネット上等の文書の入力を受信し、収集した文書の文を、ユーザからの質問に回答するための知識情報として表した知識表現単位に変換する知識入力管理サーバ１０と、この知識表現単位を、収集した文書の文に関する文情報として記憶する知識データベース用サーバ１５と、ユーザからの質問を受け付け、知識データベース用サーバ１５に記憶されている知識表現単位に基づき、ユーザに回答をする問合せ応答サーバ２０と、を備える。収集した文書自体はシステム１内に保存されても、システム１内に保存されなくてもよい。なお、知識表現単位は、文書から取り出した文を、ユーザからの質問に対して検索して回答するために構造化したデータであり、一例として、文の文節間の係り受け関係に基づいたツリー構造データであり、詳しくは後述する。

　図１に示すように、情報検索システム１の知識入力管理サーバ１０は、ネットワーク３を介して、ウェブサーバ５や、ローカルエリアネットワーク上のテキストデータ・データベース６に接続されていて、情報検索システム１の問合せ応答サーバ２０は、ネットワーク３を介してユーザのパーソナルコンピュータのような端末２等に接続されている。このテキストデータ・データベース６は、インターネット上のブログやクチコミ等の収集した文書をテキストデータとして保存しておく。

　そして、知識データベース用サーバ１５は、図１に示すように、知識入力管理サーバ１０と、問合せ応答サーバ２０とにローカルエリアネットワーク等により接続されている。

　次に、図１に示すように、知識入力管理サーバ１０は、収集した文書の文を分析したり、知識表現単位に文書の文を構造化したりする制御部１１と、制御部１１の実行プログラムや計算結果等を記憶する記憶部１２と、を備える。

　制御部１１は、ＣＰＵ（Central Processing Unit）等を有し、ウェブサーバ５に掲載された文書やテキストデータ・データベース６に記憶されている文書を収集する文書収集手段や、この収集した文書の文を文節に分解する文書文節分解手段や、これら文節間の係り受け関係を解析する文書係受解析手段や、この係り受け関係に基づき、知識表現単位のような構造に、文書の文を構造化する文書構造化手段として機能する。また、制御部１１は、構造化された文を知識表現単位として知識データベース用サーバ１５に送信する。

　記憶部１２は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）やハードディスクドライブ等を有し、文書文節分解手段や文書係受解析手段や文書構造化手段等の実行プログラムを記憶している。ハードディスクドライブや不揮発性のＲＡＭやＲＯＭは、例えば、形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。揮発性のＲＡＭは、一時的に形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。

　次に、図１に示すように、知識データベース用サーバ１５は、問合せ応答サーバ２０からの検索要求に応じて検索を行う等する制御部１６と、知識入力管理サーバ１０から送信された知識表現単位等を記憶する知識データベース１７と、を備える。

　制御部１６は、ＣＰＵやＲＡＭ等を有し、構造化された文を知識表現単位として知識データベース１７に記憶させるデータベース記憶手段や、知識データベース１７から文情報の一例である知識表現単位により検索を行う検索手段等として機能する。

　知識データベース１７は、ハードディスクドライブ等を有し、収集した文書の文に関する知識表現単位やユーザの知識表現単位へのアクセス情報等のユーザ履歴を記憶する。さらに、ユーザのプロファイルや購入履歴といったユーザ履歴も記憶する。なお、知識表現単位へのアクセス情報以外のユーザ履歴は、別のサーバのデータベースでもよい。このように知識データベース１７は、収集した文書の文に関する文情報を記憶する記憶手段等として機能する。

　また、知識入力管理サーバ１０と知識データベース用サーバ１５とにより、データベースの作成装置として機能し、知識データベース用サーバ１５と問合せ応答サーバ２０とにより、情報検索装置として機能する。

　次に、図１に示すように、問合せ応答サーバ２０は、ユーザからのユーザ質問文の情報を端末２から受信したり、ユーザ質問に対する回答結果をユーザに送信したりする制御部２１と、制御部２１の実行プログラムや計算結果等を記憶する記憶部２２と、を備える。ここでユーザ質問文の一例として、”彼はどこで本を買ったのか？”というような、疑問詞を含む文が挙げられる。

　制御部２１は、ＣＰＵ等を有し、ユーザからのユーザ質問文の情報を端末から受信する受信手段や、ユーザ質問文を文節に分解する文節分解手段や、検索結果として検索された前記文情報に基づいた回答文を前記端末に送信する送信手段等として機能する。記憶部２２は、ＲＡＭやＲＯＭやハードディスクドライブ等を有し、文節分解手段等の実行プログラムを記憶している。ハードディスクドライブや不揮発性のＲＡＭやＲＯＭは、例えば、形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。揮発性のＲＡＭは、一時的に形態素解析を行うプログラムや係り受け解析を行うプログラムを記憶している。

　次に、知識データベース１７に記憶される文のデータ構造（知識表現単位）について図２および図３に基づき説明する。

　図２および図３は、知識データベース１７に記憶される文のデータ構造の一例を示す模式図である。

　図２に示すように、例えば形態素解析を用いて、通常の文が文節に分解される。ここで、言語形態学によれば、世界の言語は、日本語のような膠着語、中国語のような孤立語、ヨーロッパの言語のような屈折語に分類される。膠着語の場合、文節は例えば助詞を伴って分解される。孤立語の場合、それぞれの品詞が文節として分解される。屈折語の場合、文節は例えば格変化を伴った品詞に分解される。

　その後、知識表現単位３０は、係り受け解析を用いて、それぞれの文節がツリー構造のルートに該当するルート文節３０ｒと、ツリー構造のリーフやツリー構造の内部ノードに該当するリーフ文節３０ｌとしてそれぞれの文節種別に定義付けられる。

　本発明において、文節種別のうちルート文節とは、収集した文書の形態素解析および係り受け解析の結果、その文のツリー構造において係り先のない文節である。また、本発明において、文節種別のうちリーフ文節とは、ルート文節以外の文節を意味する。さらに、本発明において、アークとは、リーフ文節間と、リーフ文節とルート文節間の係り受け関係を表す概念である。アーク３０ａは、１つの文節から他の文節に対して方向性を持って付与される。
　“彼はネットショップの店舗Ａで本を買う。”という通常の文の場合、ルート文節３０ｒは、動詞Ｖ（買う）であり、リーフ文節３０ｌは、主格Ｓ（彼）、対格Ａｃ（本）、および、地格Ｌ（店舗Ａ）である。このように通常の文の場合、知識表現単位３０において、リーフ文節３０ｌからルート文節３０ｒに向ってアークが付与され、動詞Ｖがツリー構造のルート文節となる。

　次に、文が体言止である場合、図３に示すように、知識表現単位３１において、体言の名詞Ｎが、ルート文節３１ｒになる。“店舗Ａで売られている赤いワイン。”という体言止の文の場合、ルート文節３１ｒは、名詞Ｎ（ワイン）、であり、リーフ文節３１ｌは、地格Ｌ（店舗Ａ）と形容詞Ａｄｊ（赤）と、内部ノードである動詞Ｖ（売られている）である。アーク３１ａは、リーフ文節３１ｌからリーフ文節３１ｌに向って、および、リーフ文節３１ｌからルート文節３１ｒに向って付与される。

　なお、このような日本語の文に限定されず、日本語以外の言語でも、文の特徴に応じてルート文節を設定する。
　例えば、氏名を名乗る文書の場合、各言語では次のように表現される。（１）日本語：“私はＸＸＸです。”；（２）中国語： “我姓ＸＸＸ”；（３）英語：“Ｉ　ａｍ　ＸＸＸ．”　リーフ文節は、主格Ｓ（私・我・Ｉ）、対格Ａｃ（ＸＸＸ）であり、ルート文節は、動詞Ｖ（です・姓・ａｍ）である。係り受け関係は、（１）日本語：リーフ文節（私）→リーフ文節（ＸＸＸ）→ルート文節（です）；（２）中国語：リーフ文節（我）→リーフ文節（ＸＸＸ）→ルート文節（姓）；（３）英語：リーフ文節Ｉ→リーフ文節（ＸＸＸ）→ルート文節（ａｍ）；となる。

　このように、知識表現単位は、一文を文の係り受け構造による構造化したデータであり、係り先のない文節をルート文節にした、すなわち、動詞による統合した構造や、体言止の名詞をルート文節にした名詞による統合した構造が挙げられ、係り受けが集中した文節をルート文節としたツリー構造のデータである。また、知識表現単位は、文節の集合体でもある。

　次に、これらツリー構造の知識表現単位３０、３１を、知識データベース１７の記憶媒体上に展開した場合の一形態としてテーブル形式で示した知識表現単位の構成を説明する。
　図４および図５は、データ構造を実現する形態の一例を示す模式図である。

　図４に示すように、テーブル形式の知識表現単位４０は、知識表現単位４０を特定するために割り振られた番号欄４０ａと、文節毎に品詞や格等を示すタイプ項目４０ｂと、文が分解された文節の語句を示す語句欄４０ｃと、係り受けやルートを示すアーク欄４０ｄと、ツリー構造のルートにおけるアークの数を示すアーク数欄４０ｅと、知識表現単位４０の作成時を示す作成時欄４０ｆと、知識表現単位４０への最終アクセス時を示すアクセス欄４０ｇと、を有する。ここで、文節のタイプの情報の例として、主格、目的格等といった格や、動詞、名詞、形容詞等といった品詞や、動詞および形容詞の活用形の情報が挙げられる。

　ツリー構造をビジュアルに示した知識表現単位３０に対応して、テーブル形式の知識表現単位４０には、動詞Ｖ、主格Ｓ、対格Ａｃ、与格Ｄ、地格Ｌ等のタイプ項目４０ｂに対応した語句欄４０ｃに、“買う”、“彼は”、“本を”、“無し”、“店舗Ａ”が入る。さらに、アーク欄４０ｄには、ルートを示す“ｒ”や係り受け先のタイプを示す“Ｖ”等が記憶される。また、検索において候補を絞りやすいように、アーク数欄４０ｅには、アークの本数が記憶され、知識表現単位４０が管理しやすいように、作成時欄４０ｆやアクセス欄４０ｇに時間が記憶される。

　図５に示すように、知識表現単位３１のように体言止の文の場合、テーブル形式の知識表現単位４１のようになる。構成は、知識表現単位４０と同じであるが、名詞Ｎや形容詞Ａｄｊのタイプ項目４１ｂに対応した語句欄４１ｃにも語句が記憶されている。

　次に、問合せ応答サーバ２０において作成されるユーザ質問文のデータ構造について図に基づき説明する。図６は、問合せ応答サーバが作成するユーザ質問文のデータ構造の一例を示す模式図である。

　”彼はどこで本を買ったのか？”というユーザからのユーザ質問文が文節に分解され、係り受け関係をツリー構造で表現した知識表現単位５０は、ツリー構造のルートに該当するルート文節５０ｒと、ツリー構造のリーフに該当するリーフ文節５０ｌと、ツリー構造のアークに該当し、係り受け関係を表すアーク５０ａと、を有する。さらに、ルート文節５０ｒやリーフ文節５０ｌは、疑問詞等の質問部分に該当する質問文節５０ｗと、質問以外に関する非質問文節５０ｕに分類される。また、非質問文節５０ｕのうち、他の文節から係り受けされるルート文節５０ｒや一部のリーフ文節が被係受文節となる。ここで、質問文節の情報や非質問文節の情報といった文節の情報の例として、文節のタイプの情報の他に、他の文節から係り受けされたり、係り受けしていたりという係り受けの情報や、アーク数等の係り受けの数の情報や、文字列の情報や、文節のツリー構造におけるルートやリーフであるといった情報や、文節間の構造の特徴の情報等が挙げられる。

　“彼はどこで本を買うか？”というユーザ質問文の場合、ルート文節５０ｒは、動詞Ｖ（買う）であり、リーフ文節５０ｌは、主格Ｓ（彼）、対格Ａｃ（本）、および、地格Ｌ（　）である。また、ユーザ質問文の文節に不足する文節の一例である質問文節５０ｗは、地格Ｌ（　）であり、地格Ｌ（　）のように空の文節や、地格Ｌ（どこで）のように疑問詞や、地格Ｌ（Ｘ）のように未知変数等で表現してもよい。また、非質問文節５０ｕは、主格Ｓ（彼）および対格Ａｃ（本）である。このように、ユーザ質問文もツリー構造にして、知識データベース１７のデータ構造と同じような構造にする。

　次に、ユーザ質問文のツリー構造の知識表現単位５０を、テーブル形式で示した知識表現単位の構成を説明する。図７は、データ構造を実現する形態の一例を示す模式図である。

　図７に示すように、テーブル形式の知識表現単位６０は、品詞や格等を示すタイプ項目６０ｂと、文が分解された文節を示す語句欄６０ｃと、係り受けやルートを示すアーク欄６０ｄと、ツリー構造のルートにおけるアークの数を示すアーク数欄６０ｅと、知識表現単位４０の作成時を示す作成時欄６０ｆと、を有する。

　また、アーク欄６０ｄが“ｒ”となる動詞Ｖの語句欄６０ｃには、ルート文節６０ｒの語句として、“買う”が入る。地格Ｌの語句欄６０ｃには、質問文節６０ｗの語句“どこで”等の疑問詞が入る。なお、質問文節６０ｗが入る語句欄６０ｃに入る語句は、ユーザ質問文が分解された文節のうち、質問文節と特定できる記号ならばよく、“Ｘ”のように未知変数等で表現してもよい。

　次に、情報検索システム１の動作として、収集した文書の文を知識表現単位に変換する動作と、ユーザからの問い合わせに応じて、検索をして質問に対する回答をする動作とについて図に基づき説明する。

　まず、収集した文書の文を知識表現単位に変換する動作について説明する。図８は、知識入力管理サーバ１０において、ウェブサーバ５等から収集した文書の文をデータ構造に変換する動作例を示すフローチャートである。

　まず、知識入力管理サーバ１０の制御部１１は、図１に示したように、ウェブサーバ５やテキストデータ・データベース６等から、知識データベース１７を作成するための文書を収集する。このように、制御部１１は、文書を収集する文書収集手段として機能する。

　次に、図８に示すように、知識入力管理サーバ１０の制御部１１は、収集した文書から知識表現単位に変換する一文を抽出する（ステップＳ１）。具体的には、制御部１１は、文書の先頭の文から順に一文ずつ文を抽出していく。

　次に、制御部１１は、抽出した一文の形態素解析を行う（ステップＳ２）。具体的には、制御部１１は、形態素解析のプログラムを用い、抽出した一文を文節に分解し、各文節の品詞や格等のタイプを求める。なお、形態素解析として、一般的な形態素解析のプログラムを用いればよい。このように、制御部１１は、収集した文書の文を文節に分解する第１文書文節分解手段として機能する。

　文節に分解にした後、制御部１１は、係り受け解析を行う（ステップＳ３）。具体的には、制御部１１は、係り受け解析のプログラムを用い、文節間の修飾関係を示す係り受けを求める。係り受け解析として、一般的な係り受け解析のプログラムを用いればよい。このように、制御部１１は、文書の文の文節間の係り受け関係を解析する文書係受解析手段として機能する。

　なお、各言語において、各言語構造の特徴や各言語の辞書を利用して、文節に分解したり、品詞等のタイプに分けたり、係り受けを解析したりする。例えば、日本語等の膠着語の場合、接尾辞、接頭辞を利用したり、孤立語の場合、語順等の情報を利用したりする。

　係り受けの解析が終わったら、制御部１１は、文の係り受け関係をツリー構造の知識表現単位にする（ステップＳ４）。具体的には、係り受けの情報に基づき制御部１１は、通常の文の場合、図２に示したように、文の係り受け関係を、動詞の文節をルートとしたツリー構造にし、体言止の文の場合、図３に示したように、体言止に対応する名詞をルートとしたツリー構造にする。日本語の場合、終止符や文の終わりにある文節をルート文節にする。中国語や英語等の場合、さらに単語の配置や品詞情報等に基づきルート文節を特定する。このように、制御部１１は、係り受け関係に基づき、文書の文を構造化する文書構造化手段として機能する。

　図４や図５に示したようにテーブル形式の知識表現単位の場合、制御部１１は、ステップＳ２で文節に分解され品詞や格等のタイプが特定された文の文節を、該当する語句欄４０ｃ、４１ｃに入れる。日本語の場合、図中括弧書きの助詞や助動詞を取り除いてもよい。次にステップＳ３で係り受けの解析に基づき、制御部１１は、アーク欄４０ｄ、４１ｄに、ルート文節の情報や係り受け先の情報を入れる。さらに、制御部１１は、ルート文節に係り受けしている文節の数をカウントし、アーク数欄４０ｅにアーク数を入れ、知識表現単位４０、４１が作成された日時の情報を入れる。以上のように、制御部１１は、文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段として機能する。

　次に、制御部１１は、知識表現単位を標準化する（ステップＳ５）。この標準化は、文の表層表現の差を吸収するために行われる。例えば、“店舗Ａで本を買うのは彼です。”と、“彼は店舗Ａで本を買う。”という文は、実質的に内容は同じである。しかし、図９（Ａ）に示すように、“店舗Ａで本を買うのは彼です。”の知識表現単位３２は、ルート文節３２ｒに対して、当該ルート文節３２ｒにつながるリーフ文節３２ｌが接続し、このリーフ文節３２ｌにリーフ文節３２ｌが２個接続しているツリー構造であり、図２に示した知識表現単位３０と大きく異なる。そこで、具体的な処理として、図９（Ｂ）に示すように、制御部１１は、まず、知識表現単位３２におけるルート文節３２ｒとリーフ文節３２ｌとのアーク３２ａの向きを逆にして、アーク３３ａとして、リーフ文節３２ｌを検索用ルート文節３３ｒとする。また、ルート文節３２ｒを検索用リーフ文節３３ｌとする。さらに、制御部１１は、リーフ文節３２ｌの“Ｖ’（買うのは）”を、ルート文節３３ｒの“Ｖ（買う）”にするというように、文節のタイプを操作する。そして、図９（Ｃ）に示すように、制御部１１は、検索用リーフ文節３３ｌのタイプ（Ｂｅ）をタイプ（Ｓ）に操作する。このように、制御部１１は、係り受けするアークが多いノードにアークの向きを揃え、文節のタイプを操作する処理をすることにより、知識表現単位の標準化を図っている。

　ここで、本発明において、検索用リーフ文節とは、ルート文節を起源とする文節であって、文節のタイプを操作する処理を行った後、リーフ文節として保存されている文節を意味する。また、本発明において、検索用ルート文節とは、リーフ文節を起源とする文節であって、文節のタイプを操作する処理を行った後、ルート文節として保存されている文節を意味する。

　この一連の処理をテーブル形式の知識表現単位で説明したのが、図１０である。図１０（Ａ）に示すように、知識表現単位３２をテーブル形式にしたものが、知識表現単位４２である。制御部１１は、ルート文節に係り受けするアーク数より、当該ルート文節につながるリーフ文節に係り受けする文節に係るアーク数が多い場合、このリーフ文節を検索用ルート文節に変換する。例えば、図１０（Ａ）および（Ｂ）に示すように、制御部１１は、語句欄４２ｃにおいて、Ｖ’：“買う（のは）”をタイプ操作して移動して、Ｖ：“買う”にし、アーク欄４２ｄにおいて、タイプＶを“ｒ”にし、タイプＡｃとタイプＬの“Ｖ’”を“Ｖ”にする。そして、制御部１１は、語句欄４２ｃにおいて、Ｂｅ：“彼（です）”をタイプ操作して移動して、Ｓ：“彼（は）”にし、アーク欄４２ｄにおいて、タイプＳ：“Ｖ”にする。この一連の処理により、知識表現単位４２は、知識表現単位３４をテーブル形式で示した知識表現単位４４となる。

　このように、制御部１１は、標準化の機能として、構造化された文書の文における係り受け関係の向きを逆転させる係受関係逆転手段や、係り受け関係が逆転した文節の文節タイプを操作する文節タイプ操作手段として機能する。また、制御部１１は、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換する第１文書係受解析手段として機能する。

　標準化が必要な知識表現単位を標準化した後、制御部１１は、知識表現単位に作成時等を記入する（ステップＳ６）。具体的には、図４等に示すように、制御部１１は、作成時欄４０ｆに、知識表現単位の作成日時を記入する。文を知識表現単位にしたならば、制御部１１は、知識表現単位を知識データベース用サーバ１５に送信する。例えば、制御部１１は、文書の文節およびアークの情報や、標準化された変換後の文書の文節およびアークの情報を知識データベース用サーバ１５に送信する。

　知識表現単位を受信したら、知識データベース用サーバ１５の制御部１６は、知識表現単位を知識データベース１７に記憶する（ステップＳ７）。このとき、重複する知識表現単位は、記憶しないようにしてもよい。重複しているか否かのマッチングの方法は、後述する検索と類似した方法でよい。

　このように、制御部１６は、構造化された文書の文の一例である知識表現単位をデータベースに記憶するデータベース記憶手段、および、文情報として、文書の文における文節間の係り受け関係に基づいた文情報の一例である知識表現単位を記憶しておく記憶手段として機能する。また、制御部１６は、文書、当該文書の文節および文節種別を記憶する文書構造記憶手段や、変換後の文節およびアークを記憶する文書構造記憶手段として機能する。

　次に、ユーザからの問い合わせに応じて、検索をして質問に対する回答をする動作について説明する。これは、文書のリーフ文節のうち、ユーザからのユーザ質問文の文節に不足する文節の検索を行う動作の一例である。

　図１１は、情報検索システム１におけてユーザからの問い合わせに対して情報検索を行い回答する動作例を示すフローチャートである。図１２は、知識データベース１７に記憶されている知識表現単位の一例を示す模式図である。

　まず、制御部２１は、ユーザの端末２からユーザからのユーザ質問文を受け付ける。例えば、“彼は本をどこで買ったか？”というようなユーザ質問文である。このように制御部２１は、ユーザからのユーザ質問文の情報を端末から受信する受信手段として機能する。

　次に、ユーザ質問文を受信した問合せ応答サーバ２０の制御部２１は、ユーザ質問文を知識表現単位の形式に変換する（ステップＳ１０）。具体的には、制御部２１は、ユーザ質問文を形態素解析し文節に分解し、これら文節の品詞や格等のタイプを特定する。そして、制御部２１は、これら文節の係り受け解析を行い、ユーザ質問文を知識表現単位にする。例えば、制御部２１は、ユーザ質問文を図６に示したような知識表現単位５０や図７に示したようなテーブル形式の知識表現単位６０にする。このように、制御部２１は、ユーザ質問文を文節に分解する第２文節分解手段、および、ユーザ質問文の文節間の係り受け関係を解析する係受解析手段として機能する。制御部２１は、ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段として機能する。

　次に、制御部２１は、ユーザ質問文の知識表現単位５０、６０を、知識データベース用サーバ１５に検索要求として送信する（ステップＳ１１）。

　ユーザ質問文の知識表現単位５０、６０を受信した知識データベース用サーバ１５の制御部１６は、ユーザ質問文の知識表現単位５０、６０からルート文節５０ｒ、６０ｒを抽出する（ステップＳ１２）。このステップは、効率的に検索ができるように、係り受けが集中している文節を検索に利用するためであるが、知識表現単位は、ルート文節に係り受けがなるべく集中するように標準化されているので、制御部１６は、ルート文節５０ｒ、６０ｒを抽出するだけでよい。また、図７に示したテーブル形式の知識表現単位６０の場合、制御部１６は、アーク欄６０ｄが“ｒ”であるタイプと語句欄６０ｃの文字列と、知識データベース１７の知識表現単位５０、５１等のアーク欄５０ｄ、５１ｄがｒ”であるタイプと語句欄５０ｃ、５１ｃの文字列とを照合する。このように制御部２１は、ユーザ質問文の文節５０ｒ、５０ｌのうち、質問に関する質問文節５０ｗと質問以外に関する非質問文節５０ｕとに分類する文節分類手段として機能している。なお、文字列の照合は、類義語辞書等を用いて、意味内容が近い語句同士なら対応していると判断させてもよい。　　　

　次に、制御部１６は、ユーザ質問文のルート文節に対応するルート文節の知識表現単位を収集する（ステップＳ１３）。図１１のステップ１３では、「同じルート文節」を収集するが、検索用ルート文節を抽出することもあり、類義語辞書等を用いて意味内容が近いルート文節を抽出することもある。具体的には、図１２に示すように、制御部１６は、ユーザ質問文のルート文節５０ｒと同じタイプで、同文字列のルート文節３０ｒを有する知識表現単位３０（ａ）（ｂ）（ｃ）を収集する。このように制御部１６は、非質問文節５０ｕのうち、他の文節から係り受けされる被係受文節の一例であるルート文節５０ｒの情報に基づき、知識データベース１７から文情報の一例である知識表現単位３０、３１の検索を行う検索手段として機能する。また、制御部１６は、ユーザ質問文の被係受文節の一例である５０ｒと、文情報の被係受文節の一例である３０ｒとの照合により検索を行う検索手段として機能する。

　このように、制御部１６は、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含む文書抽出手段として機能する。

　次に、制御部１６は、ユーザ質問文のアーク数以上のアーク数を有する知識表現単位に絞り込む（ステップＳ１４）。具体的には、図１２に示すように、制御部１６は、知識表現単位３０（ａ）（ｂ）（ｃ）のうち、ユーザ質問文のアーク数“３”以上のアーク数を有する知識表現単位３０（ａ）（ｂ）に絞り込む。テーブル形式の知識表現単位の場合、制御部１６は、ユーザ質問文の知識表現単位６０のアーク数欄６０ｅの値と、知識表現単位５０、５１のアーク数欄５０ｅ、５１ｅの値との比較を行う。ここで、動詞がルート文節の場合、主格Ｓ、対格Ａｃ、地格Ｌと言った格数がアーク数となる。このように制御部１６は、ユーザ質問文の被係受文節に係り受けしている文節の数の一例であるユーザ質問文の格数に基づき検索を行う検索手段として機能する。

　このように、制御部１６は、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含み、ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する文書抽出手段として機能する。

　次に、制御部１６は、ユーザ質問文の非質問文節（ルート文節を除く）と同じ文字列の知識表現単位に絞り込む（ステップＳ１５）。具体的には、図１２に示すように、リーフ文節４０ｌのうち、非質問文節５０ｙの文字列と同じ文字列を有する知識表現単位３０（ａ）に絞り込む。テーブル形式の知識表現単位の場合、制御部１６は、タイプ項目６０ｂが“Ｓ”と“Ａｃ”のところの文字列と同じ文字列を有する知識表現単位に絞り込む。なお、文字列の照合や比較は、類義語辞書等を用いて、意味内容が近い語句同士なら同じ文字列としてもよい。

　次に、制御部１６は、質問文節のタイプに絞り込む（ステップＳ１６）。具体的には、制御部１６は、ステップＳ１５で絞られた知識表現単位の中に、質問文節のタイプである地格Ｌの文節が存在するかを検索して候補の知識表現単位をさらに絞る。テーブル形式の知識表現単位の場合、制御部１６は、質問文節６０ｗのタイプである地格Ｌの欄に、絞られた知識表現単位に語句があるか判定する。このように制御部１６は、質問文節のタイプの情報と非質問文節の情報とに基づき、記憶手段の中から、ユーザ質問文に対する回答の文情報の検索を行う検索手段として機能する。

　次に、制御部１６は、絞り込まれた知識表現単位の数が所定数よりも小さいか否かを判定する（ステップＳ１７）。具体的には、ユーザが許容可能な記憶のマジックナンバーである７±２個ぐらいまで回答の候補を絞り込めるように、所定数を設定する。

　知識表現単位の数が所定数よりも小さい場合（ステップＳ１７；ＹＥＳ）、制御部１６は、質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出す（ステップＳ１８）。具体的には、制御部１６は、質問文節のタイプに一致した知識表現単位中の回答文節から文字列を抜き出して、ユーザ質問文の質問文節の疑問詞と入れ替えたり、質問文節を回答文節に入れ替えたりして、ユーザ質問文を回答文に変換する。質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出すことにより、ユーザ質問文の文節に不足する文節の検索が行われる。このように、制御部１６は、検索された文情報から、質問文節のタイプと一致したタイプを有する文節を抽出して回答文節を得る回答文節取得手段として機能する。

　なお、制御部１６は、最終的に絞られた知識表現単位にアクセス時間を書き込む。例えば、制御部１６は、知識表現単位４０のアクセス欄４０ｇに日時の情報を書き込む。そして、制御部１６は、回答文節や、絞り込まれた知識表現単位やユーザ質問文から変換された回答文を検索結果として、問合せ応答サーバ２０に送信する。

　次に、制御部２１は、得られた検索結果を回答として端末２に送信する（ステップＳ１９）。具体的には、制御部２１は、検索された文情報に基づいた文の一例であるユーザ質問文から変換された回答文や、絞り込まれた知識表現単位に対応した文書の文を、端末２に送信する。なお、ユーザ質問文から変換された回答文でなく、絞り込まれた知識表現単位に対応した文書の文の場合、ステップＳ１４でアーク数が多い場合で絞っているので、ユーザ質問文に無かった格の文節が含まれることがある。このように、制御部２１は、検索された文情報に基づいた回答文を端末に送信する送信手段、回答文節に関する情報を送信する送信手段として機能する。また、制御部２１は、検索手段が検索した文節を端末２に送信する送信手段として機能する。また、制御部２１は、抽出手段が抽出した文書を前記端末に送信する送信手段として機能する。

　一方、知識表現単位の数が所定数以上の場合（ステップＳ１７；ＮＯ）、制御部１６は、絞込み質問を生成し、制御部２１は、知識データベース用サーバ１５から絞込み質問を受信し、質問者に送信する（ステップＳ２０）。例えば、ユーザ質問文が、“彼は何を買ったのですか？”という場合、非質問文節における文節数が、より少なくなっていて、知識データベース１７に、該当する知識表現単位が多く存在する可能性がある。この場合、制御部１６は、主格Ｓや対格Ａｃ以外のタイプ（ユーザ質問文にないタイプ）の文節の情報を取得できる。例えば、制御部１６は、地格Ｌの文節が多い場合、地格Ｌに基づき、質問文節“どこで”を生成させ、絞り込むための質問としては，“どこで買ったのですか？”という絞込み質問を生成する。なお、動詞“買う”は、ユーザの質問文を利用する。このように、制御部１６は、検索された文情報に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段として、制御部２１は、対ユーザ質問文を送信する送信手段として機能する。

　また、制御部１６は、知識表現単位の数が所定数以上の場合、検索した文節に代えて、対ユーザ質問文を前記端末に送信する。

　ここで、検索された知識表現単位の数（検索された文節集合体の数）が所定数以上であり、知識表現単位の数多くなり、文節の集合体である知識表現単位に含まれる文節の数も多くなる。検索された文節の数も多くなり、検索された文節の数が所定数以上となる。このように、制御部１６は、検索された文節の数が所定の所定数以上の場合に、対ユーザ質問文を作成する質問文作成手段として機能する。

　次に、問合せ応答サーバ２０の制御部２１は、ユーザから対ユーザ質問文に対する回答文を受信し、知識表現単位に変換し、知識データベース用サーバ１５に送信する。そして、知識データベース用サーバ１５の制御部１６は、受信した回答文の知識表現単位の各文節に基づき、絞り込まれている知識表現単位から該当する知識表現単位を選択する（ステップＳ２１）。具体的には、対ユーザ質問文“どこで買ったのですか？”に対する回答“店舗Ａで”を受信した場合、この回答の地格Ｌ文節の情報に基づき、知識表現単位を選択する。

　次に、制御部１６は、選択された知識表現単位の中から、元のユーザ質問文の質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出して、ユーザ質問文の質問文節の疑問詞と入れ替えたり、質問文節を回答文節に入れ替えたりして、ユーザ質問文を回答文に変換する。そしてこの回答文を、制御部１６は選択結果として、問合せ応答サーバ２０に送信する。

　制御部１６は、このように、抽出した文書を参照し、当該文書のリーフ文節のうち、知識表現単位５０のユーザ質問文の文節に不足する文節（５０ｗ）を補うため、元のユーザ質問文の質問文節のタイプに一致した知識表現単位中の文節を回答文節として取り出すように、文節を検索する。

　次に、制御部２１は、問合せ応答サーバ２０から受信した選択結果を回答としてユーザの端末２に送信する（ステップＳ２２）。

　このように本実施形態によれば、知識データベース用サーバ１５が、収集した文書の文に関する文情報の知識表現単位３０、３１を知識データベース１７に記憶し、問合せ応答サーバ２０が、ユーザからのユーザ質問文の情報を端末２から受信し、ユーザ質問文を文節に分解し、ユーザ質問文の文節のうち、質問に関する質問文節５０ｗと質問以外に関する非質問文節５０ｕとに分類し、知識データベース用サーバ１５が、質問文節５０ｗのタイプの情報と非質問文節５０ｕの情報とに基づき、知識データベース１７中から、ユーザ質問文に対応する知識表現単位３０、３１の検索を行い、問合せ応答サーバ２０が、検索結果を端末２に送信することにより、情報検索システム１として、ユーザ質問文や収集した文書の文の構造に基づいた検索を行っているので、ユーザからの質問の質問部分に対して、的確に検索結果を回答することができる。

　また、本実施形態によれば、文書を収集し、収集した文書の文を文節に分解し、文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節３０ｌ、３１ｌとルート文節３０ｒ、３０ｒに分類し、文節間の係り受け関係にアーク３０ａ等を付与し、文書、当該文書の文節および文節種別を記憶し、次に、ユーザの端末２に入力されたユーザ質問文の情報を端末２から受信し、ユーザ質問文を文節に分解し、ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節５０ｌとルート文節５０ｒに分類する文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出し、抽出した文書を参照し、当該文書のリーフ文節のうち、ユーザ質問文の文節に不足する文節の検索を行い、検索した文節を端末２に送信するので、ユーザからの質問の質問部分に対して、的確に検索結果を回答文として回答することができる。

　また、本実施形態によれば、形態素解析および係り受け解析に基いて文書構造を特定した後、当該文書構造を検索に適した構造に変換した好適なデータベース（知識データベース１７）を用意しているので、体言止のような主格がルート文節であるような文書であっても、主格につながるリーフ文節を検索用ルート文節に変換して文書をデータベース化するため、ユーザからの質問に対して、より的確に検索結果を回答することができる。

　さらに、本実施形態によれば、質問のアーク数と検索対象のアーク数に基いて、ユーザからの質問に対して、的確に検索結果を回答するので、検索結果からノイズを除去し、ユーザからの質問に対して、より的確に検索結果を回答することができる。

　また、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、前記文書構造記憶手段が、変換後の文節およびアークを知識データベース１７に記憶することにより、文章の表現が標準化され、文の表層表現の差を吸収するために、知識データベース１７のコンパクト化、検索の速度の向上を図ることができる。

　また、質問文の情報全体で一度にマッチングして検索するのではなく、非質問文節５０ｕという文の部分の情報でマッチングをまず図り、回答文の候補を的確に大まかに絞り、次に、質問文節５０ｗの格や品詞等のタイプの情報で絞るので、回答の取りこぼしが少なく、効率よく、的確に回答をユーザに与えることができる。以上の実施形態では、収集した文書に変更を加えることなく形態素解析および係り受け解析を行う例を記載したが、１つの文書が長文になる場合は適切な回答を行うためのデータベースを生成することができない可能性がある。そこで、他の実施形態として、文書を受信したときに、所定の文字数または所定のワード数を超える場合には、句読点や関係代名詞で文書を分割し、全体文書および分割文書をともに解析を行うようにすることが好ましい。

　また、情報検索システム１が、検索された文情報に基づいた回答文を端末２に送信する場合、ユーザに対して文章で回答するので違和感が少ない。知識表現単位という文の構造により、記憶や検索が行われているため、質問に対する回答の文章を作るのが容易である。また、的確に検索結果を回答文として回答することができる。

　また、情報検索システム１が、検索された文情報から、質問文節５０ｗのタイプと一致したタイプを有する文節を抽出して回答文節を得て、この回答文節に関する情報を端末２に送信する場合、ユーザにピンポイント的に、質問の核心の部分の回答を的確に提供できる。また、的確に質問の質問部分に対する回答を与えることができる。

　また、情報検索システム１が、ユーザ質問文の文節間の係り受け関係を解析し、非質問文節５０ｕのうち、ルート文節５０ｒ等の他の文節から係り受けされる被係受文節の情報に基づき、知識データベース１７から知識表現単位３０、３１の検索を行う場合、文節間の関係を考慮しているため、より的確に知識データベース１７からから回答を見つけ出すことができる。ルート文節５０ｒや一部のリーフ文節（標準化によりルート文節に変換される）は、他の文節から係り受けを受けていて、係り受けが集中している文節であり、文の構造の情報が集まっているため、被係受文節に基づくことにより、検索が効率的となる。

　また、知識データベース１７が、文情報として、文書の文における文節間の係り受け関係に基づいた文情報を記憶しておき、情報検索システム１が、ユーザ質問文の被係受文節と、文情報の被係受文節との照合により検索を行う場合、例えば、ルート文節５０ｒとルート文節３０ｒ、３１ｒとを照合により検索をまず行う場合、知識データベース１７の知識表現単位の中から、回答に該当する知識表現単位の一次候補を的確に集めやすい。また、文節間の係り受け関係という構造化された知識表現単位として取り扱うため、構造の知識を検索の仕方に取り込むことにより、より検索しやすくなる。

　また、情報検索システム１が、ユーザ質問文のルート文節５０ｒ等の被係受文節に係り受けしている文節の数（アーク数）に基づき検索を行う場合、非質問文節５０ｕでまず候補が絞られた後、アーク数により更に的確に候補を絞るため、さらに的確に、回答文を検索できる。

　また、情報検索システム１が、文書抽出手段としてが、文書構造記憶手段を参照し、ユーザ質問文のルート文節に対応するルート文節を含み、ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する場合、アーク数により更により的確に候補を絞るため、さらに的確に、回答文を検索できる。

　また、検索された文情報（検索された文節）に基づき、ユーザに対する対ユーザ質問文を作成し、対ユーザ質問文を端末２に送信する場合、候補の知識表現単位３０、３１の数が所定数を超えたとき、回答文の候補を絞るための対ユーザ質問文を作成し、ユーザに送信することにより、ユーザと対話的になり、ユーザからその回答を得ることで、さらに回答文の候補を確実に絞ることができる。

　検索した文節に代えて、対ユーザ質問文を端末２に送信する場合も、ユーザと対話的になり、ユーザからその回答を得ることで、さらに回答文の候補を確実に絞ることができる。

　検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することにより、対ユーザ質問文を端末２に送信するか、検索した文節を端末２に送信するかを切り分けることができ、また、対ユーザ質問文を作成する明確な基準が定めることができる。

　また、ユーザ質問文に動詞がない場合、例えば、“彼はどこで？”というユーザ質問文の場合、ルート文節５０ｒは空文節になり、ステップＳ１２～ステップＳ１４が飛ばされる。ステップＳ１５のリーフ文節５０ｌの非質問文節５０ｕや、ステップＳ１６の質問文節５０ｗにより、回答文の候補が絞られる。このように絞り込む情報が少ないため、回答文の候補の数が多い場合が多くなる。このような場合に、対ユーザ質問文をユーザに送信してユーザと対話的に回答を得ることにより、回答文の候補を確実に絞ることができる。

　また、知識入力管理サーバ１０と知識データベース用サーバ１５等とから構成されるデータベースの作成装置が、ネットワーク３等を介して文書を収集したり、テキストデータ・データベース６から収集したりした文書の文を文節に分解し、文書の文の文節間の係り受け関係を解析し、係り受け関係に基づき、文書の文を構造化し、構造化された文書の文を知識データベース１７に記憶させることにより、知識表現単位３０、３１が各々独立していて、知識表現単位３０、３１によりデータの管理が容易になる。例えば、図４に示したように、テーブル形式の知識表現単位４０の作成時欄４０ｆやアクセス欄４０ｇの情報に基づき、知識データベース用サーバ１５が、あまり利用されない知識表現単位をそのまま削除したり、新しい知識表現単位を追加したり等、知識データベース１７の管理がしやすい。また、文書の文が構造化されているため、知識データベース用サーバ１５はユーザからのユーザ質問文に応じた検索がしやすい。

　また、知識データベース用サーバ１５が、構造化された文書の文における係り受け関係の向き（アークの向き）を逆転させ、係り受け関係が逆転した文節の文節タイプを操作することにより、知識表現単位の表層表現の差を吸収でき、知識表現単位を標準化することができる。例えば、図９に示したように、アークが多いリーフ文節３２ｌにアークの向きを揃える変換を行い、文節のタイプを操作することにより、知識表現単位３０と同等の知識表現単位３４を得ることができ、知識表現単位を標準化することができる。標準化により、データ数の縮約ができ、検索のパフォーマンスの向上が図れる。

　なお、ユーザからのユーザ質問文は、必ずしもユーザに文章の形で入力を要求する必要はなく、例えば、図１３（Ａ）に示すように、質問入力フォーム２５の形式でもよい。質問入力フォーム２５は、文節のタイプごとに、入力ボックス２５ａを有する。そして、問合せ応答サーバ２０が、質問入力フォーム２５をユーザの端末２に送信し、図１３（Ｂ）のように、ユーザが、質問入力フォーム２５に語句を記入する。ユーザからの入力を受け付けた端末２は、語句と文節のタイプと結びつけて、問合せ応答サーバ２０に送信する。問合せ応答サーバ２０は、この情報に基づき、知識表現単位５０等に変換する。

　また、検索エンジンとして機能する知識データベース用サーバ１５は、ユーザ履歴に基づき検索を行ってもよい。例えば、ステップＳ１６の後、最終的に回答文の候補を絞るためや、ステップＳ１３で大きく回答文候補を絞った後に、候補をさらに回答文の候補を絞るために、知識データベース用サーバ１５がユーザ履歴を利用する。ユーザのプロファイルや購入履歴や、知識表現単位へのアクセス情報等のユーザ履歴に基づき、回答文の候補をさらに絞ることにより、的確にユーザに回答文を提供することができる。

　また、ステップＳ１３において、被係受文節としてルート文節５０ｒでなく、他のリーフ文節により、回答文の候補を絞り込んでもよい。一部のリーフ文節には、係り受けが集中して、データ構造上の情報が集約していることが多く、回答文の候補を１次的に絞りやすい。

　また、知識データベース用サーバ１５の文節分類手段、文書文節分解手段、文書係受解析手段のプログラムと、問合せ応答サーバ２０の文節分類手段、文節分解手段、係受解析手段のプログラムは共通のプログラムでもよく、これらの処理を共通のサーバで行ってもよい。

　さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

　１：情報検索システム
　２：端末
　１０：知識入力管理サーバ
　１１：制御部
　１５：知識データベース用サーバ
　１６：制御部
　１７：知識データベース（データベース）
　２０：問合せ応答サーバ
　２１：制御部
　３０、３１：知識表現単位（文情報、構造化された文書の文）
　３０ｒ、３１ｒ：ルート文節（被係受文節）
　３０ｌ：リーフ文節
　５０、６０：質問文の知識表現単位
　５０ｗ、６０ｗ：質問文節
　５０ｕ：非質問文節
　５０ｒ：ルート文節（被係受文節）
　５０ｌ：リーフ文節
　６０ｅ：アーク数欄（文節の数、アーク数）

Claims

　文書を収集する文書収集手段と、
　収集した前記文書の文を文節に分解する第１文書文節分解手段と、
　前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、
　前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
　ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
　前記ユーザ質問文を文節に分解する第２文書文節分解手段と、
　前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、
　前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
　抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
　前記検索手段が検索した文節を前記端末に送信する送信手段と、
を備えたことを特徴とする情報検索装置。
　前記第１文書係受解析手段が、収集した前記文書の文節間の係り受け関係にアークを付与し、　前記第１文書係受解析手段が、さらに、ルート文節のアーク数と、当該ルート文節からアークを介してつながるリーフ文節のアーク数を比較して、当該ルート文節のアーク数が当該リーフ文節のアーク数より少ない場合、前記リーフ文節を検索用ルート文節に変換するとともに、前記ルート文節を検索用リーフ文節に変換し、
　前記文書構造記憶手段が、変換後の文節およびアークを記憶する、
　請求項１記載の情報検索装置。
　前記文書抽出手段が、前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含み、前記ユーザ質問文における当該ルート文節のアーク数を越えるアーク数のルート文節の文書を抽出する、
　請求項１または２記載の情報検索装置。
　検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、
　前記送信手段が、前記対ユーザ質問文を前記端末に送信することを特徴とする、請求項１から請求項３のいずれか１項に記載の情報検索装置。
　検索された文節に基づき、ユーザに対する対ユーザ質問文を作成する対ユーザ質問文作成手段を更に備え、
　前記送信手段が、検索した文節に代えて、前記対ユーザ質問文を前記端末に送信することを特徴とする、請求項１から請求項３のいずれか１項に記載の情報検索装置。
　前記質問文作成手段は、検索された文節の数が所定数以上の場合に対ユーザ質問文を作成することを特徴とする、請求項５記載の情報検索装置。
　文書を収集する文書収集手段と、
　収集した前記文書の文を文節に分解する第１文書文節分解手段と、
　前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、
　前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
　ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
　前記ユーザ質問文を文節に分解する第２文書文節分解手段と、
　前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、
　前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
　前記文書抽出手段が抽出した文書を前記端末に送信する送信手段と、
　を備えたことを特徴とする情報検索装置。
　文書を収集する文書収集ステップと、
　収集した前記文書の文を文節に分解する第１文書文節分解ステップと、
　前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析ステップと、
　前記文書、当該文書の文節および文節種別を文書構造記憶手段に記憶する記憶ステップと、
　ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信ステップと、
　前記ユーザ質問文を文節に分解する第２文書文節分解ステップと、
　前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析ステップと、
　前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出ステップと、
　抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索ステップと、
　前記検索手段が検索した文節を前記端末に送信する送信ステップと、
　を備えたことを特徴とする情報検索方法。
　コンピュータを、
　文書を収集する文書収集手段と、
　収集した前記文書の文を文節に分解する第１文書文節分解手段と、
　前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、
　前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
　ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
　前記ユーザ質問文を文節に分解する第２文書文節分解手段と、
　前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、
　前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
　抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
　前記検索手段が検索した文節を前記端末に送信する送信手段として機能させることを特徴とする情報検索プログラム。
　コンピュータを、
　文書を収集する文書収集手段と、
　収集した前記文書の文を文節に分解する第１文書文節分解手段と、
　前記文書の文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第１文書係受解析手段と、
　前記文書、当該文書の文節および文節種別を記憶する文書構造記憶手段と、
　ユーザ端末に入力されたユーザ質問文の情報を前記端末から受信する受信手段と、
　前記ユーザ質問文を文節に分解する第２文書文節分解手段と、
　前記ユーザ質問文の文節間の係り受け関係を解析し、それぞれの文節を少なくともリーフ文節とルート文節に分類する第２文書係受解析手段と、
　前記文書構造記憶手段を参照し、前記ユーザ質問文のルート文節に対応するルート文節を含む文書を抽出する文書抽出手段と、
　抽出した文書を参照し、当該文書のリーフ文節のうち、前記ユーザ質問文の文節に不足する文節の検索を行う検索手段と、
　前記検索手段が検索した文節を前記端末に送信する送信手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。