WO2016103409A1

WO2016103409A1 - 検索システム

Info

Publication number: WO2016103409A1
Application number: PCT/JP2014/084349
Authority: WO
Inventors: 彬童; 利彦柳瀬; 真岩山
Original assignee: 株式会社日立製作所
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2016-06-30

Abstract

　検索システムは、データベースにおける文書内の文書単語と前記文書カテゴリ値との連結関係を示す、単語カテゴリ間関係グラフと、データベースにおける文書カテゴリ値とクエリカテゴリ値との間の連結関係を示す、カテゴリ間関係グラフと、を含む。検索システムは、単語カテゴリ間関係グラフにおいて、選択された文書内の文書単語に連結する文書カテゴリ値を決定し、カテゴリ間関係グラフにおける前記決定された文書カテゴリ値と前記指定されたクエリカテゴリ値との連結関係に基づいて、前記選択された文書のクエリに対するスコアを決定する。

Description

検索システム

　本発明は、検索システムに関する。

　多くの分野において文書検索システムが利用されている。例えば、運用及び保守点検（Ｏ＆Ｍ）ビジネスにおいて、保守点検のための検索システムが利用されている。Ｏ＆Ｍは、資産や設備の制御及び維持に関する決定並びに行為を意味する。その決定及び行為は、スケジューリング、手順、システム制御及びシステム最適化に向けられる。それらは、さらに、設備の故障を防ぎ、効率化、信頼性及び安全性を向上することを目的とする。

　Ｏ＆Ｍビジネスは、発電、水処理プラント、鉄道等、広く様々な産業に関連している。保守点検の文書化は、Ｏ＆Ｍにおける必須要素の一つであり、保守点検行為のためのドメイン知識データベースの役割を担う。保守点検行為の効果をより確実なものにする方法の一つは、多くの保守点検レポートを解析することによって有益なドメイン知識を抽出することである。

　保守点検行為において強く求められていることは、現場の運用者が手元の問題についての情報を検索システムに入力した場合に、同様の問題及びその解決方法にすぐにアクセスできることである。そうすることで、保守点検の実効性を上げることができる。

　保守点検記録において、運用者は、特定のカテゴリと値とを問題タイトルやその解決文書に割り当てることができる。カテゴリの例は、モデルコード、トラブルコード、現象コード、対抗策コードである。現場の運用者は、モデルコードのようなカテゴリを伴うクエリを使用して、関連文書を検索する。したがって、クエリタイトルとカテゴリを指定することによって関連文書を見つけ出す方法は、不具合対応のための検索システムにおいてキーとなる問題である。

　たとえば、米国特許出願公開第２０１０／０２３５１６５号（特許文献１）は、「電子的又はデジタル形式で提供される自然言語文書を自動的に意味ラベリングするためのシステム及び方法は、セマンティックプロセッサを含み、セマンティックプロセッサは基本的な言語分析を行う。当該言語分析は、タイプオブジェクト及び／又はオブジェクトのクラスの間のテキストの意味関係において、事実と因果関係とを認識し、言語的に分析したテキストを特定の対象意味関係パターンケースを一般化することによって作成された対象意味関係パターンにマッチングし、そして言語的に分析されたテキストとマッチング結果とに基づいて、意味関係のラベルを生成する。」（要約）ことを開示している。

米国特許出願公開第２０１０／０２３５１６５号

　ユーザは、必ずしも、ユーザが望む情報（文書）に対して最適なクエリタイトル及びカテゴリ値を指定できるわけではない。従来の方法は、クエリタイトルで使用されているカテゴリ値と同一のカタゴリ値が割り当てられた情報を抽出するため、ユーザ指定されたカテゴリ値が最適ではない場合に、ユーザが望む情報を抽出できないことがある。したがって、ユーザにより指定されたクエリタイトル及びカテゴリ値から、ユーザが望む文書を適切に検索することができるシステムが望まれる。

　本発明の代表的な一例は、データベースにおいてクエリに関係する文書を検索する、検索システムであって、クエリタイトル、前記クエリタイトルに割り当てられた文書、前記クエリタイトルに割り当てられているクエリカテゴリ値、及び前記文書に割り当てられている文書カテゴリ値、を格納する、データベースと、前記データベースにおける文書内の文書単語と前記文書カテゴリ値との連結関係を示す、単語カテゴリ間関係グラフと、前記データベースにおける前記文書カテゴリ値と前記クエリカテゴリ値との間の連結関係を示す、カテゴリ間関係グラフと、プロセッサと、を含み、前記プロセッサは、クエリタイトルと、クエリカテゴリ値と、を指定するクエリを受信し、前記データベースからの文書の選択と、前記選択した文書の前記クエリに対するスコアの決定と、を繰り返し、前記文書のスコアに基づいて前記文書をランク付けし、前記選択された文書のスコアの決定において、前記単語カテゴリ間関係グラフにおいて、前記選択された文書内の文書単語に連結する文書カテゴリ値を決定し、前記カテゴリ間関係グラフにおける前記決定された文書カテゴリ値と前記指定されたクエリカテゴリ値との連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する。

　本発明の一態様によれば、ユーザにより指定されたクエリタイトル及びカテゴリ値から、ユーザが望む文書を適切に検索することができる。

本実施形態の検索システムの論理構成例を示す。検索システムのハードウェア構成例を示す。データベースの構成例を示す。索引付け部が、データベースに格納されているクエリタイトル、文書及びカテゴリの索引付けを行う処理のフローチャートを示す。索引付け部が作成する単語間関係グラフの一例を示す。索引付け部が作成する単語間関係テーブルの構成例を示す索引付け部が作成する単語カテゴリ間関係グラフの例を示す。索引付け部作成する単語カテゴリ間関係テーブルの構成例を示す。索引付け部が作成する単語カテゴリ間関係テーブルの構成例を示す。索引付け部が作成するカテゴリ間関係グラフの例を示す。索引付け部が作成するカテゴリ間関係テーブルの構成例を示す。検索システムによる、ユーザからのクエリに対する検索処理の概要を示す。ユーザがクエリを入力するために、ユーザインタフェースが提示するＧＵＩ画像の一例を示す。ユーザが入力したクエリと、データベースから選択した一つの文書との間の語彙的類似性を算出する処理のフローチャートを示す。ユーザが入力したクエリと、データベースから選択した一つの文書との間の語彙的連結性スコアを算出する処理のフローチャートを示す。カテゴリ連結性スコアを算出する処理のフローチャートを示す。ユーザが入力したクエリと、データベースから選択した一つの文書との間のハイパ語彙的連結性スコアを算出する処理のフローチャートを示す。ランク付け集約部による処理を示す。

　実施例を、図面を参照して説明する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではなく、また実施例で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。以下の説明では、「ＸＸテーブル」の表現にて各種情報を説明することがあるが、各種情報は、テーブル以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために、「ＸＸテーブル」を「ＸＸ情報」と呼ぶことができる。

　以下において、クエリで指定されるカテゴリ値と文書に割り当てられているカテゴリ値とに基づき、検索結果における文書のランク付けを容易なものとする検索システムを示す。本実施形態の検索システムは、Ｏ＆Ｍビジネスに好適であるが、これとは異なる用途に適用することができる。

　検索システムは、クエリタイトル、文書、及びカテゴリ値を格納するデータベースを含む。データベースは、クエリタイトルと文書とを対応付ける。さらに、データベースは、クエリタイトルに対応付けられたクエリカテゴリ値及び文書に対応付けられた文書カテゴリ値を含む。文書カテゴリのタイプは、クエリカテゴリのタイプとは異なる。

　ユーザによってクエリタイトルとカテゴリ値とを含むクエリが与えられると、検索システムは、与えられたクエリタイトル及びカテゴリ値に対して関連性が高い文書を、クエリで指定されたカテゴリ値とデータベース内の文書カテゴリ値とに基づき、データベースから選択する。

　本検索システムは、ユーザから与えられたカテゴリ値を使用することによって、クエリに対して関連性の高い文書を特定することができる。さらに、ユーザが不適切なカタゴリ値を与えたとしても、データベース内のクエリカテゴリ値と文書カテゴリ値との間の関係を介して、ユーザが望む情報に関連性が高い文書を提供することができる。

　図１Ａは、本実施形態の検索システム１００の論理構成例を示す。検索システム１００は、ユーザインタフェース１４０と接続されて使用される。ユーザインタフェース１４０は、ユーザからのクエリタイトルとカテゴリ値とを含む検索クエリを受け付け、検索システム１００に送信する。

　検索システム１００は、指定されたクエリタイトルとカテゴリ値とに応じて、検索結果をユーザインタフェース１４０に出力する。ユーザインタフェース１４０、例えば、ウェブブラウザ、デスクトップ検索アプリケーション、又はスマートフォンの検索アプリケーションを含む。検索システム１００は、データベース１１０、索引付け部１３０、関連性スコア演算部１５０、及びランク付け集約部１６０を含む。

　データベース１１０は、複数のクエリタイトル、複数の文書、及び複数のカテゴリを対応付けて格納する。複数のクエリタイトルのそれぞれは、少なくとも一つの文書に対応付けられる。さらに、複数のクエリタイトルのそれぞれには、少なくとも一つのカテゴリ値が割り当てられ、複数の文書のそれぞれに、少なくとも一つのカテゴリ値が割り当てられる。データベース１１０の詳細は、図２を参照して後述する。

　索引付け部１３０は、データベース１１０に格納されているクエリタイトル、文書及びカテゴリを処理する。索引付け部１３０は、データベース１１０から、後述する単語間関係グラフ３００（図４）、単語カテゴリ間関係グラフ５００（図６）、及びカテゴリ間関係グラフ７００（図８）を作成する。各グラフは、要素間の連結関係を示す。

　索引付け部１３０はオフラインで実行可能であり、検索システム１００の効率性を維持する。または、索引付け部１３０は、検索システム１００のバックグランドで、定期的なスケジュールの下で実行され得る。

　関連性スコア演算部１５０は、ユーザインタフェース１４０から一つのクエリタイトルと１又は複数カテゴリ値を受信し、索引付け部１３０が生成した単語間関係グラフ３００、単語カテゴリ間関係グラフ５００、及びカテゴリ間関係グラフ７００を使用して、複数の関連性スコアを算出する。複数の関連性スコアに基づいて、入力されたクエリに対して、データベース内の文書がランク付けされる。

　算出される複数の関連性スコアは、例えば、語彙的類似性、語彙的連結性、及びカテゴリ連結性を示す要素（スコア）を含んでもよい。一つの関連性スコアは、複数の要素を含む一つの数値、例えば、語彙的連結性とカテゴリ連結性との組み合わせであってもよい後述するように、当該組み合わせのスコアは、ハイパ語彙的連結性スコアとも呼ばれる。なお、算出される関連性スコアの数は１以上の任意数でよく、検索システム１００が使用する関連性スコアの種類は、上記四つの種類に限定されない。

　いくつかの検索エンジンシステムの検索結果は、クエリタイトルに対して語彙的に類似する。しかし、ユーザによって指定されるクエリタイトルにおける単語が、ユーザが探し出したい文書における単語に対して語彙的ギャップを持つ（異なる）ことがある。

　語彙的連結性スコアは、一つのクエリタイトルにおける単語群と一つの文書における単語群との間の語彙的連結性を考慮し、後述する単語間関係グラフ３００を介して決定される。語彙的連結性についてのスコアを使用することで、語彙的ギャップの問題を軽減することができる。言い換えれば、本実施形態の検索システム１００によって、ユーザは、検索精度のような検索性能を低下させる正確性の低いクエリタイトルを、与えることが可能となる。語彙的連結性スコアの計算方法は、図１３を参照して後述される。

　いくつかの検索エンジンシステムにおいて、カテゴリの情報は、ユーザによって指定されるカテゴリに厳密に属する文書から、ランク付けされた検索結果を得るためのフィルタとして働く。本実施形態の検索システム１００において、ランク付けされた検索結果は、そのような制限された制約を保持する代わりに、ユーザに指定されたクエリタイトルと１又は複数カテゴリ値との関係を、ある程度において有している。このような検索結果は、カテゴリ連結性スコア、又は、語彙的連結性とカテゴリ連結性の双方を考慮したハイパ語彙的連結性スコア、を介して得られる。

　カテゴリ連結性スコア及びハイパ語彙的連結性スコアは、後述する単語カテゴリ間関係グラフ５００及びカテゴリ間関係グラフ７００を介して決定され得る。また、カテゴリ連結性スコアの計算方法は図１４を参照して後述され、ハイパ語彙的連結性スコアの計算方法は図１５を参照して後述される。

　システム１００は、さらに、ランク付け集約部１６０を含む。ランク付け集約部１６０は、演算部１５０によって決定された関連性スコアを受信し、関連性スコアに基づいて、文書のランク付けリスト１７０を生成し、ユーザに提示する。

　図１Ｂは、検索システム１００のハードウェア構成例を示す。検索システム１００は、例えば、１又は複数のサーバ計算機で構成される。図１Ｂの例において、検索システム１００は、１台のサーバ計算機２００で構成される。サーバ計算機２００は、プロセッサ２０１と、メモリ２０２と、ディスクデバイス２０３と、入力デバイス２０４と、出力デバイス２０５と、ネットワークインタフェース２０６とを含む。

　入力デバイス２０４は、サーバ計算機２００に情報を入力するためのデバイスである。入力デバイス２０４は、例えば、キーボード、ポインティングデバイス、スイッチ、タッチパネル、マイクロホン等である。出力デバイス２０５は、サーバ計算機２００がユーザに情報を出力するためのデバイスである。出力デバイス２０５は、例えば、モニタディスプレイ、スピーカ、プリンタ等である。

　ユーザインタフェース１４０のハードウェア構成は、例えば、入力デバイス２０４及び出力デバイス２０５を含む。または、ユーザインタフェース１４０のハードウェア構成は、ネットワークインタフェース２０６を介してサーバ計算機２００と通信するユーザ端末である。ユーザ端末は、入力デバイス及び出力デバイスを含む。

　プロセッサ２０１は、メモリ２０２に記憶されたプログラムや演算パラメータ等に従って、サーバ計算機２００の動作を制御して、後述する各種機能を実現する。ディスクデバイス２０３は、不揮発性の物理記憶デバイスである。ディスクデバイス２０３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）や、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等である。ディスクデバイス２０３は、データベース１１０を格納する。

　メモリ２０２は、索引付けプログラム２０７、関連性スコア演算プログラム２０８、及びランク付け集約プログラム２０９を格納している。メモリ２０２は、この他、ＯＳを含む本システムにおける動作に必要な不図示のプログラムを格納している。メモリ２０２に格納されるデータ（プログラムを含む）は、ディスクデバイス２０３又は外部のサーバからメモリ２０２にロードされる。

　プロセッサ２０１は、メモリ２０２に格納されているプログラムを実行することで、定められた処理を、適宜に記憶資源及び／又は通信インターフェースを用いながら行う。例えば、プロセッサ２０１は、索引付けプログラム２０７、関連性スコア演算プログラム２０８、及びランク付け集約プログラム２０９に従って動作することで、索引付け部１３０、関連性スコア演算部１５０、及びランク付け集約部１６０として動作する。

　以下の説明では、機能部を主語として処理を説明するが、各機能部はメモリ２０２に格納されているプログラムに従って動作するプロセッサ２０１によって実現されるため、処理の主語は、プロセッサ２０１又はプログラムであってもよい。

　図２は、データベース１１０の構成例を示す。データベース１１０は、複数のクエリタイトル、複数の文書、及び複数のカテゴリを対応付けて格納する。図２の例において、データベース１１０は、タイトルカラム１１１、クエリカテゴリカラム１１２、文書カラム１１３、及び文書カテゴリカラム１１４を有する。

　タイトルカラム１１１は、クエリタイトルを格納する。クエリカテゴリカラム１１２は、クエリタイトルに割り当てられているカテゴリ値を格納する。文書カラム１１３は、クエリタイトルに対応付けられている文書を格納する。文書カテゴリカラム１１４は、文書に割り当てられているカテゴリ値を格納する。

　複数のクエリタイトルのそれぞれは、１以上の文書に対応付けられる。さらに、複数のクエリタイトルのそれぞれには、１以上のカテゴリ値が割り当てられ、複数の文書のそれぞれに、１以上のカテゴリ値が割り当てられる。

　データベース１１０において、カテゴリタイプは、二つのグループに分けられる。カテゴリタイプの一つのグループは、データベース１１０のクエリタイトルセットに割り当てられるカテゴリタイプである。カテゴリタイプの他のグループは、データベース１１０の文書セットに割り当てられるカテゴリタイプである。本システムにおいて、クエリタイトルに割り当てられるカテゴリタイプと、文書に割り当てられるカテゴリタイプは異なる。

　保守点検行為におけるクエリタイトルの一例は、現場の運用者により作成される問題概要を示す。文書の一例は、問題解決の記録である。したがって、図２に示すように、クエリタイトルセットに対するカテゴリタイプの一例は、トラブルコードやモデルコードであり、文書セットに対するカテゴリタイプの一例は、現象コードや対抗策コードである。

　例えば、図２において、クエリタイトル「Oil leak」は、二つの文書「Document1」、「Document2」に対応付けられている。クエリタイトル「Oil leak」には、二つのタイトルカテゴリ値「mc_1」、「tc_2」が割り当てられている。クエリタイトル「Oil leak」に対応付けられている文書「Document1」には、二つの文書カテゴリ値「pc_4」、「cc_2」が割り当てられている。

　カテゴリ値は、カテゴリタイプの値を表す。例えば、トラブルコードの値は、「リーク」や「クラック」等である。本例において、カテゴリタイプとカテゴリ値とは、データベース１１０において予め定義されている。学習アルゴリズムによって、データベース１１０におけるクエリタイトルと文書との意味論的意味を抽出してもよい。

　図３は、索引付け部１３０が、データベース１１０に格納されているクエリタイトル、文書及びカテゴリの索引付けを行う処理のフローチャートを示す。索引付け部１３０は、ユーザからのクエリ入力とは独立に、当該処理を実行する。ステップ１０１において、索引付け部１３０は、データベース１１０におけるクエリタイトル内の単語（クエリ単語）と文書内の単語（文書単語）との間の関係を示す、単語間関係グラフ３００を作成する。

　ステップ１０２において、索引付け部１３０は、単語カテゴリ間関係グラフ５００を作成する。具体的には、索引付け部１３０は、データベース１１０におけるクエリタイトル内の単語と、クエリタイトルに割り当てられているクエリカテゴリとの関係を示す、単語カテゴリ間関係グラフ５０１を作成する。索引付け部１３０は、さらに、データベース１１０における文書内の単語と、文書に割り当てられている文書カテゴリとの関係を示す、単語カテゴリ間関係グラフ５０２を作成する。

　ステップ１０３において、索引付け部１３０は、互いに対応付けられているクエリタイトルと文書に割り当てられているクエリカテゴリと文書カテゴリとの間の関係を示すカテゴリ間関係グラフ７００を作成する。

　索引付け部１３０は、データベース１１０の更新に応じて、単語間関係グラフ３００、単語カテゴリ間関係グラフ５００、及びカテゴリ間関係グラフ７００を更新する。例えば、データベース１１０の規定数のレコードが更新されると、索引付け部１３０は、グラフ３００、５００、７００を更新する。

　図４は、索引付け部１３０が作成する単語間関係グラフ３００の一例を示す。図５は、索引付け部１３０が作成する単語間関係テーブル４００の構成例を示す。索引付け部１３０は、単語間関係グラフ３００の作成において、単語間関係テーブル４００を作成し、メモリ２０２又はディスクデバイス２０３に格納する。

　図４の単語間関係グラフ３００は、データベース１１０における、クエリタイトルセット内の単語と文書セット内の単語との関係、及び文書セット内の単語の間の関係を示す。単語セット３１０は、クエリタイトルセット内に存在する複数単語ｑ（例えばノード３４０）で構成されている。単語ｑを、Ｑ単語と呼ぶ。

　単語セット３２０は、複数単語ｒ１（例えばノード３５０）で構成されている。単語ｒ１は、文書の一つのセンテンスにおいて、いずれかのＱ単語と共起する単語である。単語ｒ１を、Ｒ１単語と呼ぶ。以下に説明する例は、文書及びクエリタイトルの双方に含まれる単語を、Ｒ１単語に含める。

　単語セット３３０は、複数単語ｒ２（例えばノード３６０）で構成されている。単語ｒ２は、文書の一つのセンテンスにおいて、いずれかの単語ｒ１と共起する単語であって、Ｑ単語を除いた単語である。単語ｒ２を、Ｒ２単語と呼ぶ。本例において、共起する二つの単語は、同一センテンス内に存在する。

　単語間関係グラフ３００において、共起する単語ｑと単語ｒ１のペアは、エッジ（例えばエッジ３７０）で連結されている。共起する単語ｒ１と単語ｒ２のペアは、エッジ（例えばエッジ３８０）で連結されている。

　例えば、クエリタイトルが、「What about Tokyo?」であり、二つのセンテンスを含む文書は、「Tokyo is in Japan. It is the biggest city in Japan.」であるとする。「What」、「about」、「Tokyo」は、Ｑ単語である。単語「Japan」は、Ｑ単語である「Tokyo」と、文書の第１センテンスにおいて共起している。したがって、単語「日本」は、Ｒ１単語である。また、単語「Tokyo」は、当該文書におけるＲ１単語である。

　二つの単語「biggest」と「city」とは、Ｑ単語ではなく、文書の第２センテンスにおいて、Ｒ１単語「Japan」と共起している。したがって、二つの単語「biggest」と「city」とは、Ｒ２単語である。

　なお、単語間関係グラフは、Ｑ単語階層、Ｒ１単語階層、及びＲ２単語階層を含む３階層の単語ノードを有する構成に限定されない。単語間関係グラフは、２階層でもよく、また、３階層より多くの階層に容易に拡張できる。例えば、Ｒ３単語は、Ｑ単語及びＲ１単語ではなく、同一センテンスにおいてＲ２単語と共起している単語と定義することができる。索引付け部１３０は、予め定義されている単語を除く、索引語のみを単語間関係テーブル４００に格納してもよい。他のテーブル及び関連性スコア演算部１５０の処理においても同様である。例えば、助詞や冠詞は索引語から除かれる。

　文書内の一つのセンテンスにおいて、Ｑ単語とＲ１単語が共起する場合、Ｑ１単語とＲ１単語との間のエッジが生成される。同様に、文書内の一つのセンテンスにおいてＲ１単語とＲ２単語が共起する場合、Ｒ１単語とＲ２単語との間のエッジが生成される。

　上記例文を使用すると、Ｑ単語セットに属する単語ノード「Tokyo」と、Ｒ１単語セットに属する単語ノード「Japan」及び「Tokyo」との間に、エッジが、単語間関係グラフ３００において存在する。同様に、Ｒ２単語セットに属する単語ノード「biggest」と、Ｒ１単語セットに属する単語ノード「Japan」との間に、エッジが、単語間関係グラフにおいて存在する。

　図５は、索引付け部１３０が作成する単語間関係テーブル４００の構成例を示す。単語間関係グラフ３００は、単語間関係テーブル４００として作成され保持される。単語間関係テーブル４００は、データベース１１０におけるクエリタイトルセット及び文書セット内の単語ペアの関係性を示す。図４の例において、単語間関係テーブル４００は、単語カラム４０１、４０２、距離カラム４０３、及び頻度カラム４０４を有する。

　単語カラム４０１、４０２は、データベース１１０において共起する単語のペアを示す。一つの文書は１又は複数のセンテンスで構成される。図４において、各文書単語は、ｑ、ｒ１又はｒ２を使用して表わされている。ｑを使用して表わされている単語は、クエリタイトルセット内の単語であり、その他の単語は文書セット内の単語である。

　距離カラム４０３は、二つの文書単語間の語彙的距離を示す。語彙的距離の一例は、二つの単語間の最小依存距離である。依存距離は、依存木における二つの単語（ノード）間のパスの距離である。最小依存距離は、データベース１１０内で共起する二つの単語を含む全依存木における、最小の依存距離である。二つの単語の語彙的距離は、一般に広く利用されているコーパスから決定してもよい。

　頻度カラム４０４は、単語ペアの頻度を示す。頻度は、単語ペアがデータベース１１０内において現れる頻度を示す。本例において、頻度カラム４０４は、単語ペアのセンテンス内共起頻度を示す。センテンス内共起頻度は、データベース１１０の文書セットにおいて、単語ペアが存在するセンタテンス数を、データベース１１０の全センテンス数を割った値と定義できる。

　なお、単語間関係テーブル４００が格納する情報は、図４を参照して説明した情報に限定されない。単語間関係テーブル４００は、二つの単語の他の情報を含んでもよく、単語間関係グラフ３００を介して容易に拡張され得る。

　図６は、索引付け部１３０が作成する単語カテゴリ間関係グラフ５００の例を示す。単語カテゴリ間関係グラフ５００は、二つのグラフ５０１、５０２を含む。グラフ５０１は、データベース１１０内の、クエリタイトルセットのクエリ単語とクエリカテゴリ値との関係を示す。グラフ５０２は、データベース１１０内の、文書セット内の文書単語と文書カテゴリ値との関係を示す。

　グラフ５０１は、エッジで連結された複数のペアで構成され、各ペアは、一つのクエリタイトル内に存在する単語ｑ（例えばノード５０３）と、当該クエリタイトルに割り当てられているクエリカテゴリ値（例えばノード５０４）とで構成されている。各ペアにおける連結はエッジで示されている。一つのクエリカテゴリ値は複数のクエリ単語とペアを構成でき、一つのクエリ単語は複数のクエリカテゴリ値とペアを構成できる。

　グラフ５０２は、エッジで連結された複数のペアで構成されている。各ペアは、一つの文書内に存在する単語ｒ１（例えばノード５０６）又は単語ｒ２（例えばノード５０７）と、当該文書に割り当てられているクエリカテゴリ値（例えばノード５０８）とで構成されている。各ペアにおける連結はエッジで示されている。一つの文書カテゴリ値は複数の文書単語とペアを構成でき、一つの文書単語は複数の文書カテゴリ値とペアを構成できる。

　例えば、カテゴリ値「AA」がクエリタイトル「What about Tokyo?」に割り当てられている場合、「AA」と「Tokyo」との間に、エッジが生成される。カテゴリ値「BB」が、センテンス「Tokyo is in Japan.」を含む文書に割り当てられている場合、二つの単語「BB」、「Japan」の間に、エッジが生成される。

　図７Ａ、７Ｂは、索引付け部１３０が作成する単語カテゴリ間関係テーブルの構成例を示す。単語カテゴリ間関係グラフ５００は、単語間関係テーブルとして作成され保持される。具体的には、クエリタイトルセットの単語カテゴリ間関係グラフ５０１は、単語間関係テーブル（クエリ）６００として作成され、文書セットの単語カテゴリ間関係グラフ５０２は、単語間関係テーブル（文書）６０５として作成される。

　図７Ａ、データベース１１０内のクエリタイトルセットにおける、単語カテゴリ間関係テーブル（クエリ）６００の構成例を示す。図７Ｂは、データベース１１０内の文書セットにおける、単語カテゴリ間関係テーブル（文書）６０５の構成例を示す。

　図７Ａに示す単語カテゴリ間関係テーブル（クエリ）６００は、データベース１１０内のクエリ単語（クエリセット内の単語）とクエリカテゴリ値との間の関係を示す。各レコードは、クエリ単語とクエリカテゴリ値のペアの情報を示す。

　各ペアは、一つのクエリタイトルに含まれるクエリ単語と、当該クエリタイトルに割り当てられているクエリカテゴリ値とで構成される。一つのクエリ単語は複数のクエリカテゴリ値それぞれとペアを構成することができ、また、一つのクエリカテゴリ値は複数のクエリ単語それぞれとペアを構成することができる。

　単語カテゴリ間関係テーブル（クエリ）６００は、クエリ単語カラム６０１、クエリカテゴリ値カラム６０２、頻度カラム６０３、及び相互頻度カラム６０４を有する。クエリ単語カラム６０１は、データベース１１０内のクエリタイトルセットの単語を示す。

　クエリカテゴリ値カラム６０２は、データベース１１０において、クエリタイトルそれぞれに割り当てられているカテゴリ値を示す。上述のように、クエリ単語と同一レコードのクエリカテゴリ値は、当該クエリ単語が含まれるクエリタイトルに割り当てられている。

　頻度カラム６０３は、データベース１１０において、クエリカテゴリ値が現れる頻度を示す。例えば、頻度カラム６０３は、クエリカテゴリ値が割り当てられているクエリタイトルの数の、クエリタイトルセット内の総タイトル数の比で定義できる。

　相互頻度カラム６０４は、データベース１１０において、クエリ単語とクエリカテゴリ値のペアが現れる頻度（相互頻度）を示す。例えば、クエリタイトルセットにおける当該ペアの出現回数（対応タイトル数）の、全ペアの出現回数の総和に対する比で定義できる。または、クエリ単語とクエリカテゴリ値の一つのペアの相互頻度は、当該ペアが対応するクエリタイトルの数の、クエリタイトルセット内の総タイトル数に対する比で定義できる。

　図７Ｂに示す単語カテゴリ間関係テーブル（文書）６０５は、データベース１１０内の文書単語（文書セット内の単語）と文書カテゴリ値との間の関係を示す。各レコードは、文書単語と文書カテゴリ値のペアの情報を示す。各ペアは、一つの文書に含まれる文書単語と、当該文書に割り当てられている文書カテゴリ値とで構成される。一つの文書単語は複数の文書カテゴリ値それぞれとペアを構成することができ、また、一つの文書カテゴリ値は複数の文書単語それぞれとペアを構成することができる。

　単語カテゴリ間関係テーブル（文書）６０５は、文書単語カラム６０６、文書カテゴリ値カラム６０７、頻度カラム６０８、及び相互頻度カラム６０９を有する。

　文書単語カラム６０６は、データベース１１０内の文書セットの単語を示す。文書カテゴリ値カラム６０７は、データベース１１０において、文書それぞれに割り当てられているカテゴリ値を示す。文書単語と同一レコードの文書カテゴリ値は、当該文書単語が含まれる文書に割り当てられている。

　頻度カラム６０８は、データベース１１０において、文書カテゴリ値が現れる頻度を示す。例えば、頻度カラム６０８は、文書カテゴリ値が割り当てられている文書の数の、文書セット内の総文書数の比で定義できる。

　相互頻度カラム６０９は、データベース１１０において、文書単語と文書カテゴリ値のペアが現れる頻度（相互頻度）を示す。例えば、文書セットにおける当該ペアの出現回数（対応文書数）の、全ペアの出現回数の総和に対する比で定義できる。または、文書単語と文書カテゴリ値の一つのペアの相互頻度は、当該ペアが対応する文書の数の、文書セット内の総文書数の比で定義できる。

　なお、単語カテゴリ間関係テーブル６００、６０５は、上記情報と異なる情報を格納してもよい。

　図８は、索引付け部１３０が作成するカテゴリ間関係グラフ７００の例を示す。カテゴリ間関係グラフ７００は、データベース１１０における、複数クエリカテゴリ値と複数文書カテゴリ値との関係を示す。

　図８において、カテゴリ間関係グラフ７００は、クエリカテゴリ値（例えばノード７０３）を含むクエリカテゴリ値のセット７０１と、文書カテゴリ値（例えばノード７０４）を含むクエリカテゴリ値のセット７０２と、を示す。ペアを構成するクエリカテゴリ値と文書カテゴリ値との連結は、エッジ（例えばエッジ７０５）で表わされている。対応付けられているクエリタイトルと文書のクエリカテゴリ値と文書カテゴリ値とが連結され、ペアを構成する。

　例えば、一つのクエリタイトルと二つの文書が関連づけられているとする。さらに、クエリタイトルに二つのクエリカテゴリ値「CC1」、「CC2」が割り当てられており、一方の文書に文書カテゴリ値「DC1」、他方の文書に文書カテゴリ値「DC2」が割り当てられているとする。これらから、四つのペア「CC1、DC1」、「CC1、DC2」、「CC2、DC1」、「CC2、DC2」が作成される。

　図９は、索引付け部１３０が作成するカテゴリ間関係テーブル８００の構成例を示す。カテゴリ間関係グラフ７００は、カテゴリ間関係テーブル８００として作成され保持される。

　カテゴリ間関係テーブル８００は、データベース１１０における文書セットに割り当てられている文書カテゴリ値と、クエリタイトルセットに割り当てられているクエリカテゴリ値との間の関係を示す。

　各レコードは、クエリカテゴリ値と文書カテゴリ値とのペアの情報を示す。各ペアは、互いに関連づけられている文書とクエリタイトルの、カテゴリ値で構成されている。一つの文書カテゴリ値は複数のクエリカテゴリ値それぞれとペアを構成することができ、また、一つのクエリカテゴリ値は複数の文書カテゴリ値それぞれとペアを構成することができる。

　カテゴリ間関係テーブル８００は、クエリカテゴリ値カラム８０１、文書カテゴリ値カラム８０２、頻度カラム８０３、相互頻度カラム８０４を有する。クエリカテゴリ値カラム８０１は、データベース１１０におけるクエリタイトルに割り当てられているクエリカテゴリ値を示す。文書カテゴリ値カラム８０２は、データベース１１０における文書に割り当てられているクエリカテゴリ値を示す。

　頻度カラム８０３は、データベース１１０において文書カテゴリ値が現れる頻度を示す。例えば、頻度カラム８０３は、文書カテゴリ値が割り当てられている文書の数の、データベース１１０内の総文書数の比で定義できる。相互頻度カラム８０４は、データベース１１０において、クエリカテゴリ値と文書カテゴリ値とのペアが現れる頻度を示す。例えば、相互頻度カラム８０４は、文書単語と文書カテゴリ値のペアが対応する文書の数の、データベース１１０内の総文書数の比で定義できる。

　図１０は、検索システム１００による、ユーザからのクエリに対する検索処理の概要を示す。関連性スコア演算部１５０は、ユーザインタフェース１４０からクエリタイトルとカテゴリ値を取得する（Ｓ１０１）。関連性スコア演算部１５０は、ユーザに指定されたクエリタイトルとカテゴリ値とから、語彙的類似性、語彙的連結性、そしてカテゴリ連結性の要素を考慮した、三つの関連性スコアを算出する（Ｓ１１０）。

　具体的には、関連性スコア演算部１５０は、ユーザに指定されたクエリタイトルと、データベース１１０に格納されているデータの解析結果とに基づき、データベース１１０内の各文書の語彙的類似性スコアを算出する（Ｓ１１１）。

　さらに、関連性スコア演算部１５０は、ユーザに指定されたクエリタイトルと単語間関係グラフ３００（単語間関係テーブル４００）とに基づき、データベース１１０内の各文書の語彙的連結性スコアを算出する（Ｓ１１２）。

　さらに、関連性スコア演算部１５０は、ユーザに指定されたクエリタイトル及びカテゴリ値、並びに、単語間関係グラフ３００（単語間関係テーブル４００）、単語カテゴリ間関係グラフ５００（単語カテゴリ間関係テーブル６００、６０５）、及びカテゴリ間関係グラフ７００（カテゴリ間関係テーブル８００）に基づき、データベース１１０内の各文書のカテゴリ連結性スコアを算出する（Ｓ１１３）。

　ランク付け集約部１６０は、関連性スコア演算部１５０から、各文書語の彙的類似性スコア、語彙的連結性スコア、及びカテゴリ連結性スコアを取得し、ランク付けリストを作成する（Ｓ１０６）。ランク付け集約部１６０は、各文書の関連性スコアから各文書のランクを決定し、決定されたランクに従って検索結果を示す文書のリストを作成する。

　本例において、関連性スコア演算部１５０は、語彙的類似性、語彙的連結性、そしてカテゴリ連結性の要素を考慮して、三つの関連性スコアを算出する。各文書の異なる種類のスコアを算出し、それらスコアに従ってクエリに対して文書をランク付けすることで、クエリで指定されたクエリ単語及びカテゴリ値に限定されず、ユーザが望む文書をより適切に検索することができる。なお、関連性スコア演算部１５０は、上記三つのスコアの一部のみを使用してもよい。例えば、語彙的類似性スコア又は語彙的連結性スコアを使用しなくてもよい。

　関連性スコア演算部１５０が算出するスコアは、上記三つのスコアに限定されない。単語間関係グラフ３００、単語カテゴリ間関係グラフ５００及びカテゴリ間関係グラフ７００から得られる他のスコアが、関連性スコア演算部１５０により算出されてもよい。

　図１１は、ユーザがクエリを入力するために、ユーザインタフェース１４０が提示するＧＵＩ画像１８０の一例を示す。ＧＵＩ画像１８０は、クエリタイトルを入力するためのテキストフィールド１８１を含む。ユーザは、テキストによって、クエリタイトルをフィールド１８１に入力する。

　ＧＵＩ画像１８０は、さらに、クエリカテゴリ値を入力するためのフィールド１８２、１８３を含む。図１１の例において、フィールド１８２はモデルコードを入力するためのフィールドであり、フィールド１８３はトラブルコードを入力するためのフィールドある。ユーザインタフェース１４０は、例えば、ユーザに、プルダウンリストから、モデルコード及びトラブルコードを選択させる。

　ＧＵＩ画像１８０は、さらに、文書カテゴリ値を入力するためのフィールド１８４、１８５を含む。図１１の例において、フィールド１８４は対向策コードを入力するためのフィールドであり、フィールド１８５は現象コードを入力するためのフィールドある。ユーザインタフェース１４０は、例えば、ユーザに、プルダウンリストから、対向策コード及び現象コードを選択させる。

　図１２～図１４は、それぞれ、語彙的類似性スコア、語彙的連結性スコア、そしてカテゴリ連結性スコアを算出する処理のフローチャートを示す。図１２は、ユーザが入力したクエリと、データベース１１０から選択した一つの文書との間の語彙的類似性を算出する処理（Ｓ１１１）のフローチャートを示す。関連性スコア演算部１５０は、データベース１１０における文書を順次選択し、文書それぞれの語彙的類似性スコアを算出する。語彙的類似性スコアは、広く知られた技術により算出され、ここでは一例を説明する。

　関連性スコア演算部１５０は、データベース１１０の文書セット及びクエリタイトルを解析し、不要語（無特徴語）を除去して索引語を決定する（Ｓ１５１）。関連性スコア演算部１５０は、ユーザインタフェース１４０からクエリを受信する（Ｓ１５２）。関連性スコア演算部１５０は、受信したクエリ内のクエリタイトルから、索引語を使用して数値ベクトルを作成する（Ｓ１５３）。数値ベクトルの各要素は、例えば、索引語の当該クエリタイトルにおける出現数とデータベース１１０において当該検索語が出現する文書及びクエリタイトルの数から算出される。各要素は、索引語の有無を示す１又は０でもよい。

　関連性スコア演算部１５０は、データベース１１０から一つの文書を選択し、当該選択した文書から、索引語を使用して数値ベクトルを作成する（Ｓ１５４）。数値ベクトルの各要素は、例えば、索引語の当該文書における出現数とデータベース１１０において当該検索語が出現する文書及びクエリタイトルの数から算出される。

　関連性スコア演算部１５０は、クエリタイトルの数値ベクトルと、文書の数値ベクトルと、の間の類似性を計算する（Ｓ１５５）。類似性計算の一例は、コサイン類似度を使用する。

　図１３は、ユーザが入力したクエリと、データベース１１０から選択した一つの文書との間の語彙的連結性スコアを算出する処理（Ｓ１１２）のフローチャートを示す。関連性スコア演算部１５０は、データベース１１０から文書を順次選択し、文書それぞれの語彙的連結性スコアを算出する。

　関連性スコア演算部１５０は、ユーザインタフェース１４０からクエリを受信する（Ｓ１５２）。関連性スコア演算部１５０は、選択した文書から、受信したクエリタイトルのＱ単語に対するＲ１単語とＲ２単語を選択する（Ｓ２０２）。以下において、Ｒ１単語とＲ２単語をＲ単語と総称する。

　次に、関連性スコア演算部１５０は、選択したＲ単語から、複数のＲ単語ペアを作成する（Ｓ２０３）。各ペアは、二つのＲ１単語、二つのＲ２単語、又はＲ１単語とＲ２単語とで構成されている。

　例えば、入力されたクエリタイトルが「What about Tokyo?」であり、選択されている文書が「Tokyo is in Japan」というセンテンスを含むとする。当該センテンスにおいて、「Tokyo」はＱ単語（Ｒ１単語）であり、３単語「is」、「in」、「Japan」はＲ１単語である。本センテンスにおけるＲ単語のペアの組み合わせの例は、（「Tokyo」、「is」）、（「Tokyo」、「in」）、（「Tokyo」、「Japan」）、（「is」、「in」）、（「is」、「Japan」）、（「in」、「Japan」）である。

　次に、関連性スコア演算部１５０は、各ペアの語彙的連結性スコアを、単語間関係グラフ３００を使用して算出する（Ｓ２０４）。算出方法は後述する。次に、関連性スコア演算部１５０は、算出したペアの語彙的連結性スコアを総計し、当該文書の語彙的連結性スコアを決定する（Ｓ２０５）。

　以下において、ペアの語彙的連結性スコアの算出方法を説明する。以下において、「＿」は下付き文字、「＾」は上付き文字を意味する。二つの任意単語ｗ１、ｗ２からなるペアの語彙的連結性スコアＳ＿ｐ（ｗ１、ｗ２）は、数式１で表わされる。

　Ｓ＿ｒ（ｗ）は、単語ｗの語彙的連結性スコアである。一つのＲ１単語の語彙的連結性スコアＳ＿ｒ（ｒ１）は、数式２によって計算される。

　さらに、一つのＲ２単語の語彙的連結性スコアＳ＿ｒ（ｒ１）は、数式３によって計算される。

　数式１において、総和は、ユーザが指定したクエリタイトル内のＱ単語についての総和である。数式２において、総和は、ユーザが指定したクエリタイトルに対する、文書内のＲ１単語についての積和である。Ｓ＿ｂ（ｗ）は、単語ｗのベーススコアであり、データベース１１０又は他のコーパスにおける単語ｗの単語頻度又は逆文書頻度から算出でき、予め計算されている。

　ｆｒｅｑ（ｗ１、ｗ２）は、単語ペア（ｗ１、ｗ２）の相互頻度であり、ｄｉｓｔ（ｗ１、ｗ２）は、単語ペア（ｗ１、ｗ２）の語彙的距離（最小依存距離）である。関連性スコア演算部１５０は、単語間関係グラフ３００（単語間関係テーブル４００）から、ｆｒｅｑ（ｗ１、ｗ２）及びｄｉｓｔ（ｗ１、ｗ２）の値を決定できる。

　関連性スコア演算部１５０は、各単語ペアの語彙的連結性スコアＳ＿ｐの計算において、単語間関係グラフ３００（単語間関係テーブル４００）から単語それぞれのｆｒｅｑ及びｄｉｓｔを取得する。関連性スコア演算部１５０は、取得した情報から単語それぞれの語彙的連結性スコアＳ＿ｒを算出し、それらを積算して、当該単語ペアの語彙的連結性スコアＳ＿ｐを算出する。

　Ｒ単語を使用した語彙的連結性スコアを算出することで、クエリにおいて指定されたクエリ単語に限定されず、ユーザが望む情報に関連する文書を提示することができる。なお、Ｒ１単語とＲ２単語の語彙的連結性スコアに異なる重みを与えてもよい。

　次に、文書のカテゴリ関係に関するスコアの算出方法を説明する。カテゴリ関係に関するスコアの二つの計算方法が存在する。第１の方法は、カテゴリ関係のみを考慮してスコアを計算する。当該スコアは、カテゴリ連結性スコアと呼ばれる。第２の方法は、カテゴリ連結性と語彙的連結性の双方を考慮して計算する。それは、ハイパ語彙的連結性スコアと呼ばれる。ここでは、カテゴリ連結性スコアを算出する第１の方法（Ｓ１１３）を説明する。

　図１４は、カテゴリ連結性スコアを算出する処理（Ｓ１１３）のフローチャートを示す。関連性スコア演算部１５０は、データベース１１０から文書を順次選択し、文書それぞれのカテゴリ連結性スコアを算出する。

　関連性スコア演算部１５０は、ユーザインタフェース１４０からクエリを受信する（Ｓ１５２）。関連性スコア演算部１５０は、選択した文書から、受信したクエリタイトルのＱ単語に対するＲ１単語とＲ２単語を選択する（Ｓ２５２）。

　次に、関連性スコア演算部１５０は、単語間関係グラフ３００、単語カテゴリ間関係グラフ５００、及びカテゴリ間関係グラフ７００を使用して、選択したＲ１単語及びＲ２単語それぞれについて、カテゴリ連結性スコアを算出する（Ｓ２５３）。各単語のカテゴリ連結性スコアの算出方法は後述する。次に、関連性スコア演算部１５０は、算出したカテゴリ連結性スコアを総計し、当該文書のカテゴリ連結性スコアを決定する（Ｓ２５４）。

　以下において、単語のカテゴリ連結性スコアの算出方法（Ｓ２５３）を説明する。関連性スコア演算部１５０は、Ｒ１単語ｒ１のカテゴリ連結性スコアｓｒｅｌ（ｒ１、Ｃ＿Ｍ、Ｑ＿ｒ１，Ｃ＿Ｍ）を、数式４に従って算出する。

　数式４において、Ｃ＿Ｍは、クエリにおいてユーザに指定されたクエリカテゴリ値セットを示す。Ｑ＿ｒ１，Ｃ＿Ｍは、データベース１１０内のｋ個のＱ単語からなるＱ単語セットを示す。ｋは規定数である。Ｑ単語セットは、Ｒ１単語ｒ１と、クエリにおいてユーザに指定されたクエリカテゴリ値セットＣ＿Ｍのいずれかのクエリカテゴリ値とエッジを有するＱ単語のうち、Ｒ１単語ｒ１との相互頻度が最も高いｋ個のＱ単語を示す。関連性スコア演算部１５０は、単語間関係グラフ３００（単語間関係テーブル４００）及び単語カテゴリ間関係グラフ５０１（単語カテゴリ間関係テーブル６００）から、Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍを決定できる。

　Ｒ１単語のカテゴリ連結性スコアの演算式（数式４）は、二つの項を含む。第１の項ｒｅｌ（ｒ1、Ｃ＿Ｍ、Ｑ＿ｒ１，Ｃ＿Ｍ）は、Ｒ１単語ｒ１と、その対応Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍとの間の関連性を示す。第２の項ｃｒｅｌ（ｒ１、Ｑ＿ｒ１，Ｃ＿Ｍ）は、単語ｒ１とＱ単語セットＱ＿ｒ１，Ｃ＿Ｍとに関係するカテゴリ値の間の関連性を示す。

　例として、第１の項ｒｅｌ（ｒ1、Ｃ＿Ｍ、Ｑ＿ｒ１，Ｃ＿Ｍ）は、数式５で計算される。

　ｃ＿ｉは、データベース１１０におけるクエリカテゴリ値であり、Ｃ＿ＭＮはクエリカテゴリ値セットである。Ｃ＾（ｑ＿ｋ）＿（Ｃ＿ＭＮ）は、Ｃ＾（ｑ＿ｋ）＿（Ｃ＿ＭＮ）は、Ｃ＿ＭＮに属し、Ｑ単語ｑ＿ｋとエッジを有するクエリカテゴリのセットである。βは、１以下の正の数であり、例えば、０．５より大きく１以下である。ｑ＿ｋは、Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍ内のＱ単語である。ｆｒｅｑ（ｃ＿ｉ）は、クエリカテゴリ値ｃ＿ｉの頻度を示し、ｆｒｅｑ（ｃ＿ｉ、ｑ＿ｋ）は、クエリカテゴリ値ｃ＿ｉとＱ単語ｑ＿ｋの相互頻度を示す。関連性スコア演算部１５０は、ｆｒｅｑ（ｃ＿ｉ）及びｆｒｅｑ（ｃ＿ｉ、ｑ＿ｋ）を、単語間関係グラフ３００（単語間関係テーブル４００）から決定できる。

　第１の項ｒｅｌ（ｒ1、Ｃ＿Ｍ、Ｑ＿ｒ１，Ｃ＿Ｍ）は、一つのＲ１単語ｒ１とユーザ指定クエリカテゴリ値セットＣ＿Ｍとの間の関連性を、Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍを介して計算する。クエリ単語と文書単語との間の関係性のみならず、文書単語とカテゴリ値との間関係を考慮することで、よりユーザの望みに合致した検索結果を提示することができる。

　当該項は、クエリで指定されたクエリカテゴリ値セットＣ＿Ｍに属さないクエリカテゴリ値、つまり、クエリで指定されていないクエリカタゴリ値と、Ｑ単語ｑ＿ｋと、の間の関連性（相互頻度）を考慮している。また、Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍは、クエリで指定されていないＱ単語を含み得る。このように、当該項は、クエリで直接に指定されたクエリ単語及びクエリカテゴリ値に限定せず、指定されていないクエリ単語及びクエリカテゴリ値を考慮して、クエリに対する文書の関連性を算出できる。

　第２の項ｃｒｅｌ（ｒ１、Ｑ＿ｒ１，Ｃ＿Ｍ）は、例えば、数式６で計算される。

　ｃｒｅｌ（ｒ１、Ｑ＿ｒ１，Ｃ＿Ｍ）の計算式（数式６）は、二つの項を含む。第１の項のｒｅｌ（Ｃ＾ｒ１＿Ｊ、Ｃ＾ｑ＿Ｍ）は数式７で計算される。

　さらに、第２の項のｒｅｌ（Ｃ＾（－ｒ１）＿ＪＫ、Ｃ＾（－ｑ）＿ＭＮ）は数式８で計算される。

　数式６～数式８における係数及び項は、それぞれ、数式９のように定義される。

　Ｃ＾ｒ１＿Ｊは、クエリにおいてユーザが指定した文書カテゴリ値セットにおいて、Ｒ１単語ｒ１と単語カテゴリ間関係グラフ５００でのエッジを有する文書カテゴリ値セットである。Ｃ＾ｑ＿Ｍは、クエリにおいてユーザが指定したクエリカテゴリ値セットにおいて、Ｑ単語セットＱ＿ｒ１，Ｃ＿ＭのＱ単語ｑと単語カテゴリ間関係グラフ５００でのエッジを有するクエリカテゴリ値セットである。

　Ｃ＿ＪＫは文書カテゴリ値セットである。Ｃ＾ｒ１＿ＪＫは、データベース１１０における文書カテゴリ値セットにおいて、Ｒ１単語ｒ１とエッジを有する文書カテゴリ値セットである。Ｃ＾(-ｒ１)＿ＪＫは、ｒ１単語とエッジを有していない文書カテゴリ値のセットである。Ｃ＾ｑ＿ＭＮは、データベース１１０におけるクエリカテゴリ値セットにおいて、Ｑ単語セットＱ＿ｒ１，Ｃ＿ＭのＱ単語ｑとエッジを有するクエリカテゴリ値セットである。Ｃ＾(-ｑ)＿ＭＮは、データベース１１０におけるクエリカテゴリ値セットにおいて、単語ｑとエッジを有していないクエリカテゴリ値セットである。

　関連性スコア演算部１５０は、単語カテゴリ間関係グラフ５０２（単語カテゴリ間関係テーブル６０５）を参照して、Ｒ１単語ｒ１とエッジを有する文書カテゴリ値セットを同定できる。さらに、関連性スコア演算部１５０は、単語カテゴリ間関係グラフ５０１（単語カテゴリ間関係テーブル６００）から、Ｑ単語ｑとエッジを有するクエリカテゴリ値セットを同定できる。

　ｆｒｅｑ（ｃ＿ｉ）は、文書カテゴリ値ｃ＿ｉの頻度を示す。ｆｒｅｑ（ｃ＿ｉ、ｃ＿ｊ）は、文書カテゴリ値ｃ＿ｉとクエリカテゴリ値ｃ＿ｊとの相互頻度を示す。関連性スコア演算部１５０は、文書カテゴリ値頻度ｆｒｅｑ（ｃ＿ｉ）及び相互頻度ｆｒｅｑ（ｃ＿ｉ、ｃ＿ｊ）を、カテゴリ間関係グラフ７００（カテゴリ間関係テーブル８００）から決定できる。

　Ｒ１単語ｒ１のカテゴリ連結性スコアｓｒｅｌの第２の項ｃｒｅｌ（ｒ１、Ｑ＿ｒ１，Ｃ＿Ｍ）は、Ｒ１単語ｒ１とＱ単語セットＱ＿ｒ１，Ｃ＿Ｍとに関係する、クエリカテゴリ値と文書カテゴリ値との間の連結性を計算する。

　上述のように、ｃｒｅｌ（ｒ１、Ｑ＿ｒ１，Ｃ＿Ｍ）の数式６は、二つの項を含む。数式７を使用して算出される第１の項βｒｅｌ（Ｃ＾ｒ１＿Ｊ、Ｃ＾ｑ＿Ｍ）は、Ｃ＾ｒ１＿ＪとＣ＾ｑ＿Ｍとに連結するカテゴリ値間の連結性を示す。具体的には、当該項は、クエリにおいてユーザに指定された文書カテゴリ値においてＲ１単語ｒ１と連結する文書カテゴリ値と、クエリにおいてユーザに指定されたクエリカテゴリ値においてＱ単語セットＱ＿ｒ１，Ｃ＿Ｍと連結するクエリカテゴリ値と、の間の連結性を示す。

　数式８を使用して算出される第２の項の（１－β）ｒｅｌ（Ｃ＾（－ｒ１）＿ＪＫ、Ｃ＾（－ｑ）＿ＭＮ）は、Ｃ＾ｒ１＿ＪとＣ＾ｑ＿Ｍとに連結しないカテゴリ値群間の関連性を示すバランス項である。具体的には、クエリで指定されていない文書カテゴリ値においてＲ１単語ｒ１と連結する文書カテゴリ値と、クエリにおいて指定されていないクエリカテゴリ値においてＱ単語セットＱ＿ｒ１，Ｃ＿Ｍと連結するクエリカテゴリ値と、の間の関連性を示す。

　上述のように、データベース１１０内のクエリカテゴリ値と文書カテゴリ値との間の連結関係を考慮することで、より適切な検索結果を提示することができ、また、ユーザが指定したカテゴリ値が不適切であっても、ユーザが望む情報に関連する文書を提示できる。

　ユーザが指定したカテゴリ値に加え、文書単語又はクエリ単語と連結する、ユーザに指定されていないカテゴリ値間の連結関係を考慮することで、クエリで直接に指定されたクエリカテゴリ値のみに限定されず、指定されていないクエリカテゴリ値を考慮して、クエリに対する文書の関連性を算出できる。

　以下において、Ｒ２単語ｒ２のカテゴリ連結性スコアの算出方法を説明する。関連性スコア演算部１５０は、Ｒ２単語ｒ２のカテゴリ連結性スコアｓｒｅｌ（ｒ２、Ｒ＾１＿ｒ２、Ｃ＿Ｍ、Ｑ＿ｒ２，Ｃ＿Ｍ）を、数式１０に従って算出する。

　数式１０において、Ｒ１単語セットＲ＾１＿ｒ２は、クエリに対してデータベース１１０から選択されたＲ１単語において、Ｒ２単語ｒ２との相互頻度が最も高いｋ個のＲ１単語を示す。関連性スコア演算部１５０は、単語間関係グラフ３００（単語間関係テーブル４００）から、Ｒ１単語とＲ２単語との相互頻度を決定できる。

　Ｑ単語セットＱ＿ｒ２，Ｃ＿Ｍは、Ｒ２単語ｒ２とクエリカテゴリ値セットＣ＿Ｍとエッジを有するデータベース１１０内のＱ単語であって、Ｒ２単語ｒ２との連結性が最も高いｋ個のＱ単語を示す。

　ここで、Ｒ２単語ｒ２は、単語間関係グラフ３００において、Ｑ単語と直接に連結していない。したがって、Ｒ２単語ｒ２とＱ単語との連結性は、Ｒ１単語を介して示される。例えば、Ｒ２単語ｒ２とＱ単語との連結性は、Ｒ１単語とＲ２単語の相互頻度（ｆｒｅｑ（ｒ１、ｒ２））及びＲ１単語とＱ単語の相互頻（ｆｒｅｑ（ｒ１、ｑ））を使用して計算できる。一例として、ｆｒｅｑ（ｒ１、ｒ２）とｆｒｅｑ（ｒ１、ｑ）の積で示される。相互頻度の情報は、単語間関係グラフ３００（単語間関係テーブル４００）に格納されている。

　Ｒ２単語ｒ２のカテゴリ連結性スコアの演算式（数式１０）は、二つの項を含む。第１の項ｒｅｌ（Ｒ＾１＿ｒ２、Ｃ＿Ｍ、Ｑ＿ｒ２，Ｃ＿Ｍ）は、Ｒ２単語ｒ２と、その対応Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍとの間の関連性を、Ｒ１単語セットを介して計算する。第２の項ｃｒｅｌ（ｒ２、Ｑ＿ｒ２，Ｃ＿Ｍ）は、Ｒ２単語ｒ２とＱ単語セットＱ＿ｒ２，Ｃ＿Ｍとに関係するカテゴリ値の間の関連性を示す。

　例として、第１の項ｒｅｌ（Ｒ＾１＿ｒ２、Ｃ＿Ｍ、Ｑ＿ｒ２，Ｃ＿Ｍ）は、数式１１で計算される。

　ｒｅｌ（ｒ１、Ｃ＿Ｍ、Ｑ＿ｒ２，Ｃ＿Ｍ）は、数式５に従って計算される。関連性スコア演算部１５０は、Ｑ単語セットＱ＿ｒ２，Ｃ＿Ｍについて、数式５の計算を実行する。当該項は、Ｒ２単語Ｒ２、Ｒ１単語セットＲ＾１＿ｒ２、及びＱ単語セットＱ＿ｒ２，Ｃ＿Ｍの間の関連性を示す。言い換えれば、当該項は、Ｒ２単語ｒ２と、クエリにおいてユーザに指定されたクエリカテゴリ値セットＣ＿Ｍとの間の関連性を、Ｒ１単語セットＲ＾１＿ｒ２とＱ単語セットＱ＿ｒ２，Ｃ＿Ｍとを介して計算できる。

　第２の項ｃｒｅｌ（ｒ２、Ｑ＿ｒ２，Ｃ＿Ｍ）は、例えば、数式１２で計算される。

　ｃｒｅｌ（ｒ２、Ｑ＿ｒ２，Ｃ＿Ｍ）の計算式（数式１２）は、二つの項を含む。第１の項のｒｅｌ（Ｃ＾ｒ２＿Ｊ、Ｃ＾ｑ＿Ｍ）は数式１３で計算される。

　さらに、第２の項のｒｅｌ（Ｃ＾（－ｒ２）＿ＪＫ、Ｃ＾（－ｑ）＿ＭＮ）は数式１４で計算される。

　数式１２～数式１４における係数及び項は、それぞれ、数式９のように定義される。

　Ｃ＾ｒ２＿Ｊは、クエリにおいてユーザが指定した文書カテゴリ値セットにおいて、Ｒ２単語ｒ２と単語カテゴリ間関係グラフ５００でのエッジを有する文書カテゴリ値セットである。Ｃ＾ｑ＿Ｍは、クエリにおいてユーザが指定したクエリカテゴリ値セットにおいて、Ｑ単語セットＱ＿ｒ２，Ｃ＿ＭのＱ単語ｑと単語カテゴリ間関係グラフ５００でのエッジを有するクエリカテゴリ値セットである。

　Ｃ＾ｒ２＿ＪＫは、データベース１１０における文書カテゴリ値セットにおいて、Ｒ２単語ｒ２とエッジを有する文書カテゴリ値セットである。Ｃ＾ｑ＿ＭＮは、データベース１１０におけるクエリカテゴリ値セットにおいて、Ｑ単語セットＱ＿ｒ２，Ｃ＿ＭのＱ単語ｑとエッジを有するクエリカテゴリ値セットである。

　関連性スコア演算部１５０は、単語カテゴリ間関係グラフ５０２（単語カテゴリ間関係テーブル６０５）を参照して、Ｒ２単語ｒ２とエッジを有する文書カテゴリ値セットを同定できる。さらに、関連性スコア演算部１５０は、単語カテゴリ間関係グラフ５０１（単語カテゴリ間関係テーブル６００）から、Ｑ単語ｑとエッジを有するクエリカテゴリ値セットを同定できる。

　カテゴリ値の頻度及びカテゴリ値の相互頻度の計算方法は、Ｒ１単語ｒ１のカテゴリ関連性スコアの演算と同様に、カテゴリ間関係グラフ７００（カテゴリ間関係テーブル８００）から決定できる。

　Ｒ２単語ｒ２のカテゴリ連結性スコアｓｒｅｌの第２の項ｃｒｅｌ（ｒ２、Ｑ＿ｒ２，Ｃ＿Ｍ）は、Ｒ２単語ｒ２とＱ単語セットＱ＿ｒ２，Ｃ＿Ｍとに関係する、クエリカテゴリ値と文書カテゴリ値との間の連結性を計算する。

　上述のように、ｃｒｅｌ（ｒ２、Ｑ＿ｒ２，Ｃ＿Ｍ）の数式１２は、二つの項を含む。数式１３を使用して算出される第１の項βｒｅｌ（Ｃ＾ｒ２＿Ｊ、Ｃ＾ｑ＿Ｍ）は、Ｃ＾ｒ２＿ＪとＣ＾ｑ＿Ｍとに連結するカテゴリ値間の連結性を示す。具体的には、当該項は、クエリにおいてユーザに指定された文書カテゴリ値においてＲ２単語ｒ２と連結する文書カテゴリ値と、クエリにおいてユーザに指定されたクエリカテゴリ値においてＱ単語セットＱ＿ｒ２，Ｃ＿Ｍと連結するクエリカテゴリ値と、の間の連結性を示す。

　数式１４を使用して算出される第２の項の（１－β）ｒｅｌ（Ｃ＾（－ｒ２）＿ＪＫ、Ｃ＾（－ｑ）＿ＭＮ）は、Ｃ＾ｒ２＿ＪとＣ＾ｑ＿Ｍとに連結しないカテゴリ値群間の関連性を示すバランス項である。具体的には、クエリで指定されていない文書カテゴリ値においてＲ２単語ｒ２と連結する文書カテゴリ値と、クエリにおいて指定されていないクエリカテゴリ値においてＱ単語セットＱ＿ｒ２，Ｃ＿Ｍと連結するクエリカテゴリ値と、の間の関連性を示す。

　Ｒ１単語のカテゴリ連結性スコアに加え、Ｒ２単語ｒ２のカテゴリ連結性スコアを算出することで、よりユーザの望みに合致した検索結果を提示することができる。

　Ｒ１単語に加えＲ２単語のカテゴリ連結性スコアを算出することで、クエリでの指定単語及び指定カテゴリ値のみに限定されず、よりユーザの望みに合致した検索結果を提示することができる。関連性スコア演算部１５０は、文書のカテゴリ連結性スコアの算出において、Ｒ１単語とＲ２単語のカテゴリ連結性スコアに異なる重み与えてもよい。Ｒ２単語のカテゴリ連結性スコアを省略してもよい。クエリにおける文書カテゴリ値は省略してもよい。

　関連性スコア演算部１５０は、上記式とは異なる式に従って、Ｒ単語のカテゴリ連結性スコアを算出してもよい。例えば、数式６において、ｆｒｅｑ（Ｃ＿Ｍ、Ｃ＾（－ｒ１）＿ＪＫ）又はｆｒｅｑ（Ｃ＾ｑ＿Ｍ、Ｃ＾（－ｒ１）＿ＪＫ）を他の項に加えて又は代えて使用してもよい。つまり、クエリで指定されたクエリカテゴリ値とＲ１単語ｒ１と連結するクエリで指定されていない文書カテゴリ値との連結性をスコアに組み込んでもよい。数式１２においても、Ｒ２単語について同様の項を使用してもよい。

　ｆｒｅｑ（Ｃ＿Ｍ、Ｃ＾（－ｒ１）＿ＪＫ）は、クエリで指定されたクエリカテゴリ値とクエリで指定されなかった文書カテゴリ値との連結性を示す。ｆｒｅｑ（Ｃ＾ｑ＿Ｍ、Ｃ＾（－ｒ１）＿ＪＫ）は、クエリにおいてユーザが指定したクエリカテゴリ値セットにおいて、Ｑ単語セットＱ＿ｒ１，Ｃ＿Ｍとエッジを有するクエリカテゴリ値と、クエリで指定されなかった文書カテゴリ値との連結性を示す。

　図１５は、ユーザが入力したクエリと、データベース１１０から選択した一つの文書との間のハイパ語彙的連結性スコアを算出する処理のフローチャートを示す。関連性スコア演算部１５０は、データベース１１０の文書それぞれについて、ハイパ語彙的連結性スコアを算出する。関連性スコア演算部１５０は、上記三つのスコアに加えてハイパ語彙的連結性スコアを算出する。または、演算部１５０は、語彙的連結性スコア及び／若しくはカテゴリ連結性スコアに代えてハイパ語彙的連結性スコアを算出する。

　関連性スコア演算部１５０は、ユーザインタフェース１４０からクエリを受信する（Ｓ１５２）。関連性スコア演算部１５０は、選択した文書から、受信したクエリタイトルのＱ単語に対するＲ１単語とＲ２単語を選択する（Ｓ３０２）。

　次に、関連性スコア演算部１５０は、選択したＲ単語から、複数のＲ単語ペアを作成する（Ｓ３０３）。各ペアは、二つのＲ１単語、二つのＲ２単語、又はＲ１単語とＲ２単語とで構成されている。

　次に、関連性スコア演算部１５０は、各ペアのハイパ語彙的連結性スコアを、単語間関係グラフ３００（単語間関係テーブル４００）、単語カテゴリ間関係グラフ５００（単語カテゴリ間関係テーブル６００、６０５）、及びカテゴリ間関係グラフ７００（カテゴリ間関係テーブル８００）を使用して算出する（Ｓ３０４）。算出方法は後述する。次に、関連性スコア演算部１５０は、算出したペアの語彙的連結性スコアを総計し、当該文書のハイパ語彙的連結性スコアを決定する（Ｓ３０５）。

　次に、ハイパ語彙的連結性スコアの算出方法を説明する。関連性スコア演算部１５０は、Ｒ１単語ｒ１のハイパ語彙的連結性スコアｐ（ｒ１、Ｃ＿Ｍ、Ｃ＿Ｊ）を数式１６に従って計算し、Ｒ２単語ｒ２のハイパ語彙的連結性スコア（ｒ２、Ｃ＿Ｍ、Ｃ＿Ｊ）を数式１７に従って計算する。

　数式１６は、クエリで指定されたクエリタイトルのＱ単語についての総和を計算し、数式１７は、クエリで指定されたクエリタイトルに対するＲ１単語についての総和を計算する。

　数式１６、１７から理解されるように、ハイパ語彙的連結性スコアは、Ｒ単語の語彙的連結性とカテゴリ連結性（の指数関数値）との積を含み、これら双方の要素を考慮したスコア示すことができる。なお、Ｒ１単語とＲ２単語のハイパ語彙的連結性スコアに、異なる重み与えてもよい。ハイパ語彙的連結性スコアにおいて、クエリにおける文書カテゴリ値やクエリカテゴリ値を省略してもよい。

　図１６は、ランク付け集約部１６０による処理を示す。ランク付け集約部１６０は、関連性スコア演算部１５０から、文書の語彙的類似性スコア６５１、語彙的連結性スコア６５２、及びカテゴリ連結性スコア６５３を取得する。

　ランク付け集約部１６０は、文書の語彙的類似性スコア６５１から、これら文書の順序リスト６５４を作成する。ランク付け集約部１６０は、文書の語彙的連結性スコア６５２から、これら文書の順序リスト６５５を作成する。ランク付け集約部１６０は、文書のカテゴリ連結性スコア６５３から、これら文書の順序リスト６５６を作成する。順序リスト６５４～６５６は、それぞれ、スコアの降順又は昇順で文書を示す。

　ランク付け集約部１６０は、三つの順序リスト６５４～６５６を集約して、一つのランク付けリスト１７０を作成する。ユーザインタフェース１４０は、ランク付けリスト１７０を表示する。

　例えば、ランク付け集約部１６０は一つの文書の順序リスト６５４～６５６の順位と所定の重み係数の積和により、当該文書の最終的なスコアを決定する。これにより、各スコアのスケールの違いを吸収できる。ランク付け集約部１６０は、三つのスコアを集約して一つのスコアを算出してもよい。例えば、ランク付け集約部１６０は、三つのスコアを単に加算する、又は、各スコアに規定の重み付けを行って加算する。

　本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

　また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示すとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

Claims

　データベースにおいてクエリに関係する文書を検索する、検索システムであって、
　クエリタイトル、前記クエリタイトルに割り当てられている文書、前記クエリタイトルに割り当てられているクエリカテゴリ値、及び前記文書に割り当てられている文書カテゴリ値、を格納する、データベースと、
　前記データベースにおける文書内の文書単語と前記文書カテゴリ値との連結関係を示す、単語カテゴリ間関係グラフと、
　前記データベースにおける前記文書カテゴリ値と前記クエリカテゴリ値との間の連結関係を示す、カテゴリ間関係グラフと、
　プロセッサと、を含み、
　前記プロセッサは、
　クエリタイトルと、クエリカテゴリ値と、を指定するクエリを受信し、
　前記データベースからの文書の選択と、前記選択した文書の前記クエリに対するスコアの決定と、を繰り返し、
　前記文書のスコアに基づいて前記文書をランク付けし、
　前記選択された文書のスコアの決定において、
　前記単語カテゴリ間関係グラフにおいて、前記選択された文書内の文書単語に連結する文書カテゴリ値を決定し、
　前記カテゴリ間関係グラフにおける前記決定された文書カテゴリ値と前記指定されたクエリカテゴリ値との連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索システム。
　請求項１に記載の検索システムであって、
　前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記単語カテゴリ間関係グラフは、前記データベースにおけるクエリタイトル内のクエリ単語とクエリカテゴリ値との間の連結関係をさらに示し、
　前記プロセッサは、
　前記単語間関係グラフ及び前記単語カテゴリ間関係グラフに基づき、前記クエリで指定されたクエリカテゴリ値及び前記選択された文書内の文書単語と連結するクエリ単語を決定し、
　前記単語カテゴリ間関係グラフにおける、前記決定されたクエリ単語と、当該決定されたクエリ単語と連結するクエリカテゴリ値と、の連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索システム。
　請求項２に記載の検索システムであって、
　前記プロセッサは、
　前記単語カテゴリ間関係グラフにおいて、前記クエリで指定されたクエリタイトル内のクエリ単語と連結するクエリカテゴリ値を決定し
　前記カテゴリ間関係グラフにおける前記決定された文書カテゴリ値とクエリカテゴリ値との連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索システム。
　請求項１に記載の検索システムであって、
　前記プロセッサは、
　前記データベースにおいて前記クエリで指定されたクエリタイトル内のクエリ単語と共起する第１種文書単語、及び前記データベースにおいて前記第１種文書単語と共起する第２種文書単語を、前記選択された文書から選択し、
　前記選択された文書から選択された第１種文書単語及び第２種文書単語に基づいて、前記選択された文書のスコアを決定する、検索システム。
　請求項１に記載の検索システムであって、
　前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記プロセッサは、
　前記データベースにおいて前記クエリで指定されたクエリタイトル内のクエリ単語と共起する第１種文書単語、及び前記データベースにおいて前記第１種文書単語と共起する第２種文書単語を、前記選択された文書から選択し、
　前記単語間関係グラフにおける、前記指定されたクエリタイトル内のクエリ単語と前記第１種文書単語と間の連結関係、及び、前記第１種文書単語と前記第２種文書単語との連結関係、に基づき、前記選択された文書の前記クエリに対する第２スコアを決定し、
　前記第２スコアに基づき前記文書をランク付けする、検索システム。
　請求項１に記載の検索システムであって、
　前記プロセッサは、前記クエリにおいて指定されたクエリタイトル内の索引語による数値ベクトルと、前記選択された文書内の前記索引語による数値ベクトルとに基づき、前記選択された文書の前記クエリに対する第２スコアを決定し、
　前記第２スコアに基づき前記文書をランク付けする、検索システム。
　請求項１に記載の検索システムであって、
　前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記プロセッサは、前記クエリで指定されたクエリタイトル内のクエリ単語と前記選択された文書内の文書単語との前記単語間関係グラフにおける連結関係に基づき、前記選択された文書の前記クエリに対するスコアを算出する、検索システム。
　データベースにおいてクエリに関係する文書を検索する検索システムが実行する、検索方法であって、
　前記検索システムは、
　クエリタイトル、前記クエリタイトルに割り当てられた文書、前記クエリタイトルに割り当てられているクエリカテゴリ値、及び前記文書に割り当てられている文書カテゴリ値、を格納する、データベースと、
　前記データベースにおける文書内の文書単語と前記文書カテゴリ値との連結関係を示す、単語カテゴリ間関係グラフと、
　前記データベースにおける前記文書カテゴリ値と前記クエリカテゴリ値との間の連結関係を示す、カテゴリ間関係グラフと、を含み、
　前記検索方法は、前記検索システムが、
　クエリタイトルと、クエリカテゴリ値と、を指定するクエリを受信し、
　前記データベースからの文書の選択と、前記選択した文書の前記クエリに対するスコアの決定と、を繰り返し、
　前記文書のスコアに基づいて前記文書をランク付けし、
　前記選択された文書のスコアの決定において、
　前記単語カテゴリ間関係グラフに基づいて、前記選択された文書内の文書単語に連結する文書カテゴリ値を決定し、
　前記カテゴリ間関係グラフにおける前記決定された文書カテゴリ値と前記指定されたクエリカテゴリ値との連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索方法。
　請求項８に記載の検索方法であって、
　前記検索システムは、前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記単語カテゴリ間関係グラフは、前記データベースにおけるクエリタイトル内のクエリ単語とクエリカテゴリ値との間の連結関係をさらに示し、
　前記検索方法は、前記検索システムが、
　前記単語間関係グラフ及び前記単語カテゴリ間関係グラフに基づき、前記クエリで指定されたクエリカテゴリ値及び前記選択された文書内の文書単語と連結するクエリ単語を決定し、
　前記単語カテゴリ間関係グラフにおける、前記決定されたクエリ単語と、当該決定された連結するクエリ単語と連結するクエリカテゴリ値と、の連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索方法。
　請求項９に記載の検索方法であって、前記検索システムが、
　前記単語カテゴリ間関係グラフにおいて、前記選択された文書内の文書単語と連結する文書カテゴリ値を決定し、
　前記単語カテゴリ間関係グラフにおいて、前記クエリで指定されたクエリタイトル内のクエリ単語と連結するクエリカテゴリ値を決定し
　前記カテゴリ間関係グラフにおける前記決定された文書カテゴリ値とクエリカテゴリ値との連結関係に基づいて、前記選択された文書の前記クエリに対するスコアを決定する、検索方法。
　請求項８に記載の検索方法であって、前記検索システムが、
　前記データベースにおいて前記クエリで指定されたクエリタイトル内のクエリ単語と共起する第１種文書単語、及び前記データベースにおいて前記第１種文書単語と共起する第２種文書単語を、前記選択された文書から選択し、
　前記選択された文書から選択された第１種文書単語及び第２種文書単語に基づいて、前記選択された文書のスコアを決定する、検索方法。
　請求項８に記載の検索方法であって、
　前記検索システムは、前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記検索方法は、前記検索システムが、
　前記データベースにおいて前記クエリで指定されたクエリタイトル内のクエリ単語と共起する第１種文書単語、及び前記データベースにおいて前記第１種文書単語と共起する第２種文書単語を、前記選択された文書から選択し、
　前記単語間関係グラフにおける、前記指定されたクエリタイトル内のクエリ単語と前記第１種文書単語と間の連結関係、及び、前記第１種文書単語と前記第２種文書単語との連結関係、に基づき、前記選択された文書の前記クエリに対する第２スコアを決定し、
　前記第２スコアに基づき前記文書をランク付けする、検索方法。
　請求項８に記載の検索方法であって、前記検索システムが、
　前記クエリにおいて指定されたクエリタイトルの索引語による数値ベクトルと、前記選択された文書の前記索引語による数値ベクトルとに基づき、前記選択された文書の前記クエリに対する第２スコアを決定し、
　前記第２スコアに基づき前記文書をランク付けする、検索方法。
　請求項８に記載の検索方法であって、
　前記検索システムは、前記データベースにおける文書及びクエリタイトル内の単語間の連結関係を示す、単語間関係グラフをさらに含み、
　前記検索方法は、前記検索システムが、前記クエリで指定されたクエリタイトル内のクエリ単語と前記選択された文書内の文書単語との前記単語間関係グラフにおける連結関係に基づき、前記スコアを算出する、検索方法。