WO2009136426A1

WO2009136426A1 - 検索クエリ提供装置

Info

Publication number: WO2009136426A1
Application number: PCT/JP2008/001159
Authority: WO
Inventors: 三上崇志; 平野敬; 相川勇之
Original assignee: 三菱電機株式会社
Priority date: 2008-05-08
Filing date: 2008-05-08
Publication date: 2009-11-12

Abstract

文書データ格納部１は検索対象となる文書データを格納する。文書構造ネットワーク構築部２は、この文書データに含まれる重要語句を重要語句ノードとして、各重要語句ノードを重要性に応じた階層に分類すると共に、同一の自立語を含む重要語句ノードを互いにリンクさせた文書構造ネットワーク３を構築する。重要語句探索部７は、検索語入力部４から検索者が入力した検索語に一致する重要語句文字列を有する重要語句ノードを文書構造ネットワーク３から探索して、検索語ノードとして出力し、タイトルノード抽出部８が検索語ノードのリンクを辿り、最も重要性の高い最上階層に分類されたタイトルノードを抽出する。検索クエリ提示部６は、検索語入力部４から入力した検索語を含む検索クエリに追加する新たな追加検索語の候補としてタイトルノードの重要語句文字列を検索者に提示する。

Description

検索クエリ提供装置

　この発明は、ユーザが入力した検索語に基づく検索クエリを生成する検索クエリ提供装置に関するものである。

　文書集合から所望の文書を特定する場合、文書から所望のページを特定する場合等に全文検索技術が用いられる。全文検索とは、単語または文章を用いた検索クエリに合致する文書およびページを取得する技術である。全文検索技術を用いた検索装置は、ＡＮＤ検索を行った場合には検索クエリに含まれる単語を全て含む文書およびページを取得し、ＯＲ検索を行った場合には検索クエリに含まれる単語のうちのいずれかを含む文書およびページを取得する。

　所望の文書またはページを取得するためには適切な検索クエリを用いる必要があるが、検索者が適切な検索クエリを容易に作成できるとは限らない。そこで、検索者が入力した検索語に続けて、関連する単語を提示して、検索クエリの作成補助を行うサジェスト技術が提案されている。サジェスト技術を利用すれば、検索者は提示された単語を選択するだけで、簡単に検索クエリを作成することができた。

　しかしながら、サジェスト技術が提示した単語を追加して作成した検索クエリを用いて検索した結果、合致した文書およびページ件数が０件になったり、単語を追加しても追加しなくても同じ検索結果になったりすることがある。このような検索結果になってしまうのでは、サジェスト技術が適切な単語を提示したとはいえない。そこで、例えば特許文献１では、文書検索装置が検索結果数を利用した評価関数により単語に順位をつけ、その順序で単語を提示していた。

特許第３４２２３５０号

　従来の検索クエリ提供装置は以上のように構成されているので、提示した追加検索語を含めた検索クエリを用いて検索した場合の検索結果の分散性について考慮されていないという課題があった。例えば、「電話番号」が検索語として入力され、検索クエリ提供装置が「電話機能」、「電話帳」、「登録・編集」という関連語を追加検索語として提示した場合を考える。検索クエリ「電話番号　電話機能」を用いて検索した検索結果と検索クエリ「電話番号　電話帳」を用いて検索した検索結果を比較して、互いの検索結果ページに重複が多い場合、「電話機能」および「電話帳」の追加検索語は検索結果を絞り込む方向が同じである。従って、この２つの追加検索語をそれぞれ用いて作成された２つの検索クエリは、実質的に同じ検索クエリということになる。そのため、この検索クエリ提供装置は「電話番号　電話機能」（＝「電話番号　電話帳」）および「電話番号　登録・編集」の２種類の検索クエリしか提供できなかったことになる。

　カーナビゲーション装置、携帯電話等の画面の小さな機器に文書検索装置を適用した場合、同時に表示できる検索クエリ数が限られるため、多くの検索クエリを一度に提示できない。そのため、検索結果ページの多くが重複するような検索結果になるとすれば、複数の検索クエリを提供してもそれらは有効ではない。

　この発明は、上記のような課題を解決するためになされたもので、単一文書内の全文検索において各単語が重要度および関連性に基づいてリンクした文書構造ネットワークを利用して抽出した追加検索語を提示することで、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することを目的とする。

　この発明に係る検索クエリ提供装置は、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造から、任意の検索語に一致する語句のノードを探索して、検索語ノードとして出力する重要語句探索部と、重要語句探索部で探索した検索語ノードが属する階層構造のうち、最も重要性の高い最上階層に分類されたノードを抽出するタイトルノード抽出部と、任意の検索語を含む検索クエリに追加する新たな検索語の候補として、タイトルノード抽出部で抽出したノードの語句を提示する検索クエリ提示部とを備えるようにしたものである。

　この発明によれば、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造からなる文書構造ネットワークから、任意の検索語に一致する語句のノードを探索して検索語ノードとし、この検索語ノードが属する階層構造のうち、最も重要性の高い最上階層に分類されたノードの語句を、任意の検索語を含む検索クエリに追加する新たな検索語の候補として提示するようにしたので、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することが可能となる。

この発明の実施の形態１に係る検索クエリ提供装置の全体構成を示すブロック図である。この発明の実施の形態１に係る検索クエリ提供装置で用いる文書データの一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部を示すブロック図である。この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部に入力される章節構造の一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置のレイアウト解析部が抽出したレイアウト情報データの一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置のテキスト解析部１６が抽出した文節解析結果の一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の重要語句評価部によるスコア計算方法の一例を示す説明図である。の発明の実施の形態１に係る検索クエリ提供装置の重要語句評価部が出力したスコア付き重要語句データの一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部の動作を示すフローチャートである。この発明の実施の形態１に係る検索クエリ提供装置の重要語句抽出部による重要語句抽出の一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワークの一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の動作を示すフローチャートである。この発明の実施の形態１に係る検索クエリ提供装置の追加検索語リストの一例を示す説明図である。この発明の実施の形態１に係る検索クエリ提供装置の検索クエリ提示部が提示する検索クエリの一例を示す説明図である。この発明の実施の形態２に係る検索クエリ提供装置の全体構成を示すブロック図である。この発明の実施の形態２に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。この発明の実施の形態２に係る検索クエリ提供装置の子孫検索語ノード数付加部の動作を示すフローチャートである。この発明の実施の形態３に係る検索クエリ提供装置の全体構成を示すブロック図である。この発明の実施の形態３に係る検索クエリ提供装置の検索クエリ提示部が階層的に提示する検索クエリの一例を示す説明図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る検索クエリ提供装置の全体構成を示すブロック図である。図１に示す検索クエリ提供装置は、検索対象の文書データを格納した文書データ格納部１、文書データ格納部１の文書データを解析して、文書内に含まれる重要語句文字列を構成要素（以下ノードとする）として、各ノードが重要語句の関連性でリンクされたネットワークを構築する文書構造ネットワーク構築部２、文書構造ネットワーク構築部２によって構築される文書構造ネットワーク３、ユーザが入力する検索語を受け付ける検索語入力部４、検索語を用いて文書構造ネットワーク３から検索語と関係のある重要語句を抽出する検索クエリ作成部５、抽出した重要語句を検索クエリに含める追加検索語としてユーザに提示する検索クエリ提示部６を備える。検索クエリ作成部５は、検索語に一致する重要語句を文書構造ネットワーク３から探索する重要語句探索部７、および文書構造ネットワーク３を構成する各ノードのうち、子孫ノードに重要語句を含むものを抽出するタイトルノード抽出部８を備える。追加検索語とは、検索者が入力した検索語とＡＮＤ検索を行うための追加の検索語であり、検索クエリとは検索語および追加検索語を含む単語列または文章である。

　図２は、この発明の実施の形態１に係る検索クエリ提供装置で用いる文書データの一例を示す説明図である。ここではカーナビゲーション装置の説明書の一部を示す。図１に示す文書データ格納部１は、図２に示すような文書データを格納している。図２に示す説明書は、ページ番号、章および節番号が割り当てられた見出し、本文、画像等からなる。

　図３は、この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部を示すブロック図である。図３において図１と同一または相当の部分については同一の符号を付し説明を省略する。図３に示す文書構造ネットワーク構築部２は、文書データに含まれ、後述するブートストラップ処理の初期値として使用するための０次重要語句１２の入力、および０次重要語句１２をもとにブートストラップ処理により重要語句を抽出する範囲を定義するための目次情報となる章節構造データ１３の入力を初期情報入力部１１で受け付ける。

　図４は、この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部に入力される章節構造の一例を示す説明図である。図４に示す章節構造データ１３は、図２に示す文書データに基づき、章１３ａ、節１３ｂ、各章節の見出し１３ｃ、各章節の開始ページ１３ｄ、各章節の終了ページ１３ｅから構成される。なお、本実施の形態では説明を簡略にするために節１３ｂが１階層の例を示すが、もとにする文書データが「１．２．３．４節」のように複数階層になっている場合には節１３ｂを第１階層節とし、第２階層節、第３階層節、第４階層節の記載欄を設ければよい。

　図３に示す０次重要語句１２は、図４に示す章節構造データ１３の各章節に対応して種情報として与えるテキスト情報である。ここでは見出し１３ｃを０次重要語句として用いるが、これに限定されるものではなく、章、節または項等の見出しを用いればよい。

　レイアウト解析部１４は、文書データ格納部１が格納する重要語句抽出対象である文書データを解析し、文書フォーマット情報に基づいてフォント情報、文字位置情報、ページ情報、テキスト情報等を含むレイアウト情報データ１５を抽出する。図５は、この発明の実施の形態１に係る検索クエリ提供装置のレイアウト解析部が抽出するレイアウト情報データの一例を示す説明図である。図５に示すレイアウト情報データ１５は図３に示す文書データをレイアウト解析部１４が解析して抽出したものである。レイアウト情報データ１５は、同一フォントからなる一群の文章に対応して付与される連番であるブロック番号１５ａ、その文章が記載されているページ位置を示すページ番号１５ｂ、ページ内におけるその文章の記載位置を２次元の座標値により示す位置情報１５ｃ、その文章に使用されたフォント名１５ｄ、そのフォントサイズ１５ｅ、その文章のテキスト情報１５ｆから構成される。なお、レイアウト解析部１４におけるレイアウト解析方法については公知の技術であるため詳細な説明を省略する。

　テキスト解析部１６は、レイアウト情報データ１５のテキスト情報１５ｆを入力にして、公知の形態素解析技術によりテキスト情報１５ｆを意味を持つ最小の単位である形態素に分割し、対象テキストが日本語や中国語の場合は公知の複合語処理により各形態素の品詞情報に基づいて文節単位にまとめて各文節を１レコードにした文節解析結果１７を出力する。図６は、この発明の実施の形態１に係る検索クエリ提供装置のテキスト解析部１６が抽出した文節解析結果の一例を示す説明図である。図６に示す文節解析結果１７において、ブロック番号１７ａ、ページ番号１７ｂ、位置情報１７ｃ、フォント名１７ｄ、フォントサイズ１７ｅの各項目の情報は、入力に用いた図５に示すレイアウト情報データ１５の同一名項目の情報と同じである。文節解析結果１７は、これら各項目１７ａ～１７ｅに加えて、文節内のより細かな単位である形態素（スラッシュ／で示す）の分割情報である形態素分割情報１７ｆ、文節中の自立語部分の見出し情報１７ｇ、自立語の品詞情報１７ｈから構成される。

　自立語抽出部１８は、初期情報である０次重要語句１２を含むｎ次重要語句２１から、０次～ｎ－１次の自立語に含まれていない自立語見出しを抽出し、ｎ次自立語１９を抽出する。なお、図３では説明を簡略にするために図示していないが、初期情報入力部１１から入力した０次重要語句１２も、テキスト解析部１６により文節単位に分割されているものとする。日本語の場合は、０次重要語句である「観光地のルートを設定する」を例にすると、自立語抽出部１８は文節解析結果１７の自立語見出し情報１７ｇに基づき、「観光地のルートを設定する」から１次自立語「観光地」、「ルート」、「設定」を抽出する。英語など欧米語の場合は上記の自立語として名詞や動詞を抽出する。

　重要語句抽出部２０は、初期情報入力部１１から入力した章節構造データ１３および自立語抽出部１８から入力したｎ次自立語１９を用いて、文節解析結果１７からｎ次重要語句２１を抽出する。このとき、重要語句抽出部２０は、章節毎に文節解析結果１７からｎ次自立語１９を含み、かつ、０次～ｎ－１次の重要語句に含まれていない重要語句を抽出する。重要語句に含む文節の数は任意に設定すればよく、本実施の形態では同一節からブロック番号毎に１～４個の連続文節を抽出する。例えば１次自立語「観光地」を含む１～４個の連続文節には「各都道府県の観光地」、「各都道府県の観光地をまわる」、「各都道府県の観光地をまわるルート」が該当するため、重要語句抽出部２０がこれらを１次重要語句として抽出する。

　重要語句評価部２２は、重要語句抽出部２０により抽出された１次～ｎ次の各重要語句について、重要性を示す評価値を計算して、スコア付き重要語句データ２３を出力する。図７は、この発明の実施の形態１に係る検索クエリ提供装置の重要語句評価部によるスコア計算方法の一例を示す説明図である。

　ここでは、重要語句評価部２２がフォントサイズ、表層格情報、文字数、禁止語句の４項目の評価値をそれぞれ算出して、それらの評価値をもとにスコアを計算する例を用いて説明する。図７に示す評価値ＳＳａは、重要語句のフォントサイズに基づく重要度である。重要語句評価部２２は、フォントサイズが大きい重要語句を重要度が高いと判定する。ここでは、０次重要語句のフォントサイズ分布に基づき閾値ＴＨｆが算出されることとする。例えば、重要語句評価部２２は、文書データ中に出現する各０次重要語句のフォントサイズ最大値を求め、各０次重要語句のフォントサイズ最大値のうち最小の値を閾値ＴＨｆとする。そして、この閾値ＴＨｆ以上のフォントサイズをもつ重要語句には評価値０．９を与え、閾値ＴＨｆ未満であれば評価値０．１を与える。なお、評価値ＳＳａは、離散値（０．９および０．１）ではなく、フォントサイズを引数とする関数により算出される連続値であってもよい。

　評価値ＳＳｂは、各重要語句の前後関係と構文的な接続関係とにより計算される、表層格に基づく重要度である。各重要語句の表層格情報は、文節解析結果１７の形態素分割情報１７ｆ（図６）を参照して抽出される。重要語句評価部２２は、日本語の場合、重要度算出対象である重要語句の直前の文節が「を」格または「が」格で終了し、かつ用言であれば、意味的に完結していない語句である可能性が高いので重要ではないと判定する。例えば、「まわる」という重要語句は、直前の文節「観光地を」が「を」格で終了し、かつ用言であるので、重要語句評価部２２は意味的な簡潔性が低く、重要ではないと判定して低い評価値ＳＳｂを与える。また、重要度算出対象である重要語句の１個前よりも２個前以上の文節が「を」格または「が」格で終了する場合は、重要度算出対象である重要語句が意味的に完結している可能性が高くなるので、重要語句評価部２２は直前の文節が「を」格で終了する重要語句より２個前以上の文節が「を」格で終了する重要語句に高い評価値ＳＳｂを与える。

　英語など欧米語の場合、重要語句評価部２２は重要語句の文中における格や文構造により統合的に評価値ＳＳｂを与える。例えば重要語句が主語や目的語になっている場合は、付属語の場合よりも重要である可能性が高くなるのでより高い評価値ＳＳｂが与えられる。

　評価値ＳＳｃは、重要語句の文字数に基づく重要度である。本実施の形態では、検索結果を絞り込むための追加検索語を提示することを想定しているため、文字数が多すぎもせず、少なすぎもしない適切な長さの重要語句が重要と判定される。重要語句評価部２２は、そのための基準として、０次重要語句の文字数分布を用いて重要度算出対象の重要語句を評価する。例えば、文字数毎の０次重要語句数を求め、全０次重要語句数で除算することにより、文字数毎の０次重要語句出現確率を算出し、評価値ＳＳｃとする。重要語句評価部２２は重要度算出対象の重要語句に、文字数に応じた０次重要語句出現確率を評価値として与える。ただし、０次重要語句出現確率が０であった文字数の評価値ＳＳｃは０．０１とする。また、この０次重要語句出現確率を公知の手法によって補間した値を用いてもよい。さらに、重要度算出対象の重要語句が括弧表現を含む場合は、括弧部分を除いた文字数が支配的となるような文字数計算を行うものとする。

　評価値ＳＳｄは、禁止語句辞書（不図示）に予め登録してある禁止語句の有無に基づく重要度である。禁止語句辞書に例えば「上記」、「左図」、「下表」等の参照表現を禁止語句として登録しておき、重要語句評価部２２は重要度算出対象の重要語句がこれら禁止語句を含む場合は重要でないと判定して、低い評価値ＳＳｄを与える。また、「以上」、「以下」等の数量表現にも用いられる参照表現については、重要語句評価部２２は数量表現として用いられているか、参照表現として用いられているかを判定し、数量表現以外に用いられている場合に重要でないと判定する。

　重要語句評価部２２は、算出した評価値ＳＳａ，ＳＳｂ，ＳＳｃ，ＳＳｄをもとに、ｎ次の重みとして１未満の実数である減衰率Ｋ（例えばＫ＝０．９）を用いて、下記式（１）により重要語句のスコアを算出し、スコア付き重要語句データ２３を出力する。
　重要語句スコア＝Ｋⁿ×（ＳＳａ×ＳＳｂ×ＳＳｃ×ＳＳｄ）　　　（１）

　次に、文書データ格納部１の文書データを解析して文書構造ネットワーク３を構築する文書構造ネットワーク構築部２の動作を、図２から図９を用いて説明する。図９は、この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワーク構築部の動作を示すフローチャートである。図９に示すステップＳＴ１において、図３に示す初期情報入力部１１が０次重要語句１２および章節構造データ１３の入力を受け付け、これらを自立語抽出部１８および重要語句抽出部２０の初期情報に設定する。ここでは図２の文書データ中の５．２節を用いた文書構造ネットワークを構築する例を説明する。

　ステップＳＴ２において、レイアウト解析部１４が文書データ格納部１に格納された文書データのレイアウトを解析し、図５に示すレイアウト情報データ１５を抽出する。レイアウト解析部１４はレイアウト情報データ１５をテキスト解析部１６および重要語句抽出部２０へ出力する。

　ステップＳＴ３において、テキスト解析部１６がレイアウト情報データ１５のテキスト情報１５ｆを解析して、テキストを文節単位に分割した文節解析結果１７を生成する。テキスト解析部１６はこの文節解析結果１７を重要語句抽出部２０に出力する。

　ステップＳＴ４において、自立語抽出部１８が文節解析結果１７の自立語見出し情報１７ｇに基づき、０次重要語句１２から１次自立語を抽出する。図１０は、この発明の実施の形態１に係る検索クエリ提供装置の重要語句抽出部による重要語句抽出の一例を示す説明図である。図１０において、最上階層に示す０次重要語句は、初期情報入力部１１から入力した章節構造データ１３の見出し１３ｃである。第２階層は、０次重要語句である「観光地のルートを設定する」から自立語抽出部１８によって抽出された１次自立語の「観光地」、「ルート」、「設定」である。

　ステップＳＴ５において、重要語句抽出部２０が１次自立語を含む１次重要語句を文節解析結果１７から抽出する。上述したように、重要語句抽出部２０は５．２節から１～４個の連続文節を抽出するよう設定されているため、ブロック番号「５０２」から抽出され、１次自立語「観光地」を含む１次重要語句は「各都道府県の観光地」、「各都道府県の観光地をまわる」、「各都道府県の観光地をまわるルート」である。図１０に示すように、別のブロック番号からは、「観光地の文字情報」、「観光地の文字情報を確認」という１次重要語句が抽出される。

　文書構造ネットワーク構築部２は、重要語句抽出部２０で抽出する拡張語句がある限りステップＳＴ４およびステップＳＴ５の処理を繰り返す（ステップＳＴ６）。再びステップＳＴ４において、自立語抽出部１８が１次重要語句から２次自立語を抽出する。このとき、自立語抽出部１８は２次より階層が上の自立語である「観光地」、「ルート」を抽出しない設定のため、抽出される２次自立語は図１０に示す「各都道府県」、「文字情報」となる。

　続くステップＳＴ５において、重要語句抽出部２０が２次自立語を含む２次重要語句を文節解析結果１７から抽出する。このとき、重要語句抽出部２０は２次より階層が上の重要語句を抽出しない設定のため、抽出される２次重要語句は「各都道府県」、「文字情報」、「写真・文字情報のみかた」等となる。重要語句抽出部２０は以下同様に３次以降のｎ次重要語句を順次抽出する。このように文書構造ネットワーク構築部２のブートストラップ処理で、ｎ－１次の重要語句を手がかりにして章節内の関連する語句を順次抽出することにより、見出しのように強調表現されていない語句であっても０次重要語句に関連する語句として簡便に抽出することができ、複雑な抽出ルールを記述するという手間をかける必要がない。

　他方、５．２節の文書データにｎ次重要語句２１から抽出可能なｎ次自立語がなくなると（ステップＳＴ６“Ｎｏ”）、処理はステップＳＴ７へ進む。ステップＳＴ７において、重要語句評価部２２が図７に示すような評価値算出方法を用いて、１次～ｎ次の重要語句毎に評価値ＳＳａ，ＳＳｂ，ＳＳｃ，ＳＳｄを算出し、上記式（１）に従ってスコア付き重要語句データ２３を作成する。図８は、この発明の実施の形態１に係る検索クエリ提供装置の重要語句評価部が出力したスコア付き重要語句データの一例を示す説明図である。図８に示すスコア付き重要語句データ２３は、重要語句２３ａとそのスコア２３ｂとからなる。

　図１１は、この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワークの一例を示す説明図である。図１１に示す文書構造ネットワーク３は、文書構造ネットワーク構築部２が文書データ２４の１章および２章をそれぞれ用いて作成した文書構造２５，２６の例である。この例では文書構造ネットワーク構築部２が、０次重要語句に章見出しを用いて文書構造ネットワーク３を構築した。この文書構造ネットワーク３は、文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類すると共に、同一の自立語（対象語）を含む重要語句に応じた各ノードが互いにリンクしてなる。一点鎖線四角枠は文書構造２５，２６の境界を示す。文書構造ネットワーク３には、実線四角枠で囲った重要語句ノードおよび破線四角枠で囲った自立語ノードが存在する。破線丸枠で囲った重要語句ノードは、同一の自立語から抽出された重要語句ノードであることを示す。なお、図１１では一部の図示を省略している。

　また、文書構造ネットワーク３中の各重要語句ノードは固有のノードＩＤを有すると共に、図１２に示すノード情報を有し、ノードＩＤの関連付けによってネットワークが構築されている。図１２は、この発明の実施の形態１に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。このノード情報には、ノードの重要語句文字列、ノードＩＤ、このノードと直接接続し、このノードより１つ階層が下の子ノードのノードＩＤ配列、このノードと直接接続し、このノードより１つ階層が上の親ノードのノードＩＤ配列、重要語句のスコアが含まれる。

　例えば、あるノードを始点として、この始点のノードが有する親ノードＩＤまたは子ノードＩＤを参照すれば、始点のノードと直接リンクしている１階層上または下のノードを辿ることができ、さらに前記１階層上または下のノードが有する親ノードＩＤまたは子ノードＩＤを参照すれば、始点のノードと間接的にリンクしている２階層上または下のノードを辿ることができる。なお、図１２に示すノード情報はネットワーク構造を構築するための一例であって、その他の情報に従ってネットワーク構造を構築してもよい。

　図１に示す重要語句探索部７は、検索語入力部４が受け付けた検索者の入力した検索語を、文書構造ネットワーク３の各ノードから探索し、検索語に一致した全ての重要語句ノードを検索語ノードとして取得する。例えば、検索語が「電話番号」である場合には、図１１に示す文書構造ネットワーク３から検索語ノード２９，３０，３１を取得する。重要語句探索部７が検索語ノードを探索するために、例えば文書構造ネットワーク３とは別に、重要語句全てを含み、辞書順に配列したデータを用意しておく。重要語句探索部７はこの重要語句の配列を二分探索することにより検索語ノードの探索が可能である。なお、検索語ノードを探索する方法は二分探索方法に限定されるものではなく、文字列を検索する方法であればよい。

　タイトルノード抽出部８は、重要語句探索部７が取得した各検索語ノードから親ノードＩＤを辿り、各検索語ノードが属するネットワークのタイトルノードを抽出する。本実施の形態では、章節見出しをなす０次重要語句を有する重要語句ノードをタイトルノードとする。タイトルノード抽出部８は、例えば図１１に示すように検索語ノード２９からタイトルノード２７を抽出し、検索語ノード３０および検索語ノード３１からタイトルノード２８を抽出する。抽出したタイトルノードが有する重要語句は、図１４に示す追加検索語リストに追加される。図１４は、この発明の実施の形態１に係る検索クエリ提供装置のタイトルノード抽出部が有する追加検索語リストの一例を示す説明図である。追加検索語リストは、ノードＩＤおよびそのノードが有する重要語句文字列からなる。

　タイトルノード抽出部８の動作を、重要語句探索部７から「電話番号」の検索語ノード２９，３０，３１が入力された場合を例に用いて説明する。タイトルノード抽出部８は図１１に示す１章の文書構造２５から検索された検索語ノード２９「電話番号」が有する親ノードＩＤ情報を用いて、親ノードＩＤを辿った１階層上の重要語句ノード３２「電話番号で探す」を得る。このノードは親ノードＩＤ情報を有し、タイトルノードではないため、タイトルノード抽出部８はさらにこの重要語句ノード３２が有する親ノードＩＤを辿って、１階層上の重要語句ノード「目的地を探す」を得る。この重要語句ノードは最上階層であって親ノードＩＤ情報がないため、タイトルノード抽出部８がこれをタイトルノード２７と判断して、追加検索語リストに追加する。

　また、タイトルノード抽出部８は、２章の文書構造２６から検索された検索語ノード３０「電話番号」を始点にして、親ノードＩＤを辿ってタイトルノード２８「電話を使う」を得て、追加検索語リストに追加する。さらに、検索語ノード３１「電話番号」からも同じタイトルノード２８「電話を使う」が得られるが、既に同一の重要語句が追加検索語リストに存在しているため追加する必要はない。

　検索クエリ提示部６は、タイトルノード抽出部８が作成した追加検索語リストを用いて、検索者が入力した検索語に追加検索語を追加して検索クエリを作成し、検索者に提示する。図１４に示す追加検索語リストを用いた場合、検索クエリ提示部６は「電話番号　目的地を探す」、「電話番号　電話を使う」という２種類の検索クエリを作成し、図１５に示すように提示する。図１５は、この発明の実施の形態１に係る検索クエリ提供装置の検索クエリ提示部が提示する検索クエリの一例を示す説明図である。

　次に、検索クエリ提供装置の動作を説明する。図１３は、この発明の実施の形態１に係る検索クエリ提供装置の動作を示すフローチャートである。図１３に示すステップＳＴ１１において、検索語入力部４が検索語を受け付け、重要語句探索部７へ出力する。

　ステップＳＴ１２において、重要語句探索部７が文書構造ネットワーク３から検索語に一致する検索語ノードを全て取得し、タイトルノード抽出部８へ出力する。ステップＳＴ１３において、タイトルノード抽出部９が各検索語ノードの有する親ノードＩＤ情報、ならびに各ノードの有するノードＩＤおよび親ノードＩＤ情報を用いて、検索語ノードが属するタイトルノードをそれぞれ抽出し、検索クエリ提示部６へ出力する。ステップＳＴ１４において、検索クエリ提示部６がタイトルノードの有する重要語句文字列情報を、検索者が入力した検索語に続けて追加して、新たな検索クエリを複数提示する。

　各追加検索語は異なる文書構造からそれぞれ抽出されるため、これらの追加検索語を含む各検索クエリを用いて検索を行うことにより、検索結果ページは重複が少なく、検索対象の文書データ全体にわたって分散させることができる。

　このように、文書データ作成者が作成したレイアウト情報、章節構造等に従ってテキストを分類し、文書構造ネットワークを構築したため、追加検索語として抽出した重要語句を文書データ作成者の分類基準で分類した重要語句とみなすことができる。さらにこれらの重要語句を含めた検索クエリを用いて文書データを検索すれば、文書データ作成者の分類基準で分類された検索結果になることが期待できる。

　なお、追加検索語リストの重要語句数が多く、検索クエリ提示部６が一度に全ての検索クエリを検索者に提示できない場合には、各ノードが有するスコア情報を用いて、重要度の高い順等の規定に基づき所定数の追加検索語を選択して、検索クエリを作成・提示する構成であってもよい。検索クエリの提示数は、検索クエリを表示する画面の大きさ等の制限によって決定しても、他の基準に従って決定してもよい。

　以上のように、実施の形態１によれば、文書データ格納部１に格納した文書データに含まれる重要語句を重要語句ノードとして、各重要語句ノードを重要性に応じて各階層に分類すると共に、同一の自立語を含む重要語句に応じた重要語句ノードを互いにリンクさせてなる文書構造ネットワーク３を構築する文書構造ネットワーク構築部２と、検索語入力部４から検索者が入力した検索語に一致する重要語句文字列を有する重要語句ノードを文書構造ネットワーク３から探索して、検索語ノードとして出力する重要語句探索部７と、重要語句探索部７で探索した検索語ノードのリンクを辿り、最も重要性の高い最上階層に分類されたタイトルノードを抽出するタイトルノード抽出部８と、検索語入力部４から入力した検索語を含む検索クエリに追加する新たな追加検索語の候補として、タイトルノード抽出部８で抽出した重要語句ノードの重要語句文字列を提示する検索クエリ提示部６とを備えるように構成した。そのため、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提示することが可能となる。

　また、実施の形態１によれば、文書構造ネットワーク構築部２は、文書データ格納部１に格納した文書データの章、節または項の見出しに含まれる語句を最も重要性の高い最上階層に分類するように構成した。そのため、文書データ作成者の分類基準に従って重要語句を分類することが可能となる。

　さらに、実施の形態１によれば、評価値ＳＳａ，ＳＳｂ，ＳＳｃ，ＳＳｄを用いて、式（１）に従い重要語句のスコアを算出する重要語句評価部２２を備え、検索クエリ提示部６は、スコア順に所定数の重要語句を提示するように構成した。そのため、一度に全ての追加検索語を検索者に提示できない場合に、重要度の高い検索クエリを選択して提示することが可能となる。

実施の形態２．
　上記実施の形態１では、検索語ノードから親ノードを辿った先のタイトルノードを追加検索語とする構成とした。この構成の場合には、図１１に示すように各タイトルノードより下の階層にリンクした子ノード群からなる子孫ノード中に存在する検索語ノードの数に偏りが生じる。図１１において、１つの検索語ノード２９が存在する１章のタイトルノード２７より、２つの検索語ノード３０，３１が存在する２章のタイトルノード２８のほうが検索語の出現頻度が高くなる。そして、２章のタイトルノード２８を追加検索語に用いて検索した場合の検索結果ページは文書データが広範囲にわたるため、１章のタイトルノード２７を追加検索語にした検索クエリで検索した検索結果数に比べて２章のそれで検索した検索結果数が多くなると考えられる。そこで、本実施の形態２では、検索クエリ提供装置が、各検索クエリ間の検索結果数が均等になるような検索クエリを提示する。

　図１６は、この発明の実施の形態２に係る検索クエリ提供装置の全体構成を示すブロック図である。図１６において図１と同一または相当の部分については同一の符号を付し説明を省略する。図１６に示す検索クエリ提供装置は、上記実施の形態１に子孫検索語ノード数付加部９および中分類ノード抽出部１０を追加した構成としたものである。また、図１７はこの発明の実施の形態２に係る検索クエリ提供装置の文書構造ネットワークを構築する重要語句ノードが有するノード情報の一例を示す説明図である。図１７に示すノード情報は、図１２に示すノード情報に「子孫検索語ノード数」の項目を追加したものであり、本実施の形態の文書構造ネットワーク３の各重要語句ノードが有するものである。

　以下では、あるノードより下の階層の子孫ノードに存在する検索語ノード数を、子孫検索語ノード数と呼ぶ。例えば検索語が「電話番号」の場合、図１１に示すタイトルノード２７の子孫検索語ノード数は１、タイトルノード２８の子孫検索語ノード数は２となる。

　子孫検索語ノード数付加部９は、タイトルノード抽出部８が検索語ノードからタイトルノードを辿る経路上の各重要語句ノードに、子孫検索語ノード数を加算する。ここで、子孫検索語ノード数付加部９の動作を説明する。図１８は、この発明の実施の形態２に係る検索クエリ提供装置の子孫検索語ノード数付加部の動作を示すフローチャートである。

　図１８に示すステップＳＴ２１において、子孫検索語ノード数付加部９は、全ての重要語句ノードが有するノード情報のうちの子孫検索語ノード数を０に初期化する。続くステップＳＴ２２において、タイトルノード抽出部８が検索語ノードからタイトルノードの探索を開始し、検索語ノードより１つ上の階層の重要語句ノードを親ノードとして取得する。そして、子孫検索語ノード数付加部９は、タイトルノード抽出部８が取得した親ノードの子孫検索語ノード数に１を加算する（ステップＳＴ２３）。

　ステップＳＴ２４において、その親ノードが有するノード情報に親ノードＩＤがなければ、タイトルノード抽出部８はその親ノードをタイトルノードとして取得する（ステップＳＴ２５）。その親ノードが有するノード情報に親ノードＩＤがあれば、処理はステップＳＴ２２へ戻り、タイトルノード抽出部８は再び親ノードを辿る。

　タイトルノード抽出部８が全ての検索語ノードについて、タイトルノードを抽出し終えると（ステップＳＴ２６”Ｎｏ”）、子孫検索語ノード数付加部９も子孫検索語ノード付加処理を終了する。このように、タイトルノード抽出部８が親ノードを取得する度に子孫検索語ノード数付加部９がその親ノードの子孫検索語ノード数に１加算することで、異なる複数の検索語ノードから同一のタイトルノードに辿り着いた場合にも、自動的にそのタイトルノードの子孫検索語ノード数をカウントすることができる。

　図１６に示す中分類ノード抽出部１０は、各重要語句ノードの有する子孫検索語ノード数を用いて、所定の基準を満たす重要語句ノードを抽出する。以下の例では、タイトルノードの子孫検索語ノード数の平均値を基準にして重要語句ノードを抽出する。まず、中分類ノード抽出部１０は、タイトルノード抽出部８が取得した全タイトルノードの子孫検索語ノード数を用いて、平均値Ｘを算出する。

　そして、中分類ノード抽出部１０は子孫検索語ノード数が平均値Ｘより多いタイトルノードを始点にして、そのタイトルノードが有する子ノードのノードＩＤ配列を参照して下の階層の重要語句ノードを辿る。その重要語句ノードの子孫検索語ノード数が平均値Ｘ以下であれば、中分類ノード抽出部１０がその子ノードを中分類ノードとして抽出する。その重要語句ノードの子孫検索語ノード数が平均値Ｘより多ければ、中分類ノード抽出部１０はその子ノードから下の階層の子ノードを辿る。このようにして中分類ノード抽出部１０は子孫検索語ノード数が平均値Ｘ以下、かつ最もタイトルノードに近い重要語句ノードを探索して、タイトルノードのかわりに中分類ノードを出力する。

　ここで、具体例として、重要語句探索部７により図１１に示す検索語ノード２９，３０，３１が取得され、タイトルノード抽出部８により各検索語ノード２９，３０，３１が属するタイトルノード２７，２８が取得され、子孫検索語ノード数付加部９により各重要語句ノードの子孫検索語ノード数が設定された場合を用いて説明する。この例では、タイトルノード２７，２８の子孫検索語ノード数はそれぞれ１および２であり、その平均値Ｘは１．５となる。中分類ノード抽出部１０は、平均値１．５より多い子孫検索語ノード数を有するタイトルノード２８を始点にして、子ノードを辿り、重要語句ノード「電話番号でかける」および「電話番号の登録・編集」の有する子孫検索語ノード数を参照する。これらの子孫検索語ノード数は平均値１．５以下の１であるため、中分類ノード抽出部１０はこれらの重要語句ノードを中分類ノードとして抽出する。

　図１６に示す検索クエリ提示部６ａは、タイトルノード抽出部８が取得したタイトルノードの重要語句文字列と、中分類ノード抽出部１０が取得した中分類ノードの重要語句文字列とを追加検索語に用いた追加クエリを提示する。上述の例によれば、検索者が入力した検索語である「電話番号」にタイトルノードを追加した検索クエリ「電話番号　目的地を探す」が１章の文書構造２５から作成され、検索語に中分類ノードを追加した検索クエリ「電話番号　電話番号でかける」、「電話番号　電話番号の登録・編集」が２章の文書構造２６から作成される。

　このようにして得られた追加検索語は、文書データ作成者によって分類された文書構造の見出しに近い重要語句であると共に、その追加検索語にリンクした検索語ノード数が均等になっている。このような追加検索語を含む検索クエリを用いて文書データを検索することにより、文書データ作成者の分類基準で分類された検索結果になり、各検索クエリ間での検索結果数が同程度になると期待できる。

　なお、中分類ノード抽出部１０は、中分類ノードを抽出する基準としてタイトルノードの子孫検索語ノード数の平均値Ｘを用いる構成としたが、その他の基準を用いる構成であってもよい。例えば、中分類ノード抽出部１０は、予め最大子孫検索語ノード数Ｙが設定され、タイトルノードの子孫検索語ノード数がＹより大きい場合に中分類ノードを探索する。

　以上のように、実施の形態２によれば、上記実施の形態１の検索クエリ提供装置の構成に加えて、任意の重要語句ノードより下位の階層にあり、この重要語句ノードに直接または間接的にリンクした検索語ノード数情報をこの重要語句ノードが有するノード情報に付加する子孫検索語ノード数付加部９、検索語ノードが下位の階層に直接または間接的にリンクしている重要語句ノードのうち、所定の子孫検索語ノード数を有する重要語句ノードを抽出する中分類ノード抽出部１０を備えるように構成した。そのため、検索クエリ間での検索結果ページが重複せずに分散し、検索結果数が均等な検索クエリを複数提供することが可能となる。

実施の形態３．
　上記実施の形態１では、検索クエリ提供装置が検索者の入力した検索語に続けて追加検索語を追加した検索クエリを提供する構成とした。本実施の形態３では、検索者が提示された検索クエリを選択した場合に、さらに次の追加検索語を提示する構成とする。

　図１９は、この発明の実施の形態３に係る検索クエリ提供装置の全体構成を示すブロック図である。図１９において図１と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態１同様に、図３に示す検索クエリ提供装置の検索クエリ提示部６ｂが、検索語と追加検索語とを含む検索クエリを複数提示する。検索者がそれら検索クエリのうちの１つを選択すると、検索クエリ提示部６ｂは追加検索語リストを参照して、選択された追加検索語に対応するノードＩＤを追加検索語抽出部３３へ出力する。

　追加検索語抽出部３３は、検索クエリ提示部６ｂから入力したノードＩＤを有するタイトルノードを取得する。そして、そのタイトルノードの子ノードを辿って各子ノードの重要語句文字列を追加検索語として抽出し、検索クエリ提示部６ｂへ出力する。

　検索クエリ提示部６ｂは、提示している検索クエリに加えて、追加検索語抽出部３３から入力した追加検索語を階層表示する。

　次に、検索クエリ提供装置の動作を説明する。文書構造ネットワーク３は図１１に示す文書構造ネットワークで構成され、検索者が検索語「電話番号」を入力した例を用いる。検索クエリ提示部６ｂが提示する図１５の検索クエリ「電話番号　目的地を探す」、「電話番号　電話を使う」のうち、「電話番号　目的地を探す」が検索者により選択された場合、検索クエリ提示部６ｂはこの検索クエリに含まれる追加検索語「目的地を探す」に対応するノードＩＤを追加検索語抽出部３３へ出力する。

　すると、追加検索語抽出部３３が、図１１に示す文書構造ネットワーク３中のこのノードＩＤを有するタイトルノード２７を始点にして、１階層下の子ノードを辿る。タイトルノード２７の１つ下の階層の子ノードは「目的地の探索」、「目的地の検索のしかた」、「電話番号で探す」、「リストから行先を探す」の４つである。追加検索語抽出部３３は、これらの子ノードが有する重要語句文字列を検索クエリ提示部６ｂへ出力する。

　図２０は、この発明の実施の形態３に係る検索クエリ提供装置の検索クエリ提示部が階層的に提示する検索クエリの一例を示す説明図である。検索クエリ提示部６ｂは、これらの４つの重要語句を追加検索語とした検索クエリを作成し、図２０に示すように表示する。検索者が新たに提示された追加検索語のうち「電話番号で探す」を含む検索クエリを選択すると、検索クエリ「電話番号　目的地を探す　電話番号で探す」を用いて文書データが検索される。

　なお、検索クエリ提供装置は、図２０に示す２段の検索クエリを提示する構成としたが、３段以上の検索クエリを提示する構成であってもよい。その構成の場合には、追加検索語抽出部３３はタイトルノードの２つ下の階層の重要語句ノードを３段目の検索クエリに用い、３つ下の階層の重要語句ノードを４段目の検索クエリに用いるというように、検索クエリの提示段数に応じて、追加検索語抽出部３３がタイトルノードから辿る子ノードの階層を設定すればよい。

　また、追加検索語抽出部３３は、抽出した全ての追加検索語を検索クエリ提示部６ｂに出力する構成としたが、所定の基準を設定して、抽出する追加検索語数を制限する構成であってもよい。例えば、追加検索語抽出部３３は同一の自立語ノードから抽出された重要語句ノードのうちの最もスコアの高い重要語句ノードを追加検索語として取得するように構成する。

　以上のように、実施の形態３によれば、上記実施の形態１の検索クエリ提供装置の構成に加えて、タイトルノード抽出部８で抽出したタイトルノードより下位の各階層に直接または間接的にリンクしている重要語句ノードを抽出する追加検索語抽出部３３を備え、検索クエリ提示部６ｂは、追加検索語抽出部３３で抽出された各階層のノードの語句を階層毎に提示するように構成した。そのため、検索者は詳細な検索クエリを用いて検索することが可能となる。上記実施の形態１が提示する検索クエリを用いた場合の検索結果ページの分散は章単位になるが、本実施の形態３が提示する検索クエリを用いた場合は章内の節または項単位で分散させることが可能となる。

　なお、上述した説明では、上記実施の形態１で示した構成に対して上記実施の形態３を適用する場合を示したが、上記実施の形態２で示した構成に対して上記実施の形態３を適用してもよい。

　以上のように、この発明に係る検索クエリ提供装置は、検索語に一致するノードが属する階層構造のうちの最上階層のノードの語句を検索クエリ候補として提示することで、検索結果ページが互いに重複せずに分散するような複数の検索クエリを提供することのできる検索クエリ提供装置としたので、カーナビゲーション装置、携帯電話等の画面が小さな機器の文書検索装置などに用いるのに適している。

Claims

　文書データに含まれる語句をノードとして、各ノードを重要性に応じて各階層に分類された階層構造からなる文書構造ネットワークから、任意の検索語に一致する語句のノードを探索して、検索語ノードとして出力する重要語句探索部と、
　前記重要語句探索部で探索した前記検索語ノードが属する階層構造のうち、最も重要性の高い語句を分類した最上階層に分類されたノードを抽出するタイトルノード抽出部と、
　前記任意の検索語を含む検索クエリに追加する新たな検索語の候補として、前記タイトルノード抽出部で抽出したノードの語句を提示する検索クエリ提示部とを備えた検索クエリ提供装置。
　文書構造ネットワークを構築する文書構造ネットワーク構築部を備えたことを特徴とする請求項１記載の検索クエリ提供装置。
　文書構造ネットワーク構築部は、文書データの章、節または項のタイトルに含まれる語句を最上階層に分類することを特徴とする請求項２記載の検索クエリ提供装置。
　文書構造ネットワーク構築部は、同一の対象語を含む語句に応じた各ノードを互いにリンクさせることを特徴とする請求項２記載の検索クエリ提供装置。
　任意のノードより下位の階層にあり、当該任意のノードに直接または間接的にリンクした検索語ノード数の情報を当該任意のノードに付加する子孫検索語ノード数付加部を備えたことを特徴とする請求項１記載の検索クエリ提供装置。
　検索語ノードが下位の階層に直接または間接的にリンクしているノードのうち、所定の検索語ノード数を有するノードを抽出する中分類ノード抽出部を備え、
　検索クエリ提示部は、前記中分類ノード抽出部が抽出した前記ノードの語句を提示することを特徴とする請求項５記載の検索クエリ提供装置。
　タイトルノード抽出部で抽出したノードより下位の各階層に直接または間接的にリンクしているノードを抽出する追加検索語抽出部を備え、
　検索クエリ提示部は、前記追加検索語抽出部で抽出された前記各階層のノードの語句を階層毎に提示することを特徴とする請求項１項記載の検索クエリ提供装置。
　所定の評価基準を用いて語句の重要性を示すスコアを算出する重要語句評価部を備え、
　検索クエリ提示部は、スコア順に所定数のノードの語句を提示することを特徴とする請求項１記載の検索クエリ提供装置。