WO2005041068A1

WO2005041068A1 - 質問応答型文書検索のためのシステム及び方法

Info

Publication number: WO2005041068A1
Application number: PCT/JP2004/015719
Authority: WO
Inventors: Kenji Kobayashi; Daisuke Matsui
Original assignee: Toshiba Solutions Corporation
Priority date: 2003-10-24
Filing date: 2004-10-22
Publication date: 2005-05-06
Also published as: US20070073683A1; JP3820242B2; JP2005128873A; CN100535898C; US7587420B2; CN1871605A

Abstract

　検索デバイス（２２）は、利用者からの質問形式の検索要求としての質問に含まれているキーワードに基づいて関連する文書を検索する。検索デバイス（２２）は、検索された文書に含まれている、上記キーワードに関連した記述を第１の要約として抽出する。要約抽出ユニット（２３２）は、原文データベース（２０１）に格納されている検索対象となる各文書を構成する原文データのうちの、上記文書検索結果により示される各文書をそれぞれ構成する原文データから、質問タイプ判定ユニット（２３１）によって判定された上記質問の質問タイプに適合する回答に相当する記述を第２の要約として抽出する。インタフェース（２１）は、抽出された第１の要約の一覧を含む文書検索結果と抽出された第２の要約の一覧とを表示デバイスに表示させる。

Description

明細書

質問応答型文書検索のためのシステム及び方法

技術分野

[0001] 本発明は、利用者力の質問形式の検索要求としての質問の意味役割 (SR)を解祈して、その質問に対する回答となる記述を文書力抽出し、抽出された記述を表示画面を介して利用者に提示するのに好適な、質問応答型文書検索のためのシステム及び方法にに関する。

背景技術

[0002] 従来から、利用者からの検索要求に応じて文書を検索する文書検索システムが種々開発されている。この種の文書検索システムとして、フルテキストサーチ手法、或いは形態素解析手法を利用して、単語ベースで文書を検索する文書検索システムが知られている。ところが、 1つの検索要求を満たす文書の数と文書データの量は膨大である。この場合、利用者は、検索された膨大な数の文書の各々の内容を表示画面上で確認し、その中力必要な文書を選定するか、或いは必要な情報を取り出さなければならない。そこで近年は、この利用者の手間を省くために、検索された各文書のタイトル、作成者等の文書情報と併せて、当該文書の要約 (或いは抄録)の一覧を表示するユーザインタフェースが開発されている。ここで要約には、検索された文書中の、利用者が指定したキーワードを含む文、或いは検索された文書中の先頭の文等が用いられるのが一般的である。

[0003] しかし、表示された各文書の要約が利用者に必要なものであるかは、利用者の観点の相異ゃ個人差に左右される。そこで特開平 8— 255172号公報 (文献 1)は、次のような文書検索技術を開示している。この文献 1に記載された文書検索技術では、検索の対象となる多数の文書の各々について、当該文書を構成する文書データ (原文データ)から、文または情報が抜粋文 (抜粋文データ）として抽出される。ここでは、抜粋文データは、原文データベースに格納されている各文書の原文データから、文型と呼ばれる、様々な観点または基準に基づいて、文型毎に予め抽出される。文型毎に抽出された抜粋文データは、文書単位でデータベース (抜粋文データベース）に格納される。そして、検索された文書の文書データから抽出された抜粋文データのうち、利用者が選択した文型に合致する抜粋文データの一覧が表示される。このような文書検索技術によれば、利用者の必要とする可能性の高!、抜粋文 (要約)を表示できる。

[0004] 一方、特開 2002 - 132811号公報 (文献 2)は、次のような質問応答型文書検索技術を開示している。この文献 2に記載された文書検索技術では、検索システム (質問応答型文書検索システム）に対して、利用者力の質問形式の検索要求が与えられる。この質問形式の検索要求は、例えば" XXXの値段はいくらか？"とカ 'YYY社の社長は誰か？"という自然言語による検索要求、つまり質問である。ここでは、質問から、検索語集合と質問種別とが判定される。次に、検索語集合と質問種別とに基づいて文書集合力関連文書集合が検索される。次に、関連文書集合から質問に対する回答 (単語)が抽出される。そして、抽出された回答と当該回答を含む文書 (または当該文書の文書番号)との組が、質問に対する回答結果として、検索システムによって利用者に提示される。

発明の開示

[0005] 上記したように、文献 1に記載された文書検索技術 (以下、第 1の文書検索技術と称する）においては、検索された文書の文書データから抽出された抜粋文データのうち、利用者が選択した文型に合致する抜粋文データの一覧が表示される。これにより、利用者の必要とする可能性の高い抜粋文 (要約)を表示でき、利用者の文書検索作業に要する負荷を軽減できる。しかし、第 1の文書検索技術において、抜粋文 (要約）として用いられる抜粋文データは、原文データベースに格納されている各文書の原文データ力文型毎に予め抽出される。このため第 1の文書検索技術は、文型の追カ卩 ·変更に対応できな、。

[0006] 一方、特許文献 2に記載された質問応答型文書検索技術 (以下、第 2の文書検索技術と称する）にお、ては、質問（自然言語による検索要求）に対する直接的な回答とその回答の元となった文書とが利用者に提示される。このため利用者は、回答の信頼性を確認できる。また第 2の文書検索技術では、回答として用いられるデータを予め用意する必要がない。このため、質問種別の追加'変更に容易に対応できる。しかし、第 2の文書検索技術では、質問がキーワードだけとか、質問が曖昧で質問種別を判定できな!、場合には、回答結果 (検索結果)を利用者に提示できなヽ。

[0007] 本発明は、質問から抽出されたキーワードを用いてキーワード検索手法により検索された文書から抽出された第 1の要約の一覧と、当該検索された文書から質問応答検索手法を利用して抽出された、質問に対する回答に相当する第 2の要約の一覧とを、それぞれ利用者に提示できるようにすることを目的とする。

[0008] 本発明の 1つの観点によれば、質問形式の検索要求に応じて文書検索を実行する質問応答型文書検索システムが提供される。このシステムは、質問形式の検索要求としての質問から抽出されたキーワードに基づいて関連する文書を検索して、検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約として抽出し、抽出された第 1の要約の一覧を含む文書検索結果を取得する検索手段と、前記質問の意味役割を分析して当該質問の質問タイプを判定する質問タイプ判定手段と、原文データベースに格納されている検索対象となる各文書を構成する原文データのうちの、前記検索手段により取得された文書検索結果により示される各文書をそれぞれ構成する原文データから、前記質問タイプ判定手段によって判定された質問タイプに適合する回答に相当する記述を第 2の要約として抽出することにより、当該第 2 の要約の一覧を取得する要約抽出手段と、前記検索手段により取得された第 1の要約の一覧を含む文書検索結果と前記要約抽出手段により取得された第 2の要約の一覧とを前記検索要求に対する応答として検索要求元の表示手段の表示画面に表示させるインタフェース手段とを備えて、る。

図面の簡単な説明

[0009] [図 1]図 1は、本発明の一実施形態に係る質問応答型文書検索システムを実現する計算機システムの構成を示すブロック図である。

[図 2]図 2は、図 1の計算機システムによって実現される質問応答型文書検索システムの構成を示すブロック図である。

[図 3]図 3は、同実施形態における検索デバイス 22の処理手順を示すフローチャートである。

[図 4]図 4は、同実施形態における質問タイプ判定ユニット 231の処理手順を示すフローチャートである。

[図 5]図 5は、同実施形態における要約抽出ユニット 232の処理手順を示すフローチヤートである。

[図 6]図 6は、型判定辞書 204を利用して行われる質問タイプ判定ユニット 231による質問タイプ判定を説明するための図である。

[図 7]図 7は、型判定辞書 204を利用して行われる要約抽出ユニット 232による要約抽出を説明するための図である。

[図 8]図 8は、同実施形態における表示画面例を示す図である。

発明を実施するための最良の形態

[0010] 以下、本発明の一実施形態につき図面を参照して説明する。図 1は本発明の一実施形態に係る質問応答型文書検索システムを実現する計算機システムのハードゥエァ構成を示すブロック図である。図 1に示す計算機システムは、 CPU1と、記憶デバィス 2と、表示デバイス 3と、入力デバイス 4とから構成される。 CPU1は、文書検索に関係する各種処理及びシステム全体の制御を行う。記憶デバイス 2は、例えば主メモリ及びディスクドライブ (例えばノヽードディスクドライブ）を含む。ここで、主メモリ及びディスクドライブをどのように使、分けるかにつ、ては、本発明に直接関係しな、ため説明を省略する。記憶デバイス 2は、 CPU1によって実行される各種プログラムを格納するのに用いられる。このプログラムの 1つは、質問応答型文書検索を実現するための質問応答型文書検索プログラムである。なお、質問応答型文書検索プログラムが独立のプログラムではなくて、 1つのアプリケーションプログラムの一要素であっても構わない。記憶デバイス 2はまた、原文データベース 201、単語インデックス 202、形態素辞書 203、及び型判定辞書 204を格納するのに用いられる。

[0011] 原文データベース 201は、検索の対象となる複数の文書の各々を構成する原文データ（文書データ）を格納する。単語インデックス 202は、キーワードから文書を検索するのに用いられるインデックス情報である。単語インデックス 202は、検索の対象となる各文書に含まれて、る単語にっ、て、その単語が含まれて、る文書と当該文書中の位置とを示す。形態素辞書 203は、質問形式の検束要求としての質問（つまり自然言語で表される質問）を形態素解析するのに用いられる辞書である。形態素辞書 2 03は、形態素毎に、当該形態素と当該形態素の品詞を示す品詞情報との組を含む。型判定辞書 204は、質問の意味役割を解析して質問の型 (質問タイプ)を判定するのに用いられる。表示デバイス 3は、液晶ディスプレイに代表される表示器及び当該表示器を制御する表示コントローラを含む。表示デバイス 3は、文書検索要求 (例えば質問形式の文書検索要求)を入力するための入力フィールド、及び当該検索要求に対する検索結果等を表示するのに用いられる。入力デバイス 4は、キーボード及びマウスを含む。入力デバイス 4は、利用者の操作による文書検索要求の入力及び各種の選択等に用いられる。

[0012] 図 2は、図 1の計算機システムによって実現される質問応答型文書検索システムの構成を示すブロック図である。この質問応答型文書検索システムは、主として、インタフェース 21、検索デバイス 22及び抜粋デバイス 23から構成される。この質問応答型文書検索システムはまた、図 1に現れる原文データベース 201、単語インデックス 20 2、形態素辞書 203及び型判定辞書 204を含む。インタフェース 21、検索デバイス 2 2及び抜粋デバイス 23は、図 1に現れる CPU1が質問応答型文書検索プログラムを実行することにより実現される。インタフェース 21は、利用者からの検索要求 (ここでは質問形式の検索要求)を受け付けて、当該検索要求を検索デバイス 22に渡す機能を有する。この検索要求は、利用者が図 1に現れる入力デバイス 4を操作することにより、当該入力デバイス 4から入力される。インタフェース 21はまた、検索デバイス 2 2から検索結果を受け取って、当該検索結果と当該検索結果に対応する検索要求とを抜粋デバイス 23に渡す機能を有する。インタフェース 21は更に、抜粋デバイス 23 から検索要求に適合する要約の一覧を受け取って、当該要約の一覧を検索デバィス 22からの検索結果と共に、表示デバイス 3によって検索結果一覧画面に表示させる機能を有する。インタフェース 21は表示順位決定ユニット 210を含む。

[0013] 検索デバイス 22は、インタフェース 21から渡された質問形式の検索要求力キーヮードを抽出するキーワード抽出機能を有する。検索デバイス 22はまた、抽出されたキ一ワードを含む文書を単語インデックス 205を用いて検索する文書検索機能を有する。このキーワードを利用した検索を、キーワード検索と称する。ここでは、キーワード検索によって検索される文書に対して、例えばキーワードの出現率に基づくスコア付け (つまりキーワードとの関連性の度合いを表すスコアの計算）が行われる。検索デバイス 22は、スコア付けされた文書の中から上位 M件（Mは 1を超える整数）の文書を選択し、当該選択された文書のタイトル及び要約の一覧を含む検索結果をインタフエース 21に渡す。

[0014] 抜粋デバイス 23は、質問タイプ判定ユニット 231と、要約抽出ユニット 232とを含む。質問タイプ判定ユニット 231は、インタフェース 21から渡された質問形式の検索要求の意味役割 (つまり質問の意味役割)を、型判定辞書 204に基づいて解析することにより、当該質問の質問タイプを判定する。要約抽出ユニット 232は、質問タイプ判定ユニット 231によって判定された質問タイプに固有の文構造を型判定辞書 204に基づいて特定する。要約抽出ユニット 232はまた、特定された文構造を持つ文を、ィンタフエース 21から渡された検索結果により示される最大 M件の文書の原文データ力も抽出する。要約抽出ユニット 232は更に、抽出された各文に対してスコア付けを行って、上位 N件 (Nは N≤Mを満足する整数)の文を、質問に適合した要約として選択する。選択された N件の要約はインタフェース 21に渡される。

[0015] 次に、本実施形態の動作について、利用者の操作により入力デバイス 4から質問形式の検索要求が入力された場合の動作を例に、図 3乃至図 8を参照して説明する。なお、図 3は検索デバイス 22の処理手順を示すフローチャートであり、図 4は質問タィプ判定ユニット 231の処理手順を示すフローチャートである、図 5は要約抽出ュ- ット 232の処理手順を示すフローチャートであり、図 6は型判定辞書 204を利用して行われる質問タイプ判定ユニット 231による質問タイプ判定を説明するための図である。図 7は型判定辞書 204を利用して行われる要約抽出ユニット 232による要約抽出を説明するための図であり、図 8は表示画面例を示す図である。

[0016] まず、図 8に示すように、表示デバイス 3の表示画面上に、質問入力フィールド 81が表示されているものとする。このフィールド 81は、質問形式の検索要求を入力するのに用いられる。今、利用者が、質問形式の検索要求としての質問を質問入力フィールド 81に入力するための操作を行ったものとする。この操作は、入力デバイス 4を用いて行われる。ここでは、図 8に示すように、 "XXXの値段はいくら？"という、 "XXXの値段"を問い合わせるための自然言語を用いた質問 82が入力されたものとする。ここでは、この質問 82、つまり" XXXの値段はいくら？ "が日本語で入力された場合を想定する。そこで、図 8には、質問 82として、 "XXXの値段はいくら？"に対応する日本語のローマ字表記" XXX no nedan wa ikura"も併せて示されている。ローマ字表記" nedan"及び" ikura "力それぞれ"値段"及び"!/、くら"に対応する。入力デバイス 4から入力された質問 82は、質問形式の検索要求として、インタフェース 21に渡される。インタフェース 21は、入力デバイス 4から渡された質問形式の検索要求を受け付けると、当該検索要求を検索デバイス 22に渡す。

[0017] 検索デバイス 22は、インタフェース 21から渡された質問形式の検索要求、つまり質問 82を、形態素辞書 203に基づいて形態素解析する (ステップ Sl)。ここでは、質問 82、即ち" XXX no nedan wa ikura"は、 "ZXXXく名詞 > +Znoく付属語 > +Z nedan<名詞 > +Zwa<付属語 > +Zikura<副詞 > "のように形態素解析される。この形態素解析結果中の <名詞 >、く付属語〉及びく副詞〉は、対応する形態素力それぞれ名詞、付属語及び副詞であることを示す。次に検索デバイス 22は、質問に含まれて、るキーワードを形態素解析結果に基づ、て抽出する (ステップ S 2)。ここでは、品詞が名詞のキーワード、即ち" XXX"及び" nedan" (つまり"値段"）が抽出される。

[0018] 次に検索デバイス 22は、質問 82から抽出されたキーワードを含む文書を検索するための、いわゆるキーワード検索手法による文書検索を行う（ステップ S3)。ここでは検索デバイス 22は、単語インデックス 202を参照することにより、キーワードを含む文書を検索する。この単語インデックス 202を用いた文書検索手法は、キーワードを含む文書を高速に検索するための手法として従来力良く知られており、本発明に直接関係しないため詳細な説明は省略する。

[0019] 次に検索デバイス 22は、検索された全文書に対してスコア付けを行う（ステップ S4) 。ここでは、 "TFIDF"と呼ばれる従来から知られているアルゴリズムを用いて、検索された文書毎に、その文書中におけるキーワードの出現率に基づいてスコア付けが行われる。なお、 "TFIDF"以外にも、検索された文書に対するスコア付けの方法は従来力も種々知られている。例えば、キーワードとなる用語毎に予めスコアを与えてお V、て、検索された文書のスコア付けを行うことも可能である。 [0020] 検索デバイス 22は、検索された全文書に対するスコア付けの結果に基づ、て、検索された全文書の中から、スコアが上位の M件をスコアの高い順に文書検索結果として選択する (ステップ S5)。なお、検索された文書の数が Mに満たない場合には、検索された全文書が選択される。ここで、一定のスコアを越えた文書だけをスコアの高い順に文書検索結果として選択することも可能である。

[0021] 次に検索デバイス 22は、スコア順に選択された全文書 (ここでは M文書)の各々から、上記キーワードに関連する記述、例えば当該キーワードを含む文を、要約（第 1 の要約）として抽出する (ステップ S6)。この第 1の要約の抽出は、スコア順に選択された M文書の各々について、原文データベース 201に格納されている当該文書を構成する原文データを参照することにより行われる。検索デバイス 22は、スコア順に選択された M文書の各々の第 1の要約を含む検索結果をインタフェース 21に渡す（ステップ S7)。インタフェース 21は、検索デバイス 22から検索結果を受け取ると、その検索結果を、上記質問形式の検索要求と共に抜粋デバイス 23に渡す。

[0022] すると、抜粋デバイス 23の質問タイプ判定ユニット 231は、インタフェース 21から渡された質問形式の検索要求、つまり質問 82を形態素解析する (ステップ 11)。これにより、図 6に示すように、質問 82である" XXX no nedan wa ikura" (つまり、 "XXXの値段はいくら？"）に対する形態素解析結果 61、即ち" ZXXX<名詞 > + Zno <付属語〉 + Znedanく名詞 > + /wa<付属語 > + /ikura<副詞 > "が得られる。次に質問タイプ判定ユニット 231は、質問 82に含まれているキーワードを形態素解析結果 61に基づいて抽出する（ステップ 12)。ここでは、名詞" XXX"及び名詞" nedan" ( つまり"値段"）だけでなぐ副詞" ikura" (つまり"いくら")も抽出される。

[0023] さて、型判定辞書 204には、予め定められた質問タイプ別に、その質問タイプを判定するキーワードとなる質問タイプ判定ルール情報が格納されて、る。本実施形態では、型判定辞書 204には、図 6に示されるように、質問タイプ判定ルール情報 204 a及び 204bを含む質問タイプ判定ルール情報が格納されてヽる。質問タイプ判定ルール情報 204aは、人物に関する質問タイプを判定するのに用いられる。この情報 20 4aは、人物に関する質問タイプを示す質問タイプ情報と、当該人物に関する質問タイブに固有の単語情報、例えば"誰"を含む。この例では、情報 204aは、質問から抽出されたキーワードの集合の中に、 "誰"が含まれている場合に、人物に関する質問タイプであると判定されることを示す。一方、質問タイプ判定ルール情報 204bは、値段、価格等のお金に関する質問タイプを判定するのに用いられる。この情報 204bは、お金に関する質問タイプを示す質問タイプ情報と、当該お金に関する質問タイプに固有の単語情報、例えば"値段"， "価格"， "金額"及び"いくら"とを含む。本実施形態では、情報 204bとして日本語の情報が用いられる。そこで、図 6には、情報 204b に含まれる単語情報としての"値段"， "価格"， "金額"及び"いくら"に関し、それぞれ、日本語のローマ字表記" nedan" (つまり"値段"） , "kakaku" (つまり"価格"） , " kingaku" (つまり"金額"）及び" ikura" (つまり"!/、くら"）が併記されて、る。この例では、情報 204bは、 " (値段 I価格 I金額） &いくら"のように記述された判定条件を含む。ここで、 " I "は OR条件を、 "&"は AND条件を示す。この場合、情報 204bは、質問から抽出されたキーワードの集合の中に、 "値段"， "価格"または"金額"のうちの少なくとも 1つと"いくら"とが共に含まれている場合に、お金に関する質問タイプであると判定されることを示す。 "値段"， "価格"及び"金額"は類義語である。

[0024] 質問タイプ判定ユニット 231はステップ S 12を実行すると、図 6に示すように、質問力抽出されたキーワードと型判定辞書 204に格納されている質問タイプ判定ルール情報とのパターンマッチング 62を行う。質問タイプ判定ユニット 231は、このパターンマッチング 62によって質問の意味役割を解析して、その意味役割を表す質問タイプを判定する (ステップ S13)。ここでは、質問から抽出されたキーワードのうちの"値段"及び"いくら"が、質問タイプ判定ルール情報 204bに含まれている" (値段 I価格 I金額） &いくら"にヒットする。この場合、質問タイプ判定ユニット 231は、質問タイプ力お金"であると判定する。質問タイプ判定ユニット 231は、判定された質問タイプを抜粋デバイス 23内の要約抽出ユニット 232に通知する（ステップ S14)。

[0025] 要約抽出ユニット 232は、インタフェース 21から抜粋デバイス 23に渡された検索結果の示す M文書のうちの未処理の 1文書を選択し、原文データベース 201に格納されている、当該選択された文書を構成する原文データを取り出す (ステップ S21)。次に要約抽出ユニット 232は、取り出された原文データを、形態素辞書 203に基づいて形態素解析する (ステップ S 22)。ここでは、原文データが、図 7に示すように、日本語の口■ ~"マ字表己で" XXX wa 12 gatsu 1 nichi hatsubai de, kakaku wa 125 manen karadesu. " (つまり、 "XXXは 12月 1日発売で、価格は 125万円力もです。 "）という文 71を含むものとすると、この文 71に対する形態素解析結果 72は、 "ZXXXく名詞 > +wa<付属語 > Z 12 <数詞 > Zgatsu <助数詞 > Z 1 <数詞 > Znichi <助数詞 > Zhatsubai <名詞 > + de <付属語 > Z , <句読点 > Zkakaku <名詞 > + wa <付属語 > Z 125 <数詞 > Zmanen <助数詞 > + karadesu <付属語 > / . <句読点 > "となる。

[0026] さて、型判定辞書 204には、上記した質問タイプ判定ルール情報の他に、予め定められた質問タイプ別に、その質問タイプに適合する文の文構造を示す文構造情報が格納されている。本実施形態では、型判定辞書 204には、図 7に示されるように、人物に関する質問タイプに固有の文構造情報 204cと、お金に関する質問タイプに固有の文構造情報 204dとを含む文構造情報が格納されて、る。文構造情報 204c は、質問タイプが"人物"である場合に、その質問タイプに適合するとして推奨される文 (記述）に共通の日本語の文構造" { (く姓 (固有名詞）〉 Iく名（固有名詞）〉 I く人名接尾語〉 Iく姓接尾語〉 }Z (kunく接尾語〉 I ujiく接尾語〉）"を示す。ここで、 "kun"及び" uji"は、英語の" Mr."或いは" Mrs."に相当する。但し、 "kun"或いは" uji"は、 "姓（固有名詞) "または"名（固有名詞) "等の後ろに付して用いられる。また、 " I "及び"/"は、それぞれ OR条件及び AND条件を示す。この文構造情報 204c により、 "{ <姓 (固有名詞） >またはく名（固有名詞)またはく人名接尾語〉またはく姓接尾語〉 } + { (kunく接尾語〉）または (ujiく接尾語〉） } "の文構造を含む文を、人物に関する質問タイプに適合する文として抽出することが可能となる。

[0027] 一方、文構造情報 204dは、質問タイプが"お金"である場合に、その質問タイプに適合するとして推奨される文 (記述）に共通の文構造" <数詞 >/ {en I manen | oku く名詞〉/ en I doru}く助数詞〉"（つまり、 "く数詞〉/ (円 |万円 |億く名詞〉 Z円 Iドル）く助数詞〉"）を示す。ここでは、文構造情報 204dの一部に、便宜的に日本語のローマ字表記" _en" (つまり"円"）， "manen" (つまり"万円"） , "oku" (つまり" 億"）及び" doru" (つまり"ドル"）が用いられている。この文構造情報 204dにより、 "数詞 + (円または万円または (億 +名詞 +円）またはドル） +助数詞"の文構造を含む文を、お金に関する質問タイプに適合する文として抽出することが可能となる。

[0028] 要約抽出ユニット 232はステップ S21で取り出された原文データの各文（つまり、検索デバイス 22によって検索された文書の各文)を形態素解析すると (ステップ S22)、ステップ S23の処理に進む。ステップ S23において、要約抽出ユニット 232は、ステツプ S22での形態素解析結果 72に基づき、ステップ S21で取り出された各文と、質問タイプ判定ユニット 231によって判定された質問タイプに固有の文構造情報とのバターンマッチング 73を行う（ステップ S23)。ここでは、ステップ S21で取り出された各文と、型判定辞書 204に格納されている質問タイプ毎の文構造情報のうちの文構造情報 204dとのパターンマッチング 73が行われる。このパターンマッチング 73により、要約抽出ユニット 232は、マッチングのとれた文を、質問タイプに適合する文（つまり質問の示す意味役割に適合する文）の候補として抽出する (ステップ S24)。ここでは、図 7に示すように、文 71である" XXXは 12月 1日発売で、価格は 125万円からです。 "のうちの" 125万円"が文構造情報 204dの示す文構造にヒットすることから、当該文 71が質問タイプに適合する文の候補として抽出される。次に要約抽出ユニット 232は、質問 82から例えば名詞をキーワードとして抽出する (ステップ S25)。そして要約抽出ユニット 232は、ステップ S 24で抽出された候補 (文 71)の中から、ステップ S25で抽出されたキーワードを含む候補を選択する (ステップ S26)。ここでは、質問 82である" XXXの値段はいくら？ "から" XXX"及び"値段"がキーワードとして抽出される。 " XXX"は上記文 71 ("XXXは 12月 1日発売で、価格は 125万円力もです。 ")に含まれている。したがって、ステップ S25では、文 71、つまり" XXXは 12月 1日発売で、価格は 125万円力もです。 "が選択される。このように要約抽出ユニット 232は、検索デバイス 22によって検索された文書の各文の中から、質問の質問タイプに固有の文構造を含み、且つ質問から抽出されたキーワードを含む文を選択する (ステップ S23乃至 S26)。なお、質問からキーワードとして抽出された"値段"の類義語"価格"及び" 金額"もキーワードとして用いることが可能である。この類義語は、型判定辞書 204に格納されて、る、お金に関する質問タイプ判定ルール情報 204bに含まれて、る。

[0029] 要約抽出ユニット 232は、選択された文に対し、例えばステップ S4と同様にキーヮードの出現率に基づいてスコア付けを行う（ステップ S27)。要約抽出ユニット 232は、以上のステップ S21乃至 S27を、検索結果の示す M文書について繰り返す (ステツプ S28)。そして要約抽出ユニット 232は、スコア付けされた文 (候補)の中から上位 N 件 (Nは N≤Mを満足する整数)の文を、質問に適合した推奨すべき要約 (第 2の要約）として例えばスコアの高い順に選択する (ステップ S29)。なお、スコア付けされた文の数が Nに満たない場合には、当該スコア付けされた全ての文が選択される。ここで、一定のスコアを越えた文だけをスコアの高い順に選択することも可能である。要約抽出ユニット 232は、スコア順に選択された要約（ここでは上位 N件の第 2の要約）をインタフェース 21に渡す (ステップ S30)。

[0030] インタフェース 21は、先に検索デバイス 22から渡された検索結果と要約抽出ュ-ット 232から渡された第 2の要約とを、表示デバイス 3の表示コントローラにより当該表示デバイス 3の表示画面に表示させる。ここでは、図 8に示すように、検索デバイス 22から渡された検索結果、即ちスコア順に選択された文書の各々の第 1の要約の一覧を含む検索結果が、表示画面の第 1の領域 83に表示される。また、要約抽出ユニット 2 32から渡された第 2の要約、即ちスコア順に選択された第 2の要約の一覧が、表示画面の第 2の領域 84に表示される。

[0031] さて、第 1の要約の一覧を含む検索結果が表示されるに際し、インタフェース 21の表示順位決定ユニット 210は、当該第 1の要約の表示順位を決定する。この表示順位は、検索デバイス 22によって関連する文書が検索される際に計算されたスコアに基づいて、スコア順に決定される。インタフェース 21は、この決定された表示順位（つまりスコア順）となるように、第 1の要約の一覧を、表示画面の第 1の領域 83に表示させる。同様に、第 2の要約の一覧が表示される際、表示順位決定ユニット 210は、当該第 2の要約の表示順位を決定する。この表示順位は、要約抽出ユニット 232によつて当該第 2の要約が抽出される際に計算されたスコアに基づいて、スコア順に決定される。インタフェース 21は、この決定された表示順位 (つまりスコア順）となるように、第 2の要約の一覧を、表示画面の第 2の領域 84に表示させる。ここで、第 1または第 2の要約の一覧の全てを一度に表示できない場合、当該一覧は分割して表示される。ここでは、最初は最もスコアが高いグループに対応する第 1または第 2の要約が表示される。そして、利用者力要約の切り替えが指示されると、次にスコアが高いグループに対応する第 1または第 2の要約の表示に切り替えられる。

[0032] なお、検索デバイス 22からインタフェース 21に対して、第 1の要約（及びタイトル）がスコア順に配置された、第 1の要約 (及びタイトル)の一覧が渡される構成とするならば、表示順位決定ユニット 210はスコアを意識することなぐ第 1の要約 (及びタイトル )の表示順位をスコア順に決定できる。同様に、要約抽出ユニット 232からインタフエース 21に対して、第 2の要約がスコア順に配置された、第 2の要約の一覧が渡される構成とするならば、表示順位決定ユニット 210はスコアを意識することなぐ第 2の要約の表示順位をスコア順に決定できる。

[0033] 上述したように本実施形態においては、質問入力フィールド 81に入力された、質問形式の検索要求としての質問から抽出されたキーワードを用いて、キーワード検索手法により文書が検索される。そして、検索された文書のうちの上位 M文書の各々からキーワードに関連した記述である第 1の要約が抽出される。この抽出された第 1の要約力表示画面の第 1の領域 83にスコア順に表示される。また、上記 M文書の各々から、質問タイプに適合する回答に相当する記述が抽出される。この質問タイプは、質問応答検索手法を利用して、質問の意味役割を解析することによって判定される。そして、上記 M文書の各々力抽出された記述のうちの上位 N件の記述 (文）力それぞれ質問に対する回答に相当する第 2の要約として抽出される。この抽出された第 2の要約が、表示画面の第 2の領域 84にスコア順に表示される。

[0034] このように本実施形態においては、質問応答検索で質問に対する回答に相当する記述を第 2の要約として探し出せた場合には、第 2の要約の一覧が利用者に明示的に提示される。このため、利用者は第 2の要約の一覧から、自身が探している情報に容易にアクセスできる。また本実施形態においては、文書検索結果により示される文書に対してのみに質問応答検索の処理が行われるため、質問応答検索における応答時間の低下を抑えることができる。また本実施形態においては、性質の異なる 2種の要約一覧、即ち第 1の要約の一覧及び第 2の要約の一覧の各々について、スコアの高、要約力順に参照することが可能となるため、探して、る情報に容易にァクセスすることができる。ここで、利用者が、第 1または第 2の要約の一覧から所望の要約を選択する操作を行うことで、その要約に対応する文書を表示させることも可能である。

[0035] なお、第 2の要約の一覧だけを表示することを基本とし、文書検索結果により示される文書から第 2の要約を探し出せなかった場合だけ、その文書力キーワードに関連した記述を第 1の要約として抽出して、第 2の要約に代わる要約として表示することが考えられる。しかし、この表示手法では、第 1の要約と第 2の要約とが区別できない。また、同一文書から抽出された第 1及び第 2の要約を組にして表示することも考えられる。しかし、この表示手法では、表示順を、文書が検索される際に計算されたスコァ順、または第 2の要約が抽出される際に計算されたスコア順のいずれにするとしても、第 1または第 2の要約の一方はスコア順とはならない。このため、利用者にとって利用しにくいものとなる。

[0036] ところで、質問応答検索では、（1)質問文がキーワードだけである、（2)質問文が曖昧である、（3)質問タイプの判定ルールが十分でない、或いは、（4)質問タイプに適合する回答に相当する記述の抽出ルールが十分でない等の要因で、第 2の要約が探せないことがあり得る。しかし本実施形態では、キーワード検索手法を用いて取得された第 1の要約の一覧を含む文書検索結果が利用者に提示される。このため、たとえ第 2の要約が探せな力つた場合でも、利用者は第 1の要約の一覧から、自身が探して、る情報に容易にアクセスできる。

[0037] 上記実施形態では、表示デバイス 3及び入力デバイス 4と、入力デバイス 4から入力された文書検索要求に従う文書検索等を行う処理セクション (インタフェース 21、検索デバイス 22及び抜粋デバイス 23)とが、同一計算機システム内に存在していることを前提としている。しかし、表示デバイス 3及び入力デバイス 4が、例えばクライアント端末に設けられ、上記処理セクションが、例えば当該クライアント端末とネットワークを介して接続された検索サーバ計算機に設けられる構成であっても構わない。また、原文データベース 201が、検索サーバ計算機と例えばネットワークを介して接続されたデータベースサーバ計算機に設けられて、ても構わな、。

[0038] 更なる特徴及び変更は、当該技術分野の当業者には着想されるところである。それ故に、本発明はより広い観点に立つものであり、特定の詳細な及びここに開示された代表的な実施形態に限定されるものではない。したがって、添付された請求項に定義された広い発明概念及びその均等物の解釈と範囲において、そこから離れること無ぐ種々の変更を行うことができる。

産業上の利用可能性

本発明によれば、質問から抽出されたキーワードを用いてキーワード検索手法により検索された文書力抽出された第 1の要約の一覧と、当該検索された文書力質問応答検索手法を利用して抽出された、質問に対する回答に相当する第 2の要約の一覧とを、それぞれ利用者に提示できるため、利用者は探している情報に容易にァクセスすることができる。

Claims

請求の範囲

[1] 質問形式の検索要求に応じて文書検索を実行する質問応答型文書検索システム

、前記質問応答型文書検索システムは、

利用者力の質問形式の検索要求としての質問から抽出されるキーワードに基づ

V、て関連する文書を検索するための検索手段であって、検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約として抽出することによって、抽出された第 1の要約の一覧を含む文書検索結果を取得する検索手段と、

前記質問の質問タイプを、当該質問の意味役割を解析することによって判定するための質問タイプ判定手段と、

原文データベースに格納されている検索対象となる各文書を構成する原文データのうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文データから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約として抽出するための要約抽出手段であって、抽出された第 2の要約の一覧を取得する要約抽出手段と、

前記第 1の要約の一覧を含む文書検索結果と前記第 2の要約の一覧とを、前記利用者からの検索要求に対する応答として、当該利用者によって利用可能な表示デバイスに表示させるように構成されたインタフェースと

を具備する。

[2] 請求項 1に従う質問応答型文書検索システムにお、て、

予め定められた質問タイプ毎に、当該質問タイプに固有の文構造を表す文構造情報を格納する型判定辞書を更に具備し、

前記要約抽出手段は、前記文書検索結果によって示される各文書をそれぞれ構成する原文データと、前記判定された質問タイプに固有の、前記型判定辞書に格納されている文書構造情報とのパターンマッチングによって、当該質問タイプに固有の文構造を持つ記述を、当該質問タイプに適合する回答に相当する記述の候補として抽出するための手段と、抽出された候補毎に、前記質問から抽出されるキーワードとの関連性の度合いを表すスコアを計算するためのスコア付け手段と、前記スコア付け手段によって計算されたスコアに基づいて対応する記述を前記第 2の要約として抽出するための手段とを含む。

[3] 請求項 1に従う質問応答型文書検索システムにお、て、

前記検索手段は、前記質問から抽出されるキーワードに基づいて関連する文書が検索される際に、文書毎に当該キーワードとの関連性の度合いを表す第 1のスコアを計算するための第 1のスコア付け手段と、前記第 1のスコア付け手段によって計算された第 1のスコアに基づいて関連する文書を選択するための選択手段と、前記選択手段によって選択された文書から前記第 1の要約を抽出するための第 1の抽出手段とを含み、

前記要約抽出手段は、前記判定された質問タイプに適合する回答に相当する記述の候補毎に、前記質問から抽出されるキーワードとの関連性の度合いを表す第 2のスコアを計算するための第 2のスコア付け手段と、前記第 2のスコア付け手段によって計算された第 2のスコアに基づいて対応する記述を前記第 2の要約として抽出するための第 2の抽出手段とを含む。

[4] 請求項 3に従う質問応答型文書検索システムにおいて、前記インタフェースは、前記第 1の抽出手段によって抽出された前記第 1の要約の表示順位を、前記第 1のスコァ付け手段によって計算された、当該第 1の要約を含む文書に対応する第 1のスコアに基づいて決定すると共に、前記第 2の抽出手段によって抽出された前記第 2の要約の表示順位を、前記第 2のスコア付け手段によって計算された、当該第 2の要約に対応する第 2のスコアに基づヽて決定するように構成された表示順位決定ユニットを含む。

[5] 請求項 3に従う質問応答型文書検索システムにおいて、

前記選択手段は、前記第 1のスコア付け手段によって計算された第 1のスコアに基づいて、関連する文書をスコア順に選択し、

前記第 1の抽出手段は、前記スコア順に選択された文書から抽出された第 1の要約の一覧を含む文書検索結果を、当該一覧における第 1の要約の順番が対応するスコァ順となるように前記インタフェースに渡し、

前記第 2の抽出手段は、前記第 2のスコア付け手段によって計算された第 2のスコァに基づいて抽出された前記第 2の要約の一覧を、当該一覧における第 2の要約の順番が対応するスコア順となるように前記インタフェースに渡す。

[6] 請求項 3に従う質問応答型文書検索システムにおいて、

前記要約抽出手段は、前記文書検索結果によって示される各文書をそれぞれ構成する原文データと、前記判定された質問タイプに固有の、前記型判定辞書に格納されている文書構造情報とのパターンマッチングによって、当該質問タイプに固有の文構造を持つ記述を、当該質問タイプに適合する回答に相当する記述の候補として抽出するための手段を含み、

前記第 2のスコア付け手段は、前記抽出された候補毎に、前記質問から抽出されるキーワードとの関連性の度合いを表すスコアを計算する。

[7] 質問形式の検索要求に応じて文書を検索する質問応答型文書検索のための方法、前記方法は、

利用者力の質問形式の検索要求としての質問から抽出されるキーワードに基づ Vヽて関連する文書を検索することと、

検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約として抽出することと、

前記抽出された第 1の要約の一覧を含む文書検索結果を取得することと、前記質問の質問タイプを、当該質問の意味役割を解析することによって判定することと、

原文データベースに格納されている検索対象となる各文書を構成する原文データのうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文データから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約として抽出することと、

前記取得された第 1の要約の一覧を含む文書検索結果と前記抽出された第 2の要約の一覧とを前記利用者力の検索要求に対する応答として、当該利用者によって利用可能な表示デバイスに表示させることと

を具備する。

[8] 請求項 7に従う方法において、

前記検索することは、前記質問から抽出されるキーワードに基づいて関連する文書が検索される際に、文書毎に当該キーワードとの関連性の度合いを表す第 1のスコアを計算することと、前記計算された第 1のスコアに基づいて関連する文書を検索された文書として選択することとを含み、

前記第 2の要約として抽出することは、前記判定された質問タイプに適合する回答に相当する記述の候補毎に、前記質問から抽出されるキーワードとの関連性の度合いを表す第 2のスコアを計算することと、前記計算された第 2のスコアに基づいて対応する記述を前記第 2の要約として抽出することとを含む。

[9] 請求項 8に従う方法において、

前記表示させることは、前記抽出された前記第 1の要約の表示順位を、当該第 1の要約を含む文書に対応する前記第 1のスコアに基づいて決定すると共に、前記抽出された前記第 2の要約の表示順位を、当該第 2の要約に対応する前記第 2のスコアに基づ!/、て決定することを含む。

[10] 質問形式の検索要求に応じて文書を検索するのに用いられる質問応答型文書検索のためのコンピュータプログラム製品、前記コンピュータプログラム製品は、利用者力の質問形式の検索要求としての質問から抽出されるキーワードに基づいて関連する文書を検索するためのコンピュータ読み取り可能なコード手段と、検索された文書に含まれている、前記キーワードに関連した記述を第 1の要約として抽出するためのコンピュータ読み取り可能なコード手段と、

前記抽出された第 1の要約の一覧を含む文書検索結果を取得するためのコンビュータ読み取り可能なコード手段と、

前記質問の質問タイプを、当該質問の意味役割を解析することによって判定するためのコンピュータ読み取り可能なコード手段と、

原文データベースに格納されている検索対象となる各文書を構成する原文データのうちの、前記文書検索結果によって示される各文書をそれぞれ構成する原文データから、前記判定された質問タイプに適合する回答に相当する記述を第 2の要約として抽出するためのコンピュータ読み取り可能なコード手段と、前記取得された第 1の要約の一覧を含む文書検索結果と前記抽出された第 2の要約の一覧とを前記利用者力の検索要求に対する応答として、当該利用者によって利用可能な表示デバイスに表示させるためのコンピュータ読み取り可能なコード手段と

を具備する。