WO2013125286A1

WO2013125286A1 - ノン・ファクトイド型質問応答システム及びコンピュータプログラム

Info

Publication number: WO2013125286A1
Application number: PCT/JP2013/051327
Authority: WO
Inventors: 鍾勲呉; 健太郎鳥澤; 力橋本; 拓也川田; ステインデサーガ; 淳一風間; 軼謳王
Original assignee: 独立行政法人情報通信研究機構
Priority date: 2012-02-23
Filing date: 2013-01-23
Publication date: 2013-08-29
Also published as: US20150026106A1; EP2819031A4; KR20140128346A; JP2013171550A; US9697477B2; CN104137102B; EP2819031A1; CN104137102A; KR101968102B1; JP5825676B2

Abstract

　ノン・ファクトイド型の質問応答システムにおいて、精度をより高めることが可能な質問応答システムを提供するために、質問応答システム１６０は、質問に応答してコーパス記憶部１７８から回答候補を取出す候補文検索部２２２と、質問と、回答候補の各々との組合せについて素性を生成する素性ベクトル生成部２３２と、素性ベクトルが与えられると、元となった質問及び回答候補の組合せに対し、正しい組合せである度合いを示すスコアを算出するように学習したＳＶＭ１７６と、算出されたスコアが最も高い回答候補を回答として出力する回答文ランキング部２３４とを含むようにする。素性は、質問に対する形態素解析及び構文解析の結果と、質問のうち、正又は負の評価がされるフレーズ及びその極性と、素性内の名詞の意味クラスとに基づいて生成される。

Description

ノン・ファクトイド型質問応答システム及びコンピュータプログラム

　この発明は、質問応答システムに関し、特に、あることの理由等を聞く、いわゆるハウ型、ホワイ型質問等の、ノン・ファクトイド質問と呼ばれる質問に対する応答システムに関する。

　何らかの事実についての質問応答（ＱＡ）に関する研究は、最近になって大きな進歩を遂げている。例えば米国のクイズ番組でこの種のシステムが人間に勝利したことは記憶に新しい。その精度は、事実に関する質問については８５％程度であると言われている。このような事実に関する質問応答システム以外の領域でも、同じように精度の高い質問応答システムについての研究についてもその必要性が認められ始めている。しかし、事実に関するものでない質問、例えば「なぜ」に関する質問、及び「どのように」に関する質問については、まだ研究が進んでいないのが実情である。

　そのようなシステムの例として、後掲の非特許文献１に記載されたシステムがある。このシステムでは、質問とコーパス内の各文とに対して形態素解析を行ない、さらにその結果を用い、質問から得られた単語の文書頻度、各文中の単語頻度、文書総数、文書の長さ等を用いたスコアを算出し、スコアが上位の所定個数の文書をコーパスから選択する。選択された文書中に含まれるパラグラフ、及び１～３個の連続するパラグラフを回答候補とし主として質問中の単語と、回答候補に含まれる単語との間で算出されるスコアにより、質問に対する回答を選択する。

　しかし、後述するようにこのシステムでは十分な性能が得られないことがわかった。そこで、このシステムをさらに改良したシステムとして、後掲の非特許文献２に記載されたようなシステムを考えることができる。このシステムは、例えば非特許文献１に記載された技術によりいくつかの回答候補を選択した後、さらに各回答候補を所定のスコアにより再ランク付けするというものである。

　以下、このシステムを実現する場合の実現例として典型的と思われるものについて、非特許文献２の記載に基づいて説明する。なお、事実に関するものでないものに関する質問を、以下、「ノン・ファクトイド型の質問」と呼ぶ。

　図１を参照して、この質問応答システム３０は、例えばインターネット上で検索可能な非常に多数の文（ここでは日本語に限定して考える。）からなるコーパスをコーパス記憶部４８に記憶しており、テキスト通信が可能な携帯電話等のサービス利用端末４４から送信されるノン・ファクトイド型の質問を受け、回答処理部４０が、その回答としての確率が高いいくつかの回答文をコーパス記憶部４８に記憶された多数の文のうちから選択し、回答文リスト５０としてサービス利用端末４４に返信する。回答処理部４０が回答文のランキングをする際にはサポート・ベクター・マシン（ＳＶＭ）４６を使用し、学習処理部４２が予めこのＳＶＭ４６についての教師付機械学習を行なう。

　学習処理部４２は、予め、ノン・ファクトイド型の質問と、それに対する正しい回答又は誤った回答と、回答が正しいか否かを示すフラグとからなる、いくつかの日本語のＱＡ文を記憶するためのＱＡ文記憶部６０と、ＱＡ文記憶部６０に記憶されたＱＡ文に対する解析を行ない、ＳＶＭ４６の学習に用いるための素性として、予め選択した、統語に関する統計的情報の様々な組合せと、そのＱＡ文の回答が質問に対する正解か否かを示すフラグとからなる学習データを生成するための学習データ生成部６２と、学習データ生成部６２が生成した学習データを記憶する学習データ記憶部６４と、学習データ記憶部６４に記憶された学習データを用い、ＳＶＭ４６の教師付機械学習を行なう学習処理部６６とを含む。この学習の結果、ＳＶＭ４６は、学習データ生成部６２が生成したものと同種の組合せの素性をＳＶＭ４６が受けると、その素性の組合せを生じさせた質問文及び回答候補の組合せが正しい組合せか否か、すなわち回答候補が質問に対する正しい答えか否か、を示す尺度を出力するようになる。

　コーパス記憶部４８に記憶された各文については、予め学習データ生成部６２が各回答文に対して行なったのと同じ解析処理を行ない、ＳＶＭ４６に与える素性を生成するために必要な情報を各文に対して付してあるものとする。

　これに対して回答処理部４０は、サービス利用端末４４から質問文を受けたことに応答して、その質問文に対して予め定められた文法的な解析を行ない、その質問文に含まれる各単語について、素性を生成するために必要な情報（品詞、活用形、係り受け構造等）を出力するための質問文解析部８６と、サービス利用端末４４が質問文を受けたことに応答して、コーパス記憶部４８から質問に対する所定個数（例えば３００個）の回答候補文を検索し抽出するための候補文検索部８２と、候補文検索部８２の出力する所定個数の候補文をその文法情報とともに記憶するための回答候補文記憶部８４とを含む。

　なお、本実施の形態では、コーパス記憶部４８から候補文を検索し抽出して回答候補文記憶部８４に記憶しているが、このように候補文を絞り込む必要はない。例えば、コーパス記憶部４８に記憶されている全文を回答候補文としてもよい。この場合、候補文検索部８２は、コーパス記憶部４８に記憶されている文を全て読出す機能を持つだけでよく、回答候補文記憶部８４は、候補文検索部８２が読出した文を一時的に蓄積するだけの機能を果たせばよい。さらに、コーパス記憶部４８は、この実施の形態では質問応答システム３０がローカルに保持しているが、本発明はそのような実施の形態には限定されない。例えばコーパス４８が遠隔にあってもよいし、１つにかぎらず、複数個の記憶装置に分散して記憶されていてもよい。

　回答処理部４０はさらに、質問文解析部８６から出力される情報と、回答候補文記憶部８４に記憶された回答候補文の各々との組合せに基づいて、ＳＶＭ４６に与えるべき素性ベクトルを生成するための素性ベクトル生成部８８と、質問文と各回答候補文との組合せに対して素性ベクトル生成部８８から与えられる素性ベクトルをＳＶＭ４６に与え、その結果、ＳＶＭ４６から出力される結果に基づいて回答候補文記憶部８４に記憶された回答文の各々をランキングし、上位の所定個数の回答文候補を回答文リスト５０として出力するための回答文ランキング部９０とを含む。ＳＶＭ４６は通常、対象を２つのクラスに分類する超平面を数学的に求め、その結果に基づいて入力がいずれのクラスに属するかを定め、その結果を正／負の極性情報で出力することが基本的機能だが、その超平面から、入力により定められる点までの距離を出力することもできる。この距離は、回答文としてのふさわしさを表すものと考えられるので、回答文ランキング部９０はこの距離と、ＳＶＭ４６の出力する極性情報との組合せを回答候補文のスコアとして用いる。

　この質問応答システム３０では、予めＱＡ文記憶部６０に質問文と、その質問文に対する回答としてふさわしい文との組合せ、及び質問文に対する回答として誤っている文との組合せを多数記憶する。各組合せには、その回答が正しいものか否かを示すフラグを予め人手で付しておく。学習データ生成部６２がこれらの組合せからＳＶＭ４６の学習を行なうための学習データを生成し、学習データ記憶部６４に格納する。学習処理部６６が、学習データ記憶部６４に記憶された学習データを用い、ＳＶＭ４６の学習を行なう。この処理の結果、ＳＶＭ４６は、学習データ生成部６２が生成するのと同じ種類の素性の組合せを受けると、その素性が得られた元の文の組合せ（質問文と回答候補）との組合せが正しいか否か、すなわち回答候補がその質問文に対する回答として正しいか否かの尺度を示す値を出力できるようになる。

　一方、コーパス記憶部４８には多数の文からなるコーパスが記憶されている。これら各文には、予め学習データ生成部６２が行なうのと同種の解析処理が行なわれており、学習データの一部と同様の、回答候補のランキングのための情報が付されている。サービス利用端末４４から質問文を受けると、候補文検索部８２が既存の候補文検索処理を行ない、質問文に対する回答候補を所定個数だけコーパス記憶部４８の中から抽出する。候補文検索部８２により抽出された回答候補文は、回答候補のランキングのための情報とともに回答候補文記憶部８４に格納される。

　一方、質問文解析部８６は、質問文に対して所定の解析処理を行ない、素性を生成するために必要な情報を生成して素性ベクトル生成部８８に与える。素性ベクトル生成部８８は、質問文解析部８６から情報を受け取ると、回答候補文記憶部８４に記憶されている各回答候補文の、回答候補のランキングのための情報とあわせることにより、学習データ生成部６２により生成される学習データと同じ構成（ただし回答候補が正解か否かを示すフラグを除く。）の素性ベクトルを生成し、回答文ランキング部９０に与える。

　回答文ランキング部９０は、素性ベクトル生成部８８から与えられる、各回答候補と質問文との組合せから得た素性ベクトルをＳＶＭ４６に与える。ＳＶＭ４６は、与えられる各組合せの素性ベクトルごとに、その組合せに含まれる回答候補がその組合せに含まれる質問に対する回答としてどの程度ふさわしいかを示すスコアを出力する。回答文ランキング部９０は、質問文と各回答候補との組合せを、それらのスコアで降順にソートし、スコアが上位の所定個数の回答候補を、サービス利用端末４４から与えられた質問文に対する回答文リスト５０としてサービス利用端末４４に返信する。

マサキ　ムラタ、サチヨ　ツカワキ、トシユキ　カナマル、チン　マ、ヒトシ　イシハラ、「ノン・ファクトイド型の日本語の質問に対し、回答の型に応じた重み付けをした回答検索を用いて回答するシステム（A system for answering non-factoid Japanesequestions by using passage retrieval weighted based on type of answer）」、In Proc. of NTCIR-6. リュウイチロウ　ヒガシナカ、ヒデキ　イソザキ、「ホワイ型質問のための、コーパスを用いた質問応答システム（Corpus-basedquestion answering for why-questions）」、In Proc. of IJCNLP, pp. 418-425. テツジ　ナカガワ、ケンタロウ　イヌイ、サダオ　クロハシ、「依存木に基づく、潜在変数を持つＣＲＦを用いた感情の分類（Tetsuji Nakagawa, Kentaro Inui, and Sadao Kurohashi, Dependencytree-based sentiment classification using CRFs with hidden variables. ）」、In Proc. of Human Language Technologies:The 2010 Annual Conference of Computational Linguistics, Pp. 786-794, Los Angeles, California, June. Association for ComputationalLinguistics．

　非特許文献１に記載されたシステムでは、十分な精度が得られないことが分かっている。特に、事実に関する質問応答システムの性能に比べると、ノン・ファクトイド型の質問応答システムの性能はかなり低く、ノン・ファクトイド型の質問応答システムの性能を高めることが求められている。特に、今後は単なる事実に関する質問だけではなく、何らかの事象からその理由を知ったり、何らかの事象からその帰結を推論したりすることが必要になると思われる。

　したがって本発明の目的は、理由又は方法に関する質問に関する質問応答システムにおいて、精度をより高めることが可能な質問応答システムを提供することである。

　本発明の第１の局面に係る質問応答システムは、ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答システムである。このシステムは、処理対象の言語の文書であって、コンピュータ読取可能な文書からなるコーパスを記憶するためのコーパス記憶手段に接続されて用いられる。このシステムは、質問の入力を受けたことに応答して、コーパス記憶手段から、当該質問に対する複数個の回答候補を検索し取り出すための候補検索手段と、質問の入力を受けたことに応答して、当該質問と、候補検索手段に記憶された回答候補の各々との組合せについて、所定の素性の集合を生成するための素性生成手段と、素性生成手段により生成される素性の集合が与えられると、当該素性の集合を生成する元となった質問及び回答候補の組合せについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出するように予め学習されたスコア算出手段と、質問と、回答候補に記憶された回答候補の各々との組合せについて、スコア算出手段により算出されたスコアに基づき、質問に対する正しい回答である可能性が最も高い回答候補を質問に対する回答として出力する回答選択手段とを含む。候補検索手段により検索された回答候補の各々には、素性生成手段による素性の生成に必要な情報が付されている。素性生成手段は、質問について、形態素解析及び構文解析を行ない、形態素情報及び統語情報を出力するための構文解析手段と、質問のうち、ある評価基準にしたがって第１のクラスに分類されるフレーズと、第２のクラスに分類されるフレーズとを特定するための評価手段とを含む。第１のクラス及び第２のクラスには、それぞれ互いに相反する評価の極性が割当てられている。この質問応答システムはさらに、質問と、回答候補の各々との組合せについて、構文解析手段による解析結果と、評価手段により特定されたフレーズの箇所及びその評価クラスの極性と、回答候補に付されている素性生成用の情報とに基づいて、素性の集合を生成するための素性集合生成手段とを含む。

　好ましくは、素性生成手段はさらに、構文解析手段の出力に含まれる各名詞を、予め準備された、複数個の、単語の意味クラスのいずれかに分類し、当該名詞を対応する意味クラスに変換するための意味クラス変換手段を含む。素性集合生成手段は、質問と、回答候補の各々との組合せについて、構文解析手段による解析結果と、評価手段により特定されたフレーズの箇所及びその評価クラスの極性と、意味クラス変換手段による変換がされた後の構文解析手段の出力と、回答候補に付されている素性生成用の情報とに基づいて、素性の集合を生成するための第１の手段を含む。

　第１の手段が、評価手段により特定されたフレーズの箇所及び評価クラスの極性に基づいて生成する素性は、質問中のフレーズの評価クラスの極性と、回答候補中のフレーズの評価クラスの極性とが一致するか否かを示す情報を含んでもよい。

　より好ましくは、第１の手段が、評価手段により特定されたフレーズの箇所及び評価クラスの極性に基づいて生成する素性はさらに、質問中のフレーズの評価クラスの極性と回答候補中のフレーズの評価クラスの極性とが一致するときのその極性を示す情報を含む。

　第１の手段が生成する素性は、構文解析手段の出力から得られ、評価手段の出力又は意味クラス変換手段の出力を用いずに得られる素性と、構文解析手段の出力に、評価手段の出力を組合せて得られる素性と、構文解析手段の出力に、意味クラス変換手段の出力を組合せて得られる素性とを含んでもよい。

　又は、第１の手段が生成する素性は、構文解析手段の出力に、評価手段の出力を組合せ、さらに意味クラス変換手段の出力を組合せて得られる素性を含んでもよい。

　本発明の第２の局面に係るコンピュータププログラムは、ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答システムをコンピュータにより実現させるコンピュータプログラムである。このコンピュータは、処理対象の言語の文書であって、コンピュータ読取可能な文書からなるコーパスを記憶するためのコーパス記憶手段に接続される。第２の局面に係るコンピュータプログラムは、コンピュータを、質問の入力を受けたことに応答して、コーパス記憶手段から、当該質問に対する複数個の回答候補を検索し取り出すための候補検索手段と、質問の入力を受けたことに応答して、当該質問と、候補検索手段に記憶された回答候補の各々との組合せについて、所定の素性の集合を生成するための素性生成手段と、素性生成手段により生成される素性の集合が与えられると、当該素性の集合を生成する元となった質問及び回答候補の組合せについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出するように予め学習されたスコア算出手段と、質問と、回答候補に記憶された回答候補の各々との組合せについて、スコア算出手段により算出されたスコアに基づき、質問に対する正しい回答である可能性が最も高い回答候補を質問に対する回答として出力する回答選択手段として機能させる。候補検索手段により検索された回答候補の各々には、素性生成手段による素性の生成に必要な情報が付されている。コンピュータを素性生成手段として機能させるプログラム部分は、コンピュータを、質問について、形態素解析及び構文解析を行ない、形態素情報及び統語情報を出力するための構文解析手段と、質問のうち、ある評価基準にしたがって第１の評価クラスに分類されるフレーズと、第２の評価クラスに分類されるフレーズとを特定するための評価手段として機能させる。このコンピュータプログラムはさらに、コンピュータを、質問と、回答候補の各々との組合せについて、構文解析手段による解析結果と、評価手段により評価されたフレーズの箇所及びその評価クラスの極性と、回答候補に付されている素性生成用の情報とに基づいて、素性の集合を生成するための素性集合生成手段として機能させる。

従来のノン・ファクトイド型の質問応答システムの概略構成を示すブロック図である。ノン・ファクトイド型の質問とその回答候補との例を示す図である。ノン・ファクトイド型の質問の回答候補の例を示す図である。本発明の１実施の形態に係る質問応答システムが利用される場面を説明する図である。本発明の１実施の形態に係る質問応答システムのブロック図である。 n-gramの構成を説明するための模式図である。統語構造に依存するn-gramの構成を説明するための図である。本発明の１実施の形態に係る質問応答システムで使用する素性の一覧を表形式で示す図である。ノン・ファクトイド型の質問とその回答候補との組合せの例を示す図である。本発明に係る質問応答システムの実験結果を、従来技術の性能と比較して表形式で示す図である。本発明に係る質問応答システムにおいて、使用する素性の組合せを変えたときの性能を互いに比較して表形式で示す図である。本発明の１実施の形態に係る質問応答システムを実現するためのコンピュータの外観を示す模式図である。図１２に示すコンピュータのハードウェア構成を説明するブロック図である。

　以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

　［はじめに］
　本願発明では、ノン・ファクトイド型の質問とその回答との間には、以下のような関係があることに着目し、これを第１の仮定とした。すなわち、
　・好ましくないことが起きると、その理由も何か好ましくないものであることが多く、
　・好ましいことが起きると、その理由もまた好ましいものであることが多い、
という点に着目したものである。

　例えば、図２に示すような質問Ｑ１と、その回答候補Ａ１－１及びＡ１－２との組合せ１１０を考える。回答候補Ａ１－１の下線部１２０は、ガンに関する好ましくない事象を述べているのに対し、回答候補Ａ１－２の下線部１２２は、ガンを予防するための好ましい対応を述べている。本発明は、上の組合せでは、質問Ｑ１に対する回答としては、回答候補Ａ１－１の方がよりふさわしいというものである。本明細書では、説明を簡略にするために、そのような「好ましい」及び「好ましくない」という評価の方向を「極性」と呼び、「好ましい事象を述べるフレーズ」及び「好ましくない事象を述べるフレーズ」のような、極性を伴う評価の対象となるフレーズを「評価フレーズ」と呼ぶ。すなわち、本願発明では、フレーズについて、ある評価基準にしたがって、「好ましい事象を述べるフレーズ」という第１の評価クラスと、「好ましくない事象を述べるフレーズ」という第２の評価クラスとのいずれかに分類されるフレーズを特定する。これら評価クラスには、「好ましい」及び「好ましくない」というように、互いに相反する極性が割り当てられている。なお、ここでは極性として「好ましい／好ましくない」というものを考えたが、これ以外にも評価基準により極性は様々に考えることができる。例えば「増加／減少」、「活性／不活性」、「美味しい／不味い」、「改善／悪化」、「採択／不採択」、「嬉しい／悲しい」等を考えることができる。

　この発明の第２の仮定は、質問中の単語の語彙意味論的なクラスと、回答文中のそれらとの間にはかなり強い結び付きがある、というものである。例えば、図２に示す質問Ｑ１のように病気に関する質問文に対する回答は、多くの場合、（回答候補Ａ１－１のように）化学物質に関するものであるか、又は、ウィルス若しくは体の一部等に関する言及を含む。このように、例えば、病気と、病気に関連する有害な物質等との間の統計的な関連を明らかにすることにより、質問文に対する回答としてふさわしいものを挙げることができる可能性を高めることができる。そこで、以下に述べる実施の形態では、意味的に近い単語を意味クラスにまとめて素性として用いることとした。意味クラスの構築を人手で行なったり、既存の意味に基づくシソーラスを用いたりすることもできるが、本実施の形態では、ウェブ文書からなる大規模コーパスからＥＭ法を用いて自動的に構築した単語クラス群を用いることとした。この方法については、Kazama and Torisawa, Inducing Gazetteers for Named Entity
Recognition by Large-scale Clustering of Dependency Relations」(http://http://www.aclweb.org/anthology-new/P/P08/P08-1047.pdf)に詳細が記載されている。

　さらに問題となるのは、回答候補の中には、極性の異なる複数のフレーズを含むものがあるということである。

　例えば、図３に、図２の回答候補Ａ１－２と類似した回答候補Ａ１－３を示す。図３に示す回答候補Ａ１－３は、ガンに関する好ましくない評価フレーズ１４０と、ガンに関する好ましい評価フレーズ１４２とを含んでいる。このような場合には、図２に示す質問Ｑ１に対する回答として、図２に示す回答候補Ａ１－１と、図３に示す回答候補Ａ１－３とのいずれを採用すべきかという問題が残る。本発明では、そうした問題に対処するために、評価の極性と、質問文及び回答候補の双方の、その極性に結び付けられた評価フレーズの内容との組合せを用いることとした。

　評価フレーズの内容に関して統計的処理をする際のデータのスパースネスを解決するために、評価の極性と、単語の意味クラスとを効果的に組合せた素性の組を開発した。これら素性を、教師付学習により、ノン・ファクトイド型の質問文に対する回答候補のスコアリングを行なう分類器の学習を行なった。実験の結果については後に述べる。

　［構成］
　図４を参照して、本実施の形態に係るノン・ファクトイド型質問応答システム１６０は、予めインターネット上の大量の文書からなる文書集合１６４を獲得しておき、インターネット１６２を介してサービス利用端末１６６からノン・ファクトイド型の質問を受けたことに応答して、蓄積しておいた文書集合１６４からその質問に対する回答としてふさわしいもののリストを生成し、サービス利用端末１６６に返信するものである。本実施の形態では、サービス利用端末１６６からの質問はウェブのフォームへの入力データとしてノン・ファクトイド型質問応答システム１６０に送信されるものとする。

　図５を参照して、この質問応答システム１６０は、予めインターネットから取得した大量の文書からなる文書集合１６４であって、各文について回答候補をランキングするための素性形成に必要な情報が付された文書の集合を記憶するためのコーパス記憶部１７８と、サービス利用端末１６６から質問文を受けたことに応答して、コーパス記憶部１７８に記憶された文章中から、受けた質問に対する回答としてふさわしいものを幾つか抽出し、ランク付けして、上位の所定個数をリストした回答文リスト１７４をサービス利用端末１６６に対して出力するための回答処理部１７０と、回答処理部１７０が回答候補のランキングの際に使用するＳＶＭ１７６と、予め準備された学習データにより、ＳＶＭ１７６に対する教師付機械学習を行ない、ＳＶＭ１７６が、質問文と回答文との組合せから得られた予め定める素性の組合せを受けると、その組合せが正しいか否か、すなわちその組合せ中の質問に対して、その組合せ中の回答文が正しい回答か否かを示すとともに、その回答の確からしさがどの程度であるかを示すスコアを出力するようにする学習処理部１７２とを含む。

　回答処理部１７０は、サービス利用端末１６６から質問を受けたことに応答して、従来の技術と同様の処理により、コーパス記憶部１７８を検索し、多数の文の中から所定個数（例えば３００個）の回答候補文を抽出するための候補文検索部２２２と、候補文検索部２２２により抽出された候補文を記憶するための回答候補文記憶部２２４と、サービス利用端末１６６から質問文を受けたことに応答して、質問文に対する解析処理を行ない、素性に利用される形態素解析及び構文解析（統語的解析）を行ない、形態素情報及び統語情報を出力するための質問文解析部２２６と、質問文解析部２２６の出力する情報のうち、単語に対して所定の統計的確率モデルを適用することにより意味クラスを推定し、意味クラスを表す情報を付して出力するための意味クラス変換部２３０と、質問文解析部２２６の出力に対して評価を行ない、既に述べたように評価フレーズとその極性とを定めて評価フレーズごとに出力するための評価処理部２２８とを含む。

　なお、図示していないが、コーパス記憶部１７８に記憶される文書の各文についても、予め質問文解析部２２６、評価処理部２２８及び意味クラス変換部２３０により行なわれる処理と同じ処理を行なっておく。こうしておくことにより、後に質問と回答候補との組から素性ベクトルを生成するための処理量を低減できる。

　回答処理部１７０はさらに、質問文解析部２２６の出力と、評価処理部２２８の出力と、意味クラス変換部２３０の出力とを受け、さらに回答候補文記憶部２２４から各回答候補文と付随情報とを読出し、質問文と回答候補との双方の情報に基づいて、ＳＶＭ１７６に適用する素性ベクトルを生成するための素性ベクトル生成部２３２と、回答候補文ごとに、素性ベクトル生成部２３２の出力する素性ベクトルをＳＶＭ１７６に適用することによりＳＶＭ１７６から得られるスコアに基づいて回答候補をランキングし、上位の所定個数の回答候補からなる回答文リスト１７４を生成し、サービス利用端末１６６に返信するための回答文ランキング部２３４とを含む。

　学習処理部１７２は、多数のＱＡ文をその組合せの適否を示すフラグとともに記憶するためのＱＡ文記憶部１９０と、ＱＡ文記憶部１９０に記憶されている質問文と回答候補との組合せの各々に対し、質問文解析部２２６と同様の処理を行なうためのＱＡ文解析部１９２と、ＱＡ文解析部１９２の出力中の各単語に対し、統計的モデルを用いて意味クラス情報を付するための意味クラス変換部１９６と、ＱＡ文の質問文及び回答文の各々に対して評価処理を行なうことにより、評価フレーズを示すタグと、その極性とを付して出力するための評価処理部１９４と、ＱＡ文解析部１９２、評価処理部１９４、及び意味クラス変換部１９６の出力する情報を組合せることで、ＳＶＭ１７６の学習を行なうための学習データ（素性ベクトル）を生成して出力する学習データ生成部１９８と、学習データ生成部１９８の出力する学習データを記憶するための学習データ記憶部２００と、学習データ記憶部２００に記憶された学習データを用い、ＳＶＭ１７６に対して教師付機械学習を行なうためのＳＶＭ学習部２０２とを含む。

　本実施の形態では、６億個の日本語文書をインターネットから収集し、コーパス記憶部１７８に格納した。

　（回答候補の抽出）
　候補文検索部２２２としては、本実施の形態では、http://lucene.apache.org/solrで配布されているSolrを用いる。本実施の形態では、候補文検索部２２２は、質問文１つに対し、コーパス記憶部１７８に格納されている６億個の文書のうちから例えば回答を含む可能性の高い順に、トップの所定個数（例えば３００個）の文書を抽出するように調整する。各候補はさらに、５つの連続する文からなる回答候補の集合に分割される。文書の分割方法の誤りにより正しい回答が得られない可能性を小さくするために、分割される文書については、互いに２つの文までは共有できるようにしている。

　候補文検索部２２２ではさらに、このようにして質問ｑに対して得られた回答候補ａｃの各々を、以下の式（１）に示すスコアリング関数Ｓ（ｑ，ａｃ）によりスコアリングする。なお、本実施の形態では、回答候補を抽出するために、質問中に含まれる語を含む部分であって、さらに、因果関係を示す３つの手がかり語（理由、原因、及び要因）を含むものを検索する。候補文検索部２２２は、式（１）によるランキングで、質問に対する回答候補を３００個選択し、回答候補文記憶部２２４を経て回答文ランキング部２３４に与える。

　式（１）に示すスコアリング関数Ｓ（ｑ，ａｃ）は、各回答候補に対して、tf（対数化索引語頻度）-idf（文書頻度の逆数）に似たスコアを割り当てる。ここで、式（１）の1/dist(t₁,t₂)はtfのような役割を果たし、1/df(t₂)は、質問ｑ及び回答候補ａｃが共有する、所与のt₁及びt₂に対するidfである。

ただし、Ｔは、質問ｑ中の名詞、動詞、及び形容詞であって回答候補ａｃ中にも出現するものからなる語集合である。手がかり語が回答候補ａｃに存在する場合、それらを語集合Ｔに追加することに注意。Ｎは文書の合計数（６億）であり、dist(t₁,t₂)は回答候補ａｃ中の単語t₁及びt₂の間の距離（文字数）である。df(t)は語ｔの文書頻度であり、φ∈｛０，１｝は指標であって、ts(t1,t2)＞１ならφ＝１，さもなければφ＝０である。

　（回答候補のランキング）
　前記したとおり、ランキングには３種類の素性集合を用いる教師付分類器（ＳＶＭ）を使用する。素性集合は、（１）質問と回答候補との形態素分析及び統語分析の結果を表す素性（「ＭＳＡ」で示す。）、（２）質問と回答候補とに現れる意味的単語クラスを表す素性（「ＳＷＣ」で示す。）、及び（３）評価分析の結果を表す素性（「ＳＡ」で示す。）、を含む。

　《ＭＳＡ》
　ＭＳＡは、回答候補の再ランキングのために従来から広く用いられている素性である。この素性は、質問と回答候補との間の、形態素、文節、及び統語構造レベルでの結び付きを明らかにするためのものである。

　質問とその回答候補とに含まれる全ての文を、３つの方法で表した。すなわち、形態素の集まり（a bag of morphemes）、文節の集まり（a bag of word
phrases）、統語構造チェーンの集まりである。これらはそれぞれ、形態素分析プログラム（例えばhttp://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN）及び構文解析プログラム（例えばhttp://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP）を用いて得ることができる。

　本実施の形態では、質問及び回答候補の各々から形態素、文節、及び統語構造のg-gram（ｎは１～３）抽出する。例えば、文が図６（Ａ）に示すように連続する４つの文節Ａ，Ｂ，Ｃ及びＤからなる部分２４０を含むものとする。この４つの文節から得られる文節3-gramは、図６（Ｂ１）に示す文節Ａ，Ｂ及びＣからなる3-gram２４２と、（Ｂ２）に示す文節Ｂ，Ｃ及びＤからなる3-gram２４４とである。

　これに対し、統語構造n-gramとは、本明細書では、統語構造のネットワーク中で、連続する３つの文節を持つパスのことを言う。例えば、図７（Ａ）に示すような統語構造のネットワーク２６０が得られたものとする。このネットワーク２６０の中から3-gramを取り出すと、図７（Ｂ１）に示す文節Ａ，Ｂ及びＣからなる3-gram２６２と、図７（Ｂ２）に示す、文節Ａ，Ｃ及びＤからなる3-gram２６４とが得られる。これらを図６と比較するとその違いが分かる。なお、統語構造n-gramの1-gramは文節1-gramと一致するので使用しない。

　ＭＳＡとしては、図８の表２７０に示す、ＭＳＡ１～ＭＳＡ４の４種類の素性を使用できる。その説明は図８に示したとおりなので、個々では繰返さない。なお、ＭＳＡ２は、例えば図２の「タイプのガン」のように、質問中の単語を含むようなn-gramである。

　《ＳＷＣ》
　単語意味クラスとは、意味的に類似した単語の集合のことをいう。本実施の形態では、前記したKazama及びTorisawaの文献に記載された名詞のクラスタリング技術を用い、このような単語意味クラスを構築した。この文献に記載されたアルゴリズムは、意味的に類似した単語は類似した文脈に現れる傾向がある、という仮定に基づくものである。この方法は、単語間の統語的係り受け関係を文脈として扱うことにより、非動詞の係り受け関係に関する、隠れクラスについての確率モデルを以下の式（２）により定義する。

ただし、ここでのｎは名詞であり、ｖは文法的関係ｒ（日本語では後置の語）により名詞ｎが従属する動詞又は名詞であり、ｃは隠れクラスである。係り受け関係の頻度は、６億の文からなるコーパスから得ることができた。モデルパラメータｐ（ｎ｜ｃ）、ｐ（〈ｖ，ｒ〉｜ｃ）及びｐ（ｃ）はＥＭアルゴリズムを用いて推定した。この技術を用い、５５０万の名詞を５００個のクラスにクラスタリングすることができた。すなわち、各名詞ｎに対し、ＥＭクラスタリングによって、意味的クラスを表す隠れ変数に関する確率分布を推定する。この分布から、各名詞ｎに対してｃ＝argmax_c*p(c*|n)となるクラスｃを割り当てる。この結果、化学物質、栄養素、病気等の明確な意味的クラスを得ることができた。

　ＳＷＣは、質問中の単語と、回答候補中の単語との間の関連性を反映させるためのものである。学習データ中に、特定の意味クラスの単語を持つ質問と、特定の意味クラスの単語を持つ回答候補とがあり、互いの関係が肯定的である（回答候補が質問に対する正しい回答である。）場合には、ＳＶＭは、学習データの質問と同じ意味クラスの単語が質問中にあれば、他の条件が一定であるものとして、学習データの回答中の特定の意味クラスの単語と同じ意味クラスの単語を持つ回答候補を、その質問に対する回答として選択するであろう。

　同様の処理を単語の意味レベルではなく、単語レベルで考えることもできる。つまり、特定の単語レベルでの結び付きを統計的にモデル化することもできる。しかし、その場合には、単語と単語という組合せが特定的すぎ、データのスパースネスという問題が生じるのでモデルの汎化が難しく、モデルの信頼性を高めることができない。

　図８に示すように、ＳＷＣとしてはＳＷＣ１とＳＷＣ２という２種類を用いる。それらの説明は図８に記載したとおりである。

　ＳＷＣ１を得るためには以下の手順にしたがう。まず、ＭＳＡ１のn-gram内の名詞を全てそれらの属する意味クラスに変換する。得られたn-gramの中で、少なくとも１つの単語の意味クラスが残っているものをＳＷＣ１として採用する。

　ＳＷＣ２は、回答候補中のn-gramであって、質問中に存在する語と同じごをそれらの意味クラスに変えたものである。

　これらの素性は、質問と回答候補との中の単語の意味クラスの対応関係を示すものである。

　《ＳＡ》
　ＳＡという素性はさらに２種類に分類される。第１は単語レベルでの評価分析である（単語の極性）。これを図８ではＳＡ＠Ｗ１～ＳＡ＠Ｗ４で表す。第２は、フレーズレベルでの評価分析である（フレーズ極性）。これらは図８ではＳＡ＠Ｐ１～ＳＡ＠Ｐ１０で表す。

　（１）単語極性（ＳＡ＠Ｗ）
　単語の極性は、予め準備された、単語の極性傾向のための辞書の参照により行なう。辞書としては、本実施の形態では、非特許文献３により紹介されたツールプログラムにより提供されるものを用いる。この素性は、質問中の単語の極性と、正しい回答中の単語の極性との関連を明らかにするためのものである。ここでは、前提にしたがい、学習の結果、質問中の単語の極性と、選択される回答中の単語の極性とは互いに等しいことが多くなる筈である。

　図８に示すＳＡ＠Ｗ１とＳＡ＠Ｗ２とは、単語極性n-gramのうち、単語極性を持つ単語を少なくとも１つ持つものから得られる評価分析素性である。これらのn-gramは、ＭＳＡ１n-gram内の全ての名詞を辞書参照により対応する単語極性に変換して得られる。ＳＡ＠Ｗ１は質問と回答候補中の全ての単語極性n-gramに関するものである。ＳＡ＠Ｗ２は、ＳＡ＠Ｗ１で得られたn-gramのうち、元のn-gramが質問の語を含むものである。

　さらに、単語極性を単語の意味クラスと組合せることにより、分類器がこれらの組合せのうち特に意味あるものを識別できるようにする。例えば単語の極性として負でありかつ意味クラスが「条件」である単語は、「好ましくない条件」を表すであろう。この結果、これら負の条件を表す単語と、それら単語の、病気についての質問との関連性との間の相関を分類器に学習させることができる。ＳＡ＠Ｗ３とＳＡ＠Ｗ４とがこの種の素性である。これらはそれぞれ、ＳＡ＠Ｗ１及びＳＡ＠Ｗ２と同様に定義される。ただし、ＳＡ＠Ｗ１及びＳＡ＠Ｗ２における単語の極性を、単語の意味クラスと単語の極性とで置換える点が異なる。ＳＡ＠Ｗ３とＳＡ＠Ｗ４のn-gramを（単語）クラス－極性結合n-gramと呼ぶ。

　（２）フレーズ極性（ＳＡ＠Ｐ）
　本実施の形態では、評価フレーズの抽出及びその極性の判定は、既存のツールプログラム（前述の非特許文献３による。）を用いる。実験の結果、質問内の語を含まないような評価フレーズについては、正しい回答を定めるために有用ではないことがわかった。したがって、本実施の形態では、質問内の語を少なくとも１つ含むような文から抽出された評価フレーズのみを、フレーズ極性の素性生成のために用いることとした。

　フレーズ極性に関する素性として、大きく３つのカテゴリの素性を用いる。第１のカテゴリは、図８に示すＳＡ＠Ｐ１及びＳＡ＠Ｐ２を含む。第２のカテゴリは、図８のＳＡ＠ｐ３～ＳＡ＠Ｐ５を含む。第３のカテゴリは、図８のＳＡ＠Ｐ６～ＳＡ＠Ｐ１０を含む。

　第１のカテゴリの素性は、質問と、その回答候補との間での、評価フレーズの極性の一致に関するものである。質問と回答候補との間での評価フレーズの組合せを調べる。それらの中に、極性が一致するものがあれば、それを示す指標とその極性とをそれぞれＳＡ＠Ｐ１及びＳＡ＠Ｐ２とする。

　第２のカテゴリの素性は、評価フレーズは、多くの場合、正しい回答の中心部を構成する、という仮定に基づくものである。これらを表す素性を用いる必要がある。図８のＳＡ＠Ｐ３～ＳＡ＠Ｐ５はそのためのものである。これら素性の内容については図８を参照されたい。

　第３のカテゴリの素性は、単語の意味クラスを用いることにより、上述した、質問又は回答の内容に関する素性を一般化するためのものである。図８を参照すると分かるように、これら素性は、評価フレーズから得た単語の意味クラスn-gram及びクラス・極性結合n-gramを、そのフレーズ極性と組合せたものである。これら素性の内容については図８を参照されたい。

　［動作］
　以上に説明した本実施の形態に係るノン・ファクトイド型の質問応答システム１６０の動作は、基本的に図１に示す従来のものと同様の手順を踏む。すなわち、ＳＶＭ１７６の学習と、回答処理部１７０による質問の処理とである。これらに先立ち、評価処理部１９４で使用する評価ツール及び辞書、並びに、意味クラス変換部１９６で使用する統計的確率モデルを作成しておく必要がある。この確率モデルは、式（２）によるものである。さらに、多数の文を収集し、コーパス記憶部１７８に格納する。これらについては、既に述べたように、素性ベクトル生成部２３２が素性を生成するために必要な情報を作成しておき、各文に付しておく。一方、人手により作成した、質問とその回答とからなる複数の組合せ（ＱＡ文）を準備し、ＱＡ文記憶部１９０に格納する。これら質問と回答との組合せとしては、ある質問とその質問に対する正しい回答とからなる組とを準備する。これら質問と回答との組合せとしては、できるだけ多くの種類の質問を用いることが望ましい。そのためには、できるだけ多くの人にこのＱＡ文の作成に参加してもらうことが理想的である。もっとも、現実的にはこの準備に参加する人の数は限定されることが多く、その点でシステムにある制約が生じ得ることはやむを得ない。

　次に、ＱＡ文解析部１９２により、これらＱＡ文の各々に対する形態素解析、及び構文解析等を行ない、得られた品詞情報、係り受け関係等を示す情報をＱＡ文に付して評価処理部１９４，意味クラス変換部１９６、及び学習データ生成部１９８に与える。

　評価処理部１９４は、与えられたＱＡ文の各々の中の質問及び回答の各々について評価フレーズの探索を行ない、その範囲とその極性とをタグとして該当箇所に付して学習データ生成部１９８に与える。意味クラス変換部１９６は、与えられたＱＡ文の各々の中の名詞について、単語の意味クラスに変換したものを生成し、学習データ生成部１９８に与える。

　学習データ生成部１９８は、ＱＡ文ごとに、ＱＡ文解析部１９２からの形態素及び統語情報、評価処理部１９４からの評価に関する情報、意味クラス変換部１９６からの意味クラスに関する情報に基づき、図８に示した各種の素性を生成し、ＱＡ文に付されているフラグ（回答が質問に対するものとしてふさわしいか否かを示すフラグ）を付した学習データを生成し、学習データ記憶部２００に格納する。

　ＳＶＭ学習部２０２は、学習データ記憶部２００に格納された学習データを用い、ＳＶＭ１７６の学習を行なう。学習が済んだＳＶＭ１７６は、回答文ランキング部２３４により利用可能な状態とされる。

　《回答の検索》
　回答文ランキング部２３４にＳＶＭ１７６が組込まれることにより、回答処理部１７０による回答処理が可能になる。サービス利用端末１６６が質問を回答処理部１７０に送信すると、質問文解析部２２６及び候補文検索部２２２がこの質問を受ける。

　候補文検索部２２２は、質問を受けたことに応答して、コーパス記憶部１７８に記憶された多数の文の中から回答候補としての可能性が高い上位３００個の回答候補文を検索し、回答候補文記憶部２２４に出力する。このとき、回答候補文のスコア作成に使用される尺度は、式（１）に示したとおりである。

　一方、質問文解析部２２６は、受信した質問に対し、形態素解析及び構文解析を行ない、形態素情報及び統語情報を出力する。

　評価処理部２２８は、質問文解析部２２６の出力する情報に対し、評価処理を行ない、評価フレーズの範囲と、その極性とを示すタグ付けを質問文に対して行ない、素性ベクトル生成部２３２に与える。意味クラス変換部２３０は、質問文解析部２２６の出力する情報のうち、名詞に対して、式（２）により表される、意味クラス推定のための統計的モデルを適用することでその意味クラスを推定し、意味クラスを表す情報に変換して素性ベクトル生成部２３２に与える。

　素性ベクトル生成部２３２は、評価処理部２２８の出力する評価タグ付けの質問文、質問文解析部２２６から出力される形態素情報及び構文解析情報、意味クラス変換部２３０により出力される情報、並びに、回答候補文記憶部２２４に記憶されている回答候補文の各々に予め付されている同様の情報に基づき、質問と、各回答候補との組合せの各々について、図８に示すような素性を求め、それらからなる素性ベクトルを生成する。素性ベクトル生成部２３２は、質問と各回答候補との組合せの各々を回答文ランキング部２３４に与える。

　回答文ランキング部２３４は、与えられた組合せにＳＶＭ１７６を適用することにより、組合せの各々について、回答候補が質問に対する回答として適切なものか否かを示すスコアを得る。回答文ランキング部２３４はさらに、このスコアにしたがって各組合せを降順にソートして、上位の所定個数をスコアの順番に並べることにより回答文リスト１７４を生成する。回答文ランキング部２３４は、こうして得られた回答文リスト１７４をサービス利用端末１６６に対して返信する。

　［実験］
　上記した実施の形態により、ノン・ファクトイド型の質問に対する回答の精度としてどの向上が得られるかについて、実験により調べた。

　（１）データ
　上記実施の形態を評価するため、手作業によりテストセットを構築した。テストセットの構築は、質問の生成と、それに対する回答の検証とである。なるべく多くの人によりこのテストセットを構築することが望ましいが、実際には様々な制約から、限られた人数（４人）による作業となった。実際には質問の範囲はより広くなるであろうから、以下の実験の結果は、実際の応用に上記実施の形態を用いたときの性能の上限を示すものとなると思われる。

　質問の生成処理では、予め収集した文の中から理由、原因、要因等、既に述べた手がかり語を少なくとも１つ含む部分を抽出した。抽出された部分から、４人の作業者が、何らかの事象に対する理由を記載したと思われる、連続する３つの文からなる部分を取り出しその記載から、その部分が正しい回答となるようなノン・ファクトイド型の質問を作成した。その結果、３６２個のノン・ファクトイド型の質問であって、その回答が元のコーパスに含まれているものが得られた。

　回答の検証では、上記実施の形態のシステムを用い、質問ごとにまず上位２０個の回答候補を検索し、それらと質問との組合せの全てについて人手によるチェックを行なった。評価者間の評価のばらつきを示す尺度（Fleiss’ Kappa）は０．６１１であり、ほぼ一致した評価となっていた。各質問に対する正しい回答は多数決により定められた。

　この実験では、検索された２０個の回答候補の中に正しい回答が含まれていたのは、３６２個の質問のうち、わずか６１．６％（２２３個の質問）であった。上位２０個の回答候補の中には平均で４．１個の正解が含まれていた。本実施の形態によれば、この実験条件では、回答候補の上位２０個の再ランキングしかできないので、６１．６％というのがこの実験で得られる性能の上限ということになる。実験で用いたサンプルの例を図９に示す。図９には、質問及び回答候補の組２８０と，質問及び回答候補の組２８２とを示す。

　（２）実験の枠組み
　実験では、上記したテストセットを用い、１０分割交差検定を行なうことでシステムの評価を行なった。学習には、線形カーネルを持つTinySVM（http://chasen.org/~taku/software/TinySVM/）を用いた。評価は、Ｐ＠１（上位１個の精度）と、ＭＡＰ（Mean Average Precision：平均適合率（ＡＰ）の平均）とにより行なった。

　Ｐ＠１は、質問のうちいくつについて、最上位の回答として正しいものが得られたかを示す。ＭＡＰは、トップのｎ個の回答候補の全体の質を以下の式により評価するものである。

ここで、Ｑはノン・ファクトイド型の質問の集合、Ａ_ｑはノン・ファクトイド型の質問ｑ∈Ｑに対する正しい回答の集合、Ｐｒｅｃ（ｋ）は上位ｎ個の回答候補の第ｋ位における精度、ｒｅｌ（ｋ）はランクｋがＡ_ｑ内の正しい回答のときに１、さもなければ０となる指標を、それぞれ表す。

　（３）結果
　５つの異なるシステムについて、上記設定の実験により得られた結果を図１０に示す。図１０において、Ｂ－ＱＡは、非特許文献１に記載されたシステムを発明者が実装したものであり、これが基本システムとなる。Ｂ－ＲａｎｋｅｒはＢ－ＱＡの回答検索システムに、形態素情報及び統語情報から得た素性（ＭＳＡ）を用いた再ランキングを付加したものである。本実施の形態に係るシステムの、本実施の形態に用いたものは、「本発明」として示してあり、図８に挙げた全ての素性を利用したものである。「上限」と記載したものは、トップ２０の回答候補中に正しい回答が存在するときには必ずその上位ｎ個の回答候補の中にｎ個の正しい回答を全て挙げるようなシステムのことを指す。これは、本実験で期待できる最上の結果（上限）を示す。各システムによる結果を上限システムと比較したものをカッコ内に示す。

　実験ではさらに、本発明に係るシステムにおいて、最初に検索された２０個の回答候補にさらに、質問を生成するときに使用した元の文章部分を加えた２１個の回答候補を用いる、完全な回答検索が可能なモジュールも評価した。その結果を「Retrieval-Oracle」として示す。図１０の結果から、本願発明に係るシステムでは、最初に２１個の回答候補（必ず正解を含む。）を選択するシステム（Retrieval-Oracle）では、Ｐ＠１で７０．２％という高い精度を示すことが分かる。

　図１０から、本願発明に係るシステムが比較対象となる２つのシステムと比較して高い精度を示すことが分かる。特に、Ｂ－ＱＡに対してＰ＠１で１１．６％という精度の向上が得られる。Ｂ－Ｒａｎｋｅｒに対する精度の向上（Ｐ＠１で６．４％）が得られることにより、先行技術文献で使用していた素性と比較して、本発明で採用した素性のセットが優れたものであることが分かる。また、Ｂ－ＲａｎｋｅｒとＢ－ＱＡとの間に性能の差があることから、再ランキングが有効であることも分かる。

　各種の素性の貢献度を調べるため、使用する素性の組合せを変えた種々の実験を同様にして行なった。実験では、ＭＳＡを基本素性とし、ＭＳＡ素性と他の素性との種々の組合せを用いた。さらに、ＭＳＡを用いないシステムについても実験を行なった。結果を図１１にまとめる。

　図１１において、ＭＳＡ＋ＳＷＣ＋ＳＡが最も好ましい実施形態では、ＭＳＡはＢ－Ｒａｎｋｅｒを示す。ＳＡは２つのグループ、すなわちＳＡ＠Ｗ（単語とその極性とを表す素性）と、ＳＡ＠Ｐ（フレーズとその極性とを表す素性）とに分割した。ＭＳＡ＋ＳＷＣ＋ＳＡと他の結果との間の性能の相違から、使用した素性の全てが精度の向上に貢献していることが分かる。Ｐ＠１という観点では、フレーズとその極性とに関する素性であるＳＡ＠Ｐによって最も高い改善が得られる事がわかる。すなわち、本発明とＭＳＡ＋ＳＷＣ＋ＳＡ＠Ｗとの間の性能の相違は４．４％に達している。この事実により、「好ましくないことが起きると、その理由も何か好ましくないものであることが多く、好ましいことが起きると、その理由もまた好ましいものであることが多い。」という、本願発明の着想の元になる仮定が正しい可能性が高いことが示されている。

　《実施の形態の効果》
　以上のようにこの実施の形態によれば、上記した仮定に基づき、質問中の評価フレーズと、回答候補中の評価フレーズとを特定し、それらの極性が同じである場合に回答候補が正しいものである、とする考えに基づいて素性を選択することにより、回答検索の精度の向上を得ることができた。さらに、そのような評価に関する統計的モデルを学習する際に、質問が広い範囲にわたる可能性があること、それに対して学習のためのデータの範囲及び数には限りがあることに鑑み、質問及び回答候補中の名詞について、意味クラスを導入し、それら名詞を意味クラスに置換えたものを素性として導入した。これら素性の導入により、回答を検索する対象となるコーパスが非常に多くの文を含み、かつ学習データに限りがある場合であっても、従来のノン・ファクトイド型の質問応答システムと比較して大きく精度が向上したノン・ファクトイド型の質問応答システムを得ることができた。

　［コンピュータによる実現］
　この実施の形態のシステムのうち、回答処理部１７０及び学習処理部１７２はそれぞれ、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。両者が同一のコンピュータハードウェア内に実装されてもよい。図１２はこのコンピュータシステム３３０の外観を示し、図１３はコンピュータシステム３３０の内部構成を示す。

　図１２を参照して、このコンピュータシステム３３０は、メモリポート３５２及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

　図１３を参照して、コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、メモリポート３５２及びＤＶＤドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。

　コンピュータシステム３３０にノン・ファクトイド型の質問応答システムとしての動作を行なわせるためのコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２に装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から、又はネットワークＩＦ３４４を介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

　このプログラムは、コンピュータ３４０にこの実施の形態のノン・ファクトイド型の質問応答システムとして動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ３４０にインストールされる各種プログラミングツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したノン・ファクトイド型の質問応答システムとしての動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知である。したがってここでは繰返さない。

　上記実施の形態では、質問はサービス利用端末からテキストで送信されるものとし、回答もテキストで返信されるものとした。しかし本発明はそのような実施の形態には限定されず、例えば音声による質問応答システムに適用することもできる。この場合、図５に示すサービス利用端末１６６が携帯電話であり、候補文検索部２２２及び質問文解析部２２６の前段で、サービス利用端末１６６から受信した質問の音声信号に対して音声認識を行なうことにより、質問をテキストデータに変換するようなものであってもよい。この場合、回答文ランキング部２３４の出力としては、回答文リスト１７４をウェブページの形式でサービス利用端末１６６に返信してもよいし、最もスコアの高い回答に基づいて音声合成を行なうことにより、音声としてサービス利用端末１６６に返信してもよい。

　さらに、上記実施の形態は日本語に関するものであった。しかし本発明は日本語のみに限定して適用可能なものではない。いかなる言語であれ、学習データを作成可能で、かつコンピュータ読取可能な文章を十分に多く収集できる言語であれば、どのような言語にも適用できる。

　さらに、上記実施の形態では、コーパス記憶部１７８に記憶された文については、予め質問文解析部２２６、評価処理部２２８、及び意味クラス変換部２３０による処理と同様の処理を行なって当該文に関連付けて記憶しているものとした。そうすることにより、素性ベクトル生成部２３２での素性生成のための処理時間を短縮できる。しかし本発明はそのような実施の形態には限定されない。具体的には、コーパス記憶部１７８に記憶された文書には例えば候補文検索部２２２による候補文の検索に必要な情報のみ付しておき、素性ベクトル生成部２３２による素性ベクトルの際に、選択された候補文の各々について素性の生成に必要な処理（質問文解析部２２６、評価処理部２２８及び意味クラス変換部２３０による処理と同様の処理）を行なうようにしてもよい。

　また、候補文検索部２２２による、質問に対する回答候補文の検索においては、上記実施の形態では、主として文書頻度、文書内の単語頻度に基づいて、質問文と類似した語彙からなる文を検索している。しかし本発明はそのような実施の形態には限定されない。質問に対する回答となる可能性のある文を抽出できる事が可能と思われる基準であれば、どのような基準を用いても良い。

　上記実施の形態では、評価クラスとして互いに相反する評価となる２個のクラスに対象を分類する場合について説明した。しかし本発明はそのような実施の形態には限定されない。例えば、評価クラスを一定の順序が付けられる複数のクラスとし、対象をそれら複数の評価クラスのいずれかに分類するようにしても良い。さらに、２個以上の評価の基準を設け、それら２個以上の基準により、対象を複数個の評価クラスに分類するようにしてもよい。

　今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

　この発明は、自然言語処理を利用した理由又は方法に関する質問に関する質問応答システムであって、精度をより高めることが可能な質問応答システム等の製造、利用及び貸出等を行なう産業において利用することができる。

３０　質問応答システム
４０、１７０　回答処理部
４２、１７２　学習処理部
４４、１６６　サービス利用端末
４６、１７６　ＳＶＭ
４８、１７８　コーパス記憶部
５０、１７４　回答文リスト
６０、１９０　ＱＡ文記憶部
６２、１９８　学習データ生成部
６４、２００　学習データ記憶部
６６　学習処理部
８２、２２２　候補文検索部
８４、２２４　回答候補文記憶部
８６、２２６　質問文解析部
８８、２３２　素性ベクトル生成部
９０、２３４　回答文ランキング部
１６０　ノン・ファクトイド型の質問応答システム
１９２　ＱＡ文解析部
１９４、２２８　評価処理部
１９６、２３０　意味クラス変換部

Claims

　ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答システムであって、
　処理対象の言語の文書であって、コンピュータ読取可能な文書からなるコーパスを記憶するためのコーパス記憶手段に接続されて用いられ、
　質問の入力を受けたことに応答して、前記コーパス記憶手段から、当該質問に対する複数個の回答候補を検索し取り出すための候補検索手段と、
　質問の入力を受けたことに応答して、当該質問と、前記候補検索手段に記憶された回答候補の各々との組合せについて、所定の素性の集合を生成するための素性生成手段と、
　前記素性生成手段により生成される前記素性の集合が与えられると、当該素性の集合を生成する元となった質問及び回答候補の組合せについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出するように予め学習されたスコア算出手段と、
　前記質問と、前記回答候補に記憶された回答候補の各々との組合せについて、前記スコア算出手段により算出されたスコアに基づき、前記質問に対する正しい回答である可能性が最も高い回答候補を前記質問に対する回答として出力する回答選択手段とを含み、
　前記候補検索手段により検索された回答候補の各々には、前記素性生成手段による素性の生成に必要な情報が付されており、
　前記素性生成手段は、
　前記質問について、形態素解析及び構文解析を行ない、形態素情報及び統語情報を出力するための構文解析手段と、
　前記質問のうち、ある評価基準にしたがって第１の評価クラスに分類されるフレーズと第２の評価クラスに分類されるフレーズとを特定するための評価手段とを含み、前記第１の評価クラス及び第２の評価クラスには、それぞれ互いに相反する評価の極性が割当てられており、
　前記質問応答システムはさらに、前記質問と、前記回答候補の各々との組合せについて、前記構文解析手段による解析結果と、前記評価手段により特定されたフレーズの箇所及びその評価クラスの極性と、前記回答候補に付されている素性生成用の情報とに基づいて、前記素性の集合を生成するための素性集合生成手段を含む、ノン・ファクトイド型の質問応答システム。
　請求項１に記載のノン・ファクトイド型の質問応答システムであって、
　前記素性生成手段はさらに、前記構文解析手段の出力に含まれる各名詞を、予め準備された、複数個の、単語の意味クラスのいずれかに分類し、当該名詞を対応する意味クラスに変換するための意味クラス変換手段を含み、
　前記素性集合生成手段は、前記質問と、前記回答候補の各々との組合せについて、前記構文解析手段による解析結果と、前記評価手段により特定されたフレーズの箇所及びその評価クラスの極性と、前記意味クラス変換手段による変換がされた後の前記構文解析手段の出力と、前記回答候補に付されている素性生成用の情報とに基づいて、前記素性の集合を生成するための第１の手段を含む、請求項１に記載のノン・ファクトイド型の質問応答システム。
　前記第１の手段が、前記評価手段により特定されたフレーズの箇所及び評価クラスの極性に基づいて生成する素性は、質問中のフレーズの評価クラスの極性と、回答候補中のフレーズの評価クラスの極性とが一致するか否かを示す情報を含む、請求項２に記載のノン・ファクトイド型の質問応答システム。
　前記第１の手段が生成する素性は、前記構文解析手段の出力から得られ、前記評価手段の出力又は前記意味クラス変換手段の出力を用いずに得られる素性と、前記構文解析手段の出力に、前記評価手段の出力を組合せて得られる素性と、前記構文解析手段の出力に、前記意味クラス変換手段の出力を組合せて得られる素性とを含む、請求項２に記載のノン・ファクトイド型の質問応答システム。
　前記第１の手段が生成する素性は、前記構文解析手段の出力に、前記評価手段の出力を組合せ、さらに前記意味クラス変換手段の出力を組合せて得られる素性を含む、請求項２に記載のノン・ファクトイド型の質問応答システム。
　ノン・ファクトイド型の質問の入力を受け、当該質問に対する回答を生成するノン・ファクトイド型の質問応答システムをコンピュータにより実現させるコンピュータプログラムであって、
　前記コンピュータは、処理対象の言語の文書であって、コンピュータ読取可能な文書からなるコーパスを記憶するためのコーパス記憶手段に接続され、
　前記コンピュータプログラムは、前記コンピュータを、
　質問の入力を受けたことに応答して、前記コーパス記憶手段から、当該質問に対する複数個の回答候補を検索し取り出すための候補検索手段と、
　質問の入力を受けたことに応答して、当該質問と、前記候補検索手段に記憶された回答候補の各々との組合せについて、所定の素性の集合を生成するための素性生成手段と、
　前記素性生成手段により生成される前記素性の集合が与えられると、当該素性の集合を生成する元となった質問及び回答候補の組合せについて、当該回答候補が当該質問に対する正しい回答である度合いを示すスコアを算出するように予め学習されたスコア算出手段と、
　前記質問と、前記回答候補に記憶された回答候補の各々との組合せについて、前記スコア算出手段により算出されたスコアに基づき、前記質問に対する正しい回答である可能性が最も高い回答候補を前記質問に対する回答として出力する回答選択手段として機能させ、
　前記候補検索手段により検索された回答候補の各々には、前記素性生成手段による素性の生成に必要な情報が付されており、
　前記コンピュータを前記素性生成手段として機能させるプログラム部分は、前記コンピュータを、
　前記質問について、形態素解析及び構文解析を行ない、形態素情報及び統語情報を出力するための構文解析手段と、
　前記質問のうち、ある評価基準にしたがって第１の評価クラスに分類されるフレーズと、第２の評価クラスに分類されるフレーズとを特定するための評価手段として機能させ、前記第１の評価クラス及び第２の評価クラスには、それぞれ互いに相反する評価の極性が割当てられており、
　前記コンピュータプログラムはさらに、前記コンピュータを、前記質問と、前記回答候補の各々との組合せについて、前記構文解析手段による解析結果と、前記評価手段により特定されたフレーズの箇所及びその評価クラスの極性と、前記回答候補に付されている素性生成用の情報とに基づいて、前記素性の集合を生成するための素性集合生成手段として機能させる、コンピュータプログラム。