WO2021009861A1

WO2021009861A1 - 特定プログラム、特定方法、および特定装置

Info

Publication number: WO2021009861A1
Application number: PCT/JP2019/028021
Authority: WO
Inventors: 祐冨田
Original assignee: 富士通株式会社
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-01-21
Also published as: JP7255684B2; JPWO2021009861A1; US20220114824A1

Abstract

特定装置（１００）は、Ｗｏｒｄ２Ｖｅｃによるモデルを利用して、記憶部（１１０）に記憶された複数の文（１０２）のそれぞれの文（１０２）と、入力された第１文（１０１）との間におけるＷＭＤの結果を示す第１値を算出する。特定装置（１００）は、ＬＳＩによるモデルを利用して、それぞれの文（１０２）と、入力された第１文（１０１）との間におけるＬＳＩの結果を示す第２値を算出する。特定装置（１００）は、それぞれの文（１０２）に対応する、当該文（１０２）について取得した第１値に基づく大きさと、当該文（１０２）について取得した第２値に基づく向きとを有するベクトル（１２０）に基づいて、当該文（１０２）と第１文（１０１）との類似度を算出する。特定装置（１００）は、算出した類似度に基づいて、複数の文（１０２）のうち第１文（１０１）に類似する第２文（１０２）を特定する。

Description

特定プログラム、特定方法、および特定装置

　本発明は、特定プログラム、特定方法、および特定装置に関する。

　従来、記憶部に記憶された複数の文の中から、ユーザにより入力された文に類似する文を検索する技術がある。この技術は、例えば、記憶部に記憶された回答文に対応付けられた質問文の中から、ユーザにより入力された質問文に類似する質問文を検索し、発見した質問文に対応付けられた回答文を出力するチャットボットなどに利用される。

　先行技術としては、例えば、文書の内容から文書のセマンティック記述を生成し、文書のセマンティック記述と検索語との間の類似性に基づき、類似性スコアを計算するものがある。また、例えば、重み付けられた話題カテゴリごとの標本文書と参照文書との類似度を求め、すべての話題カテゴリについて足し合わせることにより、標本文書と参照文書との類似度を求める技術がある。また、例えば、中央の円の中心から放射状に伸びた各軸と円との交点の外側に各軸に割り当てられたテーマを表すアイコンを配置し、円上に文書を表すアイコンを各テーマに対する文書の関連度と各テーマの有する引力とにより決定される位置に配置する技術がある。

特開２０１６－０７６２０８号公報特開２０１２－００３３３３号公報特開２００３－２３３６２６号公報

　しかしながら、従来技術では、複数の文の中から、入力された文に類似する文を精度よく特定することが難しい。例えば、入力された文と、複数の文のそれぞれの文とが意味的にどの程度類似しているのかを精度よく示す指標値を算出することが難しく、複数の文の中から、入力された文に類似する文を特定することができない。

　１つの側面では、本発明は、複数の文の中から入力された文に類似する文を特定する精度の向上を図ることを目的とする。

　１つの実施態様によれば、記憶部に記憶された複数の文に含まれるそれぞれの文と入力された第１文との間における文書間距離解析の結果を示す第１値を取得し、前記それぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得し、前記それぞれの文に対応する、前記それぞれの文について取得した前記第１値に基づく大きさと前記それぞれの文について取得した前記第２値に基づく向きとを有するベクトルに基づいて、前記それぞれの文と前記第１文との類似度を算出し、算出した前記それぞれの文と前記第１文との類似度に基づいて、前記複数の文のうち前記第１文に類似する第２文を特定する特定プログラム、特定方法、および特定装置が提案される。

　一態様によれば、複数の文の中から入力された文に類似する文を特定する精度の向上を図ることが可能になる。

図１は、実施の形態にかかる特定方法の一実施例を示す説明図である。図２は、ＦＡＱシステム２００の一例を示す説明図である。図３は、特定装置１００のハードウェア構成例を示すブロック図である。図４は、ＦＡＱリスト４００の記憶内容の一例を示す説明図である。図５は、ＬＳＩスコアリスト５００の記憶内容の一例を示す説明図である。図６は、ＷＭＤスコアリスト６００の記憶内容の一例を示す説明図である。図７は、類似スコアリスト７００の記憶内容の一例を示す説明図である。図８は、クライアント装置２０１のハードウェア構成例を示すブロック図である。図９は、特定装置１００の機能的構成例を示すブロック図である。図１０は、特定装置１００の具体的な機能的構成例を示すブロック図である。図１１は、類似スコアを算出する一例を示す説明図である。図１２は、ＬＳＩスコアとＷＭＤスコアとのバリエーションの一例を示す説明図である。図１３は、特定装置１００による効果を示す説明図（その１）である。図１４は、特定装置１００による効果を示す説明図（その２）である。図１５は、特定装置１００による効果を示す説明図（その３）である。図１６は、特定装置１００による効果を示す説明図（その４）である。図１７は、特定装置１００による効果を示す説明図（その５）である。図１８は、クライアント装置２０１における表示画面例を示す説明図である。図１９は、全体処理手順の一例を示すフローチャートである。図２０は、算出処理手順の一例を示すフローチャートである。

　以下に、図面を参照して、本発明にかかる特定プログラム、特定方法、および特定装置の実施の形態を詳細に説明する。

（実施の形態にかかる特定方法の一実施例）
　図１は、実施の形態にかかる特定方法の一実施例を示す説明図である。図１において、特定装置１００は、複数の文１０２の中から、入力された第１文１０１に意味的に類似する第２文１０２を特定しやすくするためのコンピュータである。

　近年、ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）の普及に伴い、自然言語処理分野において、複数の文の中から、ユーザにより入力された何らかの文に類似する文を精度よく特定する手法が望まれる。例えば、ＦＡＱチャットボットにおいて、記憶部に記憶された回答文に対応付けられた質問文の中から、ユーザにより入力された質問文に意味的に類似する質問文を精度よく特定する手法が望まれる。

　しかしながら、従来では、複数の文の中から、ユーザにより入力された文に類似する文を精度よく特定することが難しい。例えば、入力された文と、複数の文のそれぞれの文とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することが難しく、複数の文の中から、入力された文に意味的に類似する文を特定することができない。

　特に、日本語環境では、語彙数の多さや曖昧な文章表現などに起因して、入力された文と、複数の文のそれぞれの文とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することが難しくなる。結果として、複数の文の中から、入力された文に意味的に類似する文を特定することに成功する確率が、７割または８割以下になることがある。

　ここで、文同士の類似度として、文同士のＣｏｓ類似度を算出する手法が考えられるが、それぞれの文に含まれる単語を、ｔｆ－ｉｄｆなどにより表現するため、文同士が意味的にどの程度類似しているのかを精度よく示すことは難しい。例えば、それぞれの文に含まれる単語が、意味的にどの程度類似しているのかを考慮することができない。また、教師データ次第で、意味が異なる文同士についてもＣｏｓ類似度が大きくなることがある。

　また、文同士の類似度として、Ｄｏｃ２Ｖｅｃにより、ニューラルネットワークを利用して類似度を算出する手法が考えられる。この手法では、乱数を含む初期ベクトルを利用するため、類似度が不安定であり、比較的短い文同士が意味的にどの程度類似しているのかを精度よく示すことは難しい。また、学習パラメータの種類が比較的多く、学習パラメータを最適化するためのコストや作業量の増大化を招いてしまう。また、教師データの数を増加しなければ、類似度を算出する精度を向上することができないため、コストや作業量の増大化を招いてしまう。また、利用シーンが異なると、新たに教師データを用意することになるため、コストや作業量の増大化を招いてしまう。

　また、文同士の文書間距離解析（Ｗｏｒｄ　Ｍｏｖｅｒ’ｓ　Ｄｉｓｔａｎｃｅ）により、文同士の類似度を算出する手法が考えられる。この手法では、複数の文の中から、入力された文に意味的に類似する文を特定することに成功する確率を、８割以上にすることは難しい。以下の説明では、文書間距離解析を「ＷＭＤ」と表記する場合がある。ＷＭＤについては、具体的には、例えば、下記参考文献１を参照することができる。

　参考文献１：Ｋｕｓｎｅｒ，　Ｍａｔｔ，　ｅｔ　ａｌ．　“Ｆｒｏｍ　ｗｏｒｄ　ｅｍｂｅｄｄｉｎｇｓ　ｔｏ　ｄｏｃｕｍｅｎｔ　ｄｉｓｔａｎｃｅｓ．”　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ．　２０１５．

　また、文同士の潜在的意味解析（Ｌａｔｅｎｔ　Ｓｅｍａｎｔｉｃ　Ｉｎｄｅｘｉｎｇ）により、文同士の類似度を算出する手法が考えられる。この手法でも、複数の文の中から、入力された文に意味的に類似する文を特定することに成功する確率を、８割以上にすることは難しい。また、いずれかの文に含まれる単語が未知語であると、文同士が意味的にどの程度類似しているのかを精度よく示すことが難しくなる。以下の説明では、潜在的意味解析を「ＬＳＩ」と表記する場合がある。ＬＳＩについては、具体的には、例えば、下記参考文献２を参照することができる。

　参考文献２：米国特許　登録番号　ＵＳ．４８３９８５３．Ａ

　このため、未知語が含まれていても文同士の意味的な類似度を精度よく算出可能であり、利用シーンごとに用意する教師データとなる文の数が比較的少なくて済み、かつ、学習パラメータの種類の数も比較的少なくて済むようにすることができる手法が望まれる。

　そこで、本実施の形態では、ＷＭＤとＬＳＩとを利用して、入力された文と複数の文のそれぞれの文との意味的な類似度を精度よく算出可能にし、複数の文のうち入力された文に意味的に類似する文を精度よく特定可能にする特定方法について説明する。

　図１の例では、特定装置１００は、記憶部１１０を有する。記憶部１１０は、複数の文１０２を記憶する。文１０２は、例えば、日本語で記述される。文１０２は、例えば、日本語以外で記述されてもよい。文１０２は、例えば、文章である。

　また、特定装置１００は、第１文１０１の入力を受け付ける。第１文１０１は、例えば、日本語で記述される。第１文１０１は、例えば、日本語以外で記述されてもよい。第１文１０１は、例えば、文章である。第１文１０１は、例えば、単語の羅列であってもよい。

　（１－１）特定装置１００は、記憶部１１０に記憶された複数の文１０２のそれぞれの文１０２について、当該文１０２と入力された第１文１０１との間におけるＷＭＤの結果を示す第１値を取得する。特定装置１００は、例えば、Ｗｏｒｄ２Ｖｅｃによるモデルを利用して、記憶部１１０に記憶された複数の文１０２のそれぞれの文１０２と、入力された第１文１０１との間におけるＷＭＤの結果を示す第１値を算出する。

　（１－２）特定装置１００は、記憶部１１０に記憶された複数の文１０２のそれぞれの文１０２について、当該文１０２と第１文１０１との間におけるＬＳＩの結果を示す第２値を取得する。特定装置１００は、例えば、ＬＳＩによるモデルを利用して、記憶部１１０に記憶された複数の文１０２のそれぞれの文１０２と、入力された第１文１０１との間におけるＬＳＩの結果を示す第２値を算出する。

　（１－３）特定装置１００は、それぞれの文１０２に対応するベクトル１２０に基づいて、当該文１０２と第１文１０１との類似度を算出する。それぞれの文１０２に対応するベクトル１２０は、例えば、当該文１０２について取得した第１値に基づく大きさと、当該文１０２について取得した第２値に基づく向きとを有する。

　（１－４）特定装置１００は、算出したそれぞれの文１０２と第１文１０１との類似度に基づいて、複数の文１０２のうち第１文１０１に類似する第２文１０２を特定する。特定装置１００は、例えば、複数の文１０２のうち、算出した類似度が最大である文１０２を、第１文１０１に類似する第２文１０２として特定する。

　これにより、特定装置１００は、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。そして、特定装置１００は、複数の文１０２の中から、入力された第１文１０１に意味的に類似する文１０２を、精度よく特定することができる。

　また、特定装置１００は、ユーザによって用意される教師データとなる文の数が比較的少なくても、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。結果として、特定装置１００は、コストや作業量の増大化を抑制することができる。

　特定装置１００は、例えば、Ｗｏｒｄ２Ｖｅｃによるモデルを、日本語版Ｗｉｋｉｐｅｄｉａに基づき生成可能であるため、ユーザが教師データとなる文を用意せずに済ませることができる。また、特定装置１００は、例えば、Ｗｏｒｄ２Ｖｅｃによるモデルを、記憶部１１０に記憶された複数の文１０２に基づき生成してもよいため、記憶部１１０に記憶された文１０２以外に、ユーザが教師データとなる文を用意せずに済ませることができる。そして、特定装置１００は、利用シーンが異なる場合も、Ｗｏｒｄ２Ｖｅｃによるモデルを流用することができる。

　また、特定装置１００は、例えば、ＬＳＩによるモデルを、記憶部１１０に記憶された複数の文１０２に基づき生成可能であるため、記憶部１１０に記憶された文１０２以外に、ユーザが教師データとなる文を用意せずに済ませることができる。

　また、特定装置１００は、学習パラメータの種類が比較的少なくても、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。特定装置１００は、例えば、ＬＳＩによるモデルを生成する際、次元数を示す１種類の学習パラメータを調整すればよく、コストや作業量の増大化を抑制することができる。また、特定装置１００は、ＬＳＩによるモデルを、比較的短時間で生成することができ、コストや作業量の増大化を抑制することができる。

　また、特定装置１００は、入力された第１文１０１に未知語が含まれていても、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。特定装置１００は、例えば、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２との間におけるＷＭＤの結果を示す第１値を利用するため、入力された第１文１０１に未知語が含まれていても、類似度を算出する精度の向上を図ることができる。

　そして、特定装置１００は、日本語環境であっても、入力された第１文１０１と、複数の文１０２のそれぞれの文１０２とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。結果として、特定装置１００は、複数の文１０２の中から、入力された第１文１０１に意味的に類似する文１０２を特定することに成功する確率の向上を図ることができる。

　ここでは、特定装置１００が、第１値と第２値とを算出する場合について説明したが、これに限らない。例えば、特定装置１００以外の装置が、第１値と第２値とを算出し、特定装置１００が、第１値と第２値とを受信する場合があってもよい。

（ＦＡＱシステム２００の一例）
　次に、図２を用いて、図１に示した特定装置１００を適用した、ＦＡＱシステム２００の一例について説明する。

　図２は、ＦＡＱシステム２００の一例を示す説明図である。図２において、ＦＡＱシステム２００は、特定装置１００と、クライアント装置２０１とを含む。

　ＦＡＱシステム２００において、特定装置１００とクライアント装置２０１とは、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットなどである。

　特定装置１００は、複数の質問文のそれぞれの質問文に、当該質問文に対する回答文を対応付けて、記憶部に記憶するコンピュータである。質問文は、例えば、文章である。特定装置１００は、例えば、複数の質問文のそれぞれの質問文に、当該質問文に対する回答文を対応付けて、図４に後述するＦＡＱリスト４００を用いて記憶する。

　また、特定装置１００は、ＦＡＱシステム２００のユーザからの質問文の入力を受け付ける。ユーザからの質問文は、例えば、文章である。ユーザからの質問文は、例えば、単語の羅列であってもよい。また、特定装置１００は、記憶部に記憶された複数の質問文の中から、入力された質問文に意味的に類似する質問文を特定する。また、特定装置１００は、特定した質問文に対応付けられた回答文を出力する。

　特定装置１００は、例えば、ＦＡＱシステム２００のユーザからの質問文を、クライアント装置２０１から受信する。特定装置１００は、例えば、入力された質問文と、記憶部に記憶された複数の質問文のそれぞれの質問文との、ＬＳＩによる類似度を算出する。以下の説明では、ＬＳＩによる類似度を「ＬＳＩスコア」と表記する場合がある。そして、特定装置１００は、算出したＬＳＩスコアを、図６に後述するＬＳＩスコアリスト５００を用いて記憶する。

　次に、特定装置１００は、例えば、入力された質問文と、記憶部に記憶された複数の質問文のそれぞれの質問文との、ＷＭＤによる類似度を算出する。以下の説明では、ＷＭＤによる類似度を「ＷＭＤスコア」と表記する場合がある。そして、特定装置１００は、算出したＷＭＤスコアを、図６に後述するＷＭＤスコアリスト６００を用いて記憶する。

　次に、特定装置１００は、例えば、算出したＬＳＩスコアとＷＭＤスコアとに基づいて、入力された質問文と、記憶部に記憶された複数の質問文のそれぞれの質問文との類似スコアを算出し、図７に後述する類似スコアリスト７００を用いて記憶する。そして、特定装置１００は、例えば、算出した類似スコアに基づいて、記憶部に記憶された複数の質問文の中から、入力された質問文に意味的に類似する質問文を特定する。

　特定装置１００は、例えば、特定した質問文に対応付けられた回答文を、クライアント装置２０１に表示させる。特定装置１００は、例えば、サーバやＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、タブレット端末、スマートフォン、ウェアラブル端末などである。マイコン、ＰＬＣ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｃｏｎｔｒｏｌｌｅｒ）などである。

　クライアント装置２０１は、ＦＡＱシステム２００のユーザにより使用されるコンピュータである。クライアント装置２０１は、ＦＡＱシステム２００のユーザの操作入力に基づいて、質問文を、特定装置１００に送信する。クライアント装置２０１は、特定装置１００の制御に従って、送信した質問文に意味的に類似する質問文に対応付けられた回答文を表示する。クライアント装置２０１は、例えば、ＰＣ、タブレット端末、または、スマートフォンなどである。

　ここでは、特定装置１００が、クライアント装置２０１とは異なる装置である場合について説明したが、これに限らない。例えば、特定装置１００が、クライアント装置２０１としても動作する装置である場合があってもよい。また、この場合、ＦＡＱシステム２００は、クライアント装置２０１を含まなくてもよい。

　これにより、ＦＡＱシステム２００は、ＦＡＱシステム２００のユーザに、ＦＡＱを提供するサービスを実現することができる。以下の説明では、上述したＦＡＱシステム２００を一例として、特定装置１００の動作について説明する。

（特定装置１００のハードウェア構成例）
　次に、図３を用いて、特定装置１００のハードウェア構成例について説明する。

　図３は、特定装置１００のハードウェア構成例を示すブロック図である。図３において、特定装置１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５とを有する。また、各構成部は、バス３００によってそれぞれ接続される。

　ここで、ＣＰＵ３０１は、特定装置１００の全体の制御を司る。メモリ３０２は、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

　ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ３０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３は、例えば、モデムやＬＡＮアダプタなどである。

　記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御に従って記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ３０４は、例えば、ディスクドライブ、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポートなどである。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体３０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体３０５は、特定装置１００から着脱可能であってもよい。

　特定装置１００は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、特定装置１００は、例えば、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を複数有していてもよい。また、特定装置１００は、例えば、記録媒体Ｉ／Ｆ３０４や記録媒体３０５を有していなくてもよい。

（ＦＡＱリスト４００の記憶内容）
　次に、図４を用いて、ＦＡＱリスト４００の記憶内容の一例について説明する。ＦＡＱリスト４００は、例えば、図３に示した特定装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

　図４は、ＦＡＱリスト４００の記憶内容の一例を示す説明図である。図４に示すように、ＦＡＱリスト４００は、文章ＩＤと、内容と、回答とのフィールドを有する。ＦＡＱリスト４００は、文章ごとに各フィールドに情報を設定することにより、ＦＡＱ情報がレコードとして記憶される。文章ＩＤのフィールドには、文章に付与され、文章を識別する文章ＩＤが設定される。内容のフィールドには、文章ＩＤによって識別される文章が設定される。内容のフィールドには、例えば、文章ＩＤによって識別される質問文が設定される。回答のフィールドには、文章ＩＤによって識別される質問文に対応する回答文が設定される。

（ＬＳＩスコアリスト５００の記憶内容）
　次に、図５を用いて、ＬＳＩスコアリスト５００の記憶内容の一例について説明する。ＬＳＩスコアリスト５００は、例えば、図３に示した特定装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

　図５は、ＬＳＩスコアリスト５００の記憶内容の一例を示す説明図である。図５に示すように、ＬＳＩスコアリスト５００は、文章ＩＤと、ＬＳＩスコアとのフィールドを有する。ＬＳＩスコアリスト５００は、文章ごとに各フィールドに情報を設定することにより、ＬＳＩスコア情報がレコードとして記憶される。文章ＩＤのフィールドには、文章に付与され、文章を識別する文章ＩＤが設定される。ＬＳＩスコアのフィールドには、入力された文章と、文章ＩＤによって識別される文章との間のＬＳＩによる類似度を示すＬＳＩスコアが設定される。

（ＷＭＤスコアリスト６００の記憶内容）
　次に、図６を用いて、ＷＭＤスコアリスト６００の記憶内容の一例について説明する。ＷＭＤスコアリスト６００は、例えば、図３に示した特定装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

　図６は、ＷＭＤスコアリスト６００の記憶内容の一例を示す説明図である。図６に示すように、ＷＭＤスコアリスト６００は、文章ＩＤと、ＷＭＤスコアとのフィールドを有する。ＷＭＤスコアリスト６００は、文章ごとに各フィールドに情報を設定することにより、ＷＭＤスコア情報がレコードとして記憶される。文章ＩＤのフィールドには、文章に付与され、文章を識別する文章ＩＤが設定される。ＷＭＤスコアのフィールドには、入力された文章と、文章ＩＤによって識別される文章との間のＷＭＤによる類似度を示すＷＭＤスコアが設定される。

（類似スコアリスト７００の記憶内容）
　次に、図７を用いて、類似スコアリスト７００の記憶内容の一例について説明する。類似スコアリスト７００は、例えば、図３に示した特定装置１００のメモリ３０２や記録媒体３０５などの記憶領域により実現される。

　図７は、類似スコアリスト７００の記憶内容の一例を示す説明図である。図７に示すように、類似スコアリスト７００は、文章ＩＤと、類似スコアとのフィールドを有する。類似スコアリスト７００は、文章ごとに各フィールドに情報を設定することにより、類似スコア情報がレコードとして記憶される。文章ＩＤのフィールドには、文章に付与され、文章を識別する文章ＩＤが設定される。類似スコアのフィールドには、入力された文章と、文章ＩＤによって識別される文章との間の、ＬＳＩスコアおよびＷＭＤスコアに基づく類似度を示す類似スコアが設定される。

（クライアント装置２０１のハードウェア構成例）
　次に、図８を用いて、図２に示したＦＡＱシステム２００に含まれるクライアント装置２０１のハードウェア構成例について説明する。

　図８は、クライアント装置２０１のハードウェア構成例を示すブロック図である。図８において、クライアント装置２０１は、ＣＰＵ８０１と、メモリ８０２と、ネットワークＩ／Ｆ８０３と、記録媒体Ｉ／Ｆ８０４と、記録媒体８０５と、ディスプレイ８０６と、入力装置８０７とを有する。また、各構成部は、例えば、バス８００によってそれぞれ接続される。

　ここで、ＣＰＵ８０１は、クライアント装置２０１の全体の制御を司る。メモリ８０２は、例えば、ＲＯＭ、ＲＡＭおよびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ８０１のワークエリアとして使用される。メモリ８０２に記憶されるプログラムは、ＣＰＵ８０１にロードされることで、コーディングされている処理をＣＰＵ８０１に実行させる。

　ネットワークＩ／Ｆ８０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ８０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ８０３は、例えば、モデムやＬＡＮアダプタなどである。

　記録媒体Ｉ／Ｆ８０４は、ＣＰＵ８０１の制御に従って記録媒体８０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ８０４は、例えば、ディスクドライブ、ＳＳＤ、ＵＳＢポートなどである。記録媒体８０５は、記録媒体Ｉ／Ｆ８０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体８０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体８０５は、クライアント装置２０１から着脱可能であってもよい。

　ディスプレイ８０６は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。ディスプレイ８０６は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどである。入力装置８０７は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置８０７は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。

　クライアント装置２０１は、上述した構成部のほか、例えば、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、クライアント装置２０１は、例えば、記録媒体Ｉ／Ｆ８０４や記録媒体８０５を複数有していてもよい。また、クライアント装置２０１は、例えば、記録媒体Ｉ／Ｆ８０４や記録媒体８０５を有していなくてもよい。

（特定装置１００の機能的構成例）
　次に、図９を用いて、特定装置１００の機能的構成例について説明する。

　図９は、特定装置１００の機能的構成例を示すブロック図である。特定装置１００は、記憶部９００と、取得部９０１と、抽出部９０２と、算出部９０３と、特定部９０４と、出力部９０５とを含む。

　記憶部９００は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域によって実現される。以下では、記憶部９００が、特定装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部９００が、特定装置１００とは異なる装置に含まれ、記憶部９００の記憶内容が特定装置１００から参照可能である場合があってもよい。

　取得部９０１～出力部９０５は、制御部の一例として機能する。取得部９０１～出力部９０５は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、ネットワークＩ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶される。

　記憶部９００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部９００は、複数の文を記憶する。文は、例えば、回答文に対応付けられた質問文である。文は、例えば、文章である。文は、例えば、単語の羅列であってもよい。文は、例えば、日本語で記述される。文は、例えば、日本語以外で記述されてもよい。また、記憶部９００は、文ごとの転置インデックスを記憶してもよい。

　記憶部９００は、Ｗｏｒｄ２Ｖｅｃに基づくモデルを記憶する。Ｗｏｒｄ２Ｖｅｃに基づくモデルは、例えば、日本語版Ｗｉｋｉｐｅｄｉａと、記憶部９００に記憶された複数の文との少なくともいずれかに基づき生成される。以下の説明では、Ｗｏｒｄ２Ｖｅｃに基づくモデルを「Ｗｏｒｄ２Ｖｅｃモデル」と表記する場合がある。

　記憶部９００は、ＬＳＩに基づくモデルを記憶する。ＬＳＩに基づくモデルは、例えば、記憶部９００に記憶された複数の文に基づき生成される。以下の説明では、ＬＳＩに基づくモデルを「ＬＳＩモデル」と表記する場合がある。また、記憶部９００は、ＬＳＩに基づく辞書を記憶する。以下の説明では、ＬＳＩに基づく辞書を「ＬＳＩ辞書」と表記する場合がある。また、記憶部９００は、ＬＳＩに基づくコーパスを記憶する。以下の説明では、ＬＳＩに基づくコーパスを「ＬＳＩコーパス」と表記する場合がある。

　取得部９０１は、各機能部の処理に用いられる各種情報を取得する。取得部９０１は、取得した各種情報を、記憶部９００に記憶し、または、各機能部に出力する。また、取得部９０１は、記憶部９００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部９０１は、例えば、利用者の操作入力に基づき、各種情報を取得する。取得部９０１は、例えば、特定装置１００とは異なる装置から、各種情報を受信してもよい。

　取得部９０１は、第１文を取得する。第１文は、例えば、質問文である。第１文は、例えば、文章である。第１文は、例えば、単語の羅列であってもよい。第１文は、日本語で記述される。第１文は、例えば、日本語以外で記述されてもよい。取得部９０１は、例えば、第１文を、クライアント装置２０１から受信する。

　抽出部９０２は、記憶部９００の中から、第１文と同じ単語を含む複数の文を抽出する。抽出部９０２は、記憶部９００に記憶された文ごとの転置インデックスを生成して、記憶部９００に記憶しておく。抽出部９０２は、取得した第１文の転置インデックスを生成し、記憶部９００に記憶された文ごとの転置インデックスと比較し、記憶部９００に記憶された文ごとに、単語の出現頻度に応じたスコアを算出する。そして、抽出部９０２は、算出したスコアに基づいて、記憶部９００の中から、複数の文を抽出する。これにより、抽出部９０２は、算出部９０３が処理対象とする文の数の低減化を図り、算出部９０３の処理量の低減化を図ることができる。

　算出部９０３は、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と入力された第１文との間におけるＷＭＤの結果を示す第１値を算出することにより取得する。第１値は、例えば、ＷＭＤスコアである。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　算出部９０３は、例えば、Ｗｏｒｄ２Ｖｅｃモデルを利用して、抽出部９０２が抽出した複数の文のそれぞれの文と、入力された第１文とのＷＭＤスコアを算出することにより取得する。これにより、算出部９０３は、抽出部９０２が抽出した複数の文のそれぞれの文と、入力された第１文との意味的な類似度を示す類似スコアを算出する際に、ＷＭＤスコアを利用可能にすることができる。

　算出部９０３は、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と第１文との間におけるＬＳＩの結果を示す第２値を取得する。第２値は、例えば、ＬＳＩスコアである。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　算出部９０３は、例えば、ＬＳＩモデルを利用して、抽出部９０２が抽出した複数の文のそれぞれの文と、入力された第１文とのＬＳＩスコアを算出することにより取得する。これにより、算出部９０３は、抽出部９０２が抽出した複数の文のそれぞれの文と、入力された第１文との意味的な類似度を示す類似スコアを算出する際に、ＬＳＩスコアを利用可能にすることができる。

　また、算出部９０３は、例えば、ＬＳＩモデルを利用して、抽出部９０２が抽出した複数の文以外の記憶部９００に記憶された残余の文のそれぞれの文と、入力された第１文とのＬＳＩスコアを算出することにより取得してもよい。これにより、算出部９０３は、特定部９０４が、残余の文のそれぞれの文についてのＬＳＩスコアを参照可能にすることができる。

　算出部９０３は、複数の文のいずれかの文について取得した第２値が負の値である場合には、いずれかの文について取得した第２値を０に補正してもよい。算出部９０３は、例えば、いずれかの文について取得したＬＳＩスコアが負の値である場合には、当該文についてのＬＳＩスコアを０に補正する。これにより、算出部９０３は、類似スコアを精度よく算出しやすくすることができる。

　算出部９０３は、記憶部９００に記憶された複数の文のそれぞれの文に対応するベクトルに基づいて、当該文と第１文との類似度を算出する。類似度は、例えば、類似スコアである。類似度は、いずれかの文と第１文とが意味的にどの程度類似しているのかを精度よく示すことが可能である。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　文に対応するベクトルは、当該文について取得した第１値に基づく大きさと、当該文について取得した第２値に基づく向きとを有する。文に対応するベクトルは、例えば、当該文について取得した第１値に基づく大きさと、所定座標系の第１軸を基準とした、当該文について取得した第２値に基づく角度とを有する。所定座標系は、例えば、平面座標系であり、第１軸は、例えば、Ｘ軸である。

　算出部９０３は、例えば、それぞれの文に対応するベクトルの、第１軸とは異なる所定座標系の第２軸における座標値に基づいて、当該文と第１文との類似度を算出する。第２軸は、例えば、Ｙ軸である。算出部９０３は、具体的には、それぞれの文に対応するベクトルのＹ座標値を、当該文と第１文との類似スコアとして算出する。類似スコアを算出する一例は、具体的には、例えば、図１１を用いて後述する。これにより、算出部９０３は、特定部９０４が、記憶部９００の中から第１文に意味的に類似する第２文を特定するための指標となる類似スコアを参照可能にすることができる。

　算出部９０３は、複数の文のいずれかの文について取得した第２値が閾値未満である場合には、それぞれの文に対応するベクトルに基づいて、当該文と第１文との類似度を算出する。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。閾値は、例えば、０．９である。算出部９０３は、例えば、複数の文のそれぞれの文について算出したＬＳＩスコアのうち、ＬＳＩスコア最大値が、閾値０．９未満である場合には、それぞれの文に対応するベクトルに基づいて、類似スコアを算出する。

　一方で、算出部９０３は、例えば、複数の文のそれぞれの文について算出したＬＳＩスコアのうち、ＬＳＩスコア最大値が、閾値０．９以上である場合には、類似スコアを算出する処理を省略してもよい。また、この場合には、算出部９０３は、第１値を算出する処理を省略してもよい。これにより、算出部９０３は、第２値が比較的大きく、特定部９０４が、第２値に基づいて記憶部９００の中から第１文に意味的に類似する第２文を精度よく特定可能であると判断される場合には、類似スコアを算出せずに、処理量の低減化を図ることができる。

　特定部９０４は、算出した記憶部９００に記憶された複数の文のそれぞれの文と第１文との類似度に基づいて、記憶部９００の中から、第１文に類似する第２文を特定する。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　特定部９０４は、例えば、記憶部９００に記憶された複数の文のうち、算出した類似度が最も大きい第２文を特定する。特定部９０４は、具体的には、抽出部９０２が抽出した複数の文の中から、算出した類似スコアが最大である文を、第２文として特定する。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、例えば、記憶部９００に記憶された複数の文のうち、算出した類似度が所定値以上の第２文を特定してもよい。ここで、第２文は、複数あってもよい。特定部９０４は、具体的には、抽出部９０２が抽出した複数の文の中から、算出した類似スコアが所定値以上である文を、第２文として特定する。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、例えば、抽出した複数の文のそれぞれの文と第１文との類似度、および、残余の文のそれぞれの文について取得した第２値に基づいて、記憶部９００の中から、第１文に類似する第２文を特定してもよい。特定部９０４は、具体的には、抽出した複数の文のそれぞれの文についての類似スコアと、残余の文のそれぞれの文についてのＬＳＩスコアとのうち、最も大きいスコアに対応する文を、第２文として特定する。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、具体的には、抽出した複数の文のそれぞれの文についての類似スコアと、残余の文のそれぞれの文についてのＬＳＩスコアとのうち、所定値以上のスコアに対応する文を、第２文として特定してもよい。ここで、第２文は、複数あってもよい。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、記憶部９００に記憶された複数の文のいずれかの文について取得した第２値が閾値以上である場合には、それぞれの文について取得した第２値に基づいて、記憶部９００の中から、第２文を特定してもよい。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　特定部９０４は、例えば、抽出部９０２が抽出した複数の文のそれぞれの文について算出したＬＳＩスコアのうち、ＬＳＩスコア最大値が、閾値０．９以上である場合には、ＬＳＩスコアに基づいて、記憶部９００の中から、第２文を特定する。特定部９０４は、具体的には、抽出部９０２が抽出した複数の文の中から、ＬＳＩスコアが最大である文を、第２文として特定する。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、具体的には、抽出部９０２が抽出した複数の文の中から、ＬＳＩスコアが所定値以上である文を、第２文として特定してもよい。ここで、第２文は、複数あってもよい。これにより、特定部９０４は、第１文に意味的に類似する第２文を精度よく特定することができる。

　特定部９０４は、算出した記憶部９００に記憶された複数の文のそれぞれの文と第１文との類似度に基づいて、記憶部９００に記憶された複数の文をソートしてもよい。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。特定部９０４は、例えば、抽出部９０２が抽出した複数の文を、算出した類似スコアが大きい順にソートする。これにより、特定部９０４は、第１文に意味的に類似する順で、複数の文をソートすることができる。

　特定部９０４は、例えば、抽出した複数の文のそれぞれの文と第１文との類似度、および、残余の文のそれぞれの文について取得した第２値に基づいて、記憶部９００に記憶された文をソートしてもよい。特定部９０４は、具体的には、抽出した複数の文のそれぞれの文についての類似スコアと、残余の文のそれぞれの文についてのＬＳＩスコアとに基づいて、スコアが大きい順に、記憶部９００に記憶された文をソートする。これにより、特定部９０４は、第１文に意味的に類似する順で、複数の文をソートすることができる。

　特定部９０４は、記憶部９００に記憶された複数の文のいずれかの文について取得した第２値が閾値以上である場合には、それぞれの文について取得した第２値に基づいて、記憶部９００に記憶された文をソートしてもよい。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。

　特定部９０４は、例えば、抽出部９０２が抽出した複数の文のそれぞれの文について算出したＬＳＩスコアのうち、ＬＳＩスコア最大値が、閾値０．９以上である場合には、ＬＳＩスコアに基づいて、抽出部９０２が抽出した複数の文をソートする。特定部９０４は、具体的には、ＬＳＩスコアが大きい順に、抽出部９０２が抽出した複数の文をソートする。これにより、特定部９０４は、第１文に意味的に類似する順で、複数の文をソートすることができる。

　出力部９０５は、各種情報を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ３０３による外部装置への送信、または、メモリ３０２や記録媒体３０５などの記憶領域への記憶である。出力部９０５は、いずれかの機能部の処理結果を出力する。これにより、出力部９０５は、いずれかの機能部の処理結果を、特定装置１００の利用者に通知可能にし、特定装置１００の利便性の向上を図ることができる。

　出力部９０５は、特定した第２文を出力する。出力部９０５は、例えば、特定した第２文をクライアント装置２０１に送信し、第２文をクライアント装置２０１に表示させる。これにより、出力部９０５は、第１文に意味的に類似する第２文を、クライアント装置２０１の利用者に把握可能にすることができ、利便性の向上を図ることができる。

　出力部９０５は、特定した第２文に対応付けられた回答文を出力する。出力部９０５は、例えば、特定した第２文に対応付けられた回答文をクライアント装置２０１に送信し、特定した第２文に対応付けられた回答文をクライアント装置２０１に表示させる。これにより、出力部９０５は、第１文に意味的に類似する第２文に対応付けられた回答文を、クライアント装置２０１の利用者に把握可能にすることができ、ＦＡＱを提供するサービスを実現することができ、利便性の向上を図ることができる。

　出力部９０５は、特定部９０４がソートした結果を出力する。出力部９０５は、例えば、特定部９０４がソートした結果をクライアント装置２０１に送信し、特定部９０４がソートした結果をクライアント装置２０１に表示させる。これにより、出力部９０５は、記憶部９００に記憶された文を、第１文に意味的に類似する度合いが大きい順に、クライアント装置２０１の利用者に把握可能にすることができ、ＦＡＱシステム２００の利便性の向上を図ることができる。

　ここでは、算出部９０３が、複数の文のそれぞれの文と入力された第１文との間について、第１値と第２値とを算出する場合について説明したが、これに限らない。例えば、取得部９０１が、複数の文のそれぞれの文と入力された第１文との間について、第１値と第２値とを算出する装置から、第１値と第２値とを取得する場合があってもよい。この場合、取得部９０１は、第１文を取得しなくてもよい。

　この場合、取得部９０１は、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と入力された第１文との間におけるＷＭＤの結果を示す第１値を取得する。第１値は、例えば、ＷＭＤスコアである。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。取得部９０１は、例えば、外部のコンピュータから、ＷＭＤスコアを取得する。これにより、取得部９０１は、特定装置１００が第１値を算出せずとも、記憶部９００に記憶された複数の文のそれぞれの文と、第１文との類似度を算出可能にすることができる。

　取得部９０１は、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と第１文との間におけるＬＳＩの結果を示す第２値を取得する。第２値は、例えば、ＬＳＩスコアである。複数の文は、例えば、抽出部９０２が抽出した複数の文である。複数の文は、例えば、記憶部９００に記憶されたすべての文であってもよい。取得部９０１は、例えば、外部のコンピュータから、ＬＳＩスコアを取得する。これにより、取得部９０１は、特定装置１００が第２値を算出せずとも、記憶部９００に記憶された複数の文のそれぞれの文と、第１文との類似度を算出可能にすることができる。

　取得部９０１は、複数の文のいずれかの文について取得した第２値が負の値である場合には、いずれかの文について取得した第２値を０に補正してもよい。取得部９０１は、例えば、いずれかの文について取得したＬＳＩスコアが負の値である場合には、当該文についてのＬＳＩスコアを０に補正する。これにより、取得部９０１は、いずれかの文についての類似スコアを精度よく算出しやすくすることができる。

　ここでは、特定装置１００が、抽出部９０２を含む場合について説明したが、これに限らない。例えば、特定装置１００が、抽出部９０２を含まない場合があってもよい。ここでは、特定装置１００が、特定部９０４を含む場合について説明したが、これに限らない。例えば、特定装置１００が、特定部９０４を含まない場合があってもよい。この場合、特定装置１００は、特定部９０４の機能を有する外部のコンピュータに、算出部９０３の算出結果を送信してもよい。

（特定装置１００の動作例）
　次に、図１０～図１８を用いて、特定装置１００の動作例について説明する。まず、図１０を用いて、動作例における特定装置１００の具体的な機能的構成例について説明する。

　図１０は、特定装置１００の具体的な機能的構成例を示すブロック図である。特定装置１００は、検索処理部１００１と、ＬＳＩスコア算出部１００２と、転置インデックス検索部１００３と、ＷＭＤスコア算出部１００４と、ランキング処理部１００５とを含む。

　検索処理部１００１～ランキング処理部１００５は、例えば、図９に示した取得部９０１～出力部９０５を実現することができる。検索処理部１００１～ランキング処理部１００５は、具体的には、例えば、図３に示したメモリ３０２や記録媒体３０５などの記憶領域に記憶されたプログラムをＣＰＵ３０１に実行させることにより、またはネットワークＩ／Ｆ３０３により、その機能を実現する。

　検索処理部１００１は、自然文１０００の入力を受け付ける。検索処理部１００１は、例えば、自然文１０００を、クライアント装置２０１から受信する。そして、検索処理部１００１は、入力された自然文１０００を、ＬＳＩスコア算出部１００２と、転置インデックス検索部１００３と、ＷＭＤスコア算出部１００４とに出力する。以下の説明では、入力された自然文１０００を「入力文ａ」と表記する場合がある。

　検索処理部１００１は、ＦＡＱリスト４００から、検索対象の質問文群１０１０を取得する。そして、検索処理部１００１は、検索対象の質問文群１０１０を、ＬＳＩスコア算出部１００２と、転置インデックス検索部１００３とに出力する。検索処理部１００１は、検索対象の質問文群１０１０のうち、転置インデックス検索部１００３が抽出した質問文群１０４０を受信し、ＷＭＤスコア算出部１００４に転送する。以下の説明では、検索対象の質問文単体を「質問文ｂ」と表記する場合がある。

　検索処理部１００１は、ＬＳＩスコア算出部１００２が生成したＬＳＩスコアリスト５００を受信し、ランキング処理部１００５に転送する。検索処理部１００１は、ＷＭＤスコア算出部１００４が生成したＷＭＤスコアリスト６００を受信し、ランキング処理部１００５に転送する。検索処理部１００１は、具体的には、図９に示した取得部９０１を実現することができる。

　ＬＳＩスコア算出部１００２は、ＬＳＩモデル１０２０と、ＬＳＩ辞書１０２１と、ＬＳＩコーパス１０２２とに基づいて、受信した入力文ａと、受信した質問文群１０１０のそれぞれの質問文ｂとの間についてのＬＳＩスコアを算出する。ＬＳＩスコア算出部１００２は、予め、ＬＳＩモデル１０２０を、質問文群１０１０に基づき生成しておいてもよい。ＬＳＩスコア算出部１００２は、質問文ｂごとに、算出したＬＳＩスコアを対応付けたＬＳＩスコアリスト５００を、検索処理部１００１に出力する。ＬＳＩスコア算出部１００２は、具体的には、図９に示した算出部９０３を実現する。

　転置インデックス検索部１００３は、受信した入力文ａの転置インデックスを生成し、質問文群１０１０のそれぞれの質問文ｂに対応する転置インデックス１０３０と比較し、質問文群１０１０のそれぞれの質問文ｂのスコアを算出する。転置インデックス検索部１００３は、算出したスコアに基づいて、質問文群１０１０から、質問文群１０４０を抽出し、検索処理部１００１に出力する。転置インデックス検索部１００３は、具体的には、図９に示した抽出部９０２を実現する。

　ＷＭＤスコア算出部１００４は、Ｗｏｒｄ２Ｖｅｃモデル１０５０に基づいて、受信した入力文ａと、受信した質問文群１０４０のそれぞれの質問文ｂとの間についてのＷＭＤスコアを算出する。ＷＭＤスコア算出部１００４は、予め、Ｗｏｒｄ２Ｖｅｃモデル１０５０を、日本語版Ｗｉｋｉｐｅｄｉａおよび質問文群１０１０に基づき生成しておいてもよい。ＷＭＤスコア算出部１００４は、質問文ｂごとに、算出したＷＭＤスコアを対応付けたＷＭＤスコアリスト６００を、検索処理部１００１に出力する。ＷＭＤスコア算出部１００４は、具体的には、図９に示した算出部９０３を実現する。

　ランキング処理部１００５は、受信したＬＳＩスコアリスト５００とＷＭＤスコアリスト６００とに基づいて、入力文ａと、質問文群１０４０のそれぞれの質問文ｂとの間における類似スコアｓを算出する。類似スコアｓを算出する一例については、図１１を用いて後述する。ランキング処理部１００５は、入力文ａと、質問文群１０１０のうち、質問文群１０４０以外のそれぞれの質問文ｂとの間における類似スコアｓには、ＬＳＩスコアをそのまま採用する。ランキング処理部１００５は、質問文群１０１０のそれぞれの質問文ｂを、類似スコアｓが大きい順にソートする。

　ランキング処理部１００５は、ソート結果１０６０に基づいて、入力文ａに意味的に類似する質問文ｂを特定し、ＦＡＱリスト４００において、特定した質問文ｂに対応付けられた回答文を、クライアント装置２０１に表示させる。ランキング処理部１００５は、ソート結果１０６０を、クライアント装置２０１に表示させてもよい。ランキング処理部１００５は、具体的には、図９に示した算出部９０３と特定部９０４と出力部９０５とを実現する。

　これにより、特定装置１００は、ユーザによって用意される教師データとなる文の数が比較的少なくても、入力文ａと、質問文ｂとが意味的にどの程度類似しているのかを精度よく示す類似スコアｓを算出することができる。特定装置１００は、例えば、Ｗｏｒｄ２Ｖｅｃモデル１０５０を、日本語版Ｗｉｋｉｐｅｄｉａおよび質問文群１０１０に基づき生成するため、ユーザが教師データとなる文を用意せずに済ませることができる。また、特定装置１００は、例えば、ＬＳＩモデル１０２０を、質問文群１０１０に基づき生成するため、ユーザが教師データとなる文を用意する作業量の低減化を図ることができる。

　また、特定装置１００は、学習パラメータの種類が比較的少なくても、入力文ａと、質問文ｂとが意味的にどの程度類似しているのかを精度よく示す類似スコアｓを算出することができる。特定装置１００は、例えば、ＬＳＩモデル１０２０を生成する際、次元数を示す１種類の学習パラメータを調整すればよく、コストや作業量の増大化を抑制することができる。また、特定装置１００は、ＬＳＩモデル１０２０を、比較的短時間で生成することができ、コストや作業量の増大化を抑制することができる。また、特定装置１００は、ＷＭＤに関する学習パラメータを固定で利用することができ、コストや作業量の増大化を抑制することができる。

　また、特定装置１００は、入力文ａに未知語が含まれていても、入力文ａと、質問文ｂとが意味的にどの程度類似しているのかを精度よく示す類似スコアｓを算出することができる。特定装置１００は、例えば、入力文ａと、質問文ｂとの間におけるＷＭＤスコアを利用するため、入力文ａに未知語が含まれていても、類似スコアｓを算出する精度の向上を図ることができる。

　また、特定装置１００は、日本語環境であっても、入力文ａと、質問文ｂとが意味的にどの程度類似しているのかを精度よく示す類似スコアｓを算出することができる。結果として、特定装置１００は、質問文群１０１０の中から、入力文ａに意味的に類似する質問文ｂを特定することに成功する確率の向上を図ることができる。次に、図１１を用いて、特定装置１００が、入力文ａと質問文ｂとの間における類似スコアを算出する一例について説明する。

　図１１は、類似スコアを算出する一例を示す説明図である。図１１の例では、Ｘ軸と同じ向きと大きさ１とを有する、入力文ａに対応するベクトル１１１０が、座標系１１００上に規定される。ｍ＝ＬＳＩスコアと規定され、ｂ＝ＷＭＤスコアと規定され、ｃｏｓθ＝ｍと規定され、Ｘ軸に対してθの角度の向きと、大きさｂとを有する、質問文ｂに対応するベクトル１１２０が、座標系１１００上に規定される。

　ここで、座標系１１００上で、ベクトル１１１０，１１２０が同じ方向に近いほど、入力文ａと質問文ｂとの意味的な類似スコアが大きいことを示すと規定される。ベクトル１１１０，１１２０の近さは、例えば、ベクトル１１２０のＹ座標値により表現される。例えば、ベクトル１１２０のＹ座標値が０に近いほど、ベクトル１１１０，１１２０が同じ方向に近いことを示し、入力文ａと質問文ｂとの意味的な類似スコアが大きいことを示すことになる。

　このため、特定装置１００は、ベクトル１１２０のＹ座標値に基づいて、入力文ａと質問文ｂとの意味的な類似スコアを算出する。特定装置１００は、例えば、Ｙ座標値ｙ＝√｛（ｂ＾２）×（１－ｍ＾２）｝を算出し、入力文ａと質問文ｂとの意味的な類似スコアｓ＝１／（１＋ｙ）を算出する。

　これにより、特定装置１００は、入力文ａと質問文ｂとの意味的な類似スコアｓを、０～１の範囲で、１に近いほど意味的に類似することを示すように算出することができる。また、特定装置１００は、異なる観点のＷＭＤスコアとＬＳＩスコアとを組み合わせて、類似スコアｓを算出するため、類似スコアｓが、入力文ａと質問文ｂとが意味的にどの程度類似しているのかを精度よく示すようにすることができる。

　次に、図１２を用いて、ＬＳＩスコアとＷＭＤスコアとのバリエーションの一例について説明し、入力文ａと質問文ｂとの意味的な類似度合いと、入力文ａと質問文ｂとの意味的な類似スコアｓとの関係性について説明する。

　図１２は、ＬＳＩスコアとＷＭＤスコアとのバリエーションの一例を示す説明図である。図１２において、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが大（１～０．７）となり、ＷＭＤスコアが大（６以上）となる第１事例１２０１は、出現しない傾向がある。このため、特定装置１００は、ＬＳＩスコアが類似を示すが、ＷＭＤスコアが非類似を示す状況で、類似スコアを算出することは回避可能である傾向があり、類似スコアを算出する精度の低下は回避可能である傾向がある。

　また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが大（１～０．７）となり、ＷＭＤスコアが中（３～６）となる第２事例１２０２は、入力文ａと質問文ｂとが意味的に類似する場合に出現する傾向がある。また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが大（１～０．７）となり、ＷＭＤスコアが小（０～３）となる第３事例１２０３は、入力文ａと質問文ｂとが意味的に酷似する場合に出現する傾向がある。

　これに対し、特定装置１００は、ＬＳＩスコアとＷＭＤスコアとに基づき類似スコアを算出するため、ＬＳＩスコアだけでは区別困難な第２事例１２０２と第３事例１２０３とを、類似スコアにより区別可能にすることができる。特定装置１００は、ＬＳＩスコアが大きいほど、または、ＷＭＤスコアが小さいほど、類似スコアが大きくなるように算出することができる。このため、特定装置１００は、第２事例１２０２よりも第３事例１２０３の方が、類似スコアが大きくなるように算出することができる。そして、特定装置１００は、第２事例１２０２と第３事例１２０３とを、類似スコアにより区別可能にすることができる。

　また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが中（０．７～０．４）となり、ＷＭＤスコアが大（６以上）となる第４事例１２０４は、入力文ａと質問文ｂとが意味的に類似しない場合に出現する傾向がある。また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが中（０．７～０．４）となり、ＷＭＤスコアが中（３～６）となる第５事例１２０５は、入力文ａと質問文ｂとが比較的類似する場合に出現する傾向がある。また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが中（０．７～０．４）となり、ＷＭＤスコアが小（０～３）となる第６事例１２０６は、入力文ａと質問文ｂとが意味的に類似する場合に出現する傾向がある。

　これに対し、特定装置１００は、ＬＳＩスコアとＷＭＤスコアとに基づき類似スコアを算出するため、ＬＳＩスコアだけでは区別困難な第４事例１２０４～第６事例１２０６を、類似スコアにより区別可能にすることができる。特定装置１００は、ＬＳＩスコアが大きいほど、または、ＷＭＤスコアが小さいほど、類似スコアが大きくなるように算出することができる。このため、特定装置１００は、第４事例１２０４よりも第５事例１２０５や第６事例１２０６の方が、類似スコアが大きくなるように算出することができる。そして、特定装置１００は、第４事例１２０４～第６事例１２０６を、類似スコアにより区別可能にすることができる。

　また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが小（０．４～０）となり、ＷＭＤスコアが大（６以上）となる第７事例１２０７は、入力文ａと質問文ｂとが意味的に類似しない場合に出現する傾向がある。また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが小（０．４～０）となり、ＷＭＤスコアが中（３～６）となる第８事例１２０８は、入力文ａと質問文ｂとが類似しない場合に出現する傾向がある。

　これに対し、特定装置１００は、第７事例１２０７～第８事例１２０８では、類似スコアが比較的小さくなるように算出することができる。このため、特定装置１００は、類似スコアにより、入力文ａと質問文ｂとが類似しないことを精度よく示すことができる。

　また、表１２００に示すように、入力文ａと質問文ｂとについて、ＬＳＩスコアが小（０．４～０）となり、ＷＭＤスコアが小（０～３）となる第９事例１２０９は、出現しない傾向がある。このため、特定装置１００は、ＬＳＩスコアが非類似を示すが、ＷＭＤスコアが類似を示す状況で、類似スコアを算出することは回避可能である傾向があり、類似スコアを算出する精度の低下は回避可能である傾向がある。

　このように、特定装置１００は、入力文ａと質問文ｂとの類似スコアを、入力文ａと質問文ｂとが意味的に類似しているかを精度よく示すように算出することができる。そして、特定装置１００は、入力文ａと質問文ｂとが意味的にどの程度類似しているのかを区別可能にすることができる。次に、図１３～図１７を用いて、特定装置１００による効果について説明する。

　図１３～図１７は、特定装置１００による効果を示す説明図である。図１３において、特定装置１００は、表１３００に示すように、様々なテスト用の質問文を入力文ａとし、ＦＡＱリスト４００の質問文ｂのうちの正解の質問文ｂが、入力文ａに類似する上位３位までの質問文ｂとして特定されるか否かを検証する。

　表１３００の「方法」は、テスト用の質問文をどのように作成したかを示す。「方法ａ」は、未知語を含まない複数の単語の羅列により作成することを示す。「方法ｂ」は、未知語を含む複数の単語の羅列により作成することを示す。「方法ｃ」は、正解の質問文ｂと意味および単語が同じである自然文により作成することを示す。「方法ｄ」は、正解の質問文ｂと意味が同じである自然文により作成することを示す。

　特定装置１００は、表１３００の「順位」に示すように、様々なテスト用の質問文を入力文ａとした場合でも、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することができる。次に、図１４の説明に移行する。

　図１４において、特定装置１００は、表１４００に示すように、様々なテスト用の質問文を入力文ａとし、ＦＡＱリスト４００の質問文ｂのうちの正解の質問文ｂが、入力文ａに類似する上位３位までの質問文ｂとして特定されるか否かを検証する。特定装置１００は、表１４００の「順位」に示すように、様々なテスト用の質問文を入力文ａとした場合でも、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することができる。次に、図１５の説明に移行する。

　図１５において、特定装置１００は、表１５００に示すように、様々なテスト用の質問文を入力文ａとし、ＦＡＱリスト４００の質問文ｂのうちの正解の質問文ｂが、入力文ａに類似する上位３位までの質問文ｂとして特定されるか否かを検証する。特定装置１００は、表１５００の「順位」に示すように、様々なテスト用の質問文を入力文ａとした場合でも、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することができる。次に、図１６の説明に移行する。

　図１６において、特定装置１００は、表１６００に示すように、様々なテスト用の質問文を入力文ａとし、ＦＡＱリスト４００の質問文ｂのうちの正解の質問文ｂが、入力文ａに類似する上位３位までの質問文ｂとして特定されるか否かを検証する。特定装置１００は、表１６００の「順位」に示すように、様々なテスト用の質問文のうち、２つの質問文以外を入力文ａとした場合には、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することができる。次に、図１７の説明に移行する。

　図１７の表１７００は、特定装置１００が、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することに成功する確率を、従来の手法と比較した結果を示す。従来の手法は、例えば、「転置インデックス＋Ｃｏｓ類似度」と、「転置インデックス＋ＷＭＤスコア」と、「ＬＳＩスコア」とである。

　表１７００は、様々なテスト用の質問文を入力文ａとするテストケースＡ～Ｄなどにおける、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することに成功する確率Ａ［％］～Ｄ［％］を示す。また、表１７００は、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することに成功する確率Ａ［％］～Ｄ［％］の平均値として、全体［％］を示す。

　特定装置１００は、表１７００に示すように、従来の手法に比べて、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することに成功する確率の向上を図ることができる。また、特定装置１００は、例えば、正解の質問文ｂを、入力文ａに類似する上位３位までの質問文ｂとして特定することに成功する確率の平均値を、８割以上にすることができる。次に、図１８を用いて、クライアント装置２０１における表示画面例について説明する。

　図１８は、クライアント装置２０１における表示画面例を示す説明図である。図１８において、特定装置１００は、クライアント装置２０１にＦＡＱ画面１８００を表示させる。ＦＡＱ画面１８００は、初期状態で、会話表示欄１８１０に、メッセージ１８１１を含む。メッセージ１８１１は、例えば、「こんにちは、○○システムのＦＡＱ担当です。何でも質問してください。」である。

　ＦＡＱ画面１８００は、ユーザの入力欄１８２０を含む。クライアント装置２０１は、入力欄１８２０に入力された入力文を、特定装置１００に送信する。図１８の例では、入力文「パスワードを忘れました」が入力される。入力文は、会話表示欄１８１０に、メッセージ１８１２として表示される。

　特定装置１００は、類似スコアを算出し、ＦＡＱリスト４００の中から、入力文「パスワードを忘れました」に意味的に類似する質問文「パスワードを忘れたので教えてください」を特定する。特定装置１００は、会話表示欄１８１０に、さらに、メッセージ１８１３を表示する。メッセージ１８１３は、例えば、「この中に、該当するＦＡＱはありますか？」と、特定した質問文「パスワードを忘れたので教えてください」とを含む。

　クライアント装置２０１は、質問文「パスワードを忘れたので教えてください」がクリックされた場合、質問文「パスワードを忘れたので教えてください」がクリックされたことを、特定装置１００に通知する。特定装置１００は、通知に応じて、会話表示欄１８１０に、質問文「パスワードを忘れたので教えてください」に対応付けられた回答文を表示させる。これにより、特定装置１００は、ＦＡＱを提供するサービスを実現することができる。

　以上では、質問文ｂに対応するベクトルの向きを、ｃｏｓθを利用して規定し、入力文ａと質問文ｂとの類似スコアを、質問文ｂに対応するベクトルのＹ座標値を利用して規定する場合について説明したが、これに限らない。例えば、特定装置１００が、ｃｏｓθの代わりにｓｉｎθを利用し、Ｙ座標値の代わりにＸ座標値を利用する場合があってもよい。また、特定装置１００は、ＬＳＩスコアとＷＭＤスコアとを入れ替えて、類似スコアを算出する場合があってもよい。

（全体処理手順）
　次に、図１９を用いて、特定装置１００が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

　図１９は、全体処理手順の一例を示すフローチャートである。図１９において、特定装置１００は、ランキング結果を格納する空配列Ｗｏｒｋ［］を生成する（ステップＳ１９０１）。空配列Ｗｏｒｋ［］は、例えば、類似スコアリスト７００により実現する。

　次に、特定装置１００は、記憶された文章ごとの入力文章との間のＬＳＩスコアを算出し、ＬＳＩスコアを文章ＩＤと対応付けたＬＳＩスコアリスト５００を生成する（ステップＳ１９０２）。そして、特定装置１００は、ＬＳＩスコアリスト５００の中から、ＬＳＩスコア最大値を取得する（ステップＳ１９０３）。

　次に、特定装置１００は、記憶された文章ごとの入力文章との間のＷＭＤスコアを算出し、ＷＭＤスコアを文章ＩＤと対応付けたＷＭＤスコアリスト６００を生成する（ステップＳ１９０４）。ここで、特定装置１００は、記憶された文章のうち、転置インデックスに基づき抽出された一部の文章について、文章ごとの入力文章との間のＷＭＤスコアを算出し、ＷＭＤスコアを文章ＩＤと対応付けたＷＭＤスコアリスト６００を生成してもよい。また、特定装置１００は、未抽出の文章についてはＷＭＤスコアを算出しなくてもよい。

　そして、特定装置１００は、ＬＳＩスコア最大値＞閾値０．９であるか否かを判定する（ステップＳ１９０５）。ここで、ＬＳＩスコア最大値＞閾値０．９である場合（ステップＳ１９０５：Ｙｅｓ）、特定装置１００は、ステップＳ１９０７の処理に移行する。一方で、ＬＳＩスコア最大値＞閾値０．９ではない場合（ステップＳ１９０５：Ｎｏ）、特定装置１００は、ステップＳ１９０６の処理に移行する。

　ステップＳ１９０６では、特定装置１００は、図２０に後述する算出処理を実行する（ステップＳ１９０６）。そして、特定装置１００は、ステップＳ１９１０の処理に移行する。

　ステップＳ１９０７では、特定装置１００は、ＬＳＩスコアリスト５００の中から、まだ処理していない文章ＩＤを選択する（ステップＳ１９０７）。次に、特定装置１００は、選択した文章ＩＤと対応付けられたＬＳＩスコアをそのまま類似スコアに採用し、選択した文章ＩＤと類似スコアとのペアを、配列Ｗｏｒｋ［］に追加する（ステップＳ１９０８）。

　そして、特定装置１００は、ＬＳＩスコアリスト５００の中から、すべての文章ＩＤを処理したか否かを判定する（ステップＳ１９０９）。ここで、未処理の文章ＩＤがある場合（ステップＳ１９０９：Ｎｏ）、特定装置１００は、ステップＳ１９０７の処理に戻る。一方で、すべての文章ＩＤを処理している場合（ステップＳ１９０９：Ｙｅｓ）、特定装置１００は、ステップＳ１９１０の処理に移行する。

　ステップＳ１９１０では、特定装置１００は、配列Ｗｏｒｋ［］に含まれるペアを、類似スコアに基づき降順にソートする（ステップＳ１９１０）。次に、特定装置１００は、配列Ｗｏｒｋ［］を出力する（ステップＳ１９１１）。そして、特定装置１００は、全体処理を終了する。これにより、特定装置１００は、記憶された文章のうち、入力文章に意味的に類似する文章を、ＦＡＱシステム２００のユーザが把握可能にすることができる。

（算出処理手順）
　次に、図２０を用いて、特定装置１００が実行する、算出処理手順の一例について説明する。算出処理は、例えば、図３に示したＣＰＵ３０１と、メモリ３０２や記録媒体３０５などの記憶領域と、ネットワークＩ／Ｆ３０３とによって実現される。

　図２０は、算出処理手順の一例を示すフローチャートである。図２０において、特定装置１００は、ＬＳＩスコアリスト５００の中から、まだ処理していない文章ＩＤを選択する（ステップＳ２００１）。

　次に、特定装置１００は、選択した文章ＩＤに対応付けられたＬＳＩスコアを、変数ｍに設定する（ステップＳ２００２）。そして、特定装置１００は、選択した文章ＩＤに対応付けられたＷＭＤスコアを、変数ｂに設定する（ステップＳ２００３）。ここで、特定装置１００は、選択した文章ＩＤに対応付けられたＷＭＤスコアがなければ、変数ｂ＝Ｎｏｎｅに設定する。

　次に、特定装置１００は、変数ｂ≠Ｎｏｎｅであるか否かを判定する（ステップＳ２００４）。ここで、変数ｂ≠Ｎｏｎｅである場合（ステップＳ２００４：Ｙｅｓ）、特定装置１００は、ステップＳ２００６の処理に移行する。一方で、変数ｂ＝Ｎｏｎｅである場合（ステップＳ２００４：Ｎｏ）、特定装置１００は、ステップＳ２００５の処理に移行する。

　ステップＳ２００５では、特定装置１００は、選択した文章ＩＤと対応付けられたＬＳＩスコアをそのまま類似スコアに採用し、選択した文章ＩＤと類似スコアとのペアを、配列Ｗｏｒｋ［］に追加する（ステップＳ２００５）。そして、特定装置１００は、ステップＳ２０１１の処理に移行する。

　ステップＳ２００６では、特定装置１００は、変数ｍ＞０であるか否かを判定する（ステップＳ２００６）。ここで、変数ｍ＞０である場合（ステップＳ２００６：Ｙｅｓ）、特定装置１００は、ステップＳ２００８の処理に移行する。一方で、変数ｍ＞０ではない場合（ステップＳ２００６：Ｎｏ）、特定装置１００は、ステップＳ２００７の処理に移行する。

　ステップＳ２００７では、特定装置１００は、変数ｍ＝０に設定する（ステップＳ２００７）。そして、特定装置１００は、ステップＳ２００８の処理に移行する。

　ステップＳ２００８では、特定装置１００は、変数ｙ＝√｛（ｂ＾２）×（１－ｍ＾２）｝を算出する（ステップＳ２００８）。そして、特定装置１００は、変数ｓ＝１／（１＋ｙ）を算出する（ステップＳ２００９）。次に、特定装置１００は、変数ｓを類似スコアに採用し、選択した文章ＩＤと類似スコアとのペアを、配列Ｗｏｒｋ［］に追加する（ステップＳ２０１０）。そして、特定装置１００は、ステップＳ２０１１の処理に移行する。

　ステップＳ２０１１では、特定装置１００は、ＬＳＩスコアリスト５００の中から、すべての文章ＩＤを選択したか否かを判定する（ステップＳ２０１１）。ここで、未選択の文章ＩＤがある場合（ステップＳ２０１１：Ｎｏ）、特定装置１００は、ステップＳ２００１の処理に戻る。一方、すべての文章ＩＤを選択した場合（ステップＳ２０１１：Ｙｅｓ）、特定装置１００は、算出処理を終了する。これにより、特定装置１００は、文章ごとの、入力文章との意味的な類似度を、精度よく算出することができる。

　ここで、特定装置１００は、図１９および図２０のフローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップＳ１９０２，Ｓ１９０３の処理と、ステップＳ１９０４の処理との順序は入れ替え可能である。また、例えば、ステップＳ１９０４の処理は、ステップＳ１９０５の処理の後、ステップＳ１９０６の処理の前に移行可能である。

　また、特定装置１００は、図１９および図２０のフローチャートの一部ステップの処理を省略してもよい。例えば、ステップＳ１９０５，Ｓ１９０７～Ｓ１９０９の処理は省略可能である。また、例えば、ステップＳ２００４，Ｓ２００５の処理は省略可能である。また、例えば、ステップＳ２００６，Ｓ２００７の処理は省略可能である。

　以上説明したように、特定装置１００によれば、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と入力された第１文との間におけるＷＭＤの結果を示す第１値を取得することができる。特定装置１００によれば、記憶部９００に記憶された複数の文のそれぞれの文について、当該文と第１文との間におけるＬＳＩの結果を示す第２値を取得することができる。特定装置１００によれば、複数の文のそれぞれの文に対応する、当該文について取得した第１値に基づく大きさと当該文について取得した第２値に基づく向きとを有するベクトルに基づいて、当該文と第１文との類似度を算出することができる。特定装置１００によれば、算出したそれぞれの文と第１文との類似度に基づいて、複数の文のうち第１文に類似する第２文を特定することができる。これにより、特定装置１００は、入力された第１文と、複数の文のそれぞれの文とが意味的にどの程度類似しているのかを精度よく示す類似度を算出することができる。そして、特定装置１００は、複数の文の中から、入力された第１文に意味的に類似する文を、精度よく特定することができる。

　特定装置１００によれば、複数の文のいずれかの文について取得した第２値が閾値未満である場合には、それぞれの文に対応するベクトルに基づいて、当該文と第１文との類似度を算出することができる。特定装置１００によれば、複数の文のいずれかの文について取得した第２値が閾値以上である場合には、それぞれの文について取得した第２値に基づいて、複数の文のうち第２文を特定することができる。これにより、特定装置１００は、第２値が比較的大きく、第２値に基づいて第１文に意味的に類似する第２文を精度よく特定可能であると判断される場合には、類似度を算出せずに、処理量の低減化を図ることができる。

　特定装置１００によれば、複数の文のいずれかの文について取得した第２値が負の値である場合には、いずれかの文について取得した第２値を０に補正することができる。これにより、特定装置１００は、類似度を精度よく算出しやすくすることができる。

　特定装置１００によれば、それぞれの文に対応する、当該文について取得した第１値に基づく大きさと所定座標系の第１軸を基準とした当該文について取得した第２値に基づく角度とを有するベクトルを規定することができる。特定装置１００によれば、規定したベクトルの第１軸とは異なる座標系の第２軸における座標値に基づいて、当該文と第１文との類似度を算出することができる。これにより、特定装置１００は、類似度を精度よく算出しやすくすることができる。

　特定装置１００によれば、記憶部９００の中から、第１文と同じ単語を含む複数の文を抽出することができる。特定装置１００によれば、抽出した複数の文のそれぞれの文について、当該文と入力された第１文との間におけるＷＭＤの結果を示す第１値を取得することができる。特定装置１００によれば、抽出した複数の文のそれぞれの文について、当該文と第１文との間におけるＬＳＩの結果を示す第２値を取得することができる。これにより、特定装置１００は、類似度を算出する対象とする文の数の低減化を図り、処理量の低減化を図ることができる。

　特定装置１００によれば、第１文を、質問文とし、複数の文を、回答文に対応付けられた質問文とし、特定した第２文に対応付けられた回答文を出力することができる。これにより、特定装置１００は、ＦＡＱを提供するサービスを実現することができる。

　特定装置１００によれば、複数の文のうち、算出した類似度が最も大きい第２文を特定することができる。これにより、特定装置１００は、第１文と意味的に最も類似すると判断される第２文を特定することができる。

　特定装置１００によれば、複数の文のうち、算出した類似度が所定値以上の第２文を特定することができる。これにより、特定装置１００は、第１文と意味的に一定以上類似すると判断される第２文を特定することができる。

　特定装置１００によれば、第１文を、日本語で記述された文とし、複数の文を、日本語で記述された文とすることができる。これにより、特定装置１００は、日本語環境に適用することができる。

　特定装置１００によれば、特定した第２文を出力することができる。これにより、特定装置１００は、特定した第２文を、ＦＡＱシステム２００のユーザが把握可能にすることができ、ＦＡＱシステム２００の利便性の向上を図ることができる。

　特定装置１００によれば、算出したそれぞれの文と第１文との類似度に基づいて、複数の文をソートした結果を出力することができる。これにより、特定装置１００は、複数の文のいずれの文が、第１文との意味的な類似度が大きい文であるかを、ＦＡＱシステム２００のユーザが把握可能にすることができ、ＦＡＱシステム２００の利便性の向上を図ることができる。

　特定装置１００によれば、抽出した複数の文以外の記憶部９００に記憶された残余の文のそれぞれの文について、当該文と第１文との間におけるＬＳＩの結果を示す第２値を取得することができる。特定装置１００によれば、算出した複数の文のそれぞれの文と第１文との類似度、および、残余の文のそれぞれの文について取得した第２値に基づいて、記憶部９００の中から、第１文に類似する第２文を特定することができる。これにより、特定装置１００は、処理量の低減化を図った場合に、抽出した複数の文以外に、残余の文の中からも、第１文に類似する第２文を特定可能にすることができる。

　なお、本実施の形態で説明した特定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した特定プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した特定プログラムは、インターネット等のネットワークを介して配布してもよい。

　１００　特定装置
　１０１　第１文
　１０２　文
　１１０，９００　記憶部
　１２０，１１１０，１１２０　ベクトル
　２００　ＦＡＱシステム
　２０１　クライアント装置
　２１０　ネットワーク
　３００，８００　バス
　３０１，８０１　ＣＰＵ
　３０２，８０２　メモリ
　３０３，８０３　ネットワークＩ／Ｆ
　３０４，８０４　記録媒体Ｉ／Ｆ
　３０５，８０５　記録媒体
　４００　ＦＡＱリスト
　５００　ＬＳＩスコアリスト
　６００　ＷＭＤスコアリスト
　７００　類似スコアリスト
　８０６　ディスプレイ
　８０７　入力装置
　９０１　取得部
　９０２　抽出部
　９０３　算出部
　９０４　特定部
　９０５　出力部
　１０００　自然文
　１００１　検索処理部
　１００２　ＬＳＩスコア算出部
　１００３　転置インデックス検索部
　１００４　ＷＭＤスコア算出部
　１００５　ランキング処理部
　１０１０，１０４０　質問文群
　１０２０　ＬＳＩモデル
　１０２１　ＬＳＩ辞書
　１０２２　ＬＳＩコーパス
　１０３０　転置インデックス
　１０５０　Ｗｏｒｄ２Ｖｅｃモデル
　１０６０　ソート結果
　１２００，１３００，１４００，１５００，１６００，１７００　表
　１２０１　第１事例
　１２０２　第２事例
　１２０３　第３事例
　１２０４　第４事例
　１２０５　第５事例
　１２０６　第６事例
　１２０７　第７事例
　１２０８　第８事例
　１２０９　第９事例
　１８００　ＦＡＱ画面
　１８１０　会話表示欄
　１８１１～１８１３　メッセージ
　１８２０　入力欄

Claims

　記憶部に記憶された複数の文に含まれるそれぞれの文と入力された第１文との間における文書間距離解析の結果を示す第１値を取得し、
　前記それぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得し、
　前記それぞれの文に対応する、前記それぞれの文について取得した前記第１値に基づく大きさと前記それぞれの文について取得した前記第２値に基づく向きとを有するベクトルに基づいて、前記それぞれの文と前記第１文との類似度を算出し、
　算出した前記それぞれの文と前記第１文との類似度に基づいて、前記複数の文のうち前記第１文に類似する第２文を特定する、
　処理をコンピュータに実行させることを特徴とする特定プログラム。
　前記算出する処理は、
　前記複数の文のいずれかの文について取得した前記第２値が閾値未満である場合には、前記それぞれの文に対応する前記ベクトルに基づいて、前記それぞれの文と前記第１文との類似度を算出し、
　前記特定する処理は、
　前記複数の文のいずれかの文について取得した前記第２値が前記閾値以上である場合には、前記それぞれの文について取得した前記第２値に基づいて、前記複数の文のうち前記第２文を特定する、ことを特徴とする請求項１に記載の特定プログラム。
　前記複数の文のいずれかの文について取得した前記第２値が負の値である場合には、前記いずれかの文について取得した前記第２値を０に補正する、処理を前記コンピュータに実行させることを特徴とする請求項１または２に記載の特定プログラム。
　前記算出する処理は、
　前記それぞれの文に対応する、前記それぞれの文について取得した前記第１値に基づく大きさと、所定座標系の第１軸を基準とした、前記それぞれの文について取得した前記第２値に基づく角度とを有するベクトルの、前記第１軸とは異なる前記所定座標系の第２軸における座標値に基づいて、前記それぞれの文と前記第１文との類似度を算出する、ことを特徴とする請求項１～３のいずれか一つに記載の特定プログラム。
　前記記憶部の中から、前記第１文と同じ単語を含む複数の文を抽出する、処理を前記コンピュータに実行させ、
　前記第１値を取得する処理は、
　抽出した前記複数の文に含まれるそれぞれの文と入力された第１文との間における文書間距離解析の結果を示す第１値を取得し、
　前記第２値を取得する処理は、
　抽出した前記複数の文に含まれるそれぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得する、ことを特徴とする請求項１～４のいずれか一つに記載の特定プログラム。
　前記第１文は、質問文であり、
　前記複数の文は、回答文に対応付けられた質問文であり、
　特定した前記第２文に対応付けられた回答文を出力する、処理を前記コンピュータに実行させることを特徴とする請求項１～５のいずれか一つに記載の特定プログラム。
　前記特定する処理は、
　前記複数の文のうち、算出した前記類似度が最も大きい前記第２文を特定する、ことを特徴とする請求項１～６のいずれか一つに記載の特定プログラム。
　前記特定する処理は、
　前記複数の文のうち、算出した前記類似度が所定値以上の前記第２文を特定する、ことを特徴とする請求項１～７のいずれか一つに記載の特定プログラム。
　前記第１文は、日本語で記述された文であり、
　前記複数の文は、日本語で記述された文である、ことを特徴とする請求項１～６のいずれか一つに記載の特定プログラム。
　特定した前記第２文を出力する、処理を前記コンピュータに実行させることを特徴とする請求項１～９のいずれか一つに記載の特定プログラム。
　算出した前記それぞれの文と前記第１文との類似度に基づいて、前記複数の文をソートした結果を出力する、処理を前記コンピュータに実行させることを特徴とする請求項１～１０のいずれか一つに記載の特定プログラム。
　前記第２値を取得する処理は、
　抽出した前記複数の文以外の前記記憶部に記憶された残余の文のそれぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得し、
　算出した前記複数の文のそれぞれの文と前記第１文との類似度、および、前記残余の文のそれぞれの文について取得した前記第２値に基づいて、前記記憶部の中から、前記第１文に類似する第２文を特定する、ことを特徴とする請求項５に記載の特定プログラム。
　記憶部に記憶された複数の文に含まれるそれぞれの文と入力された第１文との間における文書間距離解析の結果を示す第１値を取得し、
　前記それぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得し、
　前記それぞれの文に対応する、前記それぞれの文について取得した前記第１値に基づく大きさと前記それぞれの文について取得した前記第２値に基づく向きとを有するベクトルに基づいて、前記それぞれの文と前記第１文との類似度を算出し、
　算出した前記それぞれの文と前記第１文との類似度に基づいて、前記複数の文のうち前記第１文に類似する第２文を特定する、
　処理をコンピュータが実行することを特徴とする特定方法。
　記憶部に記憶された複数の文に含まれるそれぞれの文と入力された第１文との間における文書間距離解析の結果を示す第１値を取得し、
　前記それぞれの文と前記第１文との間における潜在的意味解析の結果を示す第２値を取得し、
　前記それぞれの文に対応する、前記それぞれの文について取得した前記第１値に基づく大きさと前記それぞれの文について取得した前記第２値に基づく向きとを有するベクトルに基づいて、前記それぞれの文と前記第１文との類似度を算出し、
　算出した前記それぞれの文と前記第１文との類似度に基づいて、前記複数の文のうち前記第１文に類似する第２文を特定する、
　制御部を有することを特徴とする特定装置。