WO2021044519A1

WO2021044519A1 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: WO2021044519A1
Application number: PCT/JP2019/034632
Authority: WO
Inventors: 英彰城光
Original assignee: 三菱電機株式会社
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-03-11
Also published as: KR102473788B1; KR20220027273A; TW202111571A; JPWO2021044519A1; TWI770477B; US20220179890A1; CN114341837A; JP7058807B2; DE112019007599T5

Abstract

各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文を記憶する検索対象ＤＢ（１０１）と、複数の検索対象トークンの各々と、検索文に含まれている、意味を有する最小単位である複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似トークンテーブルを記憶する類似トークンテーブル記憶部（１１０）と、類似トークンテーブルにおいて高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、類似トークンテーブルにおいて低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、検索文と、複数の検索対象文の各々との間の文間類似度を計算する文間類似度計算部（１１１）とを備える。

Description

情報処理装置、プログラム及び情報処理方法

　本発明は、情報処理装置、プログラム及び情報処理方法に関する。

　パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書の量が増大している。このような大規模な文書の中から、所望の文書を発見するために、効率的な文書検索の技術が求められている。

　文書検索において、自然言語の意味を計算機で処理するために、意味を有する文字又は文字列の最小単位であるトークンを、その意味を表すベクトルで表現することが有用である。

　一つのトークンに対して、一つのベクトルを与える手法が主流であるが、このような手法では、文脈に応じて複数の意味を有するトークンに対して、意味の曖昧性を解消することができない。このため、文脈を考慮可能なトークンのベクトルを獲得する手法が提案されている。

　文書検索においては、検索の入力となる検索文である検索クエリと、検索の対象である検索対象文との間の意味の類似度を高精度に測る必要がある。高精度な類似度を測定するためには、検索クエリと検索対象文とのトークン間類似度を算出することが有用である。

　例えば、非特許文献１には、検索クエリｘに含まれる各トークンｘ_ｉに対して、検索対象文Ｙ_ｊに含まれている各トークンＹ_ｊｋの中で最も類似度の高いトークンを選択して、それらｉ個の単語の組み合わせについて計算したトークン間類似度φ（ｘ_ｉ，Ｙ_ｊｋ）を平均した値を利用した文間類似度の計算方法が記載されている。

梶原　智之、小町　守　共著、「平易なコーパスを用いないテキスト平易化」、自然言語処理、２５（２）、２２３－２４９、２０１８年

　文間類似度の算出では、検索クエリに含まれている全てのトークンと、検索対象文に含まれている全てのトークンとの全ての組み合わせにおいて類似度を算出する必要があり、計算量が膨大となり、実用化が困難である。

　例えば、一つのトークンに対して、一つのベクトル表現が与えられる場合、トークン間の類似度を事前にすべて計算し、それをルックアップテーブル等のデータに予め保存しておくことで、検索時に類似度の計算を省くことができる。しかしながら、出現文脈を考慮可能なトークンのベクトル表現を用いる場合には、各トークンの意味は文脈に依存して変わるため、事前にトークン間の類似度を計算しておくことができない。

　そこで、本発明の一又は複数の態様は、文書検索における類似度の計算負荷を軽減することを目的とする。

　本発明の一態様に係る情報処理装置は、各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文を記憶する検索対象記憶部と、前記複数の検索対象トークンの各々と、検索文に含まれている、意味を有する最小単位である複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報を記憶する類似度判定情報記憶部と、前記類似度判定情報において前記高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において前記低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算する文間類似度計算部と、を備えることを特徴とする。

　本発明の一態様に係るプログラムは、コンピュータを、各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文を記憶する検索対象記憶部、前記複数の検索対象トークンの各々と、検索文に含まれている、意味を有する最小単位である複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報を記憶する類似度判定情報記憶部、及び、前記類似度判定情報において高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算する文間類似度計算部、として機能させることを特徴とする。

　本発明の一態様に係る情報処理方法は、各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文と、意味を有する最小単位である複数の検索トークンを含む検索文との間の複数の文間類似度を計算する情報処理方法であって、前記検索文の入力を受け付け、前記複数の検索対象トークンの各々と、前記複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報において高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算することを特徴とする。

　本発明の一又は複数の態様によれば、文書検索における類似度の計算負荷を軽減することができる。

実施の形態１に係る情報処理装置である文書検索装置の構成を概略的に示すブロック図である。検索対象トークン配列の例を示す概略図である。検索対象文脈依存表現配列の例を示す概略図である。検索クエリトークン配列の例を示す概略図である。検索クエリ文脈依存表現配列の例を示す概略図である。類似トークンテーブルの例を示す概略図である。文書検索装置を実現するためのハードウェア構成を概略的に示すブロック図である。実施の形態１における検索対象文脈依存表現生成部での処理を示すフローチャートである。データ構造変換部での処理を示すフローチャートである。トーカナイザでの処理を示すフローチャートである。検索クエリ文脈依存表現生成部での処理を示すフローチャートである。類似トークンテーブル生成部での処理を示すフローチャートである。文間類似度計算部での処理を示すフローチャートである。検索結果出力部での処理を示すフローチャートである。実施の形態２に係る情報処理装置である文書検索装置の構成を概略的に示すブロック図である。実施の形態２における検索対象文脈依存表現生成部での処理を示すフローチャートである。実施の形態３に係る情報処理装置である文書検索装置の構成を概略的に示すブロック図である。検索対象次元削減部での処理を示すフローチャートである。検索クエリ次元削減部での処理を示すフローチャートである。

実施の形態１．
　図１は、実施の形態１に係る情報処理装置である文書検索装置１００の構成を概略的に示すブロック図である。
　文書検索装置１００は、検索対象データベース（以下、検索対象ＤＢという）１０１と、検索対象文脈依存表現生成部１０２と、情報生成部１０３と、検索クエリ入力部１０６と、トーカナイザ１０７と、検索クエリ文脈依存表現生成部１０８と、類似トークンテーブル記憶部１１０と、文間類似度計算部１１１と、検索結果出力部１１２とを備える。
　また、情報生成部１０３は、データ構造変換部１０４と、探索用データベース（以下、探索用ＤＢという）１０５と、類似トークンテーブル生成部１０９とを備える。

　検索対象ＤＢ１０１は、検索対象文及び検索対象文に対応する検索対象トークン配列を記憶する検索対象記憶部である。検索対象トークン配列は、複数のトークンが配列されたものであり、一つの検索対象トークン配列で、一つの文が構成されるものとする。なお、トークンは、意味を有する最小単位であり、文字又は文字列である。また、検索対象トークン配列に含まれているトークンを検索対象トークンともいう。さらに、検索対象ＤＢ１０１には、複数の検索対象文及び複数の検索対象文に対応する複数の検索対象トークン配列が格納されているものとする。

　以下では、例としてある検索クエリに対応する条文を検索する文書検索タスクを考える。具体的には、検索クエリ「夏の休暇はいつからいつまでですか？」に対して、対応する条文「休日は、次の通りにする。夏季休日…」を複数の条文の中から検索するタスクを考える。ここでは、複数の条文が複数の検索対象文となる。

　この場合、検索対象トークン配列は、図２に示されているような二次元配列形式でもよい。図２に示されている検索対象トークン配列の例では、ｐ行目にｐ条目の条文が格納されており、ｐ行ｑ列目に、ｐ条目の条文の、先頭からｑ個目の検索対象トークンが格納されている。ここで、図２では、検索対象トークンは、“”で囲まれている文字又は文字列である。

　検索対象文脈依存表現生成部１０２は、検索対象ＤＢ１０１から検索対象トークン配列を取得する。そして、検索対象文脈依存表現生成部１０２は、取得された検索対象トークン配列に含まれている全ての検索対象トークンの文脈依存表現である検索対象文脈依存表現を配列した検索対象文脈依存表現配列を生成する。生成された検索対象文脈依存表現配列は、データ構造変換部１０４及び文間類似度計算部１１１に提供される。ここで、文脈依存表現は、ベクトルであり、検索対象文脈依存表現は、検索対象ベクトルである。

　例えば、検索対象文脈依存表現生成部１０２は、検索対象トークン配列に含まれている検索対象トークンの意味に対応するベクトルである検索対象ベクトルを生成する検索対象ベクトル生成部である。ここでは、検索対象文脈依存表現生成部１０２は、検索対象トークンが含まれる検索対象トークン配列に対応する検索対象文の文脈に応じて、検索対象トークンの意味を特定して、特定された意味を示すように検索対象ベクトルを生成する。

　具体的には、検索対象文脈依存表現生成部１０２は、検索対象トークン配列に含まれている複数の検索対象トークンの各々について、文脈に応じた意味を特定する。そして、検索対象文脈依存表現生成部１０２は、特定された意味を示す多次元のベクトルを、複数の検索対象トークンの各々の配列に従って配列することで、検索対象文脈依存表現配列を生成することができる。

　検索対象文脈依存表現配列は、例えば、図３に示されているような二次元配列形式でもよい。図３に示されている検索対象文脈依存表現配列では、ｐ行目にｐ条目の条文が格納されており、ｐ行ｑ列目に、ｐ条目の条文の、先頭からｑ個目の検索対象トークンに対応する文脈依存表現であるベクトルが格納されている。

　なお、検索対象トークンに対応する文脈依存表現を特定する方法については、公知の方法が用いられればよい。例えば、出現文脈を考慮可能なトークンのベクトル表現の獲得手法については、例えば、下記の文献に記載されている。
　Ｊａｃｏｂ　Ｄｅｖｌｉｎ，　Ｍｉｎｇ－Ｗｅｉ　Ｃｈａｎｇ，　Ｋｅｎｔｏｎ　Ｌｅｅ，　ａｎｄ　Ｋｒｉｓｔｉｎａ　Ｔｏｕｔａｎｏｖａ，　“ＢＥＲＴ：　Ｐｒｅ－ｔｒａｉｎｉｎｇ　ｏｆ　Ｄｅｅｐ　Ｂｉｄｉｒｅｃｔｉｏｎａｌ　Ｔｒａｎｓｆｏｒｍｅｒｓ　ｆｏｒ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ”，　ＣｏＲＲ，　ａｂｓ／１８１０．０４８０５，　Ｍａｙ　２４，　２０１８

　データ構造変換部１０４は、検索対象文脈依存表現生成部１０２から検索対象文脈依存表現配列を取得する。そして、データ構造変換部１０４は、取得された検索対象文脈依存表現配列を探索用データ構造に変換する。生成された探索用データ構造は、探索用ＤＢ１０５に記憶される。

　探索用データ構造は、使用するｋ近似最近傍探索のアルゴリズムに応じて、任意の公知のデータ構造から選択されればよい。例えば、ｋ近似最近傍探索のアルゴリズムとしてＡＮＮ（Ａｐｐｒｏｘｉｍａｔｅ　Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ　ｓｅａｒｃｈ）を利用する場合であれば、ｋ－ｄ木のデータ構造が選択されればよい。また、ｋ近似最近傍探索のアルゴリズムとしてＬＳＨ（Ｌｏｃａｌｉｔｙ　Ｓｅｎｓｉｔｉｖｅ　Ｈａｓｈｉｎｇ）を利用する場合であれば、ハッシュ関数によるマッピング結果がデータ構造として選択されればよい。ここでは、ｋ近似最近傍探索のアルゴリズムとしてＡＮＮを利用し、ｋ－ｄ木のデータ構造を探索用データ構造とする例を説明する。
　なお、これらのアルゴリズムは、下記の文献で説明されている。
　和田　俊和　著、「最近傍探索の理論とアルゴリズム」、研究報告コンピュータビジョンとイメージメディア、ｎｏ．１３、２００９年

　探索用ＤＢ１０５は、データ構造変換部１０４で変換された探索用データ構造を記憶する。

　検索クエリ入力部１０６は、検索文である検索クエリの入力を受け付ける検索入力部である。検索クエリは、複数のトークンを含む。検索クエリに含まれているトークンを検索トークンともいう。
　例えば、検索クエリ入力部１０６は、「夏の休暇はいつからいつまでですか？」といった質問文を検索クエリとして入力を受け付ける。

　トーカナイザ１０７は、検索クエリ入力部１０６から検索クエリを取得する。そして、トーカナイザ１０７は、取得された検索クエリから、検索クエリトークンを特定して、検索クエリトークンを配列した検索クエリトークン配列を生成するトークン特定部である。生成された検索クエリ配列は、検索クエリ文脈依存表現生成部１０８に提供される。なお、検索クエリトークン配列に含まれているトークンを、検索クエリトークンともいう。

　例えば、トーカナイザ１０７は、形態素解析等の任意の公知技術を利用して、検索クエリから、意味を有する最小単位であるトークンを特定し、特定されたトークンを配列することで、検索クエリトークン配列を生成する。
　図４は、検索クエリトークン配列の例を示す概略図である。
　図４に示されている例では、検索クエリトークン配列のｒ番目に、検索クエリのｒ番目のトークンが格納されている。

　検索クエリ文脈依存表現生成部１０８は、トーカナイザ１０７から検索クエリトークン配列を取得する。そして、検索クエリ文脈依存表現生成部１０８は、取得された検索クエリトークン配列に含まれている全てのトークンである検索クエリトークンに対する文脈依存表現である検索クエリ文脈依存表現を配列した検索クエリ文脈依存表現配列を生成する。生成された検索クエリ文脈依頼表現配列は、類似トークンテーブル生成部１０９及び文間類似度計算部１１１に提供される。ここで、検索クエリ文脈依存表現は、検索ベクトルである。

　例えば、検索クエリ文脈依存表現生成部１０８は、検索トークンの意味に対応するベクトルである検索ベクトルを生成する検索ベクトル生成部である。ここでは、検索クエリ文脈依存表現生成部１０８は、検索文の文脈に応じて、検索トークンの意味を特定して、特定された意味を示すように検索ベクトルを生成する。

　具体的には、検索クエリ文脈依存表現生成部１０８は、検索クエリトークン配列に含まれている複数の検索クエリトークンの各々について、文脈に応じた意味を特定する。そして、検索クエリ文脈依存表現生成部１０８は、特定された意味を示す多次元のベクトルを、複数の検索クエリトークンの各々の配列に従って配列することで、検索クエリ文脈依存表現配列を生成することができる。なお、検索クエリトークンに対応する文脈依存表現を特定する方法については、上述の検索対象文脈依存表現と同様に、公知の方法が用いられればよい。

　図５は、検索クエリ文脈依存表現配列の例を示す概略図である。
　図５に示されている例では、検索クエリ文脈依存表現配列のｒ番目に、検索クエリのｒ番目のトークンに対応する文脈依存表現であるベクトルが格納されている。

　類似トークンテーブル生成部１０９は、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得し、探索用ＤＢ１０５から探索用データ構造を取得する。そして、類似トークンテーブル生成部１０９は、取得された検索クエリ文脈依存表現配列及び探索用データ構造から、検索対象トークン及び検索クエリトークンの組み合わせ毎に、相対的に類似度が高いか低いかを示す類似度判定情報としての類似トークンテーブルを生成する。生成された類似トークンテーブルは、類似トークンテーブル記憶部１１０に記憶される。

　例えば、類似トークンテーブル生成部１０９は、検索対象トークン及び検索クエリトークンの全ての組み合わせに対して類似度を計算して、計算された類似度を用いて、類似度が相対的に高いか否かを判定する総当たり探索よりも効率的な公知の探索方法により、検索対象トークン及び検索クエリトークンの全ての組み合わせに対して相対的に類似度が高いか低いかを判定すればよい。例えば、類似トークンテーブル生成部１０９は、ｋ個（ｋは１以上の整数）の近傍点を検索するｋ近似最近傍探索を用いて、ある検索クエリトークンに対して相対的に類似度の高いｋ個の検索対象トークンを探索すればよい。そして、類似トークンテーブル生成部１０９は、探索されたｋ個の検索対象トークンを相対的に類似度の高いトークンとし、残りの検索対象トークンを相対的に類似度の低いトークンとすればよい。なお、ｋ近似最近傍探索のアルゴリズムは、ＡＮＮ又はＬＳＨといった公知の技術が使用されればよい。

　図６は、類似トークンテーブルの例を示す概略図である。
　図６に示されている例は、前述の検索クエリ「夏の休暇は…」が入力されたときに、その検索クエリに含まれている各トークンに対して、全ての検索対象文に含まれている各トークンの類似度が、全ての検索対象文の中で相対的に高い又は低いことを表すルックアップテーブルである。

　図６に示されている例では、行は、検索クエリトークン、列は、検索対象トークンを表す。「〇」は、類似度が相対的に高いことを示し、「×」は、類似度が相対的に低いことを示す。例えば、検索クエリトークン「夏の」においては、検索対象トークン「休日」及び「夏季」の類似度は、全ての検索対象文に含まれているトークンの中で相対的に高くなっている。
　ここで、類似トークンテーブルの生成には、ｋ近似最近傍探索アルゴリズムが適用できるため、計算量を少なくできるという利点がある。

　なお、図６では、説明を容易にするため、行に検索クエリトークンが格納され、列に、検索対象トークンが格納されているが、ここでは、行に検索クエリトークンに対応する検索文脈依存表現（即ち、検索ベクトル）が格納され、列に検索対象トークンに対応する検索対象文脈依存表現（即ち、検索対象ベクトル）が格納されている。

　以上のように、データ構造変換部１０４、探索用ＤＢ１０５及び類似トークンテーブル生成部１０９により、類似度判定情報である類似トークンテーブルを生成する情報生成部１０３が構成される。
　情報生成部１０３は、複数の検索ベクトルの内の一つの検索ベクトルで示される点の近傍に位置する一又は複数の近傍点を、複数の検索対象ベクトルで示される複数の点から探索することで、その一つの検索ベクトルで示される点に対応する一つの検索トークンと、その一又は複数の近傍点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを高い類似度と判定し、その一つの検索トークンと、その一又は複数の近傍点以外の一又は複数の点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを低い類似度と判定することで、類似トークンテーブルを生成する。ここで、情報生成部１０３は、一つの検索ベクトルに対応する点と、複数の検索対象ベクトルに対応する複数の点との全ての距離を算出する総当たり探索よりも効率的な探索方法を用いて、一又は複数の近傍点を探索する。

　類似トークンテーブル記憶部１１０は、類似度判定情報としての類似トークンテーブルを記憶する類似度判定情報記憶部である。
　類似トークンテーブルは、複数の検索対象トークンの各々と、複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す。

　文間類似度計算部１１１は、類似トークンテーブル記憶部１１０から類似トークンテーブルを取得し、検索対象文脈依存表現生成部１０２から検索対象文脈依存表現配列を取得し、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得する。そして、文間類似度計算部１１１は、取得された類似トークンテーブル、検索対象文脈依存表現配列及び検索クエリ文脈依存表現配列から、検索クエリと検索対象文との類似度である文間類似度を計算する。計算された文間類似度は、検索結果出力部１１２に提供される。

　ここでは、文間類似度計算部１１１は、類似トークンテーブルにおいて高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、類似トークンテーブルにおいて低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、文間類似度を計算する際の計算負荷を軽減している。なお、文間類似度計算部１１１は、トークン間類似度を計算する場合には、複数の検索対象ベクトルの内の一つの検索対象ベクトルで示される点と、複数の検索ベクトルの内の一つの検索ベクトルで示される点との距離が短いほど、その一つの検索対象ベクトルとその一つの検索ベクトルとの組み合わせのトークン間類似度が高くなるようにしている。そして、文間類似度計算部１１１は、複数の検索トークンの各々について、複数の検索対象文の内の一つの検索対象文に含まれている複数の検索対象トークンの各々との組み合わせにおけるトークン間類似度の最大値を特定し、特定された最大値の平均値により、検索文とその一つの検索対象文との文間類似度を算出する。

　以下、文間類似度の計算について説明する。
　文間類似度の計算には、任意のトークン間類似度を用いて文間類似度を算出すればよい。例えば、上述の非特許文献１に記載されたＭａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式を用いて、文間類似度が計算されればよい。
　ここでは、まず、一般的なＭａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式による文間類似度の計算を説明し、その後に、実施の形態１における高速化した文間類似度の計算を説明する。

　一般的なＭａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式による文間類似度の計算では、検索クエリｘに含まれる各検索クエリトークンｘ_ｉに対して、検索対象文Ｙ_ｊに含まれる各検索対象トークンＹ_ｊｋの中で、最もトークン間類似度の高いトークンが選択される。そして、選択されたｉ＝｜ｘ｜個の検索対象トークンにおいて計算されたトークン間類似度φ（ｘ_ｉ、Ｙ_ｊｋ）を平均した値により、文間類似度が計算される。

　以上のＭａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式による文間類似度の計算は、検索クエリｘと、ｊ番目の検索対象文Ｙ_ｊの文間類似度をｓ（ｘ，Ｙ_ｊ）とすると、下記の（１）式のように定式化される。

　ここで、ｘ_ｉは、検索クエリｘのｉ番目の検索クエリトークン、Ｙ_ｊｋは、検索対象文Ｙ_ｊのｋ番目の検索対象トークン、φ（ｘ_ｉ、Ｙ_ｊｋ）は、検索クエリトークンｘ_ｉと、検索対象トークンＹ_ｊｋとの間のトークン間類似度を表す。トークン間類似度は、検索クエリトークンのベクトルと、検索対象トークンのベクトルとの間の距離（例えば、文脈依存表現のコサイン類似度）等が用いられる。

　Ｍａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式では、以上の考え方で、検索クエリと各検索対象文との文間類似度が計算される。
　これは、下記の（２）式に示されているように、検索クエリと、全ての検索対象文との文間類似度ｓを求め、検索クエリと各検索対象文の文間類似度Ｓ（ｘ，Ｙ）を生成することに相当する。

　ここで、Ｓ（ｘ，Ｙ）のｊ番目の要素は、検索クエリｘと、検索対象文Ｙ_ｊとの間の文間類似度である。

　次に、上述のＭａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式の式変形をする。
　今、検索クエリトークンｘ_ｉと、全ての検索対象トークンからなる類似度行列Ａ（ｉ）を、下記の（３）式で定義する。

　ここで、類似度行列Ａ（ｉ）は、下記の（４）式で示される型の行列である。

　なお、｜Ｙ｜は、全ての検索対象文の数を、｜Ｙ_ｊ｜は、ｊ番目の検索対象文に含まれている検索対象トークンの数である。

　なお、下記の（５）式を満たす行ｌについては、｜Ｙ_ｌ｜＋１行目以降に対応する検索対象トークンが存在しないため、トークン間類似度φを算出することができない。このため、そのトークン間類似度を０で埋めるゼロパディング処理が行われてもよい。

　そして、類似度の最大値ｍａｘを下記の（６）式のとおり定義する。

　この場合、検索クエリと、各検索対象文との文間類似度Ｓ（ｘ，Ｙ）は、下記の（７）式のように変形することができる。

　（７）式に示されているように、検索クエリｘと各検索対象文Ｙの文間類似度Ｓ（ｘ，Ｙ）を求めるには、類似度行列Ａ（ｉ）を求める必要がある。
　しかしながら、類似度行列Ａ（ｉ）を求めるための計算量は、Ｏ（｜ｘ｜Σ_ｊ｜Ｙ_ｊ｜）である。このため、検索対象文が大規模である場合には、Σ_ｊ｜Ｙ_ｊ｜の計算量が膨大であり、実用的な計算量ではないという問題があった。

　そこで、実施の形態１における文間類似度計算部１１１は、文間類似度の計算を高速化する。
　高速化前の、Ｍａｘｉｍｕｍ　Ａｌｉｇｎｍｅｎｔ方式では、検索対象文毎に、検索クエリトークンと、その全ての検索対象トークンとの間のトークン間類似度の値を相対的に比較して、その最大値を取得することで、上記の（６）式に示されているように、検索クエリトークンｘ_ｉと、検索対象文Ｙ_ｊとのトークン間類似度の最大値ｍａｘが得られる。

　しかしながら、文書検索タスクにおいて、検索対象文の中でのトークン間類似度の値が相対的に高くても、全ての検索対象文の中では相対的に低い場合、そのトークン間類似度が文書間類似度に影響を与える可能性は少ない。
　そこで、文間類似度計算部１１１は、トークン間類似度が全ての検索対象文の中で相対的に低い場合には、そのトークン間類似度の計算を省略する（例えば、０として近似する）ことで、文書間類似度の計算を高速化する。

　具体的には、文間類似度計算部１１１は、類似度行列Ａ（ｉ）を、下記の（８）式のように近似する。

　但し、γ（ｘ_ｉ，Ｙ_ｊｋ）は、下記の（９）式で特定される。

　ここで、Ｓｉｍｓｅｔ（ｘ_ｉ）は、類似トークンテーブルのある検索クエリトークンｘ_ｉの行に含まれる欄の値が、「○」となっている検索対象トークンＹ_ｊｋの集合を返す関数である。
　例えば、図６に示されている例では、検索クエリトークン「夏の」の行では、検索対象トークン「休日」及び「夏季」がＳｉｍｓｅｔ（ｘ_ｉ）により返される。

　検索結果出力部１１２は、文間類似度計算部１１１から文間類似度を取得し、検索対象ＤＢ１０１から検索対象文として取得する。そして、検索結果出力部１１２は、文間類似度に従って、検索対象文を並び替えて、並び替えられた検索対象文を検索結果として出力する。
　ここで、並べ替えは、文間類似度の昇順又は降順等の任意の並べ替えの方法が選択されればよい。

　図７は、文書検索装置１００を実現するためのハードウェア構成を概略的に示すブロック図である。
　図７に示されているように、文書検索装置１００は、メモリ１９１と、プロセッサ１９２と、補助記憶装置１９３と、マウス１９４と、キーボード１９５と、表示装置１９６とを備えるコンピュータ１９０により実現することができる。

　具体的には、以上に記載された検索対象文脈依存表現生成部１０２、データ構造変換部１０４、トーカナイザ１０７、検索クエリ文脈依存表現生成部１０８、類似トークンテーブル生成部１０９、文間類似度計算部１１１及び検索結果出力部１１２の一部又は全部は、メモリ１９１と、メモリ１９１に格納されているプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサ１９２とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、検索対象ＤＢ１０１、探索用ＤＢ１０５及び類似トークンテーブル記憶部１１０は、プロセッサ１９２が、補助記憶装置１９３を利用することで実現することができる。但し、補助記憶装置１９３は必ずしも文書検索装置１００内に存在する必要はなく、図示しない通信インターフェースを介してクラウド上に存在する補助記憶装置が利用されてもよい。なお、類似トークンテーブル記憶部１１０は、メモリ１９１により実現されてもよい。
　検索クエリ入力部１０６は、プロセッサ１９２が、入力装置としてのマウス１９４及びキーボード１９５、並びに、表示装置１９６を利用することで実現することができる。なお、マウス１９４及びキーボード１９５は、入力部として機能し、表示装置１９６は、表示部として機能する。

　図８は、検索対象文脈依存表現生成部１０２での処理を示すフローチャートである。
　まず、検索対象文脈依存表現生成部１０２は、検索対象ＤＢ１０１から検索対象トークン配列を取得する（Ｓ１０）。

　次に、検索対象文脈依存表現生成部１０２は、取得された検索対象トークン配列に含まれている全ての検索対象トークンの各々の意味を文脈に応じて特定し、特定された意味を示す検索対象文脈依存表現（即ち、検索対象ベクトル）を、取得された検索対象トークン配列に従って配列することで、検索対象文脈依存表現配列を生成する（Ｓ１１）。

　次に、検索対象文脈依存表現生成部１０２は、生成された検索対象文脈依存表現配列をデータ構造変換部１０４及び文間類似度計算部１１１に提供する（Ｓ１２）。

　図９は、データ構造変換部１０４での処理を示すフローチャートである。
　まず、データ構造変換部１０４は、検索対象文脈依存表現生成部１０２から検索対象文脈依存表現配列を取得する（Ｓ２０）。

　次に、データ構造変換部１０４は、取得された検索対象文脈依存表現配列を、総当たり探索よりも効率的な探索方法により検索クエリトークンに対して相対的に高い類似度を有する検索対象トークンを探索するために使用される探索用データ構造に変換する（Ｓ２１）。

　次に、データ構造変換部１０４は、変換された探索用データ構造を、探索用ＤＢ１０５に提供する（Ｓ２２）。なお、探索用ＤＢ１０５は、提供された探索用データ構造を記憶する。

　図１０は、トーカナイザ１０７での処理を示すフローチャートである。
　トーカナイザ１０７は、検索クエリ入力部１０６から、検索クエリを取得する（Ｓ３０）。

　次に、トーカナイザ１０７は、取得された検索クエリから、意味を有する最小単位である検索クエリトークンを特定し、特定された検索クエリトークンを、検索クエリに従って配列することで検索クエリトークン配列を生成する（Ｓ３１）。

　次に、トーカナイザ１０７は、生成された検索クエリトークン配列を検索クエリ文脈依存表現生成部１０８に提供する（Ｓ３２）。

　図１１は、検索クエリ文脈依存表現生成部１０８での処理を示すフローチャートである。
　まず、検索クエリ文脈依存表現生成部１０８は、トーカナイザ１０７から、検索クエリトークン配列を取得する（Ｓ４０）。

　次に、検索クエリ文脈依存表現生成部１０８は、取得された検索クエリトークン配列に含まれている全ての検索クエリトークンの各々の意味を文脈に応じて特定し、特定された意味を示す文脈依存表現（以下、検索クエリ文脈依存表現ともいう）であるベクトル（以下、検索クエリベクトルともいう）を、取得された検索クエリトークン配列に従って配列することで、検索クエリ文脈依存表現配列を生成する（Ｓ４１）。

　次に、検索クエリ文脈依存表現生成部１０８は、生成された検索クエリ文脈依存表現配列を類似トークンテーブル生成部１０９及び文間類似度計算部１１１に提供する（Ｓ４２）。

　図１２は、類似トークンテーブル生成部１０９での処理を示すフローチャートである。
　まず、類似トークンテーブル生成部１０９は、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得する（Ｓ５０）。
　また、類似トークンテーブル生成部１０９は、探索用ＤＢ１０５から探索用データ構造を取得する（Ｓ５１）。

　次に、類似トークンテーブル生成部１０９は、探索用データ構造において、総当たり探索よりも効率的な探索方法を用いて、検索クエリ文脈依存表現配列に含まれている全ての検索クエリ文脈依存表現の各々に対して、全ての検索対象文脈依存表現の中から類似度の相対的に高い検索対象文脈依存表現を探索することで、検索クエリ文脈依存表現の各々と、検索対象文脈依存表現の各々とが類似度が高いか低いかを示す類似トークンテーブルを生成する（Ｓ５２）。

　次に、類似トークンテーブル生成部１０９は、生成された類似トークンテーブルを類似トークンテーブル記憶部１１０に提供し、記憶させる（Ｓ５３）。

　図１３は、文間類似度計算部１１１での処理を示すフローチャートである。
　まず、文間類似度計算部１１１は、類似トークンテーブル記憶部１１０から類似トークンテーブルを取得する（Ｓ６０）。
　また、文間類似度計算部１１１は、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得する（Ｓ６１）。
　さらに、文間類似度計算部１１１は、検索対象文脈依存表現生成部１０２から検索対象文脈依存表現配列を取得する（Ｓ６２）。

　次に、文間類似度計算部１１１は、類似トークンテーブルを参照することで、類似度が高いと判定されている検索クエリトークンと、検索対象トークンとの組み合わせについてはトークン間類似度を算出し、類似度が低いと判定されている組み合わせについては、予め定められた値（例えば、０）とすることで、検索対象文と検索クエリとの文間類似度を計算する（Ｓ６３）。

　次に、文間類似度計算部１１１は、計算された文間類似度を検索結果出力部１１２に提供する（Ｓ６４）。

　図１４は、検索結果出力部１１２での処理を示すフローチャートである。
　まず、検索結果出力部１１２は、文間類似度計算部１１１から文間類似度を取得する（Ｓ７０）。

　次に、検索結果出力部１１２は、取得された文間類似度に従って、検索対象文を並べ替えることにより、少なくとも最も文間類似度の高い検索対象文を特定することのできる検索結果を生成する（Ｓ７１）。なお、検索結果出力部１１２は、検索対象ＤＢ１０１から検索対象文を取得すればよい。

　次に、検索結果出力部１１２は、生成された検索結果を、例えば、図７に示されている表示装置１９６に表示させることで、その検索結果を出力する（Ｓ７２）。

　以上のように、実施の形態１においては、文間類似度を算出する際に、類似度が高くないと判定されているトークン同士のトークン間類似度を予め定められた値とすることができるため、文間類似度の計算負荷を軽減することができる。

実施の形態２．
　図１５は、実施の形態２に係る情報処理装置である文書検索装置２００の構成を概略的に示すブロック図である。
　文書検索装置２００は、検索対象ＤＢ１０１と、検索対象文脈依存表現生成部２０２と、情報生成部１０３と、検索クエリ入力部１０６と、トーカナイザ１０７と、検索クエリ文脈依存表現生成部１０８と、類似トークンテーブル記憶部１１０と、文間類似度計算部１１１と、検索結果出力部１１２と、オントロジＤＢ２１３とを備える。

　実施の形態２における検索対象ＤＢ１０１、情報生成部１０３、検索クエリ入力部１０６、トーカナイザ１０７、検索クエリ文脈依存表現生成部１０８、類似トークンテーブル生成部１０９、類似トークンテーブル記憶部１１０、文間類似度計算部１１１及び検索結果出力部１１２は、実施の形態１における検索対象ＤＢ１０１、情報生成部１０３、検索クエリ入力部１０６、トーカナイザ１０７、検索クエリ文脈依存表現生成部１０８、類似トークンテーブル生成部１０９、類似トークンテーブル記憶部１１０、文間類似度計算部１１１及び検索結果出力部１１２と同様である。

　オントロジＤＢ２１３は、トークンの意味関係を示す意味関係情報であるオントロジを記憶する意味関係情報記憶部である。実施の形態２においては、オントロジは、トークンの同義関係及び包含関係の少なくとも何れか一方を意味関係として示すものとする。

　なお、オントロジＤＢ２１３は、例えば、図７に示されているプロセッサ１９２が、補助記憶装置１９３を利用することで実現することができる。

　検索対象文脈依存表現生成部２０２は、検索対象ＤＢ１０１から検索対象トークン配列を取得する。そして、検索対象文脈依存表現生成部２０２は、オントロジＤＢ２１３に記憶されているオントロジを参照することで、取得された検索対象トークン配列に含まれている検索対象トークンを、同じ意味として扱うことのできるグループにグループ分けを行う。例えば、検索対象文脈依存表現生成部２０２は、オントロジにおいて同義関係又は包含関係にあることが示されている検索対象トークンを一つのグループとする。具体的には、「休暇」及び「休日」は、ともに「休み」の意味となるため、言い換えると、同義関係にあるため、検索対象文脈依存表現生成部２０２は、これらを一つのグループとする。

　そして、検索対象文脈依存表現生成部２０２は、一つのグループに一つの検索対象文脈依存表現を割り当てて、検索対象文脈依存表現配列を生成する。言い換えると、検索対象文脈依存表現生成部２０２は、特定された意味が同義関係又は包含関係を有する複数の検索対象トークンから、同じ検索対象文脈依存表現である検索対象ベクトルを生成する。例えば、検索対象文脈依存表現生成部２０２は、一つのグループに含まれている検索対象トークンの何れか一つの検索対象文脈依存表現を、そのグループの検索対象文脈依存表現としてもよいし、一つのグループに含まれている検索対象トークンの検索対象文脈依存表現の代表値（例えば、平均値）を、そのグループの検索対象文脈依存表現としてもよい。

　図１６は、実施の形態２における検索対象文脈依存表現生成部２０２での処理を示すフローチャートである。
　まず、検索対象文脈依存表現生成部２０２は、検索対象ＤＢ１０１から検索対象トークン配列を取得する（Ｓ８０）。
　また、検索対象文脈依存表現生成部２０２は、オントロジＤＢ２１３からオントロジを取得する（Ｓ８１）。

　次に、検索対象文脈依存表現生成部２０２は、取得された検索対象トークン配列に含まれている全ての検索対象トークンの各々の意味を文脈に応じて特定し、取得されたオントロジを参照して、特定された意味を用いて、グループ分けを行い、グループに属する検索対象トークンには一つの検索対象文脈依存表現を割り当て、グループに属しない検索対象トークンには、特定された意味に対する検索対象文脈依存表現を割り当てることで、検索対象文脈依存表現配列を生成する（Ｓ８２）。

　次に、検索対象文脈依存表現生成部２０２は、生成された検索対象文脈依存表現配列をデータ構造変換部１０４及び文間類似度計算部１１１に提供する（Ｓ８３）。

　以上のように、実施の形態２によれば、検索対象トークンをグループに分けることで、類似トークンテーブル生成部１０９で、検索クエリトークンと検索対象トークンとの類似度が高いか否かを判断する対象数が減るため、類似トークンテーブル生成部１０９での処理負荷を軽減することができる。

実施の形態３．
　図１７は、実施の形態３に係る情報処理装置である文書検索装置３００の構成を概略的に示すブロック図である。
　文書検索装置３００は、検索対象ＤＢ１０１と、検索対象文脈依存表現生成部２０２と、情報生成部１０３と、検索クエリ入力部１０６と、トーカナイザ１０７と、検索クエリ文脈依存表現生成部１０８と、類似トークンテーブル記憶部１１０と、文間類似度計算部１１１と、検索結果出力部１１２と、オントロジＤＢ２１３と、検索対象次元削減部３１４と、検索クエリ次元削減部３１５とを備える。

　実施の形態３における検索対象ＤＢ１０１、情報生成部１０３、検索クエリ入力部１０６、トーカナイザ１０７、検索クエリ文脈依存表現生成部１０８、類似トークンテーブル生成部１０９、類似トークンテーブル記憶部１１０、文間類似度計算部１１１及び検索結果出力部１１２は、実施の形態１における検索対象ＤＢ１０１、情報生成部１０３、検索クエリ入力部１０６、トーカナイザ１０７、検索クエリ文脈依存表現生成部１０８、類似トークンテーブル生成部１０９、類似トークンテーブル記憶部１１０、文間類似度計算部１１１及び検索結果出力部１１２と同様である。
　但し、実施の形態３における検索クエリ文脈依存表現生成部１０８は、検索クエリ次元削減部３１５及び文間類似度計算部１１１に、検索クエリ文脈依存表現配列を提供する。

　また、実施の形態３における検索対象文脈依存表現生成部２０２及びオントロジＤＢ２１３は、実施の形態２における検索対象文脈依存表現生成部２０２及びオントロジＤＢ２１３と同様である。
　但し、実施の形態３における検索対象文脈依存表現生成部２０２は、検索対象次元削減部３１４及び文間類似度計算部１１１に検索対象依存表現配列を提供する。

　検索対象次元削減部３１４は、検索対象文脈依存表現生成部２０２から検索対象文脈依存表現配列を取得する。そして、検索対象次元削減部３１４は、取得された検索対象文脈依存表現配列に含まれている全ての検索対象文脈依存表現の次元圧縮を行うことで、その次元を削減した低次元検索対象文脈依存表現（即ち、低次元検索対象ベクトル）を生成し、その低次元検索対象文脈依存表現を配列して、次元削減済みの低次元検索対象文脈依存表現配列を生成する。検索対象次元削減部３１４は、生成された低次元検索対象文脈依存表現配列をデータ構造変換部１０４に提供する。なお、次元の圧縮には主成分分析等、任意の公知技術が使用されればよい。

　なお、実施の形態３におけるデータ構造変換部１０４は、低次元検索対象文脈依存表現配列を探索データ構造に変換する。変換の方法は、実施の形態１と同様である。

　検索クエリ次元削減部３１５は、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得する。そして、検索クエリ次元削減部３１５は、取得された検索クエリ文脈依存表現配列に含まれている全ての検索クエリ文脈依存表現の次元圧縮を行うことで、その次元を削減した低次元検索クエリ文脈依存表現（即ち、低次元検索ベクトル）を生成して、その低次元検索クエリ文脈依存表現を配列して、次元削減済みの低次元検索クエリ文脈依存表現配列を生成する検索次元削減部である。検索クエリ次元削減部３１５は、生成された低次元検索クエリ文脈依存表現配列を類似トークンテーブル生成部１０９に提供する。なお、次元の圧縮には主成分分析等、任意の公知技術が使用されればよい。

　なお、類似トークンテーブル生成部１０９は、検索クエリ次元削減部３１５から取得された低次元検索クエリ文脈依存表現配列と、探索用ＤＢ１０５から取得された探索用データ構造とを用いて、類似トークンテーブルを生成する。なお、生成方法は、実施の形態１と同様である。

　以上のように、実施の形態３では、情報生成部１０３は、検索対象次元削減部３１４で生成された低次元検索対象文脈依存表現配列及び低次元検索クエリ文脈依存表現配列を用いて、類似トークンテーブルを生成する。
　具体的には、情報生成部１０３は、複数の低次元検索ベクトルの内の一つの低次元検索ベクトルで示される点の近傍に位置する一又は複数の点である一又は複数の近傍点を、複数の低次元検索対象ベクトルで示される複数の点から探索することで、その一つの低次元検索ベクトルで示される点に対応する一つの検索トークンと、その一又は複数の近傍点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを高い類似度と判定し、その一つの検索トークンと、その一又は複数の近傍点以外の一又は複数の点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを低い類似度と判定することで、類似トークンテーブルを生成する。ここで、情報生成部１０３は、一つの低次元検索ベクトルに対応する点と、複数の低次元検索対象ベクトルに対応する複数の点との全ての距離を算出する総当たり探索よりも効率的な探索方法を用いて、一又は複数の近傍点を探索する。

　以上に記載された検索対象次元削減部３１４及び検索クエリ次元削減部３１５の一部又は全部は、図７に示されているメモリ１９１と、メモリ１９１に格納されているプログラムを実行するプロセッサ１９２とにより構成することができる。

　図１８は、検索対象次元削減部３１４での処理を示すフローチャートである。
　まず、検索対象次元削減部３１４は、検索対象文脈依存表現生成部２０２から検索対象文脈依存表現配列を取得する（Ｓ９０）。

　次に、検索対象次元削減部３１４は、取得された検索対象文脈依存表現配列に含まれている全ての検索対象文脈依存表現の次元を削減することで、低次元検索対象文脈依存表現配列を生成する（Ｓ９１）。

　次に、検索対象次元削減部３１４は、低次元検索対象文脈依存表現配列をデータ構造変換部１０４に提供する（Ｓ９２）。

　図１９は、検索クエリ次元削減部３１５での処理を示すフローチャートである。
　まず、検索クエリ次元削減部３１５は、検索クエリ文脈依存表現生成部１０８から検索クエリ文脈依存表現配列を取得する（Ｓ１００）。

　次に、検索クエリ次元削減部３１５は、取得された検索クエリ文脈依存表現配列に含まれている全ての検索クエリ文脈依存表現の次元を削減することで、低次元検索クエリ文脈依存表現配列を生成する（Ｓ１０１）。

　次に、検索クエリ次元削減部３１５は、低次元検索クエリ文脈依存表現配列を類似トークンテーブル生成部１０９に提供する（Ｓ１０２）。

　以上のように、実施の形態３によれば、検索対象文脈依存表現及び検索クエリ文脈依存表現の次元が高い場合でも、その次元を削減することで、類似トークンテーブル生成部１０９での処理負荷を軽減することができる。

　以上に記載された実施の形態１～３においては、検索対象ＤＢ１０１に、複数の検索対象文及びその複数の検索対象文に対応する複数の検索対象トークン配列が記憶されているが、実施の形態１～３は、このような例に限定されない。例えば、検索対象ＤＢ１０１は、複数の検索対象文を記憶し、検索対象文脈依存表現生成部１０２が、公知の技術を用いて、対応する複数の検索対象トークン配列を生成してもよい。

　また、以上に記載された実施の形態１～３においては、トーカナイザ１０７で、検索クエリトークン配列を生成しているが、実施の形態１～３は、このような例に限定されない。例えば、検索クエリ文脈依存表現生成部１０８が、検索クエリから、公知の技術を用いて、検索クエリトークン配列を生成してもよい。

　さらに、以上に記載された実施の形態１～３においては、検索対象文脈依存表現生成部１０２、２０２及び検索クエリ文脈依存表現生成部１０８において、トークンから文脈に依存したベクトルを生成しているが、実施の形態１～３は、このような例に限定されない。例えば、文脈に依存せずに、トークンに一対一で対応するベクトルを生成してもよい。このような場合でも、本実施の形態によれば、トークン間の類似度であるトークン間類似度を予め記憶したルックアップテーブルを準備することなしに、文間類似度の計算負荷を軽減することができる。

　実施の形態３は、実施の形態２に検索対象次元削減部３１４及び検索クエリ次元削減部３１５を追加しているが、実施の形態１にこれらが追加されていてもよい。

　１００，２００，３００　文書検索装置、　１０１　検索対象ＤＢ、　１０２，２０２　検索対象文脈依存表現生成部、　１０３，３０３　情報生成部、　１０４　データ構造変換部、　１０５　探索用ＤＢ、　１０６　検索クエリ入力部、　１０７　トーカナイザ、　１０８　検索クエリ文脈依存表現生成部、　１０９　類似トークンテーブル生成部、　１１１　文間類似度計算部、　１１２　検索結果出力部、　２１３　オントロジＤＢ、　３１４　検索対象次元削減部、　３１５　検索クエリ次元削減部。

Claims

　各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文を記憶する検索対象記憶部と、
　前記複数の検索対象トークンの各々と、検索文に含まれている、意味を有する最小単位である複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報を記憶する類似度判定情報記憶部と、
　前記類似度判定情報において前記高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において前記低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算する文間類似度計算部と、を備えること
　を特徴とする情報処理装置。
　各々が前記複数の検索対象トークンの各々の意味に対応するベクトルである複数の検索対象ベクトルを生成する検索対象ベクトル生成部と、
　各々が前記複数の検索トークンの各々の意味に対応するベクトルである複数の検索ベクトルを生成する検索ベクトル生成部と、
　前記複数の検索ベクトルの内の一つの検索ベクトルで示される点の近傍に位置する一又は複数の近傍点を、前記複数の検索対象ベクトルで示される複数の点から探索することで、前記一つの検索ベクトルで示される点に対応する一つの検索トークンと、前記一又は複数の近傍点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを前記高い類似度と判定し、前記一つの検索トークンと、前記一又は複数の近傍点以外の一又は複数の点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを前記低い類似度と判定することで、前記類似度判定情報を生成する情報生成部と、をさらに備え、
　前記情報生成部は、前記一つの検索ベクトルに対応する点と、前記複数の検索対象ベクトルに対応する複数の点との全ての距離を算出する総当たり探索よりも効率的な探索方法を用いて、前記一又は複数の近傍点を探索すること
　を特徴とする請求項１に記載の情報処理装置。
　各々が前記複数の検索対象トークンの各々の意味に対応するベクトルである複数の検索対象ベクトルを生成する検索対象ベクトル生成部と、
　前記複数の検索対象ベクトルの各々の次元を削減することで、複数の低次元検索対象ベクトルを生成する検索対象次元削減部と、
　各々が前記複数の検索トークンの各々の意味に対応するベクトルである複数の検索ベクトルを生成する検索ベクトル生成部と、
　前記複数の検索ベクトルの各々の次元を削減することで、複数の低次元検索ベクトルを生成する検索次元削減部と、
　前記複数の低次元検索ベクトルの内の一つの低次元検索ベクトルで示される点の近傍に位置する一又は複数の近傍点を、前記複数の低次元検索対象ベクトルで示される複数の点から探索することで、前記一つの低次元検索ベクトルで示される点に対応する一つの検索トークンと、前記一又は複数の近傍点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを前記高い類似度と判定し、前記一つの検索トークンと、前記一又は複数の近傍点以外の一又は複数の点に対応する一又は複数の検索対象トークンとの一又は複数の組み合わせを前記低い類似度と判定することで、前記類似度判定情報を生成する情報生成部と、をさらに備え、
　前記情報生成部は、前記一つの低次元検索ベクトルに対応する点と、前記複数の低次元検索対象ベクトルに対応する複数の点との全ての距離を算出する総当たり探索よりも効率的な探索方法を用いて、前記一又は複数の近傍点を探索すること
　を特徴とする請求項１に記載の情報処理装置。
　前記情報生成部は、ｋ個（ｋは、１以上の整数）の近傍点を探索するｋ近似最近傍探索により、前記一又は複数の近傍点を探索すること
　を特徴とする請求項２又は３に記載の情報処理装置。
　前記検索対象ベクトル生成部は、前記複数の検索対象文の各々の文脈に応じて、前記複数の検索対象トークンの各々の意味を特定して、前記複数の検索対象ベクトルを生成し、
　前記検索ベクトル生成部は、前記検索文の文脈に応じて、前記複数の検索トークンの各々の意味を特定して、前記複数の検索ベクトルを生成すること
　を特徴する請求項２から４の何れか一項に記載の情報処理装置。
　前記検索対象ベクトル生成部は、前記特定された意味が同義関係又は包含関係を有する複数の検索対象トークンから同じ検索対象ベクトルを生成すること
　を特徴とする請求項５に記載の情報処理装置。
　各々が前記複数の検索対象トークンの各々の意味に対応するベクトルである複数の検索対象ベクトルを生成する検索対象ベクトル生成部と、
　各々が前記複数の検索トークンの各々の意味に対応するベクトルである複数の検索ベクトルを生成する検索ベクトル生成部と、をさらに備え、
　前記文間類似度計算部は、前記トークン間類似度を計算する場合には、前記複数の検索対象ベクトルの内の一つの検索対象ベクトルで示される点と、前記複数の検索ベクトルの内の一つの検索ベクトルで示される点との距離が短いほど、前記一つの検索対象ベクトルと前記一つの検索ベクトルとの組み合わせのトークン間類似度が高くなるようにすること
　を特徴とする請求項１に記載の情報処理装置。
　前記文間類似度計算部は、前記複数の検索トークンの各々について、前記複数の検索対象文の内の一つの検索対象文に含まれている複数の検索対象トークンの各々との組み合わせにおけるトークン間類似度の最大値を特定し、特定された最大値を平均することで、前記検索文と前記一つの検索対象文との文間類似度を算出すること
　を特徴とする請求項１から７の何れか一項に記載の情報処理装置。
　コンピュータを、
　各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文を記憶する検索対象記憶部、
　前記複数の検索対象トークンの各々と、検索文に含まれている、意味を有する最小単位である複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報を記憶する類似度判定情報記憶部、及び、
　前記類似度判定情報において高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算する文間類似度計算部、として機能させること
　を特徴とするプログラム。
　各々が意味を有する最小単位である複数の検索対象トークンを含む複数の検索対象文と、意味を有する最小単位である複数の検索トークンを含む検索文との間の複数の文間類似度を計算する情報処理方法であって、
　前記検索文の入力を受け付け、
　前記複数の検索対象トークンの各々と、前記複数の検索トークンの各々との組み合わせが高い類似度であるか、低い類似度であるかを示す類似度判定情報において高い類似度であることが示されている組み合わせについてはトークン間類似度を計算し、前記類似度判定情報において低い類似度であることが示されている組み合わせについてはトークン間類似度を予め定められた値とすることで、前記検索文と、前記複数の検索対象文の各々との間の文間類似度を計算すること
　を特徴とする情報処理方法。