WO2013058118A1

WO2013058118A1 - テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2013058118A1
Application number: PCT/JP2012/075765
Authority: WO
Inventors: 土田正明; 石川開; 大西貴士
Original assignee: 日本電気株式会社
Priority date: 2011-10-20
Filing date: 2012-10-04
Publication date: 2013-04-25
Also published as: CN103221947A; JP5387870B2; US20130204611A1; SG188994A1; JPWO2013058118A1; CN103221947B; US8762132B2

Abstract

　テキスト含意判定装置２は、第１及び第２のテキストそれぞれについて、述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部２１と、第１のテキストについて述語項構造毎に生成されたベクトルと、第２のテキストについて述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、組合せ同定部２２と、組合せ毎に、特徴量を求め、特徴量に基づいて、第１のテキストが第２のテキストを含意しているかどうかを判定する、含意判定部２３と、を備えている。

Description

テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、特定のテキストが他のテキストを含意しているかどうかを判定するための、テキスト含意判定装置、テキスト含意判定方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

　近年、意味を持った自然文の検索など、自然言語を扱う多くのアプリケーションにおいて、高度化を図るため、テキスト合意判定が着目されている。テキスト含意判定とは、テキストＴとテキストＨとが与えられた時に「テキストＴから、テキストＨが推測できるか」どうかを判定するタスクである。

　例えば、「テキストＴ:Ｎ社の利益は５００億である。」、及び「テキストＨ:Ｎ社は黒字である。」が与えられた場合、テキストＴからテキストＨが推測され、テキストＴはテキストＨを含意すると判定される。なぜならば「５００億の利益」は、「黒字」を意味するのに十分であると考えられるからである。

　例えば、非特許文献１は、従来からのテキスト含意判定システムの一例を開示している。非特許文献１に開示されたテキスト含意判定システムは、まず、テキストＴとテキストＨとをそれぞれ構文解析し、それぞれについて、動詞が根（最上位ノード）となり、且つ、動詞の引数（主語、目的語等）に含まれる単語が子ノード又は孫ノードとなる、木構造を作成する。

　次に、非特許文献１に開示された含意判定システムは、テキストＴに対して、単語の置換及び構文的な言い換えを行い、その部分木において、テキストＨの木構造と一致する木構造の作成を試みる。そして、上記含意判定システムは、テキストＴの部分木において、上記の木構造を作成できた場合は、含意と判定する。

　また、非特許文献１に開示された含意判定システムでは、木構造の一致判定を行う際に、完全一致かどうかの一致判定だけでなく、近似的な一致判定も行うことができる。具体的には、上記含意判定システムは、上述した木構造を作成した後、作成した木構造から、ＶＡＳ（Verb-Argument Structure）と呼ばれるデータを作成する。

　ＶＡＳは、いわゆる述語項構造の一種であり、木構造の根の動詞と、引数の種類毎に区別して作成した単語集合とから構成される。例えば、非特許文献１では、「Casey Sheehan was killed in Iraq.」という文から、「<kill, （object: Casey, Sheehan）, （other: Iraq）>」というＶＡＳが生成されている。また、非特許文献１には、根がｂｅ動詞である場合に、引数の種類を区別せずに、子ノード及び孫ノードの全体から単語集合を作成する方法も開示されている。

　そして、非特許文献１に開示された含意判定システムは、テキストＴとテキストＨとから作成された２つのＶＡＳを対象に、同じ引数の単語集合間についての単語被覆率を求める。続いて、上記含意判定システムは、前記単語被覆率が一定以上の場合にその２つのＶＡＳの引数の内容が一致していると判定し、更に、一致する引数が一定割合以上である場合に２つのＶＡＳの元の木構造同士も一致すると判断する。このように、ＶＡＳが生成される場合は、動詞の引数の文字列の完全一致だけではなく、近似的な一致も判定される。

Asher Stern et al., "Rule Chaining and Approximate Match in textual inference", Text Analysis Conference 2010, (Online Proceeding), http://www.nist.gov/tac/publications/2010/participant.papers/BIU.proceedings.pdf

　このように、上述した非特許文献１に開示された含意判定システムは、２つの自然文を対象として、一方が他方を含意しているかどうかを判定できるため、自然文の検索などを可能にすることができると考えられる。

　しかしながら、上述した非特許文献１に開示された含意判定システムには、述語間の項構造が異なる場合に、含意判定を行なうことができない、という問題がある。これは、当該含意判定システムでは、述語間の項構造が同じであると仮定して、テキスト間の照合が試みられているためである。

　例えば、「テキストＴ:Ａ社がパソコン事業から撤退した。」と、「テキストＨ:Ａ社のパソコンが消える。」とが存在しているとする。上述した非特許文献１に開示された含意判定システムは、ＶＡＳとして、テキストＴから「撤退（主語:Ａ社，目的語:パソコン，事業）」を抽出し、テキストＨから「消える（主語:Ａ社，の，パソコン）」を抽出する。

　このようなＶＡＳが抽出された場合、「撤退」と「消える」とは、動詞として異なっているため、上述した非特許文献１に開示された含意判定システムでは、テキストＴがテキストＨを含意しているにも拘わらず、含意していると判定されない結果となる。

　更に、当該含意判定システムにおいて、仮に、上記の場合に動詞間を同一視するように設定したとしても、「消える」の主語と、「撤退」の主語及び目的語とが異なるため、この場合も、含意していると判定されない結果となる。

［発明の目的］
　本発明の目的の一例は、上記問題を解消し、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を可能にし得る、テキスト含意判定装置、テキスト合意判定方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明の一側面における含意判定装置は、第１のテキストが第２のテキストを含意しているかどうかを判定するための装置であって、
　前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、
　前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、組合せ同定部と、
　同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、含意判定部と、
を備えていることを特徴とする。

　また、上記目的を達成するため、本発明の一側面における含意判定方法は、第１のテキストが第２のテキストを含意しているかどうかを判定するための方法であって、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を有することを特徴とする。

　更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、第１のテキストが第２のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。

　以上のように、本発明によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を可能にすることができる。

図１は、本発明の実施の形態における含意判定装置の構成を示すブロック図である。図２は、本発明の実施の形態における含意判定装置の動作を示すフロー図である。図３は、テキストから抽出された述語項構造の一例を示す図である。図４は、図３に示した述語項構造から生成されたベクトルを示す図である。図５は、本実施の形態で実行される組合せの同定処理の一例を説明する図である。図６は、本実施の形態で実行される含意判定処理の一例を説明する図である。図７は、本発明の実施の形態における含意判定装置を実現するコンピュータの一例を示すブロック図である。

（実施の形態）
　以下、本発明の実施の形態における、含意判定装置、含意判定方法、及びプログラムについて、図１～図７を参照しながら説明する。

［装置構成］
　最初に、本実施の形態における含意判定装置の構成について図１を用いて説明する。図１は、本発明の実施の形態における含意判定装置の構成を示すブロック図である。

　図１に示す、本実施の形態における含意判定装置２は、第１のテキストが第２のテキストを含意しているかどうかを判定するための装置である。また、図１に示すように、含意判定装置２は、ベクトル生成部２１と、組合せ同定部２２と、含意判定部２３とを備えている。

　このうち、ベクトル生成部２１は、まず、第１のテキスト及び第２のテキストそれぞれの述語項構造を取得する。そして、ベクトル生成部２１は、第１のテキスト及び第２のテキストそれぞれについて、述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する。

　組合せ同定部２２は、第１のテキストについて述語項構造毎に生成されたベクトルと、第２のテキストについて述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、第１のテキストの述語項構造と第２のテキストの述語項構造との組合せを同定する。

　含意判定部２３は、同定された組合せ毎に、特徴量を算出し、算出された特徴量に基づいて、第１のテキストが第２のテキストを含意しているかどうかを判定する。

　このように、含意判定装置２では、項構造を無視したベクトルの比較結果から、判定対象とすべき述語項構造の組合せが同定され、同定された組合せを元にテキスト間の含意が判断される。従って、含意判定装置２によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定が可能となる。

　続いて、本実施の形態における含意判定装置２の構成について更に具体的説明する。まず、本実施の形態において、含意判定装置２は、プログラム制御によって動作する装置であり、後述のプログラムをコンピュータ上で実行することによって実現される。

　また、本実施の形態において、「述語項構造」は、テキストに含まれる述語（動詞）、当該述語の引数となる単語、及び引数の種類を示す単語（ラベル）、を少なくとも含む（後述の図３参照）。従って、本実施の形態では、「述語項構造において述語の引数の種類を示す単語以外の単語」とは、述語（動詞）、及び引数となる単語を意味する。

　また、図１に示すように、本実施の形態では、含意判定装置２には、入力装置１と、含意判定装置２で使用される各種データを記憶する記憶装置３と、結果を出力するための出力装置４とが、接続されている。含意判定装置２は、入力装置１、記憶装置３、及び出力装置４と共に、含意判定システムを構築している。

　入力装置１は、含意判定装置２による含意判定の対象となる２つのテキスト、即ち、第１のテキストと第２のテキストとを、含意判定装置２に入力する。なお、以降においては、第１のテキストを「テキストＴ」または単に「Ｔ」と表記し、第２のテキストを「テキストＨ」または単に「Ｈ」と表記することがある。

　本実施の形態において、含意判定の対象となるテキストＴ及びテキストＨは、何らかの方法で定められた任意の単位のテキストであれば良い。含意判定の対象となるテキストＴ及びテキストＨとしては、例えば、テキストファイルを構成している全部又は一部のテキスト、構文解析で得られた任意の部分木に含まれる文字列を連結して作成されたテキスト、述語項構造内の文字列を連結して作成されたテキストなどが挙げられる。

　出力装置４は、含意判定装置２が入力装置１から入力されたテキストＴ及びテキストＨに対して行なった、含意判定の結果を、出力する。出力装置４の具体例としては、表示装置、プリンタなどが挙げられる。

　記憶装置３は、単語間照合規則記憶部３０と、述語項構造間照合規則記憶部３１とを備えている。本実施の形態では、含意判定装置２は、記憶装置３に記憶されている情報を利用できるため、記憶装置３が接続されていない場合に比べて、含意判定の精度の向上を図ることができる。

　単語間照合規則記憶部３０は、同義、下位、部分、派生など単語間に成り立つ含意規則（単語間照合規則）を記憶している。例えば、単語間照合規則としては、「日本電気→ＮＥＣ」、「走る→動く」、「東京→日本」、「メーカー→製造する」、などが挙げられる。

　述語項構造間照合規則記憶部３１は、含意判定時に照合すべき述語項構造間の引数の関係（述語項構造間照合規則）を記憶している。例えば、述語項構造間照合規則としては、「撤退する（主語：Ｘ，目的語：Ｙ）→消える（主語：ＸのＹ）」、「殺す（目的語：Ｘ）→死ぬ（主語：Ｘ）」などが挙げられる。

　含意判定装置２は、本実施の形態では、上述した、ベクトル生成部２１、組合せ同定部２２、及び含意判定部２３に加えて、述語項構造解析部２０を備えている。述語項構造解析部２０は、入力装置１によって入力されたテキストに対して構造解析を行ない、構造解析の結果に基づいて、各テキストから述語項構造を抽出する。また、述語項構造解析部２０は、抽出した述語構造を、ベクトル生成部２１に出力する。

　ベクトル生成部２１は、本実施の形態では、上述したように、述語項構造において述語の引数の種類を示す単語以外の単語、即ち、述語と、述語の引数となる単語とを取り出し、これらを用いて、ベクトルを生成する。また、ベクトル生成部２１は、各テキストの述語項構造毎に、即ち、各テキストが複数の述語構造を有する場合は各述語構造について、ベクトルを生成する。ベクトル生成部２１は、生成したベクトルを、組合せ同定部２２に出力する。

　組合せ同定部２２は、本実施の形態では、単語間照合規則記憶部３０及び述語項構造間照合規則記憶部３１それぞれから、照合規則を読み込み、照合規則を参照して、組合せを同定することができる。更に、組合せ同定部２２は、同定した組合せを含意判定部２３に出力する。

　また、組合せ同定部２２は、本実施の形態では、テキストＴについて述語項構造毎に生成されたベクトルと、テキストＨについて述語項構造毎に生成されたベクトルと、の類似度を算出する。そして、組合せ同定部２２は、算出した類似度に基づいて、テキストＴの述語項構造とテキストＨの述語項構造との組合せを同定する。

　具体的には、例えば、テキストＴが単一の述語構造しか有していないとする。この場合、組合せ同定部２２は、テキストＨの述語項構造毎に、当該述語項構造とテキストＴの単一の述語項構造との組合せを同定する。即ち、この場合は、テキストＨの述語項構造の数だけ、組合せが同定されることになる。

　一方、テキストＴが複数の述語項構造を有しているとする。この場合、組合せ同定部２２は、テキストＨの述語項構造から生成された各ベクトルと、テキストＴの述語構造から生成された各ベクトルとの、想定される全てのペアについて、類似度を算出する。そして、組合せ同定部２２は、類似度が閾値以上となるペア、又は類似度が最も高いペアを特定し、特定したペアの作成元の２つの述語項構造を同定する。

　含意判定部２３は、本実施の形態では、述語項構造において述語の引数の種類を示す単語以外の単語（述語及びその引数となる単語）に基づいて、特徴量を算出する。また、特徴量としては、テキストＴの述語項構造とテキストＨの述語項構造とにおける、単語の被覆度合い、及び引数となる単語のみを対象とした単語の一致度合いなどが挙げられる。

　また、含意判定部２３は、例えば、特徴量に閾値を設定し、設定した閾値以上となる場合に、テキストＴがテキストＨを含意していると判定することができる。更に、含意判定部２３は、本実施の形態では、特徴量に加えて、述語項構造の構造的な特徴を用いて判定を行なうこともできる。

　その後、含意判定部２３は、含意判定の結果を、出力装置４に出力する。なお、本実施の形態では、含意判定における判定基準は、特に限定されるものではなく、従来から含意判定に用いられている判定基準を利用することもできる。

［装置動作］
　次に、本発明の実施の形態における含意判定装置２の動作について図２を用いて説明する。図２は、本発明の実施の形態における含意判定装置の動作を示すフロー図である。以下の説明においては、適宜図１を参酌する。また、本実施の形態では、含意判定装置２を動作させることによって、含意判定方法が実施される。よって、本実施の形態における含意判定方法の説明は、以下の含意判定装置２の動作説明に代える。

［述語項構造の抽出処理］
　最初に、図２に示すように、述語項構造解析部２０が、入力装置１から、テキストＴとテキストＨとの入力を受付け、入力を受付けたテキストＴ及びテキストＨから述語項構造を抽出する（ステップＳ１）。

　ここで、述語項構造の具体例について図３を用いて説明する。図３は、テキストから抽出された述語項構造の一例を示す図である。図３の例では、テキストＴ及びテキストＨが例示されているが、テキストＴは、テキストＴ１とテキストＴ２との２つである。図３に示すテキストＴ１及びＴ２と、テキストＨとが入力されると、含意判定装置２では、テキストＴ１がテキストＨを含意しているかどうか、及びテキストＴ２がテキストＨを含意しているかどうか、が判定される。

　また、図３の例では、述語項構造解析部２０は、テキスト「Ｔ１:株主総会によってＡ社（東京）の社長としてＢ氏が承認された。」からは、述語が「承認」であるため、述語項構造として、「承認（主語：株主総会，目的語：Ｂ氏，目標：Ａ社（東京）の社長）」を抽出する。

　更に、述語項構造解析部２０は、テキスト「Ｔ２：Ａ社の社長に東京に住むＢ氏が就任した。」からは、述語が「就任」と「住む」とであるため、述語項構造として、「就任（主語：Ｂ氏，目標：Ａ社の社長）」と、「住む（主語：Ｂ氏，場所：東京）」とを抽出する。

　また、述語項構造解析部２０は、テキスト「Ｈ：Ｂ氏が東京にあるＡ社の社長になった。」からは、述語が「なる」と「ある」とであることから、述語項構造として、「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」と、「ある（主語：Ａ社，場所：東京）」とを抽出する。

　なお、図３の例では、Ｔ１はＨを含意しているが、Ｔ２はＨを含意していない、と判定された場合に正解となる。これは、Ｔ２からは「Ａ社が東京にある」という情報が読み取れないためである。

［述語項構造ベクトルの生成処理］
　次に、ベクトル生成部２１は、ステップＳ１で抽出された各テキストの述語項構造を取得し、各テキストについて、述語項構造毎に、述語項構造中の述語及び述語の引数となる単語が成分となるベクトル（以下「述語項構造ベクトル」と表記する。）を作成する（ステップＳ２）。

　図４は、図３に示した述語項構造から生成されたベクトルを示す図である。図４に示すように、ベクトル生成部２１は、述語及び述語の引数となる単語といった内容語のみを用いて、述語項構造ベクトルを生成する。本実施の形態においては、述語項構造ベクトルは、述語項構造において述語の引数の種類を示す単語以外の単語を成分として含んでいれば良い。

　具体的には、図４に示すように、ベクトル生成部２１は、Ｔ１から抽出された述語項構造「承認（主語：株式総会，目的語：Ｂ氏，目標：Ａ社（東京）の社長）」から、述語項構造ベクトルとして（承認，株主，総会，Ｂ氏，Ａ社，東京，社長）を生成する。

　また、ベクトル生成部２１は、Ｔ２から抽出された「就任（主語：Ｂ氏，目標：Ａ社の社長）」及び「住む（主語：Ｂ氏，場所：東京）」から、（就任，Ｂ氏，Ａ社，社長）と（住む，Ｂ氏，東京）とを生成する。

　更に、ベクトル生成部２１は、Ｈから抽出された「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」及び「ある（主語：Ａ社，場所：東京）」から、（なる，Ｂ氏，東京，Ａ社，社長）と（ある，Ａ社，東京）とを生成する。

　また、本実施の形態では、ベクトル生成部２１は、例えば「述語_引数の種類_単語」など項構造から取得できる任意の情報（以下「構造情報」と表記する。）を、述語項構造ベクトルに付加することもできる。この場合、ベクトル生成部２１は、例えば、（承認，株主，総会，Ｂ氏，Ａ社，東京，社長，述語：承認，承認_主語_株主，承認_主語_総会, 承認_目的語_Ｂ氏, ...）といったベクトルを生成することができる。

［述語項構造の組合せの同定処理］
　次に、組合せ同定部２２は、テキストＨの述語項構造から得られた各ベクトルに対する、テキストＴ１及びテキストＴ２それぞれの述語項構造から得られた各ベクトルの類似度を計算し、類似度に基づいて、述語項構造の組合せを同定する（ステップＳ３）。例えば、組合せ同定部２２は、類似度が閾値以上となるベクトルのペア、又は類似度が最も高いベクトルのペアを特定し、特定したペアの作成元の２つの述語項構造を同定する。

　また、類似度の算出に際して、算出対象となる２つの述語項構造ベクトルは、両者の文字列の数の合計値から共通の文字列の数を減算して得られる値を次元数とするベクトルに変換される。このとき、文字列が存在する成分は「１」とされ、文字列が存在しない成分は「０」とされる。

　例えば、テキストＴ２の（住む，Ｂ氏，東京）と、テキストＨの（なる，Ｂ氏，東京，Ａ社，ある，社長）を例に挙げる。この場合、次元数は、７（＝３＋６－２）となる。また、前者は（１，１，１，０，０，０，０）に変換され、後者は（０，１，１，１，１，１，１）に変換される。また、変換後の各ベクトルの成分には、何らかの方法で推定した重みの値が付与されていても良い。

　ここで、図５を用いて、ステップＳ３の処理の具体例を説明する。図５は、本実施の形態で実行される組合せの同定処理の一例を説明する図である。図５の例では、類似度の閾値は０．５に設定され、下記の数１によってコサイン類似度ｓｉｍが算出される。また、下記の数１において、ｘ、ｙは、算出対象となる２つの変換後のベクトルを示している。更に、下記の数１において、（ｘ・ｙ）はベクトルｘとベクトルｙとの内積を示し、|ｘ｜はベクトルｘの長さを示し、｜ｙ｜はベクトルｙの長さを示す。

（数１）
　ｓｉｍ＝（ｘ・ｙ）／(｜ｘ｜｜ｙ｜)

　図５に示すように、まず、Ｔ１とＨとが含意判定の対象であるとする。Ｔ１は述語項構造を一つしか有していないので、Ｔ１の述語項構造とＨの「ある（主語：Ａ社，場所：東京）」との組合せと、同じくＴ１の述語項構造とＨの「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」との組合せとが自動的に同定される。

　一方、Ｔ２とＨとが含意判定の対象であるとすると、想定される全てのベクトルのペアについて類似度が算出される。上記数１から、Ｈの「ある（主語：Ａ社，場所：東京）」と、Ｔ２の「住む（主語：Ｂ氏，場所：東京）」との述語項構造ベクトルの類似度は、０．３３３と算出される。また、Ｈの「ある（主語：Ａ社，場所：東京）」と、Ｔ２の「就任（主語：Ｂ氏，目標：Ａ社の社長）」との述語項構造ベクトルの類似度は、０．２８９と算出される。

　この場合、どちらの類似度も閾値を超えていないが、Ｈの「ある（主語：Ａ社，場所：東京）」については、類似度が最大となる「住む（主語：Ｂ氏，場所：東京）」が判定すべき述語項構造として同定される。

　同様に、Ｈの「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」では、Ｔ２の「就任（主語：Ｂ氏，目標：Ａ社の社長）」との述語項構造ベクトルの類似度が０．６１７と算出され、「住む（主語：Ｂ氏，場所：東京）」との述語項構造ベクトルの類似度が０．４７１とされる。この場合、後者の類似度は、閾値を下回るため、類似度が最大となる「就任（主語：Ｂ氏，目標：Ａ社の社長）」のみが、判定すべき述語項構造として同定される。

　また、本実施の形態では、組合せ同定部２２は、単語間照合規則記憶部３０に記憶されている単語間照合規則を参照し、単語間照合規則で定義されている２つの単語を一致していると見なして類似度を計算することもできる。

　例えば、単語間照合規則において、派生の関係にある動詞と名詞とが既定されている場合であれば、組合せ同定部２２は、この動詞と名詞とを一致している単語と見なして類似度を計算することができる。この結果、述語項構造にとらわれることなく、より適切に判定すべき述語項構造の同定が可能になる。

　更に、本実施の形態では、組合せ同定部２２は、ステップＳ２の説明で述べた構造情報が述語項構造ベクトルに付加されている場合は、述語項構造間照合規則記憶部３１に記憶されている述語項構造間照合規則を参照する。そして、この場合、組合せ同定部２２は、述語項構造照合規則で定義されている２つの述語項構造それぞれの引数を一致している単語と見なして類似度を計算する。また、この場合、組合せ同定部２２は、引数の一致を判断する際に、単語間照合規則を参照することもできる。

　また、ステップＳ３では、組合せ同定部２２は、冗長な情報を持たない述語項構造を同定するために、類似度の算出の際に、各述語項構造ベクトルの有する情報の量に応じて正規化処理を実行することもできる。また、述語項構造ベクトルの有する情報の量としては、例えば、ベクトルの０（ゼロ）でない成分の数、成分の重みなどが挙げられる。更に、正規化処理が実行された上で算出される類似度としては、コサイン類似度、ジャッカード（jaccard）係数などが挙げられる。

　例えば、「発表（主語：社長，目的：Ｂ氏が会長になること）」という述語項構造を考える。この場合、述語項構造の「目的」には、「なる（主語：Ｂ氏，目標：会長）」という述語項構造が内在している。よって、単語共有数を類似度として用いて、「なる（主語：Ｂ氏，目標：社長）」という述語項構造の判定対象を同定しようとすると、類似度は前者との間では３個となり、前者に内在する後者との間では２個となる。この結果、単語共有数を類似度として用いた場合は、前者が判定対象として選ばれやすくなる。

　しかし、前者は、Ｂ氏が社長という意味ではないものの、「社長」という単語を含むため、後述する含意判定部２３における判定基準によっては、「なる（主語：Ｂ氏，目標：社長）」は前者を含意する、という誤った含意判定がなされる可能性がある。

　よって、例えば、２つの述語項構造ベクトルそれぞれの単語数のうち、多い方の単語数で、各述語項構造ベクトルの単語共有数を除算して、正規化することが考えられる。この場合、前者の類似度は０．６（＝３／５）となり、後者の類似度は０．６６（＝２／３）となり、後者が判定対象として選ばれやすくなる。

　このように、類似度の算出の際に上述した正規化処理を実行すれば、冗長な情報を持たない述語項構造が選択されやすくなる。このため、誤った含意判定がなされる可能性が低減される。

［含意判定処理］
　最後に、含意判定部２３は、ステップＳ３で組合せ同定部２２が同定した、Ｈ側の各述語構造とＴ側の判定対象の述語項構造との各組合せについて、特徴量を求め、特徴量に基づいて、ＴがＨを含意しているかどうかを判定する（ステップＳ４）。また、本実施の形態では、含意判定部２３は、例えば、求めた特徴量に基づいて、ＴとＨとの含意スコアを計算し、含意スコアが一定値以上であれば含意と判定する。

　具体的には、含意判定部２３は、述語項構造において述語の引数の種類を示す単語以外の単語（述語及び述語の引数となる単語）に基づき、述語項構造間における、単語の被覆度合い、又は引数となる単語のみを対象とした単語の一致度合いを特徴量として求める。更に、含意判定部２３は、組合せ同定部２２と同様に、単語間照合規則及び述語項構造間照合規則の一方又は両方を用いて、特徴量を求めることもできる。

　ここで、図６を用いて、ステップＳ４の処理の具体例を説明する。図６は、本実施の形態で実行される含意判定処理の一例を説明する図である。図６の例では、特徴量として、述語項構造間における単語の被覆度合い（被覆率）が求められる。具体的には、被覆率は、同定された組合せにおいて、Ｈの述語項構造ベクトルとＴ１又はＴ２の述語項構造ベクトルとの一致する成分の個数をａ、Ｈの述語項構造ベクトルの全成分の個数をｂとすると、下記の数２によって算出される。

（数２）
　被覆率＝ａ／ｂ

　更に、図６の例では、Ｔ１又はＴ２とＨとの間で算出された特徴量の平均値が計算され、この平均値が含意スコアとして用いられる。そして、含意スコアが０．５０以上の場合に、含意と判定される。

　図６に示すように、Ｔ１とＨとの含意判定において、Ｈの「ある（主語:Ａ社，場所:東京）」と、Ｔ１の「承認（主語：株主総会，目的語：Ｂ氏，目標：Ａ社（東京）の社長）」とでは、上記数２から、被覆率は、０．６６（＝２／３）となる。

　また、Ｈの「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」と、Ｔ１の「承認（主語：株主総会，目的語：Ｂ氏，目標：Ａ社（東京）の社長）」とでは、上記数２から、被覆率は、０．６６（＝４／６）となる。

　従って、Ｔ１とＨとの含意スコアは、０．６６（＝（０．６６+０．６６）／２）となる。結果、合意スコアは、閾値である０．５０以上となるため、含意判定部２３は、「Ｔ１はＨを含意する」と判定する。

　一方、Ｔ２とＨとの含意判定において、Ｈの「ある（主語：Ａ社，場所：東京）」と、Ｔ２の「住む（主語：Ｂ氏，場所：東京）」とでは、上記数２から、被覆率は、０．３３＝（１／３）となる。

　また、Ｈの「なる（主語：Ｂ氏，目標：東京にあるＡ社の社長）」と、Ｔ２の「就任（主語：Ｂ氏，目標：Ａ社の社長）」とでは、上記数２から、被覆率は、０．５（＝３／６）となる。

　従って、Ｔ２とＨとの含意スコアは、０．４１５（＝（０．３３+０．５）／２）となる。結果、含意スコアは、閾値である０．５０以下であるため、含意判定部２３は、「Ｔ２はＨを含意しない」と判定する。

　更に、本実施の形態では、含意判定部２３は、特徴量を求める際に、機械学習によって得られたデータに基づいて、特徴量に重みを付与することもできる。具体的には、機械学習によって、含意と判定できる２つのテキストの組合せが大量に学習されている場合、含意判定部２３は、学習されたデータに基づいて、算出された特徴量を補正することができる。また、機械学習の具体例としては、例えば、決定木、パーセプトロン、サポートベクトルマシンなどが挙げられる。

　ところで、上述の図６に示す例では、含意判定部２３は、組合せ毎に、述語項構造に含まれる述語と引数となる単語とから求めた特徴量を用いて、含意判定を行なっているが、本実施の形態は、上記の例に限定されるものではない。

　本実施の形態では、含意判定部２３は、上記特徴量に加えて、各テキストの述語項構造の構造的な特徴を用いて、ＴがＨを含意しているかどうかを判定することができる。ここで、構造的な特徴としては、述語項構造に付与される、「否定」、「様相（推測，可能など）」といった情報の有無、述語の引数の種類、などが挙げられる。

　具体的には、Ｔ１の「承認された」が仮に「承認されなかった」であるとすると、述語項構造には、情報として「否定」が付与される。この場合、Ｈ側に「否定」が付与されていないとすると、含意判定部２３は、Ｔ側に「否定」が付与されている、ということに基づいて、被覆率が高い場合でも非含意と判定できる。

　このように、本実施の形態では、含意判定において、述語と述語の引数となる単語とから求めた特徴量に加えて、述語項構造の構造的な特徴が用いられるので、どちらか一方だけでは含意判定が困難な場合であっても、正確な含意判定が可能となる。

　更に、含意判定部２３は、特徴量に加えて、述語項構造の構造的な特徴が用いられる場合は、Ｔの述語項構造とＨの述語項構造との構造的な類似性に応じて、特徴量及び構造的な特徴のいずれか一方を優先して含意判定を行なうこともできる。ここで、「構造的な類似性」は、例えば、述語同士の類似の度合に基づいて、又は、各述語項構造に含まれる引数の種類の類似の度合いに基づいて特定される。

　例えば、「である（主語：Ａ氏，目標：東京の議員）」と、「当選（主語：Ａ氏，目的語：議員，場所：東京）」とを比較対象とすると、この場合、両者間の構造的な類似性は低いので、述語項構造の構造的な特徴は、含意判定において有効でない。よって、含意判定部２３は、特徴量を優先して含意判定を実行する。

　一方、例えば、「説得（主語：Ａ氏，目的語：Ｂ氏）」と、「説明（主語：Ｂ氏，目的語：Ａ氏）」とを比較対象とすると、この場合、両者間の構造的な類似性は高いので、述語項構造の構造的な特徴は、含意判定において有効となる。また、この例では、上述した特徴量だけで判定が行なわれると、含意と判定される可能性が高いが、引数の種類と引数となる単語との組合せなど、構造的な特徴は一つも一致しないので、実際には非含意である。従って、この例では、含意判定部２３は、構造的な特徴を優先して含意判定を実行する。

［実施の形態による効果］
　ここで、単純に、テキスト中の単語集合の被覆率を、含意スコアとして、含意判定を行なう場合について検討する。図３の例を挙げると、Ｔ１及びＴ２は、共に、Ｈの６個の内容語のうち４単語（Ａ社，Ｂ氏，東京，社長）を含んでいる。よって、Ｈを基準とした被覆率は、共に、０．６６（＝４／６）となる。これは、含意、非含意を区別できないことを意味する。

　これに対して、本実施の形態では、項構造を無視したベクトルの比較結果から、判定対象とすべき述語項構造の組合せが同定され、同定された組合せを元にテキスト間の含意が判断される。よって、図６を用いてステップＳ６で述べたように、Ｔ１はＨを含意し、Ｔ２はＨを含意しないと判定される。本実施の形態によれば、述語間の項構造が異なる場合であっても、これらの含意判定が可能となる。

［プログラム］
　本実施の形態におけるプログラムは、コンピュータに、図２に示すステップＳ１～Ｓ４を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における含意判定装置２と含意判定方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、述語項構造解析部２０、ベクトル生成部２１、組合せ同定部２２、含意判定部２３として機能し、処理を行なう。また、本実施の形態では、コンピュータに備えられたハードディスク等の記憶装置が、記憶装置３として機能することができる。

　ここで、本実施の形態におけるプログラムを実行することによって、含意判定装置２を実現するコンピュータについて図７を用いて説明する。図７は、本発明の実施の形態における含意判定装置を実現するコンピュータの一例を示すブロック図である。

　図７に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

　ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

　また、記憶装置１１３の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記憶媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記憶媒体が挙げられる。

　上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記２４）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
　第１のテキストが第２のテキストを含意しているかどうかを判定するための装置であって、
　前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、
　前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、組合せ同定部と、
　同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、含意判定部と、
を備えていることを特徴とするテキスト含意判定装置。

（付記２）
　前記述語項構造が、前記第１のテキスト又は前記第２のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
　前記ベクトル生成部が、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記１に記載のテキスト含意判定装置。

（付記３）
　前記組合せ同定部が、前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、
付記１または２に記載のテキスト含意判定装置。

（付記４）
　前記組合せ同定部が、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記３に記載のテキスト含意判定装置。

（付記５）
　前記含意判定部が、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記１～４のいずれかに記載のテキスト含意判定装置。

（付記６）
　前記含意判定部が、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、
付記５に記載のテキスト含意判定装置。

（付記７）
　前記含意判定部が、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記６に記載のテキスト含意判定装置。

（付記８）
　前記含意判定部が、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記５～７のいずれかに記載のテキスト含意判定装置。

（付記９）
　第１のテキストが第２のテキストを含意しているかどうかを判定するための方法であって、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を有することを特徴とするテキスト含意判定方法。

（付記１０）
　前記述語項構造が、前記第１のテキスト又は前記第２のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
　前記（ａ）のステップにおいて、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記９に記載のテキスト含意判定方法。

（付記１１）
　前記（ｂ）のステップにおいて、前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、
付記９または１０に記載のテキスト含意判定方法。

（付記１２）
　前記（ｂ）のステップにおいて、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記１１に記載のテキスト含意判定方法。

（付記１３）
　前記（ｃ）のステップにおいて、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記９～１２のいずれかに記載のテキスト含意判定方法。

（付記１４）
　前記（ｃ）のステップにおいて、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、
付記１３に記載のテキスト含意判定方法。

（付記１５）
　前記（ｃ）のステップにおいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記１４に記載のテキスト含意判定方法。

（付記１６）
　前記（ｃ）のステップにおいて、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記１３～１５のいずれかに記載のテキスト含意判定方法。

（付記１７）
　コンピュータによって、第１のテキストが第２のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。

（付記１８）
　前記述語項構造が、前記第１のテキスト又は前記第２のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
　前記（ａ）のステップにおいて、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記１７に記載のコンピュータ読み取り可能な記録媒体。

（付記１９）
　前記（ｂ）のステップにおいて、前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、
付記１７または１８に記載のコンピュータ読み取り可能な記録媒体。

（付記２０）
　前記（ｂ）のステップにおいて、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記１９に記載のコンピュータ読み取り可能な記録媒体。

（付記２１）
　前記（ｃ）のステップにおいて、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記１７～２０のいずれかに記載のコンピュータ読み取り可能な記録媒体。

（付記２２）
　前記（ｃ）のステップにおいて、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、
付記２１に記載のコンピュータ読み取り可能な記録媒体。

（付記２３）
　前記（ｃ）のステップにおいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記２２に記載のコンピュータ読み取り可能な記録媒体。

（付記２４）
　前記（ｃ）のステップにおいて、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記２１～２３のいずれかに記載のコンピュータ読み取り可能な記録媒体。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１１年１０月２０日に出願された日本出願特願２０１１－２３０７７３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　以上のように、本発明によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を実現できる。よって、本発明は、情報検索システムにおける意味的な自然文検索といった用途に有用である。また、本発明は、テキストマイニングにおける意見クラスタリングといった用途にも有用である。

　１　入力装置
　２　含意判定装置
　３　記憶装置
　４　出力装置
　２０　述語項構造解析部
　２１　ベクトル生成部
　２２　組合せ同定部
　２３　含意判定部
　３０　単語間照合規則記憶部
　３１　述語項構造間照合規則記憶部
　１１０　コンピュータ
　１１１　ＣＰＵ
　１１２　メインメモリ
　１１３　記憶装置
　１１４　入力インターフェイス
　１１５　表示コントローラ
　１１６　データリーダ／ライタ
　１１７　通信インターフェイス
　１１８　入力機器
　１１９　ディスプレイ装置
　１２０　記録媒体
　１２１　バス

Claims

　第１のテキストが第２のテキストを含意しているかどうかを判定するための装置であって、
　前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、
　前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、組合せ同定部と、
　同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、含意判定部と、
を備えていることを特徴とするテキスト含意判定装置。
　前記述語項構造が、前記第１のテキスト又は前記第２のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
　前記ベクトル生成部が、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
請求項１に記載のテキスト含意判定装置。
　前記組合せ同定部が、前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、
請求項１または２に記載のテキスト含意判定装置。
　前記組合せ同定部が、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
請求項３に記載のテキスト含意判定装置。
　前記含意判定部が、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
請求項１～４のいずれかに記載のテキスト含意判定装置。
　前記含意判定部が、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、
請求項５に記載のテキスト含意判定装置。
　前記含意判定部が、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、請求項６に記載のテキスト含意判定装置。
　前記含意判定部が、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、請求項５～７のいずれかに記載のテキスト含意判定装置。
　第１のテキストが第２のテキストを含意しているかどうかを判定するための方法であって、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を有することを特徴とするテキスト含意判定方法。
　コンピュータによって、第１のテキストが第２のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記第１のテキスト及び前記第２のテキストそれぞれの述語項構造を取得し、前記第１のテキスト及び前記第２のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
（ｂ）前記第１のテキストについて前記述語項構造毎に生成されたベクトルと、前記第２のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第１のテキストの述語項構造と前記第２のテキストの述語項構造との組合せを同定する、ステップと、
（ｃ）同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第１のテキストが前記第２のテキストを含意しているかどうかを判定する、ステップと、
を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。