WO2021140406A1

WO2021140406A1 - 文書検索システム、文書を検索する方法

Info

Publication number: WO2021140406A1
Application number: PCT/IB2020/062467
Authority: WO
Inventors: 桃純平; 東和樹; 中島基
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2020-01-10
Filing date: 2020-12-28
Publication date: 2021-07-15
Also published as: CN114902206A; JPWO2021140406A1; US20230350949A1

Abstract

文書の概念を考慮して、文書を検索する文書検索システムを提供する。処理部を有し、検索用グラフが処理部にて検索用文章から作成される。検索用グラフは、第１乃至第ｍ（ｍは１以上の整数）の検索用局所グラフを有し、検索用局所グラフは、２つのノードと１つのエッジから構成される。また、第１乃至第ｍの文の検索が処理部にて参照文書に対して行われる。第ｉ（ｉは１以上ｍ以下の整数）の文は、第ｉの検索用局所グラフにおける２つのノードの一方、または２つのノードの一方の関連語もしくは下位語と、第ｉの検索用局所グラフにおける２つのノードの他方、または２つのノードの他方の関連語もしくは下位語と、第ｉの検索用局所グラフにおけるエッジ、またはエッジの関連語もしくは下位語と、を有する。そして、第１乃至第ｍの文のうち、参照文書に含まれる文の数に基づいて、参照文書のスコアに点数が付与される。

Description

文書検索システム、文書を検索する方法

　本発明の一態様は、文書検索システムに関する。また、本発明の一態様は、文書を検索する方法に関する。

　文書を検索するための、様々な検索技術が提供されている。従来の文書の検索では、単語（文字列）の検索が主に用いられる。例えば、ｗｅｂページではページランクなどが利用され、特許分野ではシソーラスが利用されている。また、単語の集合を取ってＪａｃｃａｒｄ係数、Ｄｉｃｅ係数、Ｓｉｍｐｓｏｎ係数などを用いて、文章の類似度を表現する方法がある。また、ｔｆ−ｉｄｆ、Ｂａｇ　ｏｆ　Ｗｏｒｄｓ（ＢｏＷ）、Ｄｏｃ２Ｖｅｃなどを用いて、文章をベクトル化し、コサイン類似度を比較するといった手法がある。また、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離などを用いて、文章の文字列の類似度を評価して所望の文書を探す方法がある。また、特許文献１では、文を構成する構成単位をストリング構造に変換し、ストリング構造間の距離を算出することで、文が類似しているかを比較する言語処理装置が開示されている。

特開２００５−２５８６２４号公報

　様々な分野の文書を検索するには、より精度の高い文書検索方法が求められる。例えば、特許書類（明細書、特許請求の範囲など）や契約書などの文書では、似通った単語が多用されることが多い。よって、文書に使われている単語のみならず、文書の概念（概括的な意味内容）を考慮した検索技術が重要となる。

　そこで、本発明の一態様は、文書の概念を考慮した、文書検索システムを提供することを課題の一とする。また、本発明の一態様は、文書の概念を考慮した、文書を検索する方法を提供することを課題の一とする。

　なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。

　本発明の一態様は、処理部を有する文書検索システムである。処理部は、文章からグラフを作成する機能を有し、検索用グラフは、検索用文章から作成され、検索用グラフは、第１乃至第ｍ（ｍは１以上の整数）の検索用局所グラフを有し、第１乃至第ｍの検索用局所グラフは、それぞれ、２つのノードと、２つのノードの間のエッジから構成され、処理部は、さらに、参照文書から第１乃至第ｍの文の検索を行う機能を有し、第ｉ（ｉは１以上ｍ以下の整数）の文は、第（３ｉ−２）の単語、第（３ｉ−１）の単語、及び、第３ｉの単語を有し、第（３ｉ−２）の単語は、第ｉの検索用局所グラフにおける２つのノードの一方、２つのノードの一方の関連語、または２つのノードの一方の下位語であり、第（３ｉ−１）の単語は、第ｉの検索用局所グラフにおける２つのノードの他方、２つのノードの他方の関連語、または２つのノードの他方の下位語であり、第３ｉの単語は、第ｉの検索用局所グラフにおけるエッジ、エッジの関連語、またはエッジの下位語であり、処理部は、さらに、第１乃至第ｍの文のうち、参照文書に含まれる文の数に基づいて、参照文書のスコアに第１の点数を付与する機能を有する。

　上記文書検索システムにおいて、処理部は、参照文書が、第ｊ（ｊは１以上ｍ以下の整数）の文、および第ｋ（ｋはｊを除く、１以上ｍ以下の整数）の文を含む場合、第ｊの文と、第ｋの文との距離に基づいて、参照文書のスコアに第２の点数を付与する機能と、参照文書のスコアに付与された点数に基づいて、参照文書のスコアを算出する機能と、を有することが好ましい。

　また、上記文書検索システムにおいて、処理部は、第ｊの文に含まれる第（３ｊ−２）の単語と、第ｊの検索用局所グラフにおける２つのノードの一方の元となる単語と、の概念の近さに基づいて、参照文書のスコアに第３の点数を付与する機能を有することが好ましい。

　また、上記文書検索システムにおいて、処理部は、複数の参照文書から、第ｌ（ｌは１以上ｍ以下の整数）の文に含まれる第（３ｌ−２）の単語および第（３ｌ−１）の単語を含む参照文書を抽出する機能を有することが好ましい。

　また、上記文書検索システムにおいて、処理部が有する、文章からグラフを作成する機能は、文章を複数のトークンに分割する機能と、係り受け解析を行う機能と、係り受け解析の結果に応じて、トークンの一部を連結する機能と、係り受け解析の結果に応じて、トークン間の連結関係を評価する機能と、トークン間の連結関係から、グラフを構築する機能と、を有することが好ましい。

　また、上記文書検索システムにおいて、処理部が有する、文章からグラフを作成する機能は、さらに、代表語または上位語が存在するトークンを、代表語または上位語に置き換える機能を有することが好ましい。

　また、上記文書検索システムにおいて、処理部に加えて、入力部を有し、入力部は、検索用文章を処理部に供給する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、処理部、および入力部に加えて、出力部を有し、出力部は、参照文書のスコアを供給する機能を有する、ことが好ましい。

　本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。また、本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。

　なお、本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお、他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば、明細書、図面などの記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び／又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。

図１は、文書検索システムの一例を示す図である。
図２は、文書検索方法の一例を示すフローチャートである。
図３は、グラフを作成する工程の一例を示すフローチャートである。
図４Ａ乃至図４Ｃは、各工程で得られる結果を示す図である。
図５Ａ乃至図５Ｃは、各工程で得られる結果を示す図である。
図６Ａ乃至図６Ｄは、各工程で得られる結果を示す図である。
図７Ａ乃至図７Ｃは、各工程で得られる結果を示す図である。
図８は、グラフの一例を説明する図である。
図９は、参照文書の解析の一例を示すフローチャートである。
図１０は、参照文書の解析の一例を示すフローチャートである。
図１１は、単語の関連を説明する図である。
図１２Ａは、グラフの一例を説明する図である。図１２Ｂは、各工程で得られる結果を示す図である。
図１３Ａ、図１３Ｂは、各工程で得られる結果を示す図である。
図１４は、文書検索方法の一例を示すフローチャートである。
図１５は、参照文書の絞り込みの一例を示すフローチャートである。
図１６は、文書検索システムのハードウェアの一例を示す図である。
図１７は、文書検索システムのハードウェアの一例を示す図である。

　実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨およびその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

　なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。

　また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。

　また、本明細書にて用いる「第１」、「第２」、「第３」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではないことを付記する。

　本明細書等において、「文章」とは、１以上の「文」から構成されたものを指す。よって、「文章」には、「文」も含まれる。また、「文書」とは、文字によって表されたひとまとまりの記録を指す場合がある。なお、本明細書等では、「文書」と記載した場合には、文書に含まれる文章の一部または全てを指す場合がある。つまり、「文書」という用語を、文章と言い換えることができる。また、文書に含まれる文章の一部または全てを、単に「文章」と記載する場合がある。

　また、本明細書等では、「文章」または「文書」と記載した場合には、サーバやパーソナルコンピュータなどの情報処理装置において処理および伝達が可能な、文字情報または文字コードの集まりを指す場合がある。なお、当該集まりを、テキストデータと呼ぶ場合がある。

（実施の形態１）
　本実施の形態では、本発明の一態様の、文書検索システム、および文書を検索する方法について、図１乃至図１５を用いて説明する。

＜文書検索システム＞
　図１は、文書検索システム１００の構成を示す図である。

　文書検索システム１００は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けることができる。または、サーバに文書検索システム１００の処理部を設け、クライアントＰＣからネットワークを介して利用することができる。

　文書検索システム１００は、少なくとも、処理部１０６を有する。図１に示す文書検索システム１００は、処理部１０６、入力部１０１、記憶部１０７、および出力部１０４を有する。また、文書検索システム１００は、概念辞書１１２とネットワークを介して接続される。

　処理部１０６は、文章からグラフを作成する機能を有する。当該文章は、ユーザが検索用に指定する文章（検索用文章、クエリ文章などともいう）、および検索対象となる文書（参照文書ともいう）に含まれる文章である。なお、ユーザが検索用に指定する文章から作成されるグラフは、検索用グラフ、クエリグラフなどともいう。

　グラフは、ノードの集合（ノード群ともいう）と、ノード間の連結関係を表すエッジの集合（エッジ群ともいう）と、により構成される。当該ノード群は、２つ以上のノードを有する。また、当該エッジ群は１つ以上のエッジを有する。なお、エッジを１つ有する場合でも、エッジ群と表記する場合がある。

　グラフは、有向グラフであることが好ましい。有向グラフとは、ノード群と、向きを持つエッジ群と、により構成されたグラフである。また、グラフは、ノードおよびエッジにラベルが付与された有向グラフであることがより好ましい。ラベルが付与された有向グラフを用いることで、検索の精度を向上させることができる。また、グラフが有するノードおよび／またはエッジに、重みを設定してもよい。ノードおよび／またはエッジに重みを設定することで、ユーザが所望する文書を検索することができる。なお、グラフは、無向グラフであってもよい。

　処理部１０６は、例えば、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフを構築する機能を有することが好ましい。また、処理部１０６は、概念辞書１１２を参照する機能を有する。概念辞書１１２を参照し、処理部１０６にて、文章からグラフが作成される。

　形態素解析を行う機能および／または係り受け解析を行う機能は、文書検索システム１００とは異なる装置に備えられてもよい。このとき、文書検索システム１００は、上記文章を当該装置に送信し、当該装置で行われた形態素解析および／または係り受け解析の結果を受信し、受信したデータを処理部１０６に送信するとよい。

　処理部１０６は、参照文書を解析する機能を有する。また、処理部１０６は、参照文書を評価する機能を有する。例えば、処理部１０６は、参照文書のスコアに点数を付与する機能を有することが好ましい。また、処理部１０６は参照文書を抽出する機能を有する。

　入力部１０１を用いて、文章が入力される。入力部１０１は、当該文章を処理部１０６に供給する機能を有する。当該文章は、ユーザが検索用に指定する文章である。当該文章は、テキストデータである。なお、当該文章は、音声データ、または画像データでもよい。入力部１０１として、キーボード、マウス、タッチセンサ、マイク、スキャナ、カメラなどの入力デバイスがある。

　文書検索システム１００は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部１０６が当該機能を有していてもよい。または、文書検索システム１００が、さらに、当該機能を有する音声テキスト変換部を有していてもよい。

　文書検索システム１００は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部１０６が当該機能を有していてもよい。または、文書検索システム１００が、さらに、当該機能を有する文字認識部を有していてもよい。

　記憶部１０７は、複数の参照文書を格納する。なお、当該複数の参照文書は、入力部１０１、記憶媒体、通信などを介して、記憶部１０７に格納されてもよい。

　記憶部１０７に格納されている複数の参照文書は、テキストデータであることが好ましい。異なる例として、記憶部１０７に格納されている複数の参照文書が、音声データまたは画像データである場合、音声データまたは画像データに含まれる文字情報をテキストデータに変換することで、データサイズを小さくすることができる。したがって、記憶部１０７には、テキストデータを保存することで、記憶部１０７の記憶容量の増大を低減することができる。

　なお、記憶部１０７には、入力部１０１を用いて入力された文章が格納されてもよい。また、処理部１０６にて当該文章から作成されるグラフが、テキストデータ、画像データなどとして格納されてもよい。

　出力部１０４は、情報を出力する機能を有する。当該情報とは、処理部１０６が参照文書を評価した結果である。例えば、当該情報は、参照文書のスコアである。または、当該情報は、スコアが最も高い参照文書である。または、当該情報は、スコアに基づいて順位づけられたランキングデータである。

　上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして出力部１０４に出力される。出力部１０４として、ディスプレイ、スピーカーなどの出力デバイスがある。

　文書検索システム１００は、テキストデータを音声データに変換する機能を有していてもよい。例えば、文書検索システム１００が、さらに、当該機能を有するテキスト音声変換部を有していてもよい。

　概念辞書１１２は、単語の分類、他の単語との関係などが付与されたリストである。概念辞書１１２は、既存の概念辞書であってもよい。または、検索用文章もしくは参照文書の分野に特化した概念辞書を作成してもよい。または、汎用的な概念辞書に、検索用文章もしくは参照文書の分野に用いられやすい単語を追加してもよい。

　なお、図１では、概念辞書１１２が、文書検索システム１００とは異なる装置に設けられている構成を示しているが、これに限られない。概念辞書１１２は、文書検索システム１００に備えられてもよい。

　以上が、文書検索システム１００の構成についての説明である。本発明の一態様である文書検索システムを用いることで、文章の概念を考慮して、当該文章に類似した文書を、複数の参照文書の中から検索することができる。また、当該文章に類似した文書の一覧を、複数の参照文書から作成することができる。例えば、文章に類似した文書とは、使用される単語が異なっていても、当該文書が有する（大まかな）意味が同じであると判断される文書のことである。また、言語の異なる２つの文章において、文章の概念が同じである場合、当該２つの文章のそれぞれから作成されるグラフは同じになる。よって、本発明の一態様である文書検索システムを用いることで、異なる言語間での文書の検索を容易にすることができる。

　本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。

＜文書を検索する方法＞
　図２は、文書検索システム１００が実行する処理の流れを説明するフローチャートである。つまり、図２は、本発明の一態様である文書を検索する方法の一例を示すフローチャートでもある。

　本発明の一態様の、文書を検索する方法について説明する。当該方法では、文章から作成したグラフを基に、参照文書の解析および評価を行う。文書を検索する方法について、図２を用いて説明する。

　文書を検索する方法は、図２に示すように、ステップＳ００１乃至ステップＳ００５を有する。

［ステップＳ００１］
　ステップＳ００１は、文章２０を取得する工程である。文章２０は、入力部１０１から処理部１０６に供給された文章である。文章２０は、ユーザが検索用に指定する文章である。なお、文章２０のデータが、テキストデータ以外のデータ（音声データまたは画像データ）である場合、ステップＳ００２へ進む前に、音声データまたは画像データをテキストデータに変換する。音声データからテキストデータへの変換は、処理部１０６が有する音声データをテキストデータに変換する機能、または音声テキスト変換部を用いて行うとよい。画像データからテキストデータへの変換は、処理部１０６が有する光学文字認識（ＯＣＲ）機能、または文字認識部を用いて行うとよい。

　文章２０が特許請求の範囲である場合、ステップＳ００２へ進む前に、文章２０に対して、クリーニング処理を行ってもよい。当該クリーニング処理では、文章内に含まれるノイズを除去する。例えば、当該クリーニング処理とは、セミコロンを削除する、コロンをカンマに置き換える、などである。文章に対してクリーニング処理を行うことで、形態素解析の精度を高めることができる。また、文章２０が請求項である場合も、ステップＳ００２へ進む前に、文章２０に対して、クリーニング処理を行ってもよい。

　なお、上記クリーニング処理は、文章２０が特許請求の範囲または請求項以外の場合であっても、必要に応じて適宜行うとよい。また、文章２０は、上記クリーニング処理が行われた後に、記憶部１０７に格納されてもよい。

［ステップＳ００２］
　ステップＳ００２は、文章２０からグラフ２１を作成する工程である。図３は、文章からグラフを作成する工程の一例を示すフローチャートである。ステップＳ００２は、図３に示すステップＳ０２１乃至ステップＳ０２４を有する。ステップＳ００２を説明するために、ステップＳ０２１乃至ステップＳ０２４を用いて説明する。

　ステップＳ０２１は、処理部１０６にて、文章に対して形態素解析を行う工程である。これにより、当該文章は、形態素（単語）に分割される。本明細書では、分割された形態素（単語）を、トークンと呼ぶ場合がある。

　ステップＳ０２１では、上記トークンのそれぞれに対して、トークンの品詞を判別し、品詞ラベルを関連付けしておくことが好ましい。トークンに品詞ラベルを関連付けしておくことで、係り受け解析の精度の向上を図ることができる。なお、本明細書等では、トークンと品詞ラベルを関連付けすることを、トークンに品詞を付与すると言い換えることができる。

　処理部１０６が、形態素解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた形態素解析プログラム（形態素解析器ともいう。）を用いて、文章に対して形態素解析を行ってもよい。このとき、ステップＳ０２１は、文章を当該装置に送信し、当該装置にて形態素解析を行い、形態素解析の結果を受信する工程となる。

　ステップＳ０２２は、処理部１０６にて、係り受け解析を行う工程である。つまり、トークンのそれぞれの係り受けに応じて、複数のトークンの一部を結合する工程である。例えば、トークンが特定の条件を満たす場合、条件を満たすトークン同士を結合して、新たなトークンを生成する。これにより、トークンの数が減り、以降の工程での処理数を減らすことができる。よって、中央演算装置およびメモリへの負荷低減、検索時間の短縮などを図ることができる。また、文書検索システム１００を、ユーザが利用するパーソナルコンピュータなどの情報処理装置、または小規模のサーバに設けることができる。

　日本語が使用されている文章において、具体的には、第１のトークンが名詞であり、且つ、第１のトークンの直前に位置するトークンが形容詞である場合、第１のトークンの直前に位置するトークンと、第１のトークンとを結合して、新たなトークンを生成する。また、第１のトークンが名詞であり、且つ、第１のトークンの直後に位置するトークンが名詞である場合、第１のトークンと、第１のトークンの直後に位置するトークンとを結合して、新たなトークンを生成する。

　なお、上記の条件は、文章に使用される言語に合わせて、適宜設定するとよい。

　上記係り受け解析には、複合語解析が含まれることが好ましい。当該係り受け解析を行うことで、複数のトークンの一部を結合し、新たなトークンとして、複合語を生成することができる。これにより、概念辞書１１２に登録されていない複合語が文章に含まれていても、当該文章のトークンへの分割を高い精度で行うことができる。なお、生成された複合語を、概念辞書１１２に追加してもよい。これにより、当該文章のトークンへの分割の効率を向上させることができる。

　また、ステップＳ０２２は、上述した複数のトークンの一部を結合する工程に加えて、トークン間の連結関係を評価する工程を含む。なお、トークン間の連結関係を評価する工程は、上述した複数のトークンの一部を結合する工程の後に実施されるとよい。

　トークン間の連結関係を評価する工程は、例えば、文中に主語、目的語、および述語が含まれるかを探索する。

　例えば、文章に日本語が使用されている場合、文は、主語、目的語、述語（動詞、形容詞、形容動詞、名詞と助詞の組み合わせ、など）の順に記述される。そこで、主語であるトークン、目的語であるトークン、述語であるトークンを順に探索する。これらのトークンが当該文に含まれる場合、主語であるトークン、および目的語であるトークンをノードとし、述語であるトークンをエッジとして抽出するとよい。

　例えば、文章に英語が使用されている場合、文は、主語、述語（動詞）、目的語の順に記述される。そこで、主語であるトークン、述語（動詞）であるトークン、目的語であるトークンを順に探索する。これらのトークンが当該文に含まれる場合、主語であるトークン、および目的語であるトークンをノードとし、述語（動詞）であるトークンをエッジとして抽出するとよい。

　上述したように、文章に使用されている言語によって、主語、目的語、および述語の記載される順序が異なるため、言語によって適宜調整するとよい。

　また、例えば、第１のトークンと、第２のトークンとの間に含まれる、前置詞であるトークンを探索してもよい。前置詞であるトークンが当該文に含まれる場合、第１のトークン、および第２のトークンをノードとし、前置詞であるトークンをエッジとして抽出するとよい。

　また、例えば、限定詞であるトークンも探索するとよい。限定詞は、名詞の前に置かれ、当該名詞が示すものを明確にする。よって、限定詞であるトークンを探索することで、当該限定詞の直後にある名詞と、当該限定詞の前までに記述される名詞との関係を結び付けることができる。これにより、これらの名詞が同一のノードであるかを判断することができる。

　なお、言語によっては、存在しない品詞がある。よって、上記の条件は、文章に使用されている言語によって適宜設定するとよい。

　なお、処理部１０６が、係り受け解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた係り受け解析プログラム（係り受け解析器ともいう。）を用いて、係り受け解析を行ってもよい。このとき、ステップＳ０２２は、トークンを当該装置に送信し、当該装置にて係り受け解析を行い、係り受け解析の結果を受信する工程となる。

　ステップＳ０２３は、処理部１０６にて、トークンを抽象化する工程である。当該トークンは、ステップＳ０２２で抽出された、ノードおよびエッジとなるトークンである。例えば、トークンに含まれる単語を解析して、代表語を取得する。また、当該代表語に上位語があれば、当該上位語を取得する。そして、当該トークンを、取得された当該代表語または当該上位語に置き換える。ここで、代表語とは、同義語群のグループの見出し語（レンマともいう。）である。また、上位語とは、代表語の上位概念に該当する代表語である。つまり、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。なお、トークンが代表語または上位語である場合、当該トークンは置き換えなくてもよい。

　置き換える上位語の階層の上限は、１階層以上２階層以下であることが好ましく、１階層であることがより好ましい。なお、置き換える上位語の階層の上限は、指定できるようにしてもよい。これにより、トークンが過剰に上位概念化されるのを抑制し、文章の概念から逸れるのを抑制することができる。また、トークンを抽象化する工程における処理数を減らすことができる。よって、中央演算装置およびメモリへの負荷低減、検索時間の短縮などを図ることができる。また、文書検索システム１００を、ユーザが利用するパーソナルコンピュータなどの情報処理装置、または小規模のサーバに設けることができる。

　トークンの適切な抽象度合いは、分野によって異なる。そこで、分野に応じた機械学習によって、トークンの抽象化を行うことが好ましい。トークンの抽象化は、例えば、当該トークンをベクトル化、または、当該トークンを再び分割して得られるトークンの１つをベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「ＧａＡｓ半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「ＧａＡｓ半導体層」および「ＧａＡｓ半導体膜」も「半導体」に分類するとよい。

　また、分類器を用いて、トークンを再び分割して得られる複数のトークンを基に、当該トークンを分類させてもよい。例えば、「酸化物半導体層」というトークンを抽象化する場合、当該トークンを形態素に再び分割して得られるトークン（「酸化」、「物」、「半導体」、および「層」）を分類器に入力する。分類器に入力した結果、「半導体」に分類される場合、当該トークンを「半導体」に置き換える。これにより、当該トークンを抽象化することができる。

　上記機械学習アルゴリズムのほかに、条件付き確率場（Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄ：ＣＲＦ）を用いてもよい。または、ＣＲＦと上記の方法とを組み合わせてもよい。

　トークンを抽象化することで、文章の概念を把握することができる。したがって、文章を検索する際、文章の構成および表現の影響を受けにくい。つまり、文章の概念を基に検索を行うことができる。

　代表語および上位語の取得は、概念辞書を利用してもよいし、機械学習による分類を行ってもよい。当該概念辞書として、文書検索システム１００とは異なる装置に設けられている概念辞書１１２を用いてもよいし、文書検索システム１００に備えられた概念辞書を用いてもよい。

　ステップＳ０２４は、処理部１０６にて、グラフを構築する工程である。つまり、ステップＳ０２３までに用意されたトークンを用いて、グラフを構築する工程である。例えば、文章中に、名詞句である第１のトークンおよび第２のトークンと、第１のトークンおよび第２のトークンの連結関係を表す第３のトークンと、がある場合、第１のトークンと第２のトークンのそれぞれを、ノードおよび当該ノードのラベルとし、第３のトークンを、エッジおよび当該エッジのラベルとするグラフを構築する。つまり、ノードのラベルおよびエッジのラベルは、ステップＳ０２３までに用意されたトークンから構成される。以降では、単にノードと記載した場合には、ノードのラベルを指す場合がある。また、単にエッジと記載した場合には、エッジのラベルを指す場合がある。

　例えば、文章２０が特許請求の範囲または請求項である場合、グラフのノードは構成要素であり、グラフのエッジは構成要素間の関係である。また、文章２０が契約文書などである場合、グラフのノードは甲および乙であり、グラフのエッジは契約の内容および条件である。

　グラフは、トークン同士の係り受けの関係から、ルールに基づいて構築してもよい。また、ＣＲＦを用いて、トークンのリストを基に、ノードおよびエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノードおよびエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＲＮＮ）、長期短期記憶（Ｌｏｎｇ　ｓｈｏｒｔ−ｔｅｒｍ　ｍｅｍｏｒｙ：ＬＳＴＭ）などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるＳｅｑ２Ｓｅｑモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。

　処理部１０６は、エッジの向きを反転させ、かつ、当該エッジのラベルを当該エッジのラベルの対義語に置き換える機能を有してもよい。例えば、グラフが、第１のエッジと、第１のエッジのラベルと対義語の関係にあるラベルが付与された第２のエッジと、を有するとする。このとき、当該機能を用いて、第２のエッジの向きを反転させ、かつ、第２のエッジのラベルを第２のエッジのラベルの対義語（つまり、第１のエッジのラベル）に置き換える。これにより、当該グラフが再構築される。再構築されたグラフを用いることで、実質的に同じ構造を網羅することができる。したがって、文章を検索する際、文章の構成および表現の影響を受けにくい。つまり、文章の概念を基に検索を行うことができる。

　なお、上記処理は、文章中の出現頻度が低い方のエッジに対して行うとよい。つまり、第２のエッジの出現頻度が、第１のエッジの出現頻度よりも低いまたは同じである場合、第２のエッジの向きを反転させ、かつ、第２のエッジのラベルを第２のエッジのラベルの対義語（つまり、第１のエッジのラベル）に置き換える処理を行うとよい。これにより、上記処理を行う頻度を減らし、文書の検索に要する時間を短縮することができる。

　ステップＳ０２３およびステップＳ０２４の順序は入れ替えてもよい。ステップＳ０２３およびステップＳ０２４の順序を入れ替える場合、グラフが構築された後、当該グラフに含まれるノードおよびエッジが抽象化される。よって、ステップＳ０２３およびステップＳ０２４の順序を入れ替えても、文章から、抽象化されたグラフを作成することができる。

　ステップＳ０２１乃至ステップＳ０２４により、文章２０からグラフ２１を作成することができる。

　なお、ステップＳ００２を行った後にグラフ２１を出力してもよい。または、ステップＳ００２を行った後にグラフ２１を構成するノードおよびエッジを出力し、ステップＳ００４またはステップＳ００５を行う前に、当該ノードおよび／または当該エッジのそれぞれに重みを設定するステップを設けてもよい。

＜＜文章からグラフを作成するまでの実例＞＞
　ここでは、文章からグラフを作成するまでの実例について、図４Ａ乃至図４Ｃ、図５Ａ乃至図５Ｃ、図６Ａ乃至図６Ｄ、図７Ａ乃至図７Ｃを用いて説明する。

　はじめに、「酸化物半導体層は絶縁体層の上方にある（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ　ＨＡ　ＺＥＴＳＵＥＮＴＡＩＳＯＵ　ＮＯ　ＪＯＵＨＯＵ　ＮＩ　ＡＲＵ）」（図４Ａ参照。）という、日本語が使用された文章を例に挙げて説明する。なお、図４Ｂ、図４Ｃ、および図５Ａに示す角丸四角形はトークンであり、角丸四角形の下方には当該トークンに付与された品詞を記載している。

　まず、上記文章に対して形態素解析を行うことで、上記文章をトークンに分割する。なお、各トークンに品詞を付与してもよい（図３に示すステップＳ０２１）。その結果、図４Ｂに示すような結果が得られる。具体的には、上記文章は、「“酸化（ＳＡＮＫＡ）”（名詞）｜“物（ＢＵＴＳＵ）”（名詞）｜“半導体（ＨＡＮＤＯＵＴＡＩ）”（名詞）｜“層（ＳＯＵ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁（ＺＥＴＳＵＥＮ）”（名詞）｜“体（ＴＡＩ）”（名詞）｜“層（ＳＯＵ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上方（ＪＯＵＨＯＵ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」のように、トークンに分割され、トークンのそれぞれに品詞が付与される。

　次に、係り受け解析を行う（図３に示すステップＳ０２２）。具体的には、“酸化（ＳＡＮＫＡ）”および“物（ＢＵＴＳＵ）”、“物（ＢＵＴＳＵ）”および“半導体（ＨＡＮＤＯＵＴＡＩ）”、ならびに、“半導体（ＨＡＮＤＯＵＴＡＩ）”および“層（ＳＯＵ）”は、ステップＳ０２２で説明した条件を満たす。したがって、４つのトークン（“酸化（ＳＡＮＫＡ）”、“物（ＢＵＴＳＵ）”、“半導体（ＨＡＮＤＯＵＴＡＩ）”、“層（ＳＯＵ）”）は結合され、１つのトークン（“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”）に置き換えることができる。また、“絶縁（ＺＥＴＳＵＥＮ）”および“体（ＴＡＩ）”、ならびに、“体（ＴＡＩ）”および“層（ＳＯＵ）”は、ステップＳ０２２で説明した条件を満たす。したがって、３つのトークン（“絶縁（ＺＥＴＳＵＥＮ）”、“体（ＴＡＩ）”、“層（ＳＯＵ）”）は結合され、１つのトークン（“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”）に置き換えることができる。これにより、上記文章は、「“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上方（ＪＯＵＨＯＵ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」となる（図４Ｃ参照）。

　次に、トークンの抽象化を行う（図３に示すステップＳ０２３）。具体的には、“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”は、“半導体（ＨＡＮＤＯＵＴＡＩ）”という上位語に置き換えられる。また、“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”は、“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”という上位語に置き換えられる。また、“上方（ＪＯＵＨＯＵ）”は、“上（ＵＥ）”という代表語に置き換えられる。これにより、上記文章は、「“半導体（ＨＡＮＤＯＵＴＡＩ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上（ＵＥ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」と抽象化される（図５Ａ参照）。

　次に、グラフを構築する（図３に示すステップＳ０２４）。具体的には、“半導体（ＨＡＮＤＯＵＴＡＩ）”、および“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”のそれぞれは、グラフのノードおよび当該ノードのラベルとなり、“上（ＵＥ）”は、グラフのエッジおよび当該エッジのラベルとなる。その結果、上記文章から、図５Ｂに示すグラフが得られる。

　ここで、“上（ＵＥ）”の対義語は“下（ＳＨＩＴＡ）”である。そこで、図５Ｂに示すグラフのエッジの向き（矢印の向き）を反転させ、かつ、図５Ｂに示すグラフのエッジおよび当該エッジのラベルである“上（ＵＥ）”を“下（ＳＨＩＴＡ）”に置き換えることで、図５Ｃに示すグラフを再構築してもよい。これにより、実質的に同じ構造を網羅することができる。

　図５Ｂに示すエッジの向き（矢印の向き）は、文章内で先に出現するノード（上記文章の場合、“半導体（ＨＡＮＤＯＵＴＡＩ）”）から、後に出現するノード（上記文章の場合、“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”）に向かうように図示されている。つまり、エッジの始点（矢印の始点）を、先に出現するノードとし、エッジの終点（矢印の終点）を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、エッジの向き（矢印の向き）を決定してもよい。具体的には、エッジの始点（矢印の始点）を、ラベルが“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”であるノードとし、エッジの終点（矢印の終点）を、ラベルが“半導体（ＨＡＮＤＯＵＴＡＩ）”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“上（ＵＥ）”とするグラフを作成してもよい。これにより、グラフを直感的に理解することができる。ただし、エッジの向き（矢印の向き）の決定方法は、文書を検索する方法において、統一する必要がある。

　以上より、上記文章から、抽象化されたグラフを作成することができる。

　次に、「Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ　ｃｏｍｐｒｉｓｉｎｇ：ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ　ｏｖｅｒ　ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ．」（図６Ａ参照。）という、英語が使用された文章を例に挙げて説明する。なお、図６Ｃ、図６Ｄ、および図７Ａに示す角丸四角形はトークンである。なお、ここでは、トークンに品詞を付与していない例を示すが、トークンに品詞を付与してもよい。

　まず、上記文章に対して、クリーニング処理を行う。ここでは、セミコロンを削除する。その結果、図６Ｂに示すような結果が得られる。

　次に、上記文章に対して形態素解析を行うことで、上記文章をトークンに分割する（図３に示すステップＳ０２１）。その結果、上記文章は、「Ａ｜ｓｅｍｉｃｏｎｄｕｃｔｏｒ｜ｄｅｖｉｃｅ｜ｃｏｍｐｒｉｓｉｎｇ｜ａｎ｜ｏｘｉｄｅ｜ｓｅｍｉｃｏｎｄｕｃｔｏｒ｜ｌａｙｅｒ｜ｏｖｅｒ｜ａｎ｜ｉｎｓｕｌａｔｏｒ｜ｌａｙｅｒ」となる（図６Ｃ参照）。

　次に、係り受け解析を行う（図３に示すステップＳ０２２）。具体的には、３つのトークン（“Ａ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、“ｄｅｖｉｃｅ”）は結合され、１つのトークン（“Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ”）に置き換えることができる。また、４つのトークン（“ａｎ”、“ｏｘｉｄｅ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、“ｌａｙｅｒ”）は結合され、１つのトークン（“ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ”）に置き換えることができる。また、３つのトークン（“ａｎ”、“ｉｎｓｕｌａｔｏｒ”、“ｌａｙｅｒ”）は結合され、１つのトークン（“ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ”）に置き換えることができる。これにより、上記文章は、「Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ｜ｃｏｍｐｒｉｓｉｎｇ｜ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ｜ｏｖｅｒ｜ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ」となる（図６Ｄ参照）。

　次に、トークンの抽象化を行う（図３に示すステップＳ０２３）。具体的には、“Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ”は、“ｄｅｖｉｃｅ”という上位語に置き換えられる。また、“ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ”は、“ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ”という上位語に置き換えられる。また、“ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ”は、“ａｎ　ｉｎｓｕｌａｔｏｒ”という上位語に置き換えられる。これにより、上記文章は、「ｄｅｖｉｃｅ｜ｃｏｍｐｒｉｓｉｎｇ｜ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ｜ｏｖｅｒ｜ａｎ　ｉｎｓｕｌａｔｏｒ」と抽象化される（図７Ａ参照）。

　次に、グラフを構築する（図３に示すステップＳ０２４）。具体的には、“ｄｅｖｅｉｃｅ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、および“ｉｎｓｕｌａｔｏｒ”のそれぞれは、グラフのノードおよび当該ノードのラベルとなり、“ｃｏｍｐｒｉｓｉｎｇ”、および“ｏｖｅｒ”のそれぞれは、グラフのエッジおよび当該エッジのラベルとなる。その結果、上記文章から、図７Ｂに示すグラフが得られる。

　ここで、“ｏｖｅｒ”の対義語は“ｕｎｄｅｒ”である。そこで、図７Ｂに示すグラフのエッジの向き（矢印）を反転させ、かつ、図７Ｂに示すグラフのエッジおよび当該エッジのラベルである“ｏｖｅｒ”を“ｕｎｄｅｒ”に置き換えることで、図７Ｃに示すグラフを再構築してもよい。これにより、実質的に同じ構造を網羅することができる。

　図７Ｂに示すエッジの向き（矢印の向き）は、文章中に先に出現するノード（上記文章の場合、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”）から、後に出現するノード（上記文章の場合、“ｉｎｓｕｌａｔｏｒ”）に向かうように図示されている。つまり、エッジの始点（矢印の始点）を、先に出現するノードとし、エッジの終点（矢印の終点）を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、エッジの向き（矢印の向き）を決定してもよい。具体的には、エッジの始点（矢印の始点）を、ラベルが“ｉｎｓｕｌａｔｏｒ”であるノードとし、エッジの終点（矢印の終点）を、ラベルが“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“ｏｖｅｒ”とするグラフを作成してもよい。これにより、グラフを直感的に理解することができる。ただし、エッジの向き（矢印の向き）の決定方法は、文書を検索する方法において、統一する必要がある。

　ここまで、文章からグラフを作成するまでの工程を、日本語が使用された文章、および英語が使用された文章を例に挙げて説明したが、文章の言語は、日本語および英語に限られない。中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文章においても、同様の工程を経ることで、文章からグラフを作成することができる。

［ステップＳ００３］
　ステップＳ００３は、１または複数の参照文書を取得する工程である。１または複数の参照文書は、検索対象となる文書であり、記憶部１０７に格納されている。

　参照文書が特許請求の範囲または請求項である場合、ステップＳ００４へ進む前に、参照文書に含まれる文章に対して、上述したクリーニング処理を行ってもよい。当該クリーニング処理を行うことで、形態素解析の精度を高めることができる。なお、当該クリーニング処理は、参照文書が特許請求の範囲または請求項以外の場合であっても、必要に応じて適宜行うとよい。

　ここで、以降の説明を容易にするため、グラフ２１の一例を図８に示す。

　図８に示すグラフ２１は、有向グラフである。グラフ２１は、ノード群（ノード２２＿１乃至ノード２２＿ｎ（ｎは２以上の整数））、およびエッジ群（エッジ２３＿１乃至エッジ２３＿ｍ（ｍは１以上、ｎより小さい整数））から構成される。なお、ノード２２＿１乃至ノード２２＿ｎのそれぞれは、入次数と出次数との和が１以上であることが好ましい。

　エッジ２３＿１の始点はノード２２＿１であり、エッジ２３＿１の終点はノード２２＿２である。また、エッジ２３＿２の始点はノード２２＿２であり、エッジ２３＿２の終点はノード２２＿３である。また、エッジ２３＿ｍの始点はノード２２＿ｎ−１であり、エッジ２３＿ｍの終点はノード２２＿ｎである。また、エッジ２３＿３乃至エッジ２３＿ｍ−１のそれぞれは、上記ノード群の１つと、上記ノード群の他の１つと、のエッジである。

　なお、図８では、ノード２２＿１とノード２２＿ｎ−１との間に、１つ以上のノードを介した道（ｐａｔｈ）が存在することを図示している。別言すると、図８では、ノード２２＿１とノード２２＿ｎ−１との間に存在する、１つ以上のノードおよび関連するエッジを省略している。

　なお、グラフ２１は、集合を用いて表現してもよい。例えば、グラフ２１（Ｇ）は、頂点集合Ｖおよび辺集合Ｅから構成されるとする。このとき、頂点集合Ｖ、および辺集合Ｅは、それぞれ以下で表される（数１を参照）。

　なお、頂点集合Ｖの要素数はｎ個であり、辺集合Ｅの要素数はｍ個である。

　上記では、グラフ２１（Ｇ）を、集合（頂点集合Ｖ、および辺集合Ｅ）を用いて表現したが、これに限られない。グラフ２１は、行列を用いて表現してもよい。当該行列として、例えば、隣接行列、接続行列、次数行列などが挙げられる。なお、グラフ２１の隣接行列は、ｎ×ｎ行列で表される。また、グラフ２１の接続行列は、ｎ×ｍ行列で表される。

　本明細書等では、エッジ２３＿１乃至エッジ２３＿ｍのいずれか一のエッジと、当該エッジの始点となるノードと、当該エッジの終点となるノードと、から構成されるグラフを、グラフ２１の局所グラフと呼ぶ場合がある。グラフ２１の局所グラフはエッジの数だけ作成される。つまり、グラフ２１の局所グラフは、ｍ個存在する。以降では、ｍ個の、グラフ２１の局所グラフを、グラフ２１の局所グラフ群と表記する場合がある。または、局所グラフ２４＿１乃至局所グラフ２４＿ｍと表記する場合がある。また、グラフ２１の局所グラフを、検索用局所グラフ、クエリ局所グラフなどと表記する場合がある。

［ステップＳ００４］
　ステップＳ００４は、処理部１０６にて、参照文書を解析する工程である。以下では、参照文書を解析する工程の一例を示すフローチャートを、図９を用いて説明する。なお、参照文書は、文４１＿１乃至文４１＿ｐ（ｐは１以上の整数）で構成されるとする。

　参照文書を解析する工程は、図９に示すステップＳ０３１乃至ステップＳ０３４を有する。なお、参照文書の解析は、文４１＿１から開始するとよい。

［ステップＳ０３１］
　ステップＳ０３１は、文４１＿ｐｐ（ｐｐは１以上ｐ以下の整数）が、条件Ａを満たすかの判断を行う工程である。ここで、条件Ａを満たすとは、文４１＿ｐｐが、単語３２Ａ＿１乃至単語３２Ａ＿ｎのうちの２つを含む場合である。ここで、単語３２Ａ＿ｉ（ｉは１以上ｎ以下の整数）とは、グラフ２１を構成するノード２２＿ｉ、ノード２２＿ｉの関連語、またはノード２２＿ｉの下位語を指す。つまり、単語３２Ａ＿ｉが、ノード２２＿ｉの関連語、またはノード２２＿ｉの下位語である場合、抽象化された単語３２Ａ＿ｉは、ノード２２＿ｉと一致する。

　関連語として、同義語、類義語、対義語、代表語、上位語、下位語などが挙げられる。なお、本明細書では、関連語は、同義語、類義語、対義語、代表語などとする。また、下位語とは、代表語の下位概念に該当する代表語である。関連語および下位語は、概念辞書などを参照するとよい。

　例えば、図４Ｃおよび図５Ａを参照して説明すると、「半導体」を上位語とする場合、「半導体」の下位語として、「酸化物半導体」、「シリコン半導体」などがある。また、「酸化物半導体」の関連語として、「酸化物半導体層」、「酸化物半導体膜」、「結晶性酸化物半導体」、「多結晶酸化物半導体」などがある。また、「シリコン半導体」として、「シリコン半導体層」、「シリコン半導体膜」、「単結晶シリコン」、「水素化アモルファスシリコン（ａ−Ｓｉ：Ｈと表記される場合がある）」などがある。また、「酸化物半導体」の下位語として、「インジウム、ガリウム、および亜鉛を含む酸化物（ＩＧＺＯなどと表記される場合がある）」、「インジウム、および亜鉛を含む酸化物（ＩＺＯなどと表記される場合がある）」などがある。

　文４１＿ｐｐが、単語３２Ａ＿１乃至単語３２Ａ＿ｎのうちの１つを含む場合、または、単語３２Ａ＿１乃至単語３２Ａ＿ｎのいずれも含まない場合、文４１＿ｐｐは、条件Ａを満たさないと判断される。このとき、次の文（文４１＿ｐｐ＋１）の解析へ進む。

　文４１＿ｐｐが、単語３２Ａ＿ｉ１（ｉ１は、１以上ｎ以下の整数）、および単語３２Ａ＿ｉ２（ｉ２は、ｉ１を除く、１以上ｎ以下の整数）を含む場合、文４１＿ｐｐは、条件Ａを満たすと判断される。このとき、文４１＿ｐｐから、単語３２Ａ＿ｉ１と、単語３２Ａ＿ｉ２とを取得することができる。文４１＿ｐｐが条件Ａを満たすと判断される場合、ステップＳ０３２へ進む。

［ステップＳ０３２］
　ステップＳ０３２は、文４１＿ｐｐから、単語３２Ａ＿ｉ１および単語３２Ａ＿ｉ２のエッジとなる単語の取得が可能であるかを判断する工程である。以降では、単語３２Ａ＿ｉ１と単語３２Ａ＿ｉ２とのエッジとなる単語を、単語３３Ａと表記する。単語３３Ａの取得が可能である場合、単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａを取得した後、ステップＳ０３３へ進む。なお、単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａは、ステップＳ０２１、およびステップＳ０２２を行うことで取得するとよい。文４１＿ｐｐに対して、ステップＳ０２１およびステップＳ０２２を行うことで、文４１＿ｐｐからトークンを用意し、当該トークン間の関係を知ることができる。なお、文４１＿ｐｐから単語３３Ａの取得ができない場合、次の文（文４１＿ｐｐ＋１）の解析へ進む。

［ステップＳ０３３］
　ステップＳ０３３は、単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａを抽象化する工程である。なお、単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａを抽象化する工程は、ステップＳ０２３と同様の工程である。よって、単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａを抽象化する工程は、ステップＳ０２３の説明を参酌することができる。ここで、抽象化した単語３２Ａ＿ｉ１、抽象化した単語３２Ａ＿ｉ２、および抽象化した単語３３Ａを、それぞれ、ノード３２＿ｉ１、ノード３２＿ｉ２、およびエッジ３３と表記する。ノード３２＿ｉ１およびノード３２＿ｉ２は、それぞれ、ノード２２＿ｉ１およびノード２２＿ｉ２と一致する。単語３２Ａ＿ｉ１、単語３２Ａ＿ｉ２、および単語３３Ａを抽象化した後、ステップＳ０３４へ進む。

［ステップＳ０３４］
　ステップＳ０３４は、エッジ３３が、条件Ｂを満たすかの判断を行う工程である。ここで、条件Ｂを満たすとは、エッジ３３が、グラフ２１を構成するノード２２＿ｉ１とノード２２＿ｉ２とのエッジと一致する場合である。別言すると、条件Ｂを満たすとは、文４１＿ｐｐから抽出された、ノード３２＿ｉ１、ノード３２＿ｉ２およびエッジ３３から構成されるグラフが、グラフ２１の局所グラフまたは誘導部分グラフとなる場合である。

　なお、文４１＿ｐｐに、フラグを設けてもよい。例えば、条件Ｂを満たすと判断された場合、文４１＿ｐｐのフラグを立てるとよい。他方、条件Ｂを満たさないと判断された場合、文４１＿ｐｐのフラグを下すとよい。

　以上により、条件Ｂを満たすかの判断を終了する。当該判断を行った後、次の文（文４１＿ｐｐ＋１）の解析へ進む。

　条件Ａを満たすかを判断する工程から条件Ｂを満たすかを判断する工程までを、文４１＿１乃至文４１＿ｐのすべてに対して実施する。文４１＿ｐまでの解析が終了したら、次の参照文書の解析へ進む。

　参照文書を解析する工程は、図９に示すフローチャートに限られない。例えば、図１０に示すフローチャートでもよい。図１０に示すフローチャートでは、参照文書から、局所グラフ２４＿１乃至局所グラフ２４＿ｍを作成しうる文の検索を行う。

　局所グラフ２４＿ｍｍ（ｍｍは１以上ｍ以下の整数）は、２つのノードと、当該２つのノードの間のエッジとから構成される。ここで、当該２つのノードの一方、当該２つのノードの一方の関連語、および当該２つのノードの一方の下位語をまとめて、単語群２２Ａ＿ｍ１（ｍ１は１以上ｎ以下の整数）と表記する。また、当該２つのノードの他方、当該２つのノードの他方の関連語、および当該２つのノードの他方の下位語をまとめて、単語群２２Ａ＿ｍ２（ｍ２は、ｍ１を除く、１以上ｎ以下の整数）と表記する。また、当該エッジ、当該エッジの関連語、および当該エッジの下位語をまとめて、単語群２３Ａ＿ｍｍと表記する。つまり、局所グラフ２４＿ｍｍを作成しうる文は、少なくとも、単語群２２Ａ＿ｍ１のいずれか一、単語群２２Ａ＿ｍ２のいずれか一、および単語群２３Ａ＿ｍｍのいずれか一を有する。

　図１０に示す参照文書を解析する工程は、ステップＳ０４１を有する。なお、参照文書の解析は、局所グラフ２４＿１から開始するとよい。

［ステップＳ０４１］
　ステップＳ０４１は、文４１＿ｐｐが、条件Ｄを満たすかの判断を行う工程である。ここで、条件Ｄを満たすとは、文４１＿ｐｐが、単語群２２Ａ＿ｍ１のいずれか一、単語群２２Ａ＿ｍ２のいずれか一、および単語群２３Ａ＿ｍｍのいずれか一を有する場合である。

　文４１＿ｐｐが条件Ｄを満たすと判断された場合は、次の局所グラフ（局所グラフ２４＿ｍｍ＋１）に進む。

　他方、文４１＿ｐｐが条件Ｄを満たさないと判断された場合は、文４１＿ｐｐ＋１に対して、同様の判断を行う。なお、文４１＿１乃至文４１＿ｐの全てに対して、条件Ｄを満たさないと判断された場合、次の局所グラフ（局所グラフ２４＿ｍｍ＋１）に進む。

　なお、文４１＿ｐｐに、フラグを設けてもよい。例えば、条件Ｄを満たすと判断された場合、文４１＿ｐｐのフラグを立てるとよい。他方、条件Ｄを満たさないと判断された場合、文４１＿ｐｐのフラグを下すとよい。

　局所グラフ２４＿１乃至局所グラフ２４＿ｍのすべてに対して実施する。局所グラフ２４＿ｍまでの判断が終了したら、次の参照文書の解析へ進む。

　以上が、図９に示すフローチャートとは異なる、参照文書の解析の一例を示すフローチャートの説明である。

　なお、上記参照文書から、頂点集合Ｖｒ、および辺集合Ｅｒを作成してもよい。例えば、条件Ｂを満たすエッジ、および当該エッジと接続するノードを、それぞれ、辺集合Ｅｒ、および頂点集合Ｖｒに追加するとよい。なお、当該エッジが辺集合Ｅｒにすでに含まれている場合は、当該エッジを追加しなくてもよい。また、当該ノードが頂点集合Ｖｒにすでに含まれている場合は、当該ノードを追加しなくてもよい。これにより、辺集合Ｅｒは、条件Ｂを満たすエッジの和集合となる。また、頂点集合Ｖｒは、条件Ｂを満たすエッジと接続するノードの和集合となる。

　上記の一例について説明する。参照文書において、条件Ｂを満たす文が２つ確認されたとする。２つの文の一方からは、ノード２２＿１と一致するノード、ノード２２＿２と一致するノード、およびエッジ２３＿１と一致するエッジが抽出されるとする。また、２つの文の他方からは、ノード２２＿ｎ−１と一致するノード、ノード２２＿ｎと一致するノード、およびエッジ２３＿ｍと一致するエッジが抽出されるとする。このとき、頂点集合Ｖｒは、ノード２２＿１、ノード２２＿２、ノード２２＿ｎ−１、およびノード２２＿ｎから構成される。また、辺集合Ｅｒは、エッジ２３＿１、およびエッジ２３＿ｍから構成される。

　以上より、参照文書を解析することができる。全ての参照文書に対して上記解析が終了した後、ステップＳ００５へ進む。

［ステップＳ００５］
　ステップＳ００５は、処理部１０６にて、参照文書を評価する工程である。具体的には、文章２０と参照文書との類似性に基づいて当該参照文書のスコアに点数を付与し、当該参照文書のスコアを算出する工程である。

　以下では、参照文書のスコアに点数を付与する基準、および、当該基準に基づいて参照文書のスコアに付与する点数の一例について、説明する。

＜＜点数を付与する基準１＞＞
　参照文書から抽出しうるノードおよびエッジが、グラフ２１を構成するノードおよびエッジを包含するほど、当該参照文書のスコアに高い点数を付与する。ここでは、基準１を基に、参照文書のスコアに付与される点数を、点数６１と表記する。

　例えば、点数６１は、グラフ２１の局所グラフ群（局所グラフ２４＿１乃至局所グラフ２４＿ｍ）に含まれる、参照文書から作成しうる部分グラフの数から算出するとよい。具体的には、グラフ２１の局所グラフ群の数ｍに対する、局所グラフ２４＿１乃至局所グラフ２４＿ｍのそれぞれを作成しうるｍ個の文のうち参照文書に含まれる文の数ｓの比（包含率と表記する）から算出してもよい。ここで、包含率を（ｓ／ｍ）とする。

　なお、ｓは、参照文書に含まれる文４１＿１乃至文４１＿ｐのうち、上述した条件Ｂを満たす文の数であってもよいし、参照文書に含まれる文４１＿１乃至文４１＿ｐのうち、上述した条件Ｄを満たす文の数であってもよい。

　このとき、局所グラフ２４＿１乃至局所グラフ２４＿ｍのそれぞれを作成しうるｍ個の文が全て参照文書に含まれる場合、当該包含率は１となる。また、局所グラフ２４＿１乃至局所グラフ２４＿ｍのそれぞれを作成しうるｍ個の文のいずれも参照文書に含まれない場合、当該包含率は０となる。よって、当該包含率と重みＸ１との積を点数６１として、参照文書のスコアに付与するとよい。

　また、例えば、点数６１は、グラフ２１を構成するエッジに対する、参照文書から抽出しうるエッジの一致率から算出してもよい。具体的には、辺集合Ｅの要素の数に対する、辺集合Ｅｒとグラフ２１の辺集合Ｅとの共通部分の数の比（一致率と表記する）から算出してもよい。ここで、一致率を（ｔ／ｍ）とする。

　ここで、ｔは、ステップＳ００４にて作成される辺集合Ｅｒと、グラフ２１の辺集合Ｅとの共通部分の数である。また、ｍは、辺集合Ｅの要素数｜Ｅ｜である。このとき、当該一致率の最大値は１となり、最小値は０となる。よって、当該一致率と重みＸ２との積を点数６１として、参照文書のスコアに付与するとよい。

　重みＸ１または重みＸ２はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みＸ１または重みＸ２を指定するタイミングは、ステップＳ００５を行う前までであればよい。例えば、文章２０を入力するタイミングでもよいし、ステップＳ００２を行った後でもよい。

　なお、上記包含率または上記一致率を用いて、点数６１を算出する例を示しているが、これに限られない。例えば、点数６１は、グラフ２１の隣接行列と、頂点集合Ｖｒから作成される隣接行列とのフロベニウス積（フロベニウス内積ともいう）から算出してもよいし、グラフ２１の接続行列と、頂点集合Ｖｒおよび辺集合Ｅｒから作成される接続行列との内積から算出してもよい。

＜＜点数を付与する基準２＞＞
　参照文書において、グラフ２１が有するノードおよびエッジが現れた文の距離が近いほど、当該参照文書のスコアに高い点数を付与する。例えば、当該点数は、グラフ２１が有するノードおよびエッジが現れた文と、グラフ２１が有するノードおよびエッジが現れた他の文との距離から算出するとよい。なお、当該距離は、ステップＳ００４で設定したフラグを用いて算出するとよい。ここでは、基準２を基に、参照文書のスコアに付与される点数を、点数６２と表記する。

　グラフ２１が有するノードおよびエッジが現れた文を、文４１＿ｐ１（ｐ１は、１以上ｐ以下の整数）とし、グラフ２１が有するノードおよびエッジが現れた他の文を、文４１＿ｐ２（ｐ２は、ｐ１を除く１以上ｐ以下の整数）とする。具体的には、文４１＿ｐ１と文４１＿ｐ２との距離ｒを、（｜ｐ１−ｐ２｜−１）とする。つまり、文４１＿ｐ１と文４１＿ｐ２とが隣り合う場合、ｒはゼロとなる。また、文４１＿ｐ１と文４１＿ｐ２とが最も離れている場合、ｒは（ｐ−２）となる。

　そこで、値（ｐ−２−ｒ）／（ｐ−２）を算出する。文４１＿ｐ１と文４１＿ｐ２とが隣り合う場合、値（ｐ−２−ｒ）／（ｐ−２）は１となり、文４１＿ｐ１と文４１＿ｐ２が最も離れている場合、値（ｐ−２−ｒ）／（ｐ−２）はゼロとなる。よって、値（ｐ−２−ｒ）／（ｐ−２）と重みＹとの積を点数６２として、参照文書のスコアに付与するとよい。

　重みＹはあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みＹを指定するタイミングは、ステップＳ００５を行う前までであればよい。例えば、文章２０を入力するタイミングでもよいし、ステップＳ００２を行った後でもよい。

　なお、ノードおよびエッジが現れた文と、ノードおよびエッジが現れた他の文との距離の算出方法は、上記に限られない。例えば、グラフ２１が有向グラフである場合、入次数と出次数との和が２以上であるノードにおいて、当該ノードおよび当該ノードに隣接するノードの間のエッジを抽出しうる文と、当該ノードおよび当該ノードに隣接する別のノードの間のエッジを抽出しうる文との距離を算出してもよい。

＜＜点数を付与する基準３＞＞
　参照文書に含まれる文章から取得される、抽象化される前のノードとエッジが、グラフ２１を構成する、抽象化される前のノードとエッジに近いほど、当該参照文書のスコアに高い点数を付与する。例えば、参照文書に含まれる文章から取得される、抽象される前のノード（エッジ）と、グラフ２１を構成する、抽象化される前のノード（エッジ）との関係を評価して、付与する点数を決定するとよい。ここでは、基準３を基に、参照文書のスコアに付与される点数を、点数６３と表記する。

　上述したように、抽象化とは、トークンを代表語または上位語に置き換える作業である。つまり、抽象化される前のノードとは、上位語または代表語に置き換えられる前のトークンであり、ステップＳ０２３を実施する前のトークンである。別言すると、抽象化される前のノードは、上記参照文書に含まれる文章に現れる単語そのものである。

　ここでは、参照文書に含まれる文章から、単語３２Ａ＿ｉ３（ｉ３は、１以上ｎ以下の整数）が取得される場合について説明する。なお、単語３２Ａ＿ｉ３を抽象化することで得られるノード３２＿ｉ３は、グラフ２１のノード２２＿ｉ３と一致する。また、抽象化される前のノード２２＿ｉ３を、単語２２Ａ＿ｉ３と表記する。単語２２Ａ＿ｉ３は、文章２０に現れる単語である。

　例えば、単語３２Ａ＿ｉ３と、単語２２Ａ＿ｉ３とが一致する場合、当該参照文書と文章２０とは類似している可能性が高い。よって、当該参照文書は、文章２０の概念に近いとみなすことができる。このとき、当該参照文書のスコアに付与する点数６３を高くする。

　単語３２Ａ＿ｉ３と、単語２２Ａ＿ｉ３とが一致しない場合、当該参照文書と文章２０とは類似している可能性が低い。よって、当該参照文書は、文章２０の概念から遠いとみなすことができる。このとき、当該参照文書のスコアに付与する点数６３を低くする、またはゼロにする。なお、単語３２Ａ＿ｉ３と、単語２２Ａ＿ｉ３との関係によって、当該参照文書のスコアに付与する点数６３を調整するとよい。

　ここで、単語３２Ａ＿ｉ３と、単語２２Ａ＿ｉ３との関係を表す値をｒ２とする。値ｒ２は、単語２２Ａ＿ｉ３を基準としたときの、単語３２Ａ＿ｉ３の位置から算出する。ここで、値ｒ２の算出方法の一例を、図１１を用いて説明する。

　図１１は、単語の関連を説明する図である。図１１に示すように、単語Ａ１および単語Ａ２は、単語Ａ０の下位語である。単語Ａ１と単語Ａ２とは、互いの関連語である。単語Ａ１１および単語Ａ１２は、単語Ａ１の下位語である。単語Ａ１１と単語Ａ１２とは、互いの関連語である。単語Ａ２１および単語Ａ２２は、単語Ａ２の下位語である。単語Ａ２１と単語Ａ２２とは、互いの関連語である。

　ここで、図１１に示すように、単語と、当該単語の上位語とを連結する。また、単語と、当該単語の下位語とを連結する。このとき、図１１に示す単語（単語Ａ０、単語Ａ１、単語Ａ２、単語Ａ１１、単語Ａ１２、単語Ａ２１、および単語Ａ２２）を、グラフのノードとみなすことができる。また、単語間を結ぶ線を、当該グラフのエッジとみなすことができる。

　単語Ａ０と単語Ａ１との距離を、ｗ１とする。単語Ａ０と単語Ａ２との距離を、ｗ２とする。単語Ａ１と単語Ａ１１との距離を、ｗ１１とする。単語Ａ１と単語Ａ１２との距離を、ｗ１２とする。単語Ａ２と単語Ａ２１との距離を、ｗ２１とする。単語Ａ２と単語Ａ２２との距離を、ｗ２２とする。

　単語２２Ａ＿ｉ３が、図１１に示す単語Ａ１であるとする。また、単語３２Ａ＿ｉ３から単語２２Ａ＿ｉ３への最短経路の距離をＷとする。単語３２Ａ＿ｉ３から単語２２Ａ＿ｉ３への最短経路とは、単語３２Ａ＿ｉ３と単語２２Ａ＿ｉ３とを結ぶ経路の中で、エッジの数が最小となる経路を指す。つまり、当該最短経路の距離とは、当該最短経路に存在するエッジに相当する距離の和となる。

　単語３２Ａ＿ｉ３が、単語２２Ａ＿ｉ３と一致する場合、Ｗはゼロとなる。単語３２Ａ＿ｉ３が、単語２２Ａ＿ｉ３の上位語（図１１に示す単語Ａ０）である場合、Ｗはｗ１となる。単語３２Ａ＿ｉ３が、単語２２Ａ＿ｉ３の下位語（図１１に示す単語Ａ１１または単語Ａ１２）である場合、Ｗはｗ１１またはｗ１２となる。単語３２Ａ＿ｉ３が、単語２２Ａ＿ｉ３の関連語（図１１に示す単語Ａ２）である場合、Ｗをｗ１＋ｗ２とする。単語３２Ａ＿ｉ３が、単語２２Ａ＿ｉ３の関連語の下位語（図１１に示す単語Ａ２１またはＡ２２）である場合、Ｗをｗ１＋ｗ２＋ｗ２１またはｗ１＋ｗ２＋ｗ２２とする。

　値ｒ２は、１／（１＋Ｗ）として算出するとよい。これにより、単語３２Ａ＿ｉ３と単語２２Ａ＿ｉ３とが一致する場合、値ｒ２は１となり、単語３２Ａ＿ｉ３から単語２２Ａ＿ｉ３への最短経路の距離が最大である場合、値ｒ２は最小値となる。

　または、値ｒ２は、（Ｗｍａｘ−Ｗ）／Ｗｍａｘとして算出してもよい。ここで、Ｗｍａｘは、単語３２Ａ＿ｉ３から単語２２Ａ＿ｉ３への最短経路の距離の最大値である。これにより、単語３２Ａ＿ｉ３と単語２２Ａ＿ｉ３とが一致する場合、値ｒ２は１となり、単語３２Ａ＿ｉ３から単語２２Ａ＿ｉ３への最短経路の距離が最大である場合、値ｒ２はゼロとなる。

　上記の方法で算出した値ｒ２と、重みＺ１と、の積を点数６３として、参照文書のスコアに付与するとよい。

　単語間距離（距離ｗ１、距離ｗ２、距離ｗ１１、距離ｗ１２、距離ｗ２１、および距離ｗ２２）はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが単語間距離を指定するタイミングは、ステップＳ００５を行う前までであればよい。例えば、文章２０を入力するタイミングでもよいし、ステップＳ００２を行った後でもよい。

　エッジに関しても、上記と同様の方法で、参照文書のスコアに付与する点数６３を決定するとよい。例えば、点数６３は、値ｒ２と、重みＺ２との積とするとよい。

　なお、グラフ２１が有向グラフである場合、エッジは向きを有する。よって、参照文書に含まれる文から取得されるエッジの向きが、グラフ２１のエッジの向きと同じである場合、当該エッジは、抽象化される前のグラフ２１の概念に近いとみなすことができる。このとき、当該参照文書のスコアに付与する点数６３を高くするとよい。他方、参照文書に含まれる文から抽出されるエッジの向きが、グラフ２１のエッジの向きと逆である場合、当該エッジは、抽象化される前のグラフ２１の概念から遠いとみなすことができる。このとき、当該参照文書のスコアに付与する点数６３を低くする、またはゼロにするとよい。

　重みＺ１および重みＺ２はあらかじめ指定してもよいし、ユーザが指定してもよい。なお、ユーザが重みＺ１および重みＺ２を指定するタイミングは、ステップＳ００５を行う前までであればよい。例えば、文章２０を入力するタイミングでもよいし、ステップＳ００２を行った後でもよい。

＜＜点数を付与する基準４＞＞
　検索の条件に応じて、ノードとエッジがグラフ２１の上位概念または下位概念であれば、参照文書のスコアに点数を付与する。例えば、図１１に示す単語間距離（距離ｗ１、距離ｗ２、距離ｗ１１、距離ｗ１２、距離ｗ２１、および距離ｗ２２）の値を調整するとよい。ここでは、基準４を基に、参照文書のスコアに付与される点数を、点数６４と表記する。

　グラフ２１の上位概念となる文書を検索したい場合、距離ｗ１１、および距離ｗ１２を無限大、または他の単語間距離（例えば、距離ｗ１）の値と比べて非常に大きな値とする。これにより、グラフ２１の下位概念である参照文書のスコアに付与する点数６４をゼロに近い値とすることができる。よって、グラフ２１の上位概念の参照文書の検索性を向上させることができる。なお、距離ｗ２、または、距離ｗ２１および距離ｗ２２を無限大、または他の単語間距離（例えば、距離ｗ１）の値と比べて非常に大きな値としてもよい。これにより、グラフ２１の上位概念の参照文書の検索性をさらに向上させることができる。

　グラフ２１の下位概念となる文書を検索したい場合、距離ｗ１を無限大、または他の単語間距離（例えば、距離ｗ１１）の値と比べて非常に大きな値とする。これにより、グラフ２１の上位概念である参照文書のスコアに付与する点数６４をゼロに近い値とすることができる。よって、グラフ２１の下位概念の参照文書の検索性を向上させることができる。

　以上より、検索の条件に応じて、文書を効率よく検索することができる。

　以上が、参照文書のスコアに点数を付与する基準、および、当該基準に基づいて参照文書のスコアに付与する点数の一例である。なお、参照文書のスコアに付与する点数は、上記した基準１乃至基準４の１つまたは複数を適宜組み合わせるとよい。また、参照文書のスコアに付与する点数の基準は上記に限られず、適宜条件を設けて参照文書のスコアを算出するとよい。

＜＜参照文書のスコアを算出する例＞＞
　ここでは、参照文書のスコアを算出する例について、図１２Ａ、図１２Ｂ、図１３Ａ、および図１３Ｂを用いて説明する。なお、説明を容易にするため、本項では、図１２Ａに示す構成を有するグラフ２１Ａを用いる。また、検索対象となる参照文書は４つ（参照文書４０ａ、参照文書４０ｂ、参照文書４０ｃ、および参照文書４０ｄ）とする。

　参照文書４０ａ乃至参照文書４０ｄは、いずれも１０個の文から構成されるとする。つまり、参照文書４０ａ乃至参照文書４０ｄのｐは、いずれも１０とする。このとき、参照文書４０ａは、文４１ａ＿１乃至文４１ａ＿１０から構成され、参照文書４０ｂは、文４１ｂ＿１乃至文４１ｂ＿１０から構成され、参照文書４０ｃは、文４１ｃ＿１乃至文４１ｃ＿１０から構成され、参照文書４０ｄは、文４１ｄ＿１乃至文４１ｄ＿１０から構成される。

　図１２Ａに示すグラフ２１Ａは、グラフ２１の他の一例である。グラフ２１Ａは、ノード２２＿１乃至ノード２２＿４、ならびに、エッジ２３＿１乃至エッジ２３＿３から構成される。エッジ２３＿１の始点はノード２２＿１であり、エッジ２３＿１の終点はノード２２＿２である。エッジ２３＿２の始点はノード２２＿２であり、エッジ２３＿２の終点はノード２２＿３である。エッジ２３＿３の始点はノード２２＿１であり、エッジ２３＿３の終点はノード２２＿４である。

　また、図１２Ａに示す局所グラフ２４＿１、局所グラフ２４＿２、および局所グラフ２４＿３は、グラフ２１Ａの局所グラフであり、グラフ２１Ａの部分グラフでもある。局所グラフ２４＿１は、ノード２２＿１、ノード２２＿２、およびエッジ２３＿１から構成される。局所グラフ２４＿２は、ノード２２＿２、ノード２２＿３、およびエッジ２３＿２から構成される。局所グラフ２４＿３は、ノード２２＿１、ノード２２＿４、およびエッジ２３＿３から構成される。

　また、局所グラフ２４＿１を形成しうる文を、文３０＿１とする。つまり、文３０＿１から抽出される単語から、局所グラフ２４＿１を形成することができる。また、局所グラフ２４＿２を形成しうる文を、文３０＿２とする。つまり、文３０＿２から抽出される単語から、局所グラフ２４＿２を形成することができる。また、局所グラフ２４＿３を形成しうる文を、文３０＿３とする。つまり、文３０＿３から抽出される単語から、局所グラフ２４＿３を形成することができる。

　図１２Ｂに示すように、参照文書４０ａは、文３０＿１乃至文３０＿３を含むとする。参照文書４０ａに含まれる文のうち、文４１ａ＿５が文３０＿１に該当し、文４１ａ＿６が文３０＿２に該当し、文４１ａ＿８が文３０＿３に該当する。

　また、図１２Ｂに示すように、参照文書４０ｂは、文３０＿１および文３０＿２を含み、文３０＿３を含まないとする。参照文書４０ｂに含まれる文のうち、文４１ｂ＿５が文３０＿１に該当し、文４１ｂ＿６が文３０＿２に該当する。

　また、図１２Ｂに示すように、参照文書４０ｃは、文３０＿１および文３０＿２を含み、文３０＿３を含まないとする。参照文書４０ｃに含まれる文のうち、文４１ｃ＿２が文３０＿１に該当し、文４１ｃ＿６が文３０＿２に該当する。

　また、図１２Ｂに示すように、参照文書４０ｄは、文３０＿１を含み、文３０＿２および文３０＿３を含まないとする。参照文書４０ｄに含まれる文のうち、文４１ｄ＿２が文３０＿１に該当する。

　また、各基準を元に算出する値（包含率、値（ｐ−２−ｒ）／（ｐ−２）、値ｒ２など）、重み（重みＸ１、重みＹ１、および重みＺ１）、付与する点数などの有効数字（有効数字の最終桁）は、評価する参照文書の数に合わせて適宜調整するとよい。例えば、評価する参照文書の数が多いほど、当該有効数字を大きくする、または、当該有効数字の最終桁を小さくするとよい。なお、ここでは、当該有効数字の最終桁を小数点第２位とする。

　はじめに、上述した基準１を基に、参照文書４０ａ乃至参照文書４０ｄのそれぞれのスコアに点数６１を付与する例を、図１２Ｂを用いて説明する。なお、重みＸ１は１．００とする。

　参照文書４０ａにおける上記包含率（および付与する点数６１）は、１．００となる。また、参照文書４０ｂおよび参照文書４０ｃにおける上記包含率（および付与する点数６１）は、０．６７（＝２／３）となる。また、参照文書４０ｄにおける上記包含率（および付与する点数６１）は、０．３３（＝１／３）となる。よって、４つの参照文書において、参照文書４０ａのスコアに付与する点数６１が最も高く、参照文書４０ｂおよび参照文書４０ｃのスコアに付与する点数６１が次に高く、参照文書４０ｄのスコアに付与する点数６１が最も低い。

　次に、上述した基準２を基に、参照文書４０ａ乃至参照文書４０ｄのそれぞれのスコアに点数６２を付与する例を、図１３Ａを用いて説明する。なお、重みＹは１．００とする。

　参照文書４０ａ、および参照文書４０ｂにおいて、文３０＿１と文３０＿２との距離ｒはゼロである。よって、値（ｐ−２−ｒ）／（ｐ−２）（および付与する点数６２）は、１．００となる。また、参照文書４０ｃにおいて、文３０＿１と文３０＿２との距離ｒは３である。よって、値（ｐ−２−ｒ）／（ｐ−２）（および付与する点数６２）は、０．６３（＝５／８）となる。したがって、参照文書４０ｂのスコアに付与する点数６２は、参照文書４０ｃのスコアに付与する点数６２よりも高い。なお、参照文書４０ｄにおいては、文３０＿１と文３０＿２との距離ｒを算出することができないため、値（ｐ−２−ｒ）／（ｐ−２）（および付与する点数６２）は、０．００とする。

　次に、上述した基準３および基準４を基に、参照文書４０ａ乃至参照文書４０ｄのそれぞれのスコアに点数６３および点数６４（点数６４Ａまたは点数６４Ｂ）を付与する例を、図１３Ｂを用いて説明する。具体的には、参照文書４０ａ乃至参照文書４０ｄのそれぞれが有する文３０＿１から、参照文書のスコアに付与する点数６３および点数６４を算出する方法について説明する。なお、重みＺ１は１．００とする。また、値ｒ２は、１／（１＋Ｗ）として算出する。

　ここで、文３０＿１から単語３２Ａ＿１が抽出されるとする。抽象化された単語３２Ａ＿１は、ノード２２＿１と一致するものとする。ここで、抽象化される前のノード２２＿１を、単語２２Ａ＿１とする。単語２２Ａ＿１は、文章２０に現れる単語である。なお、単語２２Ａ＿１は、図１１に示す単語Ａ１とする。

　図１３Ｂに示すように、参照文書４０ａから取得される単語３２Ａ＿１は、図１１に示す単語Ａ１とする。参照文書４０ｂから取得される単語３２Ａ＿１は、図１１に示す単語Ａ１１とする。参照文書４０ｃから取得される単語３２Ａ＿１は、図１１に示す単語Ａ０とする。参照文書４０ｄから取得される単語３２Ａ＿１は、図１１に示す単語Ａ２２とする。

　上記の場合、参照文書４０ａにおけるＷはゼロであり、参照文書４０ｂにおけるＷはｗ１１であり、参照文書４０ｃにおけるＷはｗ１であり、参照文書４０ｄにおけるＷはｗ１＋ｗ２＋ｗ２２である。

　はじめに、図１１に示す単語間距離（距離ｗ１、距離ｗ２、距離ｗ１１、距離ｗ１２、距離ｗ２１、および距離ｗ２２）を全て１．００とする。ここで、参照文書に付与する点数は、点数６３である。

　このとき、参照文書４０ａにおける値ｒ２は１．００であり、参照文書４０ｂにおける値ｒ２は０．５０（＝１／２）であり、参照文書４０ｃにおける値ｒ２は０．５０（＝１／２）であり、参照文書４０ｄにおける値ｒ２は０．２５（＝１／４）である。

　以上より、４つの参照文書において、参照文書４０ａのスコアに付与する点数６３が最も高く、参照文書４０ｂおよび参照文書４０ｃのスコアに付与する点数６３が次に高く、参照文書４０ｄのスコアに付与する点数６３が最も低い。

　単語間距離を全て１にすることで、文章２０の概念に近い参照文書のスコアを高くすることができる。

　次に、距離ｗ１、距離ｗ２１、および距離ｗ２２を１．００とし、距離ｗ２、距離ｗ１１、および距離ｗ１２を無限大とする。ここで、参照文書に付与する点数を、点数６４Ａとする。

　このとき、参照文書４０ａにおける値ｒ２は１．００であり、参照文書４０ｂにおける値ｒ２は実質０であり、参照文書４０ｃにおける値ｒ２は０．５０（＝１／２）であり、参照文書４０ｄにおける値ｒ２は実質０である。

　以上より、４つの参照文書において、参照文書４０ａのスコアに付与する点数６４Ａが最も高く、参照文書４０ｃのスコアに付与する点数６４Ａが次に高く、参照文書４０ｂおよび参照文書４０ｄのスコアに付与する点数６４Ａが最も低い。

　単語間距離を上記の設定にすることで、文章２０の上位概念に近い参照文書のスコアを高くすることができる。

　次に、距離ｗ２、距離ｗ１１、距離ｗ１２、距離ｗ２１、および距離ｗ２２を１．００とし、距離ｗ１を無限大とする。ここで、参照文書に付与する点数を、点数６４Ｂとする。

　このとき、参照文書４０ａにおける値ｒ２は１．００であり、参照文書４０ｂにおける値ｒ２は０．５０（＝１／２）であり、参照文書４０ｃにおける値ｒ２は実質０であり、参照文書４０ｄにおける値ｒ２は実質０である。

　以上より、４つの参照文書において、参照文書４０ａのスコアに付与する点数６４Ｂが最も高く、参照文書４０ｂのスコアに付与する点数６４Ｂが次に高く、参照文書４０ｃおよび参照文書４０ｄのスコアに付与する点数６４Ｂが最も低い。

　単語間距離を上記の設定にすることで、文章２０の下位概念に近い参照文書のスコアを高くすることができる。

　以上のようにして、参照文書のスコアを算出することができる。

　なお、ここでは、重みＸ１、重みＹ、および重みＺ１を全て１．００であるとして説明したが、これに限られない。例えば、文章２０に使われている単語に注目して文書の検索を行いたい場合は、重みＺ１の値を、重みＸ１および重みＹの値よりも大きくするとよい。また、例えば、グラフ２１Ａのエッジに注目して文書の検索を行いたい場合は、重みＸ１および／または重みＹの値を、重みＺ１の値よりも大きくするとよい。

　以上が、ステップＳ００５についての説明である。ステップＳ００５を行うことで、文章２０と参照文書との類似性に基づいて、当該参照文書のスコアに点数が付与される。よって、参照文書のスコアが高いほど、当該参照文書と文章２０との類似性が高くなる。したがって、文章２０と類似した文書を検索することができる。

　以上の方法により、文書を検索することができる。なお、文書を検索する方法は上記に限られない。例えば、図１４に示すように、文書を検索する方法は、ステップＳ００１乃至ステップＳ００５に加えて、ステップＳ０１１、およびステップＳ０１２を有してもよい。

［ステップＳ０１１］
　ステップＳ０１１は、参照文書を絞り込む工程であり、ステップＳ００３とステップＳ００４との間に行われる。以下では、ステップＳ００３で取得した複数の参照文書（参照文書４０＿１乃至参照文書４０＿ｑ（ｑは１以上の整数））を絞り込むフローチャートを、図１５を用いて説明する。

　ステップＳ０１１は、参照文書４０＿１から開始するとよい。

　参照文書４０＿ｑｑ（ｑｑは１以上ｑ以下の整数）が、条件Ｃを満たすかの判断を行う。ここで、条件Ｃを満たすとは、参照文書４０＿ｑｑが、ステップＳ００４で説明した、単語３２Ａ＿１乃至単語３２Ａ＿ｎの全てを含む場合である。

　参照文書４０＿ｑｑが、条件Ｃを満たすと判断された場合、参照文書４０＿ｑｑを抽出する。また、参照文書４０＿ｑｑが、条件Ｃを満たさないと判断された場合、参照文書４０＿ｑｑを抽出しない。

　なお、条件Ｃは上記に限られない。例えば、条件Ｃを満たすとは、参照文書４０＿ｑｑが、ステップＳ００４で説明した、単語３２Ａ＿１乃至単語３２Ａ＿ｎの一部を含む場合であってもよい。これにより、当該単語３２Ａ＿１乃至単語３２Ａ＿ｎの一部を基に、類似した文書の検索を行うことができる。

　以上により、条件Ｃを満たすかの判断を終了する。当該判断を行った後、次の参照文書（参照文書４０＿ｑｑ＋１）の解析へ進む。

　条件Ｃを満たすかの判断を行う工程を、参照文書４０＿１乃至参照文書４０＿ｑのすべてに対して実施する。参照文書４０＿ｑまでの絞り込みが終了したら、ステップＳ００４へ進む。

　ステップＳ０１１を行うことで、複数の参照文書の中から、文章２０と類似した参照文書のみを抽出することができる。これにより、文章２０と比較する参照文書を絞り込むことができ、文書を検索するのに要する時間を短縮することができる。

［ステップＳ０１２］
　ステップＳ０１２は、出力部１０４にて、情報を出力する工程である。当該情報とは、処理部１０６にて算出された結果に関する情報である。例えば、当該情報は、参照文書のスコアである。または、当該情報は、スコアが最も高い参照文書である。または、当該情報は、スコアに基づいて順位づけられたランキングデータである。

　上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして、出力部１０４に出力される。また、上記情報は、記憶部１０７、処理部１０６が有するメモリなどに出力されてもよい。

　以上が、文書を検索する方法についての説明である。本発明の一態様である文書を検索する方法を用いることで、検索用に指定する文章の概念を考慮して、当該文章と類似した文書を検索することができる。また、検索用に指定する文章と類似した文書を順位付けされた状態で検索することができる。また、文章の構成や表現に影響を受けにくく、文章の概念を元に検索を行うことができる。また、言語の異なる２つの文章において、文章の概念が同じである場合、当該２つの文章のそれぞれから作成されるグラフは同じになる。よって、本発明の一態様である文書を検索する方法を用いることで、異なる言語間での文書の検索を容易にすることができる。

　本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、１つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

（実施の形態２）
　本実施の形態では、本発明の一態様の文書検索システムについて図１６及び図１７を用いて説明する。

　本実施の形態の文書検索システムは、実施の形態１に示す、文書を検索する方法を用いて、文書を容易に検索することができる。

＜文書検索システムの構成例１＞
　図１６に、文書検索システム２００のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部２０２で行われる処理は、処理によって異なるサーバで実行されることがある。

　文書検索システム２００は、少なくとも、処理部２０２を有する。図１６に示す文書検索システム２００は、さらに、入力部２０１、記憶部２０３、データベース２０４、表示部２０５、及び伝送路２０６を有する。

［入力部２０１］
　入力部２０１には、文書検索システム２００の外部から文章が供給される。当該文章は、検索用文章であり、実施の形態１に示す文章２０に相当する。また、入力部２０１には、文書検索システム２００の外部から複数の参照文書が供給されてもよい。当該複数の参照文書は、上記文章の比較対象となる文書であり、実施の形態１に示す複数の参照文書に相当する。入力部２０１に供給された上記複数の参照文書及び上記文章は、それぞれ、伝送路２０６を介して、処理部２０２、記憶部２０３、またはデータベース２０４に供給される。

　上記複数の参照文書及び上記文章は、例えば、テキストデータ、音声データ、または画像データとして入力される。上記複数の参照文書のそれぞれに含まれる文章は、テキストデータとして入力されることが好ましい。

　上記文章の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。

　文書検索システム２００は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部２０２が当該機能を有していてもよい。または、文書検索システム２００が、さらに、当該機能を有する音声変換部を有していてもよい。

　文書検索システム２００は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部２０２が当該機能を有していてもよい。または、文書検索システム２００が、さらに、当該機能を有する文字認識部を有していてもよい。

［処理部２０２］
　処理部２０２は、入力部２０１、記憶部２０３、データベース２０４などから供給されたデータを用いて、処理を行う機能を有する。処理部２０２は、処理結果を、記憶部２０３、データベース２０４、表示部２０５などに供給することができる。

　処理部２０２は、実施の形態１に示す処理部１０６を含む。すなわち、処理部２０２は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフを作成する機能を有する。また、処理部２０２は、参照文書を解析する機能、および参照文書を評価する機能を有する。

　処理部２０２には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部２０２が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部２０２を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部２０２をオフ状態にすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。

　なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをＯｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ（ＯＳトランジスタ）と呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

　チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含むことが好ましい。元素Ｍは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）、またはスズ（Ｓｎ）であることが好ましい。元素Ｍに適用可能な他の元素としては、ホウ素（Ｂ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、タングステン（Ｗ）などがある。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

　チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。チャネル形成領域が有する金属酸化物は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

　また、処理部２０２には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。

　また、処理部２０２には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。

　処理部２０２は、例えば、演算回路または中央演算装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等を有する。

　処理部２０２は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＦＰＡＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ａｎａｌｏｇ　Ａｒｒａｙ）等のＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）によって実現された構成であってもよい。処理部２０２は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部２０３のうち少なくとも一方に格納される。

　処理部２０２はメインメモリを有していてもよい。メインメモリは、ＲＡＭ等の揮発性メモリ、及びＲＯＭ等の不揮発性メモリのうち少なくとも一方を有する。

　ＲＡＭとしては、例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等が用いられ、処理部２０２の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部２０３に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部２０２に直接アクセスされ、操作される。

　ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（Ｏｎｅ　Ｔｉｍｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ−ＥＰＲＯＭ（Ｕｌｔｒａ−Ｖｉｏｌｅｔ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

［記憶部２０３］
　記憶部２０３は、処理部２０２が実行するプログラムを記憶する機能を有する。また、記憶部２０３は、例えば、処理部２０２が生成した処理結果、及び、入力部２０１に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部２０３は、処理部２０２で生成したグラフ（例えば、実施の形態１に示すグラフ２１）、算出されたスコアの結果などを記憶する機能を有することが好ましい。

　記憶部２０３は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部２０３は、例えば、ＤＲＡＭ、ＳＲＡＭなどの揮発性メモリを有していてもよい。記憶部２０３は、例えば、ＲｅＲＡＭ（Ｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（Ｐｈａｓｅ−ｃｈａｎｇｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、磁気抵抗型メモリともいう）、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部２０３は、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等の記録メディアドライブを有していてもよい。

［データベース２０４］
　文書検索システム２００は、データベース２０４を有していてもよい。例えば、データベース２０４は、複数の参照文書を記憶する機能を有する。例えば、データベース２０４に記憶された当該複数の参照文書を対象として、本発明の一態様の文書を検索する方法を用いてもよい。また、データベース２０４には、概念辞書が格納されてもよい。

　なお、記憶部２０３及びデータベース２０４は互いに分離されていなくてもよい。例えば、文書検索システム２００は、記憶部２０３及びデータベース２０４の双方の機能を有する記憶ユニットを有していてもよい。

　なお、処理部２０２、記憶部２０３、及びデータベース２０４が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。

［表示部２０５］
　表示部２０５は、処理部２０２における処理結果を表示する機能を有する。また、表示部２０５は、参照文書および当該参照文書に対して算出されたスコアの結果を表示する機能を有する。また、表示部２０５は、検索用文章を表示する機能を有していてもよい。

　なお、文書検索システム２００は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。

［伝送路２０６］
　伝送路２０６は、各種データを伝達する機能を有する。入力部２０１、処理部２０２、記憶部２０３、データベース２０４、及び表示部２０５の間のデータの送受信は、伝送路２０６を介して行うことができる。例えば、検索用文章、当該文章の比較対象となる参照文書などのデータが、伝送路２０６を介して、送受信される。

＜文書検索システムの構成例２＞
　図１７に、文書検索システム２１０のブロック図を示す。文書検索システム２１０は、サーバ２２０と、端末２３０（パーソナルコンピュータなど）と、を有する。

　サーバ２２０は、処理部２０２、伝送路２１２、記憶部２１３、及び通信部２１７ａを有する。図１７では図示しないが、サーバ２２０は、さらに、入出力部などを有していてもよい。

　端末２３０は、入力部２０１、記憶部２０３、表示部２０５、伝送路２１６、通信部２１７ｂ、及び処理部２１８を有する。図１７では図示しないが、端末２３０は、さらに、データベースなどを有していてもよい。

　文書検索システム２１０のユーザは、端末２３０の入力部２０１に、文章を入力する。当該文章は、検索用文章であり、実施の形態１に示す文章２０に相当する。当該文章は、端末２３０の通信部２１７ｂからサーバ２２０の通信部２１７ａに送信される。

　通信部２１７ａが受信した上記文章は、伝送路２１２を介して、記憶部２１３に保存される。または、上記文章は、通信部２１７ａから、直接、処理部２０２に供給されてもよい。

　実施の形態１で説明した、グラフの作成、ならびに、参照文書の解析および評価は、高い処理能力が求められる。サーバ２２０が有する処理部２０２は、端末２３０が有する処理部２１８に比べて処理能力が高い。したがって、グラフの作成、ならびに、参照文書の解析および評価は、処理部２０２で行われることが好ましい。

　そして、処理部２０２によりスコアが算出される。スコアは、伝送路２１２を介して、記憶部２１３に保存される。または、スコアは、処理部２０２から、直接、通信部２１７ａに供給されてもよい。スコアは、サーバ２２０の通信部２１７ａから端末２３０の通信部２１７ｂに送信される。スコアは、端末２３０の表示部２０５に表示される。

［伝送路２１２及び伝送路２１６］
　伝送路２１２及び伝送路２１６は、データを伝達する機能を有する。処理部２０２、記憶部２１３、及び通信部２１７ａの間のデータの送受信は、伝送路２１２を介して行うことができる。入力部２０１、記憶部２０３、表示部２０５、通信部２１７ｂ、及び処理部２１８の間のデータの送受信は、伝送路２１６を介して行うことができる。

［処理部２０２及び処理部２１８］
　処理部２０２は、記憶部２１３及び通信部２１７ａなどから供給されたデータを用いて、処理を行う機能を有する。処理部２１８は、入力部２０１、記憶部２０３、表示部２０５、及び通信部２１７ｂなどから供給されたデータを用いて、処理を行う機能を有する。処理部２０２及び処理部２１８は、処理部２０２の説明を参照できる。処理部２０２は、処理部２１８に比べて処理能力が高いことが好ましい。

［記憶部２０３］
　記憶部２０３は、処理部２１８が実行するプログラムを記憶する機能を有する。また、記憶部２０３は、処理部２１８が生成した演算結果、通信部２１７ｂに入力されたデータ、及び入力部２０１に入力されたデータなどを記憶する機能を有する。

［記憶部２１３］
　記憶部２１３は、複数の参照文書、処理部２０２が生成した処理結果、及び通信部２１７ａに入力されたデータなどを記憶する機能を有する。

［通信部２１７ａ及び通信部２１７ｂ］
　通信部２１７ａ及び通信部２１７ｂを用いて、サーバ２２０と端末２３０との間で、データの送受信を行うことができる。通信部２１７ａ及び通信部２１７ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

　なお、サーバ２２０と端末２３０との通信は、Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ（ＷＷＷ）の基盤であるインターネット、イントラネット、エクストラネット、ＰＡＮ（Ｐｅｒｓｏｎａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＣＡＮ（Ｃａｍｐｕｓ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＭＡＮ（Ｍｅｔｒｏｐｏｌｉｔａｎ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＧＡＮ（Ｇｌｏｂａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のコンピュータネットワークに接続することで行ってもよい。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。

Ａ０：単語、Ａ１：単語、Ａ２：単語、Ａ１１：単語、Ａ１２：単語、Ａ２１：単語、Ａ２２：単語、ｒ２：値、ｗ１：距離、ｗ２：距離、ｗ１１：距離、ｗ１２：距離、ｗ２１：距離、ｗ２２：距離、２０：文章、２１：グラフ、２１Ａ：グラフ、２２＿ｉ：ノード、２２＿ｉ１：ノード、２２＿ｉ２：ノード、２２＿ｉ３：ノード、２２＿ｎ：ノード、２２＿ｎ−１：ノード、２２＿１：ノード、２２＿２：ノード、２２＿３：ノード、２２＿４：ノード、２２Ａ＿ｉ３：単語、２２Ａ＿ｍ１：単語群、２２Ａ＿ｍ２：単語群、２２Ａ＿１：単語、２３＿ｍ：エッジ、２３＿ｍ−１：エッジ、２３＿１：エッジ、２３＿２：エッジ、２３＿３：エッジ、２３Ａ＿ｍｍ：単語群、２４＿ｍ：局所グラフ、２４＿ｍｍ：局所グラフ、２４＿１：局所グラフ、２４＿２：局所グラフ、２４＿３：局所グラフ、３０＿１：文、３０＿２：文、３０＿３：文、３２＿ｉ１：ノード、３２＿ｉ２：ノード、３２＿ｉ３：ノード、３２Ａ＿ｉ：単語、３２Ａ＿ｉ１：単語、３２Ａ＿ｉ２：単語、３２Ａ＿ｉ３：単語、３２Ａ＿ｎ：単語、３２Ａ＿１：単語、３３：エッジ、３３Ａ：単語、４０＿ｑ：参照文書、４０＿ｑｑ：参照文書、４０＿１：参照文書、４０ａ：参照文書、４０ｂ：参照文書、４０ｃ：参照文書、４０ｄ：参照文書、４１＿ｐ：文、４１＿ｐ１：文、４１＿ｐ２：文、４１＿ｐｐ：文、４１＿１：文、４１ａ＿１：文、４１ａ＿５：文、４１ａ＿６：文、４１ａ＿８：文、４１ａ＿１０：文、４１ｂ＿１：文、４１ｂ＿５：文、４１ｂ＿６：文、４１ｂ＿１０：文、４１ｃ＿１：文、４１ｃ＿２：文、４１ｃ＿６：文、４１ｃ＿１０：文、４１ｄ＿１：文、４１ｄ＿２：文、４１ｄ＿１０：文、６１：点数、６２：点数、６３：点数、６４：点数、６４Ａ：点数、６４Ｂ：点数、１００：文書検索システム、１０１：入力部、１０４：出力部、１０６：処理部、１０７：記憶部、１１２：概念辞書、２００：文書検索システム、２０１：入力部、２０２：処理部、２０３：記憶部、２０４：データベース、２０５：表示部、２０６：伝送路、２１０：文書検索システム、２１２：伝送路、２１３：記憶部、２１６：伝送路、２１７ａ：通信部、２１７ｂ：通信部、２１８：処理部、２２０：サーバ、２３０：端末

Claims

　処理部を有し、
　前記処理部は、文章からグラフを作成する機能を有し、
　検索用グラフは、検索用文章から作成され、
　前記検索用グラフは、第１乃至第ｍ（ｍは１以上の整数）の検索用局所グラフを有し、
　前記第１乃至第ｍの検索用局所グラフは、それぞれ、２つのノードと、前記２つのノードの間のエッジから構成され、
　前記処理部は、さらに、参照文書から第１乃至第ｍの文の検索を行う機能を有し、
　第ｉ（ｉは１以上ｍ以下の整数）の文は、第（３ｉ−２）の単語、第（３ｉ−１）の単語、及び、第３ｉの単語を有し、
　前記第（３ｉ−２）の単語は、前記第ｉの検索用局所グラフにおける前記２つのノードの一方、前記２つのノードの一方の関連語、または前記２つのノードの一方の下位語であり、
　前記第（３ｉ−１）の単語は、前記第ｉの検索用局所グラフにおける前記２つのノードの他方、前記２つのノードの他方の関連語、または前記２つのノードの他方の下位語であり、
　前記第３ｉの単語は、前記第ｉの検索用局所グラフにおける前記エッジ、前記エッジの関連語、または前記エッジの下位語であり、
　前記処理部は、さらに、前記第１乃至第ｍの文のうち、前記参照文書に含まれる文の数に基づいて、前記参照文書のスコアに第１の点数を付与する機能を有する、
　文書検索システム。
　請求項１において、
　前記処理部は、
　前記参照文書が、第ｊ（ｊは１以上ｍ以下の整数）の文、および第ｋ（ｋはｊを除く、１以上ｍ以下の整数）の文を含む場合、前記第ｊの文と、前記第ｋの文との距離に基づいて、前記参照文書のスコアに第２の点数を付与する機能と、
　前記参照文書のスコアに付与された点数に基づいて、前記参照文書のスコアを算出する機能と、
　を有する、
　文書検索システム。
　請求項２において、
　前記処理部は、前記第ｊの文に含まれる第（３ｊ−２）の単語と、前記第ｊの検索用局所グラフにおける前記２つのノードの一方の元となる単語と、の概念の近さに基づいて、前記参照文書のスコアに第３の点数を付与する機能を有する、
　文書検索システム。
　請求項１乃至請求項３のいずれか一において、
　前記処理部は、複数の参照文書から、第ｌ（ｌは１以上ｍ以下の整数）の文に含まれる第（３ｌ−２）の単語および第（３ｌ−１）の単語を含む参照文書を抽出する機能を有する、
　文書検索システム。
　請求項１乃至請求項４のいずれか一において、
　前記処理部が有する、文章からグラフを作成する機能は、
　前記文章を複数のトークンに分割する機能と、
　係り受け解析を行う機能と、
　前記係り受け解析の結果に応じて、トークンの一部を連結する機能と、
　前記係り受け解析の結果に応じて、トークン間の連結関係を評価する機能と、
　前記トークン間の連結関係から、前記グラフを構築する機能と、
　を有する、
　文書検索システム。
　請求項５において、
　前記処理部が有する、前記文章からグラフを作成する機能は、さらに、代表語または上位語が存在するトークンを、前記代表語または前記上位語に置き換える機能を有する、
　文書検索システム。
　請求項１乃至請求項６のいずれか一において、
　前記処理部に加えて、入力部を有し、
　前記入力部は、前記検索用文章を前記処理部に供給する機能を有する、
　文書検索システム。
　請求項７において、
　前記処理部、および前記入力部に加えて、出力部を有し、
　前記出力部は、前記参照文書のスコアを供給する機能を有する、
　文書検索システム。