WO2021079230A1

WO2021079230A1 - 文書検索システム

Info

Publication number: WO2021079230A1
Application number: PCT/IB2020/059619
Authority: WO
Inventors: 桃純平; 郷戸宏充
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2019-10-25
Filing date: 2020-10-14
Publication date: 2021-04-29
Also published as: JPWO2021079230A1; US20230026321A1; CN114600096A

Abstract

文書の概念を考慮して、文書を検索する文書検索システムを提供する。　文書検索システム（１００）は、入力部（１０１）と、第１の処理部（１０２）と、格納部（１０５）と、第２の処理部（１０３）と、出力部（１０４）と、を有し、入力部（１０１）は、第１の文書（２０）を入力する機能を有し、第１の処理部（１０２）は、第１の文書（２０）から、第１のグラフ構造（２１）を作成する機能を有し、格納部（１０５）は、第２のグラフ構造（１１）を格納する機能を有し、第２の処理部（１０３）は、第１のグラフ構造（２１）と、第２のグラフ構造（１１）と、の類似度を算出する機能を有し、出力部（１０４）は、情報を供給する機能を有し、第１の処理部（１０２）は、第１の文書（２０）を、複数のトークンに分割する機能を有し、第１のグラフ構造（２１）のノードおよびエッジは、ラベルを有し、ラベルは、複数のトークンから構成される。

Description

文書検索システム

　本発明の一態様は、文書検索システムに関する。また、本発明の一態様は、文書を検索する方法に関する。

　文書を検索するための、様々な検索技術が提供されている。従来の文書の検索では、単語（文字列）の検索が主に用いられる。例えば、ｗｅｂページではページランクなどが利用され、特許分野ではシソーラスが利用されている。また、単語の集合を取ってＪａｃｃａｒｄ係数、Ｄｉｃｅ係数、Ｓｉｍｐｓｏｎ係数などを用いて、文書の類似度を表現する方法がある。また、ｔｆ−ｉｄｆ、Ｂａｇ　ｏｆ　Ｗｏｒｄｓ（ＢｏＷ）、Ｄｏｃ２Ｖｅｃなどを用いて、文書をベクトル化し、コサイン類似度を比較するといった手法がある。また、ハミング距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離などを用いて、文章の文字列の類似度を評価して所望の文書を探す方法がある。また、特許文献１では、文を構成する構成単位をストリング構造に変換し、ストリング構造間の距離を算出することで、文が類似しているかを比較する言語処理装置が開示されている。

特開２００５−２５８６２４号公報

　様々な分野の文書を検索するには、より精度の高い文書検索方法が求められる。例えば、特許書類（明細書、特許請求の範囲など）や契約書などの文書では、似通った単語が多用されることが多い。よって、文書に使われている単語のみならず、文書の概念を考慮した検索技術が重要となる。

　そこで、本発明の一態様は、文書の概念を考慮した、文書検索システムを提供することを課題の一とする。また、本発明の一態様は、文書の概念を考慮した、文書を検索する方法を提供することを課題の一とする。

　なお、これらの課題の記載は、他の課題の存在を妨げるものではない。なお、本発明の一態様は、これらの課題の全てを解決する必要はないものとする。なお、これら以外の課題は、明細書、図面、請求項などの記載から、自ずと明らかとなるものであり、明細書、図面、請求項などの記載から、これら以外の課題を抽出することが可能である。

　本発明の一態様は、入力部と、第１の処理部と、格納部と、第２の処理部と、出力部と、を有する文書検索システムである。入力部は、第１の文書を入力する機能を有し、第１の処理部は、第１の文書から、第１のグラフ構造を作成する機能を有し、格納部は、第２のグラフ構造を格納する機能を有し、第２の処理部は、第１のグラフ構造と、第２のグラフ構造と、の類似度を算出する機能を有し、出力部は、情報を供給する機能を有し、第１の処理部は、第１の文書を、複数のトークンに分割する機能を有し、第１のグラフ構造のノードおよびエッジは、ラベルを有し、ラベルは、複数のトークンから構成される。

　上記文書検索システムにおいて、第１の処理部は、トークンに品詞を付与する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第１の処理部は、係り受け解析を行う機能を有し、第１の処理部は、係り受け解析の結果に応じて、トークンの一部を連結する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第１の処理部は、代表語または上位語が存在するトークンを、代表語または上位語に置き換える機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第２のグラフ構造は、第１の処理部にて、第２の文書から、作成される、ことが好ましい。

　また、上記文書検索システムにおいて、グラフ構造が有するエッジのラベルが、対義語を有する場合、第１の処理部は、グラフ構造のエッジの向きを反転させ、かつ、エッジのラベルを対義語に置き換えることで、新たなグラフ構造を生成する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第２の処理部は、第１のグラフ構造、および第２のグラフ構造を、ベクトル化し、ベクトル化された第１のグラフ構造と、ベクトル化された第２のグラフ構造と、のベクトルの類似度を評価する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第２の処理部は、第１のグラフ構造、および第２のグラフ構造を、Ｗｅｉｓｆｅｉｌｅｒ−Ｌｅｈｍａｎカーネルによりベクトル化する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第１のトークンに付与された品詞が名詞であり、かつ、第１のトークンの直前に位置する第２のトークンに付与された品詞が形容詞である場合、第１の処理部は、第２のトークンと、第１のトークンと、を連結する機能を有する、ことが好ましい。

　また、上記文書検索システムにおいて、第３のトークンに付与された品詞、および第３のトークンの直後に位置する第４のトークンに付与された品詞がいずれも名詞である場合、第１の処理部は、第３のトークンと、第４のトークンと、を連結する機能を有する、ことが好ましい。

　本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。また、本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。

　文書の各文を解析して概念的なグラフ構造を取得し、グラフ構造の類似度を算出することで、概念的に近い文書の検索を可能とする。また、従来の検索方法を組み合わせることで、順位付けなどの精度を上げることができる。

　なお、本発明の一態様の効果は、上記列挙した効果に限定されない。上記列挙した効果は、他の効果の存在を妨げるものではない。なお、他の効果は、以下の記載で述べる、本項目で言及していない効果である。本項目で言及していない効果は、当業者であれば、明細書、図面などの記載から導き出せるものであり、これらの記載から適宜抽出することができる。なお、本発明の一態様は、上記列挙した効果、及び／又は他の効果のうち、少なくとも一つの効果を有するものである。したがって本発明の一態様は、場合によっては、上記列挙した効果を有さない場合もある。

図１は、文書検索システムの一例を示す図である。
図２は、文書を検索する方法の一例を示すフローチャートである。
図３Ａ乃至図３Ｃは、各工程で得られる結果を示す図である。
図４Ａ乃至図４Ｃは、各工程で得られる結果を示す図である。
図５Ａ乃至図５Ｄは、各工程で得られる結果を示す図である。
図６Ａ乃至図６Ｃは、各工程で得られる結果を示す図である、
図７は、文書検索システムのハードウェアの一例を示す図である。
図８は、文書検索システムのハードウェアの一例を示す図である。

　実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨およびその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。したがって、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

　なお、以下に説明する発明の構成において、同一部分または同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。

　また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。

　また、本明細書にて用いる「第１」、「第２」、「第３」という序数詞は、構成要素の混同を避けるために付したものであり、数的に限定するものではないことを付記する。

（実施の形態１）
　本実施の形態では、本発明の一態様の、文書検索システム、および文書を検索する方法について、図１乃至図４Ｃを用いて説明する。

＜文書検索システム＞
　図１は、文書検索システム１００の構成を示す図である。つまり、図１は、本発明の一態様である文書検索システムの構成の一例でもあるといえる。

　文書検索システム１００は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに文書検索システム１００の処理部を設け、クライアントＰＣからネットワーク経由でアクセスして利用する構成としてもよい。

　文書検索システム１００は、図１に示すように、入力部１０１、グラフ構造作成部１０２、類似度算出部１０３、出力部１０４、および格納部１０５を備える。なお、上記処理部は、グラフ構造作成部１０２、および類似度算出部１０３を含む。

　入力部１０１は、文書２０を入力する。文書２０は、ユーザが検索用に指定する文書である。文書２０は、テキストデータ、音声データ、または画像データである。入力部１０１として、キーボード、マウス、タッチセンサ、マイク、スキャナ、カメラなどの入力デバイスがある。

　文書検索システム１００は、音声データをテキストデータに変換する機能を有していてもよい。例えば、グラフ構造作成部１０２が当該機能を有していてもよい。または、文書検索システム１００が、さらに、当該機能を有する音声テキスト変換部を有していてもよい。

　文書検索システム１００は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、グラフ構造作成部１０２が当該機能を有していてもよい。または、文書検索システム１００が、さらに、当該機能を有する文字認識部を有していてもよい。

　格納部１０５は、文書１０＿１乃至文書１０＿ｎ（ｎは２以上の整数である。）を格納する。文書１０＿１乃至文書１０＿ｎは、文書２０の比較対象となる文書である。以降では、文書１０＿１乃至文書１０＿ｎをまとめて、複数の文書１０と表記する場合がある。複数の文書１０は、入力部１０１、記憶媒体、通信などを介して、格納部１０５に格納される。

　格納部１０５に格納されている複数の文書１０は、テキストデータであることが好ましい。例えば、音声データ、または画像データをテキストデータに変換することで、データサイズを小さくすることができ、格納部１０５への負荷を小さくすることができる。

　また、格納部１０５は、グラフ構造１１＿１乃至グラフ構造１１＿ｎを格納する。グラフ構造１１＿１乃至グラフ構造１１＿ｎは、それぞれ、文書１０＿１乃至文書１０＿ｎに対するグラフ構造である。なお、グラフ構造１１＿１乃至グラフ構造１１＿ｎは、それぞれ、文書１０＿１乃至文書１０＿ｎから、グラフ構造作成部１０２にて作成される。以降では、グラフ構造１１＿１乃至グラフ構造１１＿ｎをまとめて、複数のグラフ構造１１と表記する場合がある。

　文書１０＿ｉ（ｉは１以上ｎ以下の整数である）と、グラフ構造１１＿ｉとには、同一のＩＤが割り振られていることが好ましい。これにより、文書１０＿ｉと、グラフ構造１１＿ｉとを、関連付けることができる。グラフ構造１１＿１乃至グラフ構造１１＿ｎを予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。

　なお、格納部１０５には、文書２０が格納されてもよい。また、文書２０に対するグラフ構造２１が格納されてもよい。なお、グラフ構造２１は、文書２０から、グラフ構造作成部１０２にて作成される。

　グラフ構造作成部１０２は、文書からグラフ構造を作成する機能を有する。よって、グラフ構造作成部１０２は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有することが好ましい。また、グラフ構造作成部１０２は、概念辞書１１２を参照する機能を有する。概念辞書１１２を参照し、グラフ構造作成部１０２にて、文書に対するグラフ構造が作成される。当該文書は、文書２０、および複数の文書１０である。

　グラフ構造は、有向グラフであることが好ましい。有向グラフとは、ノードと、向きを持つエッジと、により構成されたグラフである。また、グラフ構造は、ノードおよびエッジにラベルが付与された有向グラフであることがより好ましい。ラベルが付与された有向グラフのグラフ構造を用いることで、類似度および検索の精度を向上させることができる。

　なお、図１では、概念辞書１１２が、文書検索システム１００とは異なる装置に設けられている構成を示しているが、これに限られない。概念辞書１１２は、文書検索システム１００に備えられてもよい。

　また、形態素解析を行う機能、および係り受け解析を行う機能は、文書検索システム１００とは異なる装置に備えられてもよい。このとき、文書検索システム１００は、上記文書を当該装置に送信し、当該装置で行われた形態素解析、および係り受け解析の結果のデータを受信し、受信したデータをグラフ構造作成部１０２に送信するとよい。

　類似度算出部１０３は、第１のグラフ構造と、第２のグラフ構造との類似度を算出する機能を有する。第１のグラフ構造は、グラフ構造２１である。第２のグラフ構造は、複数のグラフ構造１１のうちの一または複数である。つまり、類似度算出部１０３にて、第１の文書と、第２の文書との類似度が評価される。第１の文書は、文書２０である。第２の文書は、複数の文書１０のうちの一または複数である。

　出力部１０４は、情報を供給する機能を有する。当該情報とは、類似度算出部１０３で算出された類似度の結果に関する情報である。例えば、当該情報は、複数の文書１０のうち、文書２０との類似度が最も高い文書である。または、当該情報は、文書１０＿ｉと、文書２０および文書１０＿ｉの類似度と、の組を、類似度の高い順に並び変えられた結果である。このとき、当該組の数は、２以上ｎ以下である。

　上記情報は、例えば、文字列、数値、グラフなどの視覚情報、音声情報などとして供給される。出力部１０４として、ディスプレイ、スピーカーなどの出力デバイスがある。

　文書検索システム１００は、テキストデータを音声データに変換する機能を有していてもよい。例えば、文書検索システム１００が、さらに、当該機能を有するテキスト音声変換部を有していてもよい。

　以上が、文書検索システム１００の構成についての説明である。本発明の一態様である文書検索システムを用いることで、文書２０と概念的に類似した文書を、複数の文書１０の中から検索することができる。また、文書２０と概念的に類似した文書の一覧を、複数の文書１０の中から検索することができる。

　本発明の一態様により、文書の概念を考慮した、文書検索システムを提供することができる。

＜文書を検索する方法＞
　図２は、文書検索システム１００が実行する処理の流れを説明するフローチャートである。つまり、図２は、本発明の一態様である文書を検索する方法の一例を示すフローチャートでもあるといえる。

　本発明の一態様の文書を検索する方法では、文書を解析してグラフ構造にしたのちに、グラフ構造の類似度をＷｅｉｓｆｅｉｌｅｒ−Ｌｅｈｍａｎ（ＷＬ）カーネルなどによって比較することで、文書の検索を行う。

　ステップＳ００１は、複数の文書１０を取得する工程である。複数の文書１０は、格納部１０５に格納されている文書である。複数の文書１０は、入力部１０１、記憶媒体、通信などを介して、格納部１０５に格納される。

　複数の文書１０が特許請求の範囲（クレーム）である場合、ステップＳ００２へ進む前に、複数の文書１０のそれぞれに対して、文書のクリーニングを行ってもよい。文書のクリーニングとは、例えば、セミコロンを削除する、コロンをカンマに置き換える、などである。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。

　なお、上記文書のクリーニングは、複数の文書１０が特許請求の範囲（クレーム）以外の場合であっても、必要に応じて適宜行うとよい。また、複数の文書１０は、上記文書のクリーニングが行われた後に、格納部１０５に格納されてもよい。

　ステップＳ００２は、グラフ構造作成部１０２にて、複数の文書１０のそれぞれに対して形態素解析を行う工程である。これにより、複数の文書１０のそれぞれは、形態素に分割される。本明細書では、分割された形態素を、トークンと呼ぶ場合がある。

　ステップＳ００２では、上記分割された形態素（トークン）のそれぞれに対して、形態素（トークン）の品詞を判別し、品詞ラベルを関連付けしておくことが好ましい。形態素（トークン）に品詞ラベルを関連付けしておくことで、係り受け解析の精度の向上を図ることができる。なお、本明細書等では、形態素（トークン）と品詞ラベルを関連付けすることを、形態素（トークン）に品詞を付与すると言い換えることができる。

　グラフ構造作成部１０２が、形態素解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた形態素解析プログラム（形態素解析器ともいう。）を用いて、複数の文書１０のそれぞれに対して形態素解析を行ってもよい。このとき、ステップＳ００２は、複数の文書１０を当該装置に送信し、当該装置にて形態素解析を行い、形態素解析の結果のデータを受信する工程となる。

　ステップＳ００３は、グラフ構造作成部１０２にて、係り受け解析を行う工程である。つまり、分割された形態素（トークン）のそれぞれの係り受けに応じて、複数のトークンの一部を結合する工程である。例えば、トークンが特定の条件を満たす場合、条件を満たすトークン同士を結合して、新たなトークンを生成する。

　文書に日本語が使用されている場合、具体的には、第ｊ（ｊは２以上の整数である。）のトークンが名詞であり、且つ、第ｊのトークンの直前に位置するトークン（第（ｊ−１）のトークンと呼ぶ。）が形容詞である場合、第（ｊ−１）のトークンと、第ｊのトークンとを結合して、新たなトークンを生成する。また、第ｊのトークンが名詞であり、且つ、第ｊのトークンの直後に位置するトークン（第（ｊ＋１）のトークンと呼ぶ。）が名詞である場合、第ｊのトークンと、第（ｊ＋１）のトークンとを結合して、新たなトークンを生成する。

　なお、上記の条件は、文書に使用される言語に合わせて、適宜設定するとよい。

　上記係り受け解析には、複合語解析が含まれることが好ましい。当該係り受け解析を行うことで、複数のトークンの一部を結合し、新たなトークンとして、複合語を生成することができる。これにより、概念辞書１１２に登録されていない複合語が文書に含まれていても、当該文書のトークンへの分割を高い精度で行うことができる。

　グラフ構造作成部１０２が、係り受け解析を行う機能を有さない場合、文書検索システムとは異なる装置に組み込まれた係り受け解析プログラム（係り受け解析器ともいう。）を用いて、係り受け解析を行ってもよい。このとき、ステップＳ００３は、分割された形態素（トークン）を当該装置に送信し、当該装置にて係り受け解析を行い、係り受け解析の結果のデータを受信する工程となる。

　ステップＳ００４は、グラフ構造作成部１０２にて、トークンを抽象化する工程である。例えば、トークンに含まれる単語を解析して、代表語を取得する。また、当該代表語に上位語があれば、当該上位語を取得する。そして、当該トークンを、取得された当該代表語または当該上位語に置き換える。ここで、代表語とは、同義語群のグループの見出し語（レンマともいう。）である。また、上位語とは、代表語の上位概念に該当する代表語である。つまり、トークンの抽象化とは、トークンを代表語または上位語に置き換えることを指す。なお、トークンが代表語または上位語である場合、当該トークンは置き換えなくてもよい。

　置き換える上位語の階層の上限は、１以上２以下であることが好ましく、１であることがより好ましい。なお、置き換える上位語の階層の上限は、指定できるようにしてもよい。これにより、トークンが過剰に上位概念化されるのを抑制することができる。

　トークンの適切な抽象度合いは、分野によって異なる。そこで、分野に応じた機械学習によって、トークンの抽象化を行うことが好ましい。トークンの抽象化は、例えば、トークンを、当該トークンに含まれる形態素でベクトル化して、分類器によって分類することで実施される。なお、当該分類器として、決定木、サポートベクターマシン、ランダムフォレスト、多層パーセプトロンなどのアルゴリズムを用いてもよい。具体的には、「酸化物半導体」、「アモルファス半導体」、「シリコン半導体」、および「ＧａＡｓ半導体」を「半導体」に分類するとよい。また、「酸化物半導体層」、および「酸化物半導体膜」、「アモルファス半導体層」、「アモルファス半導体膜」、「シリコン半導体層」、「シリコン半導体膜」、「ＧａＡｓ半導体層」および「ＧａＡｓ半導体膜」も「半導体」に分類するとよい。

　また、分類器を用いて、トークンに含まれる形態素を抽出するべきか否かを分類させてもよい。例えば、「酸化物半導体層」というトークンを抽象化する場合、当該トークンを形態素に再び分解し、分解された形態素である「酸化」、「物」、「半導体」、および「層」を分類器に入力する。分類器に入力した結果、「半導体」に分類される場合、当該トークンを「半導体」に置き換える。これにより、当該トークンを抽象化することができる。

　上記機械学習アルゴリズムのほかに、条件付き確率場（Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄ：ＣＲＦ）を用いてもよい。または、ＣＲＦと上記の方法とを組み合わせてもよい。

　トークンを抽象化することで、文書を概念的に把握することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。

　代表語および上位語の取得は、概念辞書を利用してもよいし、機械学習による分類を行ってもよい。当該概念辞書として、文書検索システム１００とは異なる装置に設けられている概念辞書１１２を用いてもよいし、文書検索システム１００に備えられた概念辞書を用いてもよい。

　ステップＳ００５は、グラフ構造作成部１０２にて、複数のグラフ構造１１を作成する工程である。つまり、ステップＳ００４までに用意されたトークンを、ノードまたはエッジとして、グラフ構造を作成する工程である。具体的には、文書中に、名詞句である第１のトークンおよび第２のトークンと、第１のトークンおよび第２のトークンの関係を表す第３のトークンとがある場合、第１のトークンと第２のトークンのそれぞれを、ノードおよび当該ノードのラベルとし、第３のトークンを、エッジおよび当該エッジのラベルとするグラフ構造を作成する。つまり、ノードのラベルおよびエッジのラベルは、ステップＳ００４までに用意されたトークンから構成される。

　例えば、文書が特許請求の範囲（クレーム）である場合、グラフ構造のノードは構成要素であり、グラフ構造のエッジは構成要素間の関係である。また、文書が契約文書などである場合、グラフ構造のノードは甲および乙であり、グラフ構造のエッジは子細な条件である。

　グラフ構造は、トークン同士の係り受けの関係から、ルールに基づいて作成してもよい。また、ＣＲＦを用いて、トークンのリストを元に、ノードおよびエッジにラベルを付与する機械学習を行ってもよい。これにより、トークンのリストを元に、ノードおよびエッジにラベルを付与することができる。また、再帰型ニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＲＮＮ）、長期短期記憶（Ｌｏｎｇ　ｓｈｏｒｔ−ｔｅｒｍ　ｍｅｍｏｒｙ：ＬＳＴＭ）などを用いて、トークンのリストを入力して、ノードとエッジの向きを出力させるＳｅｑ２Ｓｅｑモデルの学習を行ってもよい。これにより、トークンのリストから、ノードとエッジの向きを出力することができる。

　グラフ構造作成部１０２は、エッジの向きを反転させ、かつ、当該エッジのラベルを当該エッジのラベルの対義語に置き換える機能を有してもよい。例えば、グラフ構造が、第１のエッジと、第１のエッジのラベルと対義語の関係にあるラベルが付与された第２のエッジと、を有する場合、第２のエッジの向きを反転させ、かつ、第２のエッジのラベルを第２のエッジのラベルの対義語（つまり、第１のエッジのラベル）に置き換える処理を行うことで、新たにグラフ構造を作成してもよい。これにより、概念上同じ構造を網羅することができる。したがって、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。

　なお、上記処理は、文書中の出現頻度が低い方のエッジに対して行うとよい。つまり、第２のエッジの出現頻度が、第１のエッジの出現頻度よりも低いまたは同じである場合、第２のエッジの向きを反転させ、かつ、第２のエッジのラベルを第２のエッジのラベルの対義語（つまり、第１のエッジのラベル）に置き換える処理を行うとよい。これにより、新たなグラフ構造を作成する頻度を減らすことができる。

　ステップＳ００４およびステップＳ００５の順序は入れ替えてもよい。ステップＳ００４およびステップＳ００５の順序を入れ替える場合、グラフ構造が作成された後、当該グラフ構造に含まれるノードおよびエッジが抽象化される。よって、ステップＳ００４およびステップＳ００５の順序を入れ替えても、文書から、抽象化されたグラフ構造を作成することができる。

　ステップＳ００１乃至ステップＳ００５により、複数の文書１０から、複数のグラフ構造１１を作成することができる。なお、ステップＳ００１乃至ステップＳ００５は、類似度を算出する前までに実施されることが好ましい。複数のグラフ構造１１を予め作成しておくことで、文書を検索するのに要する時間を短縮することができる。

　ステップＳ０１１は、文書２０を取得する工程である。文書２０は、入力部１０１にて入力された文書である。なお、文書２０が、音声データまたは画像データの、テキストデータ以外のデータである場合、ステップＳ０１２へ進む前に、文書２０をテキストデータに変換する。テキストデータへの変換は、グラフ構造作成部１０２が有する音声データをテキストデータに変換する機能、もしくは音声テキスト変換部、または、グラフ構造作成部１０２が有する光学文字認識（ＯＣＲ）機能、もしくは文字認識部を用いるとよい。

　文書２０が特許請求の範囲（クレーム）である場合、ステップＳ０１２へ進む前に、文書２０に対して、上述した文書のクリーニングを行ってもよい。文書のクリーニングを行うことで、形態素解析の精度を高めることができる。なお、当該文書のクリーニングは、文書２０が特許請求の範囲（クレーム）以外の場合であっても、必要に応じて適宜行うとよい。

　ステップＳ０１２は、グラフ構造作成部１０２にて、文書２０に対して形態素解析を行う工程である。なお、ステップＳ０１２は、ステップＳ００２と同様の工程であるため、ステップＳ００２の説明を参酌することができる。

　ステップＳ０１３は、グラフ構造作成部１０２にて、係り受け解析を行う工程である。なお、ステップＳ０１３は、ステップＳ００３と同様の工程であるため、ステップＳ００３の説明を参酌することができる。

　ステップＳ０１４は、グラフ構造作成部１０２にて、トークンを抽象化する工程である。なお、ステップＳ０１４は、ステップＳ００４と同様の工程であるため、ステップＳ００４の説明を参酌することができる。

　ステップＳ０１５は、グラフ構造作成部１０２にて、グラフ構造２１を作成する工程である。なお、ステップＳ０１５は、ステップＳ００５と同様の工程であるため、ステップＳ００５の説明を参酌することができる。

　ステップＳ０１６は、類似度算出部１０３にて、文書２０と、複数の文書１０のそれぞれとの類似度を評価する工程である。具体的には、グラフ構造２１、および複数のグラフ構造１１をＷＬカーネルによりベクトル化し、ベクトル化されたグラフ構造２１と、ベクトル化された複数のグラフ構造１１のそれぞれと、のベクトルの類似度を評価する。

　ステップＳ０１７は、出力部１０４にて、情報を出力する工程である。当該情報とは、類似度算出部１０３にて算出された類似度の結果に関する情報である。

　以上が、文書を検索する方法についての説明である。本発明の一態様である文書を検索する方法を用いることで、検索用に指定する文書と概念的に近い文書を検索することができる。また、検索用に指定する文書と概念的に近い文書を順位付けされた状態で検索することができる。また、文書の構成や表現に影響を受けにくく、文書の概念的な要因による検索を行うことができる。

　本発明の一態様により、文書の概念を考慮した、文書を検索する方法を提供することができる。

＜＜文書からグラフ構造を作成するまでの実例＞＞
　上述した文書を検索する方法のうち、文書からグラフ構造を作成するまでの実例について、図３Ａ乃至図６Ｃを用いて説明する。

　はじめに、「酸化物半導体層は絶縁体層の上方にある（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ　ＨＡ　ＺＥＴＳＵＥＮＴＡＩＳＯＵ　ＮＯ　ＪＯＵＨＯＵ　ＮＩ　ＡＲＵ）」（図３Ａ参照。）という、日本語が使用された文書を例に挙げて説明する。なお、図３Ｂ、図３Ｃ、および図４Ａに示す角丸四角形はトークンであり、角丸四角形の下方には当該トークンに付与された品詞を記載している。

　まず、上記文書に対して形態素解析を行うことで、上記文書をトークンに分割し、各トークンに品詞を付与する（図２に示す、ステップＳ００２およびステップＳ０１２）。その結果、図３Ｂに示すような結果が得られる。具体的には、上記文書は、「“酸化（ＳＡＮＫＡ）”（名詞）｜“物（ＢＵＴＳＵ）”（名詞）｜“半導体（ＨＡＮＤＯＵＴＡＩ）”（名詞）｜“層（ＳＯＵ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁（ＺＥＴＳＵＥＮ）”（名詞）｜“体（ＴＡＩ）”（名詞）｜“層（ＳＯＵ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上方（ＪＯＵＨＯＵ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」のように、トークンに分割され、トークンのそれぞれに品詞が付与される。

　次に、係り受け解析を行う（図２に示す、ステップＳ００３およびステップＳ０１３）。その結果、図３Ｃに示すような結果が得られる。具体的には、“酸化（ＳＡＮＫＡ）”および“物（ＢＵＴＳＵ）”、“物（ＢＵＴＳＵ）”および“半導体（ＨＡＮＤＯＵＴＡＩ）”、ならびに、“半導体（ＨＡＮＤＯＵＴＡＩ）”および“層（ＳＯＵ）”は、ステップＳ００３で説明した条件を満たす。したがって、４つのトークン（“酸化（ＳＡＮＫＡ）”、“物（ＢＵＴＳＵ）”、“半導体（ＨＡＮＤＯＵＴＡＩ）”、“層（ＳＯＵ）”）は結合され、１つのトークン（“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”）に置き換えることができる。また、“絶縁（ＺＥＴＳＵＥＮ）”および“体（ＴＡＩ）”、ならびに、“体（ＴＡＩ）”および“層（ＳＯＵ）”は、ステップＳ００３で説明した条件を満たす。したがって、３つのトークン（“絶縁（ＺＥＴＳＵＥＮ）”、“体（ＴＡＩ）”、“層（ＳＯＵ）”）は結合され、１つのトークン（“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”）に置き換えることができる。これにより、上記文書は、「“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上方（ＪＯＵＨＯＵ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」となる。

　次に、トークンの抽象化を行う（図２に示す、ステップＳ００４およびステップＳ０１４）。その結果、図４Ａに示すような結果が得られる。具体的には、“酸化物半導体層（ＳＡＮＫＡＢＵＴＳＵＨＡＮＤＯＵＴＡＩＳＯＵ）”は、“半導体（ＨＡＮＤＯＵＴＡＩ）”という上位語に置き換えられる。また、“絶縁体層（ＺＥＴＳＵＥＮＴＡＩＳＯＵ）”は、“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”という上位語に置き換えられる。また、“上方（ＪＯＵＨＯＵ）”は、“上（ＵＥ）”という代表語に置き換えられる。これにより、上記文書は、「“半導体（ＨＡＮＤＯＵＴＡＩ）”（名詞）｜“は（ＨＡ）”（助詞）｜“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”（名詞）｜“の（ＮＯ）”（助詞）｜“上（ＵＥ）”（名詞）｜“に（ＮＩ）”（助詞）｜“ある（ＡＲＵ）”（動詞）」と抽象化される。

　次に、グラフ構造を作成する（図２に示す、ステップＳ００５およびステップＳ０１５）。その結果、図４Ｂに示すような結果が得られる。具体的には、“半導体（ＨＡＮＤＯＵＴＡＩ）”、および“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”は、グラフ構造のノードおよび当該ノードのラベルとなり、“上（ＵＥ）”は、グラフ構造のエッジおよび当該エッジのラベルとなる。

　ここで、“上（ＵＥ）”の対義語は“下（ＳＨＩＴＡ）”である。そこで、図４Ｂに示すグラフ構造の矢印を反転させ、かつ、図４Ｂに示すグラフ構造のエッジおよび当該エッジのラベルである“上（ＵＥ）”を“下（ＳＨＩＴＡ）”に置き換えることで、図４Ｃに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。

　図４Ｂ、図４Ｃに示す矢印は、文書中に先に出現するノード（上記文書の場合、“半導体（ＨＡＮＤＯＵＴＡＩ）”）から、後に出現するノード（上記文書の場合、“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”）に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“絶縁体（ＺＥＴＳＵＥＮＴＡＩ）”であるノードとし、矢印の終点を、ラベルが“半導体（ＨＡＮＤＯＵＴＡＩ）”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“上（ＵＥ）”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。

　以上より、上記文書から、抽象化されたグラフ構造を作成することができる。

　次に、「Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ　ｃｏｍｐｒｉｓｉｎｇ：ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ　ｏｖｅｒ　ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ．」（図５Ａ参照。）という、英語が使用された文書を例に挙げて説明する。なお、図５Ｃ、図５Ｄ、および図６Ａに示す角丸四角形はトークンである。なお、ここでは、トークンに品詞を付与していない例を示すが、トークンに品詞を付与してもよい。

　まず、上記文書に対して、文書のクリーニングを行う。ここでは、セミコロンを削除する。その結果、図５Ｂに示すような結果が得られる。

　次に、上記文書に対して、形態素解析を行うことで、上記文書をトークンに分割する（図２に示す、ステップＳ００２およびステップＳ０１２）。その結果、図５Ｃに示すような結果が得られる。具体的には、上記文書は、「“Ａ”｜“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”｜“ｄｅｖｉｃｅ”｜“ｃｏｍｐｒｉｓｉｎｇ”｜“ａｎ”｜“ｏｘｉｄｅ”｜“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”｜“ｌａｙｅｒ”｜“ｏｖｅｒ”｜“ａｎ”｜“ｉｎｓｕｌａｔｏｒ”｜“ｌａｙｅｒ”」となる。

　次に、係り受け解析を行う（図２に示す、ステップＳ００３およびステップＳ０１３）。その結果、図５Ｄに示すような結果が得られる。具体的には、３つのトークン（“Ａ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、“ｄｅｖｉｃｅ”）は結合され、１つのトークン（“Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ”）に置き換えることができる。また、４つのトークン（“ａｎ”、“ｏｘｉｄｅ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、“ｌａｙｅｒ”）は結合され、１つのトークン（“ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ”）に置き換えることができる。また、３つのトークン（“ａｎ”、“ｉｎｓｕｌａｔｏｒ”、“ｌａｙｅｒ”）は結合され、１つのトークン（“ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ”）に置き換えることができる。これにより、上記文書は、「“Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ”｜“ｃｏｍｐｒｉｓｉｎｇ”｜“ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ”｜“ｏｖｅｒ”｜“ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ”」となる。

　次に、トークンの抽象化を行う（図２に示す、ステップＳ００４およびステップＳ０１４）。その結果、図６Ａに示すような結果が得られる。具体的には、“Ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｄｅｖｉｃｅ”は、“ｄｅｖｉｃｅ”という上位語に置き換えられる。また、“ａｎ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ　ｌａｙｅｒ”は、“ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ”という上位語に置き換えられる。また、“ａｎ　ｉｎｓｕｌａｔｏｒ　ｌａｙｅｒ”は、“ａｎ　ｉｎｓｕｌａｔｏｒ”という上位語に置き換えられる。これにより、上記文書は、「“ｄｅｖｉｃｅ”｜“ｃｏｍｐｒｉｓｉｎｇ”｜“ａ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ”｜“ｏｖｅｒ”｜“ａｎ　ｉｎｓｕｌａｔｏｒ”」と抽象化される。

　次に、グラフ構造を作成する（図２に示す、ステップＳ００５およびステップＳ０１５）。その結果、図６Ｂに示すような結果が得られる。具体的には、“ｄｅｖｅｉｃｅ”、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”、および“ｉｎｓｕｌａｔｏｒ”のそれぞれは、グラフ構造のノードおよび当該ノードのラベルとなり、“ｃｏｍｐｒｉｓｉｎｇ”、および“ｏｖｅｒ”のそれぞれは、グラフ構造のエッジおよび当該エッジのラベルとなる。

　ここで、“ｏｖｅｒ”の対義語は“ｕｎｄｅｒ”である。そこで、図６Ｂに示すグラフ構造の矢印を反転させ、かつ、図６Ｂに示すグラフ構造のエッジおよび当該エッジのラベルである“ｏｖｅｒ”を“ｕｎｄｅｒ”に置き換えることで、図６Ｃに示すグラフ構造を新たに生成してもよい。これにより、概念上同じ構造を網羅することができる。

　図６Ｂ、図６Ｃに示す矢印は、文書中に先に出現するノード（上記文書の場合、“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”）から、後に出現するノード（上記文書の場合、“ｉｎｓｕｌａｔｏｒ”）に向かうように図示されている。つまり、矢印の始点を、先に出現するノードとし、矢印の終点を、後に出現するノードとしている。なお、本実施の形態ではこれに限られない。例えば、位置関係などの単語間の意味的な関係を元にして、矢印の向きを決定してもよい。具体的には、矢印の始点を、ラベルが“ｉｎｓｕｌａｔｏｒ”であるノードとし、矢印の終点を、ラベルが“ｓｅｍｉｃｏｎｄｕｃｔｏｒ”であるノードとし、これらのノード間のエッジおよび当該エッジのラベルを“ｏｖｅｒ”とするグラフ構造を作成してもよい。これにより、グラフ構造を直感的に理解することができる。ただし、矢印の向きの決定方法は、文書を検索する方法において、統一する必要がある。

　なお、文書からグラフ構造を作成するまでの工程を、日本語が使用された文書、および英語が使用された文書を例に挙げて説明したが、文書の言語は、日本語および英語に限られない。中国語、韓国語、ドイツ語、フランス語、ロシア語、ヒンディー語などの言語が使用された文書においても、同様の工程を経ることで、文書からグラフ構造を作成することができる。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、１つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

（実施の形態２）
　本実施の形態では、本発明の一態様の文書検索システムについて図７及び図８を用いて説明する。

　本実施の形態の文書検索システムは、実施の形態１に示す、文書を検索する方法を用いて、文書を容易に検索することができる。

＜文書検索システムの構成例１＞
　図７に、文書検索システム２００のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部２０２で行われる処理は、処理によって異なるサーバで実行されることがある。

　文書検索システム２００は、少なくとも、処理部２０２を有する。図７に示す文書検索システム２００は、さらに、入力部２０１、記憶部２０３、データベース２０４、表示部２０５、及び伝送路２０６を有する。

［入力部２０１］
　入力部２０１には、文書検索システム２００の外部から文書が供給される。当該文書は、ユーザが検索用に指定する文書であり、実施の形態１に示す文書２０に相当する。また、入力部２０１には、文書検索システム２００の外部から複数の文書が供給されてもよい。当該複数の文書は、上記文書の比較対象となる文書であり、実施の形態１に示す複数の文書１０に相当する。入力部２０１に供給された上記複数の文書及び上記文書は、それぞれ、伝送路２０６を介して、処理部２０２、記憶部２０３、またはデータベース２０４に供給される。

　上記複数の文書及び上記文書は、例えば、テキストデータ、音声データ、または画像データとして入力される。上記複数の文書は、テキストデータとして入力されることが好ましい。

　上記文書の入力方法としては、例えば、キーボード、タッチパネルなどを用いたキー入力、マイクを用いた音声入力、記録媒体からの読み込み、スキャナ、カメラなどを用いた画像入力、通信を用いた取得等が挙げられる。

　文書検索システム２００は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部２０２が当該機能を有していてもよい。または、文書検索システム２００が、さらに、当該機能を有する音声変換部を有していてもよい。

　文書検索システム２００は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部２０２が当該機能を有していてもよい。または、文書検索システム２００が、さらに、当該機能を有する文字認識部を有していてもよい。

［処理部２０２］
　処理部２０２は、入力部２０１、記憶部２０３、データベース２０４などから供給されたデータを用いて、演算を行う機能を有する。処理部２０２は、演算結果を、記憶部２０３、データベース２０４、表示部２０５などに供給することができる。

　処理部２０２は、実施の形態１に示すグラフ構造作成部１０２、および類似度算出部１０３を含む。すなわち、処理部２０２は、形態素解析を行う機能、係り受け解析を行う機能、抽象化する機能、およびグラフ構造を作成する機能を有する。

　処理部２０２には、チャネル形成領域に金属酸化物を有するトランジスタを用いてもよい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部２０２が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部２０２を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部２０２をオフ状態にすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システム２００の低消費電力化を図ることができる。

　なお、本明細書等において、チャネル形成領域に酸化物半導体を用いたトランジスタをＯｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ（ＯＳトランジスタ）と呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

　チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含むことが好ましい。元素Ｍは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）、またはスズ（Ｓｎ）であることが好ましい。元素Ｍに適用可能な他の元素としては、ホウ素（Ｂ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、タングステン（Ｗ）などがある。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

　チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。チャネル形成領域が有する金属酸化物は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

　また、処理部２０２には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。

　また、処理部２０２には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いてもよい。

　処理部２０２は、例えば、演算回路または中央演算装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等を有する。

　処理部２０２は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＦＰＡＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ａｎａｌｏｇ　Ａｒｒａｙ）等のＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）によって実現された構成であってもよい。処理部２０２は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部２０３のうち少なくとも一方に格納される。

　処理部２０２はメインメモリを有していてもよい。メインメモリは、ＲＡＭ等の揮発性メモリ、及びＲＯＭ等の不揮発性メモリのうち少なくとも一方を有する。

　ＲＡＭとしては、例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等が用いられ、処理部２０２の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部２０３に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部２０２に直接アクセスされ、操作される。

　ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（Ｏｎｅ　Ｔｉｍｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ−ＥＰＲＯＭ（Ｕｌｔｒａ−Ｖｉｏｌｅｔ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙｌ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

［記憶部２０３］
　記憶部２０３は、処理部２０２が実行するプログラムを記憶する機能を有する。また、記憶部２０３は、例えば、処理部２０２が生成した演算結果、及び、入力部２０１に入力されたデータを記憶する機能を有していてもよい。具体的には、記憶部２０３は、処理部２０２で生成したグラフ構造（例えば、実施の形態１に示すグラフ構造２１）、算出された類似度の結果などを記憶する機能を有することが好ましい。

　記憶部２０３は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部２０３は、例えば、ＤＲＡＭ、ＳＲＡＭなどの揮発性メモリを有していてもよい。記憶部２０３は、例えば、ＲｅＲＡＭ（Ｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（Ｐｈａｓｅ　ｃｈａｎｇｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、磁気抵抗型メモリともいう）、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部２０３は、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等の記録メディアドライブを有していてもよい。

［データベース２０４］
　文書検索システム２００は、データベース２０４を有していてもよい。例えば、データベース２０４は、複数の文書、および当該複数の文書のそれぞれに対する複数のグラフ構造を記憶する機能を有する。例えば、データベース２０４に記憶された当該複数の文書を対象として、本発明の一態様の文書を検索する方法を用いてもよい。また、データベース２０４には、概念辞書が格納されてもよい。

　なお、記憶部２０３及びデータベース２０４は互いに分離されていなくてもよい。例えば、文書検索システム２００は、記憶部２０３及びデータベース２０４の双方の機能を有する記憶ユニットを有していてもよい。

　なお、処理部２０２、記憶部２０３、及びデータベース２０４が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。

［表示部２０５］
　表示部２０５は、処理部２０２における演算結果を表示する機能を有する。また、表示部２０５は、比較された文書および類似度の結果を表示する機能を有する。また、表示部２０５は、検索用として指定する文書を表示する機能を有していてもよい。

　なお、文書検索システム２００は、出力部を有していてもよい。出力部は、外部にデータを供給する機能を有する。

［伝送路２０６］
　伝送路２０６は、各種データを伝達する機能を有する。入力部２０１、処理部２０２、記憶部２０３、データベース２０４、及び表示部２０５の間のデータの送受信は、伝送路２０６を介して行うことができる。例えば、ユーザが検索用に指定する文書、当該文書の比較対象となる文書に対するグラフ構造などのデータが、伝送路２０６を介して、送受信される。

＜文書検索システムの構成例２＞
　図８に、文書検索システム２１０のブロック図を示す。文書検索システム２１０は、サーバ２２０と、端末２３０（パーソナルコンピュータなど）と、を有する。

　サーバ２２０は、処理部２０２、伝送路２１２、記憶部２１３、及び通信部２１７ａを有する。図８では図示しないが、サーバ２２０は、さらに、入出力部などを有していてもよい。

　端末２３０は、入力部２０１、記憶部２０３、表示部２０５、伝送路２１６、通信部２１７ｂ、及び処理部２１８を有する。図８では図示しないが、端末２３０は、さらに、データベースなどを有していてもよい。

　文書検索システム２１０のユーザは、端末２３０の入力部２０１に、文書を入力する。当該文書は、ユーザが検索用に指定する文書であり、実施の形態１に示す文書２０に相当する。当該文書は、端末２３０の通信部２１７ｂからサーバ２２０の通信部２１７ａに送信される。

　通信部２１７ａが受信した上記文書は、伝送路２１２を介して、記憶部２１３に保存される。または、上記文書は、通信部２１７ａから、直接、処理部２０２に供給されてもよい。

　実施の形態１で説明した、グラフ構造の作成、及び類似度の算出は、高い処理能力が求められる。サーバ２２０が有する処理部２０２は、端末２３０が有する処理部２１８に比べて処理能力が高い。したがって、グラフ構造の作成、及び類似度の算出は、処理部２０２で行われることが好ましい。

　そして、処理部２０２により類似度が算出される。類似度は、伝送路２１２を介して、記憶部２１３に保存される。または、類似度は、処理部２０２から、直接、通信部２１７ａに供給されてもよい。類似度は、サーバ２２０の通信部２１７ａから端末２３０の通信部２１７ｂに送信される。類似度は、端末２３０の表示部２０５に表示される。

［伝送路２１２及び伝送路２１６］
　伝送路２１２及び伝送路２１６は、データを伝達する機能を有する。処理部２０２、記憶部２１３、及び通信部２１７ａの間のデータの送受信は、伝送路２１２を介して行うことができる。入力部２０１、記憶部２０３、表示部２０５、通信部２１７ｂ、及び処理部２１８の間のデータの送受信は、伝送路２１６を介して行うことができる。

［処理部２０２及び処理部２１８］
　処理部２０２は、記憶部２１３及び通信部２１７ａなどから供給されたデータを用いて、演算を行う機能を有する。処理部２１８は、入力部２０１、記憶部２０３、表示部２０５、及び通信部２１７ｂなどから供給されたデータを用いて、演算を行う機能を有する。処理部２０２及び処理部２１８は、処理部２０２の説明を参照できる。処理部２０２は、処理部２１８に比べて処理能力が高いことが好ましい。

［記憶部２０３］
　記憶部２０３は、処理部２１８が実行するプログラムを記憶する機能を有する。また、記憶部２０３は、処理部２１８が生成した演算結果、通信部２１７ｂに入力されたデータ、及び入力部２０１に入力されたデータなどを記憶する機能を有する。

［記憶部２１３］
　記憶部２１３は、複数の文書、複数の文書のそれぞれに対するグラフ構造、処理部２０２が生成した演算結果、及び通信部２１７ａに入力されたデータなどを記憶する機能を有する。

［通信部２１７ａ及び通信部２１７ｂ］
　通信部２１７ａ及び通信部２１７ｂを用いて、サーバ２２０と端末２３０との間で、データの送受信を行うことができる。通信部２１７ａ及び通信部２１７ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

　なお、サーバ２２０と端末２３０との通信は、Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ（ＷＷＷ）の基盤であるインターネット、イントラネット、エクストラネット、ＰＡＮ（Ｐｅｒｓｏｎａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＣＡＮ（Ｃａｍｐｕｓ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＭＡＮ（Ｍｅｔｒｏｐｏｌｉｔａｎ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＧＡＮ（Ｇｌｏｂａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等のコンピュータネットワークに接続することで行ってもよい。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。

：１０：複数の文書、１０＿１：文書、１０＿ｉ：文書、１０＿ｎ：文書、１１：複数のグラフ構造、１１＿１：グラフ構造、１１＿ｉ：グラフ構造、１１＿ｎ：グラフ構造、２０：文書、２１：グラフ構造、１００：文書検索システム、１０１：入力部、１０２：グラフ構造作成部、１０３：類似度算出部、１０４：出力部、１０５：格納部、１１２：概念辞書、２００：文書検索システム、２０１：入力部、２０２：処理部、２０３：記憶部、２０４：データベース、２０５：表示部、２０６：伝送路、２１０：文書検索システム、２１２：伝送路、２１３：記憶部、２１６：伝送路、２１７ａ：通信部、２１７ｂ：通信部、２１８：処理部、２２０：サーバ、２３０：端末

Claims

　入力部と、第１の処理部と、格納部と、第２の処理部と、出力部と、を有し、
　前記入力部は、第１の文書を入力する機能を有し、
　前記第１の処理部は、前記第１の文書から、第１のグラフ構造を作成する機能を有し、
　前記格納部は、第２のグラフ構造を格納する機能を有し、
　前記第２の処理部は、前記第１のグラフ構造と、前記第２のグラフ構造と、の類似度を算出する機能を有し、
　前記出力部は、情報を供給する機能を有し、
　前記第１の処理部は、前記第１の文書を、複数のトークンに分割する機能を有し、
　前記第１のグラフ構造のノードおよびエッジは、ラベルを有し、
　前記ラベルは、前記複数のトークンから構成される、
　文書検索システム。
　請求項１において、
　前記第１の処理部は、トークンに品詞を付与する機能を有する、
　文書検索システム。
　請求項１または請求項２において、
　前記第１の処理部は、係り受け解析を行う機能を有し、
　前記第１の処理部は、前記係り受け解析の結果に応じて、トークンの一部を連結する機能を有する、
　文書検索システム。
　請求項１乃至請求項３のいずれか一において、
　前記第１の処理部は、代表語または上位語が存在するトークンを、前記代表語または前記上位語に置き換える機能を有する、
　文書検索システム。
　請求項１乃至請求項４のいずれか一において、
　前記第２のグラフ構造は、前記第１の処理部にて、第２の文書から、作成される、
　文書検索システム。
　請求項１乃至請求項４のいずれか一において、
　グラフ構造が有するエッジのラベルが、対義語を有する場合、前記第１の処理部は、前記グラフ構造の前記エッジの向きを反転させ、かつ、前記エッジのラベルを前記対義語に置き換えることで、新たなグラフ構造を生成する機能を有する、
　文書検索システム。
　請求項１乃至請求項４のいずれか一において、
　前記第２の処理部は、前記第１のグラフ構造、および前記第２のグラフ構造を、ベクトル化し、ベクトル化された前記第１のグラフ構造と、ベクトル化された前記第２のグラフ構造と、のベクトルの類似度を評価する機能を有する、
　文書検索システム。
　請求項７において、
　前記第２の処理部は、前記第１のグラフ構造、および前記第２のグラフ構造を、Ｗｅｉｓｆｅｉｌｅｒ−Ｌｅｈｍａｎカーネルによりベクトル化する機能を有する、
　文書検索システム。
　請求項２において、
　第１のトークンに付与された品詞が名詞であり、かつ、前記第１のトークンの直前に位置する第２のトークンに付与された品詞が形容詞である場合、前記第１の処理部は、前記第２のトークンと、前記第１のトークンと、を連結する機能を有する、
　文書検索システム。
　請求項２または請求項９において、
　第３のトークンに付与された品詞、および前記第３のトークンの直後に位置する第４のトークンに付与された品詞がいずれも名詞である場合、前記第１の処理部は、前記第３のトークンと、前記第４のトークンと、を連結する機能を有する、
　文書検索システム。