WO2024084365A1

WO2024084365A1 - 文書検索方法、文書検索システム

Info

Publication number: WO2024084365A1
Application number: PCT/IB2023/060394
Authority: WO
Inventors: 桃純平; 高瀬奈津子
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2022-10-21
Filing date: 2023-10-16
Publication date: 2024-04-25

Abstract

文書の検索を効率良く行う。複数の文書データを受け付け、検索クエリを受け付け、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行い、複数の文書データのうちの少なくとも一部について、評価結果を出力し、複数の文書データのうちの少なくとも一部に対して、分類を受け付け、分類から、複数のタグのそれぞれに対して、重要度の推論を行い、複数のタグのうちの少なくとも一部について、重要度を出力し、重要度が出力されたタグの少なくとも一つを受け付け、受け付けたタグを用いて文書の検索を行う。

Description

文書検索方法、文書検索システム

　本発明の一態様は、文書検索システムに関する。本発明の一態様は、文書検索方法に関する。本発明の一態様は、文書検索結果の出力方法に関する。本発明の一態様は、文書検索結果の表示方法に関する。

　なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置（例えば、タッチセンサなど）、入出力装置（例えば、タッチパネルなど）、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。

　特許に関する業務として、先行技術調査、特許の権利化、および無効資料調査などが挙げられる。出願前の発明に関し先行技術調査を行うことで、関連する知的財産権が存在するか否かを確認することができる。先行技術調査を行うことで得られた国内外の特許文献及び論文などは、発明の新規性及び進歩性の確認、並びに、特許を出願するか否かの判断に、利用することができる。また、特許文献の無効資料調査を行うことで、自身の所有する特許権が無効化する恐れが無いか、又は、他者の所有する特許権を無効化できるか、を確認することができる。

　特許に関する業務は多岐に渡るため、近年では、特許出願書類の作成支援システム、特許情報分析システム、および特許検索システムなどの特許に関する業務を支援するシステムの開発が進められている。特許文献１には、キーワード検索と類似検索とを組み合わせた特許文献検索技術が開示されている。

特開２０１８−７３３０９号公報

　文書の内容に則した検索を行う場合、ウェブ検索などのようなページランクの仕組みでは、客観性が失われてしまう。また、一つの語義に対して複数の表記（平仮名、カタカナ、漢字、代表語、同義語、上位語、下位語など）が存在しうるため、検索キーワードを適切に選択することは困難である。また、特許文献は、ＣＰＣ（Ｃｏｏｐｅｒａｔｉｖｅ　Ｐａｔｅｎｔ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ：共同特許分類）、ＩＰＣ（Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｐａｔｅｎｔ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ：国際特許分類）、ＦＩ（Ｆｉｌｅ　Ｉｎｄｅｘ）、Ｆターム（Ｆｉｌｅ　Ｆｏｒｍｉｎｇ　Ｔｅｒｍ）などの特許分類を利用して、技術内容をもとに分類されているが、分類コードの項目数は膨大であるため、分類コードを適切に選択することは困難である。

　本発明の一態様は、ユーザにとって直感的であって効率的な検索が可能な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。本発明の一態様は、ユーザにとって操作が容易な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。本発明の一態様は、ユーザが、必要な情報を効率良く得ることができる文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供することを課題の一つとする。

　なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。

　本発明の一態様は、複数の文書データを受け付ける第１のステップと、検索クエリを受け付ける第２のステップと、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行う第３のステップと、複数の文書データのうちの少なくとも一部について、評価結果を出力する第４のステップと、複数の文書データのうちの少なくとも一部に対して、分類を受け付ける第５のステップと、分類から、複数のタグのそれぞれに対して、重要度の推論を行う第６のステップと、複数のタグのうちの少なくとも一部について、重要度を出力する第７のステップと、第７のステップにおいて重要度が出力されたタグの少なくとも一つを受け付ける第８のステップと、第８のステップで受け付けたタグを用いて、文書の検索を行う第９のステップと、を有する、文書検索方法である。

　上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、検索クエリは少なくとも一つのタグを含み、第１のステップと第３のステップとの間に、複数の文書データのそれぞれについて、文書データに付与されているタグを用いて特徴ベクトルを生成するステップと、第２のステップと第３のステップとの間に、検索クエリに含まれるタグを用いて検索クエリのベクトル化を行うステップと、をさらに有し、第３のステップでは、複数の文書データのそれぞれに対して、特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。

　上記文書検索方法において、第６のステップでは、分類と、特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数のタグのそれぞれに対して重要度を算出することが好ましい。

　上記文書検索方法において、検索クエリは少なくとも一つの単語を含み、第１のステップと第３のステップとの間に、複数の文書データのそれぞれについて、文書データから抽出された単語を用いて第１の特徴ベクトルを生成するステップと、第２のステップと第３のステップとの間に、検索クエリに含まれる単語を用いて検索クエリのベクトル化を行うステップと、をさらに有し、第３のステップでは、複数の文書データのそれぞれに対して、第１の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。

　上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、第６のステップでは、分類と、第２の特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数のタグのそれぞれに対して重要度を算出し、文書データが有する第２の特徴ベクトルは、文書データに付与されているタグを用いて生成されることが好ましい。

　上記文書検索方法において、第６のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、第７のステップでは、さらに、文書データに対する判定確率を出力することが好ましい。

　本発明の別の一態様は、複数の文書データを受け付ける第１のステップと、検索クエリを受け付ける第２のステップと、検索クエリに基づいて、複数の文書データのそれぞれに対して評価を行う第３のステップと、複数の文書データのうちの少なくとも一部について、評価結果を出力する第４のステップと、複数の文書データのうちの少なくとも一部に対して、分類を受け付ける第５のステップと、分類から、複数の単語のそれぞれに対して、重要度の推論を行う第６のステップと、複数の単語のうちの少なくとも一部について、重要度を出力する第７のステップと、第７のステップにおいて重要度が出力された単語の少なくとも一つを受け付ける第８のステップと、第８のステップで受け付けた単語を用いて、文書の検索を行う第９のステップと、を有する、文書検索方法である。

　上記文書検索方法において、検索クエリは少なくとも一つの単語を含み、第１のステップと第３のステップとの間に、複数の文書データのそれぞれについて、文書データから単語を抽出するステップをさらに有し、第３のステップでは、複数の文書データのそれぞれに対して、上記ステップで抽出された単語と、検索クエリに含まれる単語との類似度を算出することが好ましい。

　上記文書検索方法において、第６のステップでは、分類と、上記ステップで抽出された単語と、を学習データとして分類器の学習を行い、分類器から上記複数の単語のそれぞれに対して単語の重要度を算出することが好ましい。

　上記文書検索方法において、複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、検索クエリは少なくとも一つのタグを含み、第１のステップと第３のステップとの間に、複数の文書データのそれぞれについて、文書データに付与されているタグを用いて第１の特徴ベクトルを生成するステップと、第２のステップと第３のステップとの間に、検索クエリに含まれるタグを用いて検索クエリのベクトル化を行うステップと、をさらに有し、第３のステップでは、複数の文書データのそれぞれに対して、第１の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出することが好ましい。

　上記文書検索方法において、第６のステップでは、分類と、第２の特徴ベクトルと、を学習データとして分類器の学習を行い、分類器から複数の単語のそれぞれに対して重要度を算出し、文書データが有する第２の特徴ベクトルは、文書データから抽出される単語を用いて生成されることが好ましい。

　本発明の別の一態様は、受付部、処理部、及び、出力部を有し、受付部は、検索クエリと、文書データと、分類と、タグと、を受け付ける機能を有し、処理部は、検索クエリに基づいて、文書データに対して評価を行う機能と、分類から、タグの重要度の推論を行う機能と、を有し、出力部は、文書データに対する評価結果を出力する機能と、タグの重要度を出力する機能と、を有する、文書検索システムである。

　上記文書検索システムにおいて、文書データには、少なくとも一つのタグが付与されており、文書データは、文書データに付与されているタグを用いて生成される特徴ベクトルを有し、処理部は、検索クエリのベクトル化を行う機能と、ベクトル化された検索クエリと特徴ベクトルとの類似度を算出する機能と、をさらに有することが好ましい。

　上記文書検索システムにおいて、記憶部をさらに有し、記憶部には、分類器が格納されており、処理部は、分類と、特徴ベクトルと、を学習データとして分類器の学習を行う機能と、分類器からタグの重要度を算出する機能と、を有することが好ましい。

　本発明の一態様により、ユーザにとって直感的であって効率的な検索が可能な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。本発明の一態様により、ユーザにとって操作が容易な文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。本発明の一態様により、ユーザが必要な情報を効率良く得ることができる文書検索システム、文書検索方法、又は文書検索結果の出力方法を提供できる。

　なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。

図１は、文書検索システムの一例を示す図である。
図２は、文書検索方法の一例を示す図である。
図３Ａ乃至図３Ｄは、文書検索方法の一例を示す図である。
図４Ａ及び図４Ｂは、文書検索方法の一例を示す図である。
図５は、文書検索方法の一例を示す図である。
図６Ａ及び図６Ｂは、文書検索方法の一例を示す図である。
図７は、文書検索方法の一例を示す図である。
図８は、文書検索方法の一例を示す図である。
図９は、文書検索方法の一例を示す図である。
図１０Ａ及び図１０Ｂは、文書検索方法の一例を示す図である。
図１１は、グラフィックユーザインターフェイスの一例を示す図である。
図１２は、グラフィックユーザインターフェイスの一例を示す図である。
図１３は、グラフィックユーザインターフェイスの一例を示す図である。
図１４は、グラフィックユーザインターフェイスの一例を示す図である。
図１５は、文書検索システムの一例を示す図である。
図１６は、文書検索システムの一例を示す図である。

　実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

　なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチングパターンを同じくし、特に符号を付さない場合がある。

　また、本明細書等にて用いる「第１」、「第２」、「第３」等の序数詞は、構成要素の混同を避けるために付すものであり、数的に限定するものではない。例えば、第１の行は、１行目に限定されず、第１の列は、１列目に限定されない。

　また、図面において示す各構成の、位置、大きさ、または範囲などは、理解の簡単のため、実際の位置、大きさ、または範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、または範囲などに限定されない。

　本明細書等において、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“＿１”、“［ｎ］”、“［ｍ，ｎ］”等の識別用の符号を付記して記載する場合がある。

　本明細書等において特に記載が無い場合、文書とは自然言語による事象の記述であり、一つ以上の文を含み、電子化されて機械可読である。文書は、例えば、特許出願書類、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書などであるが、これらに限定されない。また、本明細書等では、特許出願書類を特許文献と呼ぶことがある。

　本明細書等において、検索クエリとは、ユーザが探したい概念を何らかの形で表現したものであり、ここでは、ユーザが検索する際に入力する各種検索条件を指す。当該検索条件としては、特に限定は無く、例えば、一つ以上の単語、一つ以上の語句、または一つ以上の文が挙げられる。または、例えば、一つ以上の単語、一つ以上の語句、及び、一つ以上の文の少なくとも一種と論理演算子とで作成された検索式などが挙げられる。論理演算子は、ブール演算子ともいい、例えば、ＡＮＤ、ＯＲ、及び、ＮＯＴが挙げられるが、これに限られない。これらの論理演算子を用いる場合、上記検索式は、ＡＮＤ検索、ＯＲ検索、または、ＮＯＴ検索などとなる。また、検索クエリとして自然文を受け付け、言語処理により抽出した単語を検索キーワードとして用いる、または、分散表現を用いて文ベクトルを作成してもよい。

　本明細書等において、データの集合が行および列（縦軸および横軸）のモデルで構成されたものを表または表形式と呼ぶ。よって、データの集合が行および列（縦軸および横軸）のモデルで構成されていれば、罫線の有無に関わらず、表または表形式と呼ぶことができる。

（実施の形態１）
　本実施の形態では、本発明の一態様の文書検索システム、文書検索方法、文書検索結果の出力方法、及び、文書検索結果の表示方法について、図１乃至図１４を用いて説明する。

　本発明の一態様の文書検索システムでは、一例として、タグが付与されている文書の検索を行う。例えば、当該文書検索システムでは、文書データの集合を作成し、文書データの集合に対する分類からタグの重要度を算出し、タグを用いて文書検索を行う。文書データの集合は、検索クエリに基づいて作成される。また、文書データの集合は、検索クエリに基づいて行われた評価の結果をもとに作成される。

　上記文書検索システムのユーザは、上記検索クエリを入力し、上記分類を行い、文書検索に用いるタグを選択する。当該ユーザは、文書検索を対話形式で行うことで、ユーザにとって直感的であって効率的な検索を行うことができる。

　具体的には、上記文書検索システムでは、まず、複数の文書データを受け付ける。次に、検索クエリを受け付ける。次に、当該検索クエリに基づいて、上記複数の文書データのそれぞれに対して評価を行う。評価の一例として、検索クエリと文書データの類似度の算出が挙げられる。そして、上記複数の文書データのうちの少なくとも一部について、文書データに対する評価結果を出力する。なお、複数の文書データのうちの少なくとも一部とは、上述した文書データの集合に相当する。

　出力は、例えば、ユーザが利用する端末の表示画面（本明細書等では、単に画面と記載する場合がある）に表示することで行うことができる。なお、表示画面は、表示装置であれば特に限定されず、例えば、後述するマルチディスプレイでもよい。

　上記文書検索システムのユーザは、複数の文書データのうちの少なくとも一部に対して、分類を行う。当該ユーザは、出力された評価結果を参照しながら、文書データの分類を行うことができる。

　次に、上記文書検索システムでは、分類を受け付ける。次に、受け付けた分類から、タグの重要度の推論を行う。そして、タグの重要度を出力する。

　上記ユーザは、タグの重要度が出力されたタグの少なくとも一つを選択する。当該ユーザは、出力されたタグの重要度を参照しながら、タグを選択することができる。

　次に、上記文書検索システムでは、選択されたタグを受け付ける。次に、受け付けたタグを用いて文書の検索を行う。

　このように、本発明の一態様の文書検索システムは、文書検索の検索クエリに用いることが好ましいタグを提示することができる。したがって、ユーザは、文書検索の検索クエリに用いることが好ましいタグを容易に把握することができ、効率的に文書を検索できる。

　なお、本発明の一態様の文書検索システムでは、別の一例として、タグが付与されていない文書の検索を行うこともできる。例えば、当該文書検索システムでは、文書データの集合を作成し、文書データの集合に対する分類から単語の重要度を算出し、単語を用いて文書検索を行う。文書データの集合は、検索クエリに基づいて作成される。

　上記文書検索システムのユーザは、上記検索クエリを入力し、上記分類を行い、文書検索に用いる単語を選択する。当該ユーザは、文書検索を対話形式で行うことで、ユーザにとって直感的であって効率的な検索を行うことができる。

　なお、上記文書検索システムでは、複数の文書データを受け付け、分類を受け付けるまでのステップは前述の文書検索システムと同様である。

　次に、上記文書検索システムでは、受け付けた分類から、単語の重要度の推論を行う。そして、単語の重要度を出力する。

　上記ユーザは、単語の重要度が出力された単語の少なくとも一つを選択する。当該ユーザは、出力された単語の重要度を参照しながら、単語を選択することができる。

　次に、上記文書検索システムでは、選択された単語を受け付ける。次に、受け付けた単語を用いて文書の検索を行う。

　このように、本発明の一態様の文書検索システムは、文書検索の検索クエリに用いることが好ましい単語を提示することができる。したがって、ユーザは、文書検索の検索クエリに用いることが好ましい単語を容易に把握することができ、効率的に文書を検索できる。

　本実施の形態の文書検索システムの用途は、特に限定されず、一例として、特許文献調査が挙げられる。

＜文書検索システム１＞
　図１に、文書検索システム１００のブロック図を示す。文書検索システム１００は、受付部１１０、記憶部１２０、処理部１３０、出力部１４０、及び伝送路１５０を有する。

　文書検索システム１００は、ユーザが利用するパーソナルコンピュータなどの情報処理装置に設けられていてもよい。または、サーバに文書検索システム１００の処理部を設け、クライアントＰＣからネットワーク経由でアクセスして利用する構成としてもよい。

［受付部１１０］
　受付部１１０は、文書データを受け付ける。なお、受付部１１０が受け付ける文書データの数は１であってもよいし複数であってもよい。

　受付部１１０が受け付ける文書データとしては、特に限定はなく、様々な種類の文書データを受け付けることができる。文書データとは、電子化されて機械可読である文書である。文書としては、例えば、特許出願書類、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書が挙げられる。特許出願書類には、明細書、特許請求の範囲、及び、要約書のうち少なくとも一つを有する。

　また、文書データには、当該文書データに関する情報（文書データの関連情報ともいう）が付与されている。例えば、文書が特許出願書類（特許文献）である場合、文書データに関する情報として、出願管理番号（使用者が指定する任意の番号を含む）、出願ファミリー管理番号、出願番号、公開番号、登録番号、図面、出願日、優先日、公開日、ステータス、分類（特許分類、実用新案分類など）、カテゴリ、及び、キーワード（使用者が指定する任意の単語又は語句を含む）等が挙げられる。これらの情報の一つ又は複数を用いることで、文書データを特定することができる。よって、これらの情報は、文書データを識別する項目として利用することができる。または、これらの情報は、後述する評価結果とともに、出力されてもよい。

　なお、特許分類として、ＣＰＣ、ＩＰＣ、ＦＩ、Ｆタームなどが挙げられる。特許分類は、複数の分類コードで構成される。特許分類のように、文書の内容に従って付与される情報をまとめて、本明細書等では分類と呼ぶ。また、文書の内容に従って付与される個別の情報を、タグと呼ぶ。タグとして、英数字などの符号から構成されるコード、及びキーワード（使用者が指定する任意の単語又は語句を含む）が挙げられる。

　また、例えば、文書が、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書などである場合、文書データに関する情報として、文書を識別する番号、タイトル、発行年月日などの日付、著者、及び、出版社等が挙げられる。これらの情報の一つ又は複数を用いることで、文書データを特定することができる。よって、これらの情報は、文書データを識別する項目として利用することができる。または、これらの情報は、それぞれ、後述する評価結果とともに、出力されてもよい。

　受付部１１０が受け付ける文書データには、分類が付与されていることが好ましい。例えば、当該文書データには、少なくとも一つのタグが付与されていることが好ましい。このとき、受付部１１０は、タグを受け付ける機能を有することが好ましい。なお、文書データに付与されている分類を、第１の分類と呼ぶことがある。

　また、受付部１１０が受け付ける文書データに付与されているタグは、コードであってもよいし、キーワードであってもよい。当該キーワードは、例えば、文書データに含まれる単語又は語句であってもよいし、文書データに含まれない単語又は語句であってもよい。文書データに含まれない単語又は語句として、使用者が指定する任意の単語又は語句でもよい。

　なお、受付部１１０が受け付ける文書データには、分類が付与されていなくてもよい。このとき、受付部１１０は、単語を受け付ける機能を有することが好ましい。

　また、受付部１１０が受け付ける文書データは、特徴ベクトルを有してもよい。文書データが有する特徴ベクトルは１つであってもよいし、２つであってもよいし、３つ以上であってもよい。

　文書データが有する特徴ベクトルは、当該文書データに関する情報の少なくとも一つを用いて生成されていることが好ましい。例えば、文書データに少なくとも一つのタグが付与されている場合、文書データが有する特徴ベクトルは、当該文書データに付与されているタグを用いて生成されていることが好ましい。また、文書データが有する特徴ベクトルは、当該文書データから抽出された単語を用いて生成されていることが好ましい。

　なお、受付部１１０が受け付ける文書データは、特徴ベクトルを有さなくてもよい。

　受付部１１０は、検索クエリを受け付ける。なお、受付部１１０が受け付ける検索クエリの数は１であってもよいし複数であってもよい。

　受付部１１０が受け付ける検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせである。又は、一つ以上のタグを含む。

　受付部１１０は、分類を受け付ける。受付部１１０が受け付ける分類を、第２の分類と呼ぶことがある。

　受付部１１０は、データの送受信を行う機能を有するとよい。このとき、受付部１１０は通信部と言い換えることができる。当該通信部として、ハブ、ルータ、モデムなどが挙げられる。また、受付部１１０は、ユーザの入力操作を受け付ける機能を有してもよい。このとき、受付部１１０は入力部と言い換えることができる。当該入力部として、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ等が挙げられる。

　受付部１１０に供給された、検索クエリ、及び文書データなどのデータは、伝送路１５０を介して、記憶部１２０及び処理部１３０の一方または双方に供給される。

［記憶部１２０］
　記憶部１２０は、処理部１３０が実行するプログラムを記憶する機能を有する。また、記憶部１２０は、処理部１３０が生成したデータ（例えば、演算結果、推論結果）、及び、受付部１１０に入力されたデータなどを記憶する機能を有していてもよい。

　記憶部１２０には、分類器が格納されていることが好ましい。分類器として、ニューラルネットワーク、決定木、ラッソ回帰、ランダムフォレストなどが挙げられる。分類器は、処理部１３０にて行われる学習及び推論に用いられる。また、分類器は、処理部１３０にて行われる評価に用いられてもよい。

　記憶部１２０は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。揮発性メモリとしては、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、及び、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等が挙げられる。不揮発性メモリとしては、ＲｅＲＡＭ（Ｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（Ｐｈａｓｅ　ｃｈａｎｇｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、磁気抵抗型メモリともいう）、及び、フラッシュメモリ等が挙げられる。また、記憶部１２０は、記録メディアドライブを有していてもよい。記録メディアドライブとしては、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ：ＨＤＤ）、及び、ソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等が挙げられる。

　記憶部１２０は、文書データを有するデータベースを有していてもよい。

　また、文書検索システム１００は、システムの外部に存在するデータベースから、文書データ（具体的には、以降の処理に必要なデータ）を取り出す（読み出す）機能を有していてもよい。例えば、文書検索システム１００は、システムの外部に存在するデータベースからデータを取り出す機能を有していてもよい。

　また、文書検索システム１００は、自身が持つデータベースと、外部に存在するデータベースと、の双方からデータを取り出す機能を有していてもよい。

　データベースは、例えば、テキストデータ及び画像データの一方または双方を有する構成とすることができる。

　また、データベースの代わりに、ストレージ及びファイルサーバの一方または双方を用いてもよい。例えば、ファイルサーバが有するファイルを利用する場合、データベースは、ファイルサーバに保存されたファイルのパスを有すると好ましい。

　例えば、データベースとして、出願データベースが挙げられる。出願としては、特許出願、実用新案登録出願、及び、意匠登録出願等の知的財産に係る出願が挙げられる。各出願のステータスに限定は無く、公開の有無、特許庁における係属の有無、及び登録の有無はそれぞれ問わない。例えば、出願データベースは、審査前の出願、審査中の出願、及び、登録済みの出願のうち少なくとも一つを有することができ、全てを有していてもよい。

　例えば、出願データベースは、複数の特許出願における、明細書、要約、及び特許請求の範囲の少なくとも一つを有することが好ましい。明細書、要約、及び特許請求の範囲は、例えば、テキストデータで保存される。

　そのほか、書籍、雑誌、新聞、論文、判決文、契約書、約款、規程集、製品マニュアル、小説、刊行物、白書、技術文書、業務文書など、様々な種類の文書の管理を、データベースで行うことができる。データベースは、文書データを少なくとも有する。

［処理部１３０］
　処理部１３０は、受付部１１０及び記憶部１２０の一方または双方から供給されたデータを用いて、演算及び推論などの処理を行う機能を有する。処理部１３０は、生成したデータ（例えば、演算結果、推論結果）を、記憶部１２０及び出力部１４０の一方または双方に供給することができる。

　処理部１３０は、検索クエリに基づいて、文書データに対して評価を行う機能を有する。例えば、処理部１３０は、受付部１１０に供給された検索クエリに基づいて、受付部１１０に供給された文書データに対して評価を行う機能を有する。

　また、処理部１３０は、受付部１１０に供給される検索クエリのベクトル化を行う機能を有することが好ましい。さらに、処理部１３０は、ベクトル化された検索クエリと、文書データが有する特徴ベクトルとの類似度を算出する機能を有することが好ましい。これにより、受付部１１０に供給される文書データが特徴ベクトルを有する場合において、ベクトル化された検索クエリと特徴ベクトルとの類似度を算出することで、文書データに対して評価を行うことができる。

　また、処理部１３０は、文書データに関する情報の少なくとも一つを用いて、当該文書データの特徴ベクトルを生成する機能を有することが好ましい。例えば、文書データに少なくとも一つのタグが付与されている場合、処理部１３０は、文書データに付与されているタグを用いて特徴ベクトルを生成する機能を有することが好ましい。また、処理部１３０は、文書データから抽出された単語を用いて特徴ベクトルを生成する機能を有することが好ましい。これにより、受付部１１０に供給される文書データが特徴ベクトルを有さない場合において、文書データに関する情報の少なくとも一つを用いて、当該文書データの特徴ベクトルを生成することができる。特徴ベクトルが生成されることで、文書データに対して評価を行うことができる。

　また、処理部１３０は、文書データに関連する単語を抽出する機能を有することが好ましい。例えば、処理部１３０は、形態素解析及び複合語解析の一方又は双方を行う機能を有することが好ましい。これにより、文書データに含まれる一つ以上の文から単語を抽出することができる。また、文書データの関連情報の少なくとも一つに含まれる一つ以上の文から単語を抽出することができる。

　なお、本明細書等では、文書データに関連する単語とは、文書データに含まれる一つ以上の文から抽出された単語、又は、文書データの関連情報の少なくとも一つに含まれる一つ以上の文から抽出された単語を指すことがある。

　処理部１３０は、第２の分類から、タグの重要度の推論を行う機能を有する。例えば、処理部１３０は、受付部１１０に供給された第２の分類から、受付部１１０に供給された文書データに含まれるタグの重要度の推論を行う機能を有する。具体的には、処理部１３０は、受付部１１０に供給された第２の分類と、特徴ベクトルと、を学習データとして、記憶部１２０から供給された分類器の学習を行う機能と、当該分類器からタグの重要度を算出する機能と、を有する。なお、当該特徴ベクトルは、文書データが有する特徴ベクトル、または、処理部１３０にて当該文書データに関する情報を用いて生成された特徴ベクトルである。

　また、処理部１３０は、第２の分類から、単語の重要度の推論を行う機能を有してもよい。例えば、処理部１３０は、受付部１１０に供給された第２の分類から、受付部１１０に供給された文書データに含まれる単語の重要度の推論を行う機能を有する。具体的には、処理部１３０は、受付部１１０に供給された第２の分類と、特徴ベクトルと、を学習データとして、記憶部１２０から供給された分類器の学習を行う機能と、当該分類器から単語の重要度を算出する機能と、を有する。なお、重要度が算出される単語は、文書データに含まれる単語、または、処理部１３０にて当該文書データから抽出された単語である。

　また、処理部１３０は、第２の分類から、文書データに対する判定確率の推論を行う機能を有してもよい。例えば、処理部１３０は、受付部１１０に供給された第２の分類から、受付部１１０に供給された文書データに対する判定確率の推論を行う機能を有する。具体的には、処理部１３０は、受付部１１０に供給された第２の分類と、特徴ベクトルと、を学習データとして、記憶部１２０から供給された分類器の学習を行う機能と、当該分類器から文書データに対する判定確率を算出する機能と、を有する。

　なお、類似度を算出する際に用いる特徴ベクトル（第１の特徴ベクトルともいう）と、分類器の学習を行う際に用いる特徴ベクトル（第２の特徴ベクトルともいう）とは、同じである場合と、異なる場合とがある。詳細については後述する。

　処理部１３０は、検索を行う機能を有する。特に、タグ、単語、又は語句と、論理演算子と、を組み合わせて作成した検索式を用いて、検索を行う機能を有することが好ましい。

　処理部１３０は、例えば、演算回路を有することができる。処理部１３０は、例えば、中央演算装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）を有することができる。

　処理部１３０は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＦＰＡＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ａｎａｌｏｇ　Ａｒｒａｙ）等のＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）によって実現された構成であってもよい。処理部１３０は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部１２０のうち少なくとも一方に格納される。

　処理部１３０はメインメモリを有していてもよい。メインメモリは、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性メモリ、及びＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の不揮発性メモリのうち少なくとも一方を有する。

　ＲＡＭとしては、例えばＤＲＡＭ、ＳＲＡＭ等が用いられ、処理部１３０の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部１２０に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部１３０に直接アクセスされ、操作される。

　ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（Ｏｎｅ　Ｔｉｍｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ−ＥＰＲＯＭ（Ｕｌｔｒａ−Ｖｉｏｌｅｔ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

　文書検索システムは、少なくとも一部の処理に人工知能（ＡＩ：Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）を用いることが好ましい。

　文書検索システムは、特に、人工ニューラルネットワーク（ＡＮＮ：Ａｒｔｉｆｉｃｉａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ、以下、単にニューラルネットワークとも記す）を用いることが好ましい。ニューラルネットワークは、回路（ハードウェア）またはプログラム（ソフトウェア）により実現される。

　本明細書等において、ニューラルネットワークとは、生物の神経回路網を模し、学習によってニューロン同士の結合強度を決定し、問題解決能力を持たせるモデル全般を指す。ニューラルネットワークは、入力層、中間層（隠れ層）、及び出力層を有する。

　本明細書等において、ニューラルネットワークについて述べる際に、既にある情報からニューロンとニューロンの結合強度（重み係数ともいう）を決定することを「学習」と呼ぶ場合がある。

　本明細書等において、学習によって得られた結合強度を用いてニューラルネットワークを構成し、そこから新たな結論を導くことを「推論」と呼ぶ場合がある。

［出力部１４０］
　出力部１４０は、処理部１３０の処理結果に基づいて情報を出力する。例えば、処理部１３０が生成したデータ（例えば、演算結果、推論結果）を、文書検索システム１００の外部に供給することができる。出力部１４０は、ユーザが用いる端末またはディスプレイ等に情報を出力することができる。

　出力部１４０は、文書データに対する評価結果を出力する機能を有する。また、出力部１４０は、文書データに対する評価結果を、当該文書データに関する情報と共に出力する機能を有する。例えば、出力部１４０は、処理部１３０にて取得された文書データに対する評価結果を、当該文書データに関する情報と共に、表形式で出力する。なお、出力部１４０が出力する評価結果は表形式に限定されず、例えば、ツリー形式（木構造）であってもよい。

　出力部１４０は、タグの重要度を出力する機能を有する。また、出力部１４０は、タグの重要度を、当該タグと共に出力する機能を有する。別言すると、出力部１４０は、タグ、及び当該タグの重要度を出力する機能を有する。例えば、出力部１４０は、処理部１３０にて算出されたタグの重要度を、当該タグと共に、表形式で出力する。なお、出力部１４０が出力する結果は表形式に限定されず、例えば、ツリー形式（木構造）であってもよい。

　出力部１４０は、文書データに対する判定確率を出力する機能を有する。また、出力部１４０は、文書データに対する判定確率を、当該文書データに関する情報と共に出力する機能を有する。別言すると、出力部１４０は、文書データに関する情報、及び当該文書データに対する判定確率を出力する機能を有する。例えば、出力部１４０は、処理部１３０にて算出された文書データに対する判定確率を、当該文書データに関する情報と共に、表形式で出力する。なお、出力部１４０が出力する結果は表形式に限定されず、例えば、ツリー形式（木構造）であってもよい。

　出力部１４０は、データの送受信を行う機能を有するとよい。このとき、出力部１４０は通信部と言い換えることができる。当該通信部として、ハブ、ルータ、モデムなどが挙げられる。また、出力部１４０は、処理結果を表示する機能を有してもよい。このとき、出力部１４０は表示部と言い換えることができる。当該表示部として、液晶表示装置、発光表示装置などの表示装置が挙げられる。表示部として用いる表示装置の数は限定されない。表示部として用いる表示装置の数は、一つであってもよいし、複数であってもよい。複数の表示装置を並べて構成した表示部を、マルチモニターまたはマルチディスプレイと呼ぶことがある。

［伝送路１５０］
　伝送路１５０は、データを伝達する機能を有する。受付部１１０、記憶部１２０、処理部１３０、及び、出力部１４０の間のデータの送受信は、伝送路１５０を介して行うことができる。

　図１においては、文書検索システム１００が有する機能ごとに分類し、互いに独立しているが、文書検索システム１００が有する機能の一部または全ては独立していなくてもよい。例えば、処理部１３０は、受付部１１０および出力部１４０の一方または双方が有する機能を備えてもよい。つまり、処理部１３０は、受付部１１０および出力部１４０の一方または双方を兼ねてもよい。

　図２乃至図１４を用いて、本発明の一態様の文書検索システムにおける文書検索方法及び文書検索結果の出力方法について説明する。なお、以下では、出力方法の一例として、ディスプレイでの表示方法を挙げる。つまり、以下では、本発明の一態様の文書検索結果の表示方法について説明する。

＜文書検索方法１＞
　本実施の形態の文書検索方法１では、タグを用いて文書の検索を行う文書検索方法について説明する。本実施の形態の文書検索方法１は、分類（上述した第１の分類）が付与されている文書の検索に有効である。

　図１１乃至図１４は、それぞれ、本実施の形態の文書検索システムに係るグラフィックユーザインターフェイス（ＧＵＩ）の一例である。図１１乃至図１４におけるアイコン、ウィンドウ、ボタン、及び、テキストボックス、ならびにこれらの配置などは一例であり、特に限定されない。ＧＵＩは、ユーザがネットワークを介してアクセスするウェブページとして構成することができる。または、ＧＵＩは、ユーザが利用するパーソナルコンピュータなどの情報処理装置上で実行するプログラムアプリケーションの画面として構成することができる。

［文書検索方法１ａ］
　本実施の形態の文書検索方法１ａでは、本実施の形態の文書検索方法１の一例を示す。なお、本実施の形態の文書検索方法１ａでは、検索クエリが少なくとも一つのタグを含むものとする。また、タグはコードであってもよいし、キーワードであってもよい。

　本実施の形態の文書検索方法１ａは、図２に示すステップＳ１０１乃至ステップＳ１１０の処理を有する。

［ステップＳ１０１］
　ステップＳ１０１では、複数の文書データを受け付ける。複数の文書データのそれぞれは、テキストデータを有する。複数の文書データのそれぞれは、さらに、テキストデータ以外のデータ（イメージデータなど）を含んでいてもよい。本実施の形態の文書検索方法１では、ｍ個（ｍは１以上の整数）の文書データを受け付けるものとする。以降では、ステップＳ１０１で受け付けるｍ個の文書データを、第１の文書データ乃至第ｍの文書データとする。また、ステップＳ１０１で受け付ける複数の文書データ（第１の文書データ乃至第ｍの文書データ）をまとめて、文書データ群とする。

　ステップＳ１０２以降の処理は、主に、テキストデータを用いて行う。

　ステップＳ１０１で受け付ける複数の文書データのそれぞれは、分類（第１の分類ともいう）が付与されていることが好ましい。特に、当該複数の文書データのそれぞれは、少なくとも一のタグが付与されていることが好ましい。なお、タグは、複数種存在する。以降では、あらかじめ用意されているタグ全体の集合を、第１のタグ群とする。

　本実施の形態の文書検索方法１ａでは、第ｉ（ｉは１以上ｍ以下の整数）の文書データに、ｎ［ｉ］個（ｎ［ｉ］は１以上の整数）のタグが付与されているものとする。以降では、文書データ群が、第１の分類が付与されている文書データから構成される場合、当該文書データ群に付与されているタグ全体の集合（和集合）を、第２のタグ群とする。つまり、第２のタグ群は、第１のタグ群の部分集合でもある。

［ステップＳ１０２］
　ステップＳ１０２では、検索クエリを受け付ける。本実施の形態の文書検索方法１ａでは、検索クエリとして、少なくとも一つのタグを受け付ける。

　図１１乃至図１４に示す領域３００は、ユーザが検索クエリを入力するために利用できる領域である。図１１乃至図１４では、領域３００に、検索クエリを入力する領域３０１が表示されている。ユーザは、領域３０１に検索クエリを入力する。なお、領域３０１に、複数の単語、複数の語句、又は単語と語句の組み合わせなどが入力される場合、区切り記号を単語間、語句間、又は単語と語句の間に設けるとよい。区切り記号として、改行、タブ、セミコロン、スラッシュ、またはバックスラッシュなどが挙げられる。または、シングルクォート、ダブルクォート、または括弧などで挟まれた領域に含まれる、単語、語句、または文を、一つの検索クエリとみなしてもよい。なお、領域３０１に、複数のタグが入力される場合も同様である。

　複数の文書データのそれぞれは、第１の特徴ベクトルを有することが好ましい。なお、検索クエリがタグを含む場合、文書データの第１の特徴ベクトルは、当該文書データに付与されているタグを用いて生成されていることが好ましい。例えば、第ｉの文書データが有する第１の特徴ベクトルは、第ｉの文書データに付与されているｎ［ｉ］個のタグを用いて生成されていることが好ましい。

　なお、複数の文書データのそれぞれは、第１の特徴ベクトルを有さなくてもよい。この場合、図３Ａに示すように、ステップＳ１０１の処理とステップＳ１０３の処理との間に、ステップＳ１２１の処理を有することが好ましい。ステップＳ１２１では、ステップＳ１０１で受け付けた複数の文書データのそれぞれに対して、第１の特徴ベクトルを生成する。文書データの第１の特徴ベクトルは、当該文書データに付与されているタグを用いて生成されることが好ましい。例えば、ステップＳ１２１では、第ｉの文書データに付与されているｎ［ｉ］個のタグを用いて、第ｉの文書データの第１の特徴ベクトルを生成する。この処理を、ｍ個の文書データのそれぞれに対して行うとよい。

　本実施の形態の文書検索方法１ａでは、文書データの第１の特徴ベクトルは、後述する［ステップＳ１０６］で説明する第２の特徴ベクトルとして用いることができる。

　また、図３Ａに示すように、ステップＳ１０２の処理とステップＳ１０３の処理との間に、ステップＳ１２２の処理を有することが好ましい。ステップＳ１２２では、ステップＳ１０２で受け付けた検索クエリのベクトル化を行う。本実施の形態の文書検索方法１ａでは、検索クエリは、当該検索クエリに含まれるタグを用いてベクトル化される。

　なお、図３Ａには、ステップＳ１２１の処理後に、ステップＳ１２２の処理が行われる例を示しているが、本発明はこれに限定されない。ステップＳ１２１の処理前に、ステップＳ１２２の処理が行われてもよいし、ステップＳ１２１の処理とステップＳ１２２の処理とが並行して行われてもよい。

［ステップＳ１０３］
　ステップＳ１０３では、検索クエリに基づいて、文書データに対して評価を行う。評価を行う文書データは、ステップＳ１０１で受け付けた複数の文書データである。例えば、ステップＳ１０３では、検索クエリに基づいて、ｍ個の文書データのそれぞれに対して評価を行う。

　なお、ステップＳ１０３として、図３Ｂに示すステップＳ１０３ａの処理が行われるとよい。ステップＳ１０３ａの処理は、ステップＳ１０１で受け付けた複数の文書データのそれぞれに対して、第１の特徴ベクトルと、ベクトル化された検索クエリとの類似度を算出する処理である。なお、ステップＳ１０３ａでは、ステップＳ１０１で受け付けた複数の文書データのそれぞれについて、第１の特徴ベクトルと、ベクトル化された検索クエリとの距離を算出してもよい。例えば、ステップＳ１０３では、第ｉの文書データが有する第１の特徴ベクトルと、ベクトル化された検索クエリとの類似度又は距離を算出する。この処理を、ｍ個の文書データのそれぞれに対して行うとよい。

　２つのベクトルの類似度を求める方法としては、コサイン類似度、共分散、不偏共分散、及び、ピアソンの積率相関係数などが挙げられる。このうち、特に、コサイン類似度を用いることが好ましい。

　２つのベクトルの距離を求める方法としては、ユークリッド距離、標準（標準化、平均）ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離などが挙げられる。

　図１１に示すように、ユーザが領域３０１に検索クエリを入力した後、「評価」と記されたアイコン３０２をマウスポインタ３０３で選択することで、文書検索システムが検索クエリを受け付け、検索クエリに基づいて、文書データの評価を開始する。つまり、ステップＳ１０２及びステップＳ１０３の処理が行われる。なお、ステップＳ１０１で受け付けた文書データ、及びステップＳ１０２で受け付けた検索クエリによっては、ステップＳ１２１、ステップＳ１２２等も行われる。

［ステップＳ１０４］
　ステップＳ１０４では、文書データに対する評価結果を出力する。なお、評価結果が出力される文書データは、ステップＳ１０１で受け付けた複数の文書データのうちの少なくとも一つである。つまり、評価結果が出力される文書データは、ステップＳ１０１で受け付けた複数の文書データのうちの一部であってもよいし、ステップＳ１０１で受け付けた全ての文書データであってもよい。例えば、評価結果が出力される文書データは、ｍ個の文書データの一部であってもよいし、ｍ個の文書データの全てであってもよい。

　以降では、ステップＳ１０４で評価結果が出力される文書データを、評価済み文書データと呼ぶことがある。本実施の形態の文書検索方法１では、ステップＳ１０４において、ｍ個の文書データのうちのｐ個（ｐは１以上ｍ以下の整数）の文書データの評価結果が表示されるものとする。つまり、ステップＳ１０４において、ｐ個の評価済み文書データの評価結果が表示される。また、ｐ個の評価済み文書データを、第１の評価済み文書データ乃至第ｐの評価済み文書データとする。また、第１の評価済み文書データ乃至第ｐの評価済み文書データをまとめて、評価済み文書データ群とする。つまり、ステップＳ１０４では、評価済み文書データ群のそれぞれの評価結果が出力される。また、評価済み文書データ群は、文書データ群の部分集合でもある。

　なお、本実施の形態の文書検索方法１ａは、ステップＳ１０４の処理に代えて、図３Ｃに示すステップＳ１０４ａの処理を有してもよい。ステップＳ１０４ａでは、文書データに対する評価結果を、当該文書データの関連情報と共に出力する。評価結果が出力される文書データは、上述した評価済み文書データ群である。

　文書データに対する評価結果は、一例として、表形式で出力されるとよい。例えば、表の少なくとも一つの列に、当該評価結果を示すことができる。また、当該表の第１の行には第１の文書データについての評価結果を示し、第２の行には第２の文書データについての評価結果を示すことができる。なお、評価結果が表形式で出力される場合、評価結果は文書データに関する情報とともに出力されてもよい。

　なお、文書データに対する評価結果、タグの重要度などは、ＣＳＶ形式などのファイルとして出力されてもよい。

　図１２乃至図１４に示す領域３１０は、文書データの、関連情報及び評価結果が表示される領域である。なお、領域３１０には、データベース等に含まれる各種データが表示されてもよい。図１２では、領域３１０に、評価結果を示す表３１１が表示されている。

　図１２は、文書データの評価結果を示す例である。図１２の表３１１では、縦軸の項目が文書データを特定する情報を示し、横軸の項目が一例として、文書データの関連情報、評価４２１、及び分類４３１を示す。なお、文書データを特定する情報は、文書データの関連情報でもある。

　図１２の表３１１には、文書データを特定する情報として、文書ＩＤ４０１が示されている。文書データが特許文献である場合、文書ＩＤ４０１として、例えば、出願番号、公開番号、登録番号などが挙げられる。

　図１２及び図１３の表３１１、並びに、図１４の表３１２では、一例として、５つの文書データに対する評価結果が示されている。つまり、図１２及び図１３の表３１１、並びに、図１４の表３１２において、ｐ＝５である。ここで、文書ＩＤ４０１が“１１１１”である文書データを第１の評価済み文書データとし、文書ＩＤ４０１が“２２２２”である文書データを第２の評価済み文書データとし、文書ＩＤ４０１が“３３３３”である文書データを第３の評価済み文書データとし、文書ＩＤ４０１が“４４４４”である文書データを第４の評価済み文書データとし、文書ＩＤ４０１が“５５５５”である文書データを第５の評価済み文書データとする。

　また、図１２の表３１１には、文書データの関連情報として、分類４１１、情報４１２、及び情報４１３が示されている。ここで、分類４１１は、文書データに付与されている第１の分類を指す。文書データが特許文献である場合、分類４１１として、例えば、ＣＰＣ、ＩＰＣ、ＦＩ、Ｆタームなどが挙げられる。また、情報４１２及び情報４１３としてそれぞれ、例えば、要約、特許請求の範囲、代表請求項、出願日、優先日、公開日、カテゴリ、キーワードなどが挙げられる。

　本実施の形態の文書検索方法１ａでは、第ｊ（ｊは１以上ｐ以下の整数）の評価済み文書データに関する情報が表示される行には、ｑ［ｊ］個（ｑ［ｊ］は１以上の整数）のタグが表示される。以降では、評価文書データ群に付与されているタグ全体の集合（和集合）を、第３のタグ群とする。つまり、第３のタグ群は、第２のタグ群の部分集合でもある。

　図１２では、一例として、第１の評価済み文書データには、分類４１１として“ａ１ｂ１”、“ａ１ｂ２”、及び“ａ１ｂ３”が付与され、第２の評価済み文書データには、分類４１１として“ａ１ｂ１”及び“ａ１ｂ２”が付与され、第３の評価済み文書データには、分類４１１として“ａ１ｂ１”、“ａ１ｂ３”、及び“ａ１ｃ１”が付与され、第４の評価済み文書データには、分類４１１として“ａ１ｂ２”及び“ａ１ｃ１”が付与され、第５の評価済み文書データには、分類４１１として“ａ１ｃ２”が付与されている。

　図１２では、一例として、第１の評価済み文書データ乃至第５の評価済み文書データのそれぞれには、“ａ１ｂ１”、“ａ１ｂ２”、“ａ１ｂ３”、“ａ１ｃ１”、及び“ａ１ｃ２”の少なくとも一つが付与されている。ここで、“ａ１ｂ１”を第１のタグとし、“ａ１ｂ２”を第２のタグとし、“ａ１ｂ３”を第３のタグとし、“ａ１ｃ１”を第４のタグとし、“ａ１ｃ２”を第５のタグとする。このとき、第３のタグ群は、第１のタグ乃至第５のタグを含む。

　なお、図１２の表３１１に表示される文書データの関連情報は、上記に限られず、１種、２種、又は４種以上であってもよい。または、文書データの関連情報は、図１２の表３１１に表示されなくてもよい。

　図１２の表３１１に示されている評価４２１は、ステップＳ１０３で取得された文書データに対する評価結果である。例えば、ステップＳ１０３ａの処理を行う（第１の特徴ベクトルと、ベクトル化された検索クエリとの類似度又は距離が算出される）場合、横軸の項目が評価４２１を示す欄には、算出された類似度の値又は距離の値が表示されるとよい。

　表３１１に出力される文書データは、評価が高い順に並べて表示されることが好ましい。図１２では、評価が高いほど表３１１のより上方に位置するように、文書データが表示されている。図１２では、一例として、第１の評価済み文書データの評価４２１は１．０であり、第２の評価済み文書データの評価４２１は０．７であり、第３の評価済み文書データの評価４２１は０．５であり、第４の評価済み文書データの評価４２１は０．３であり、第５の評価済み文書データの評価４２１は０．１である。つまり、図１２では、上から順に、第１の評価済み文書データ、第２の評価済み文書データ、第３の評価済み文書データ、第４の評価済み文書データ、第５の評価済み文書データが表示されている。

　なお、表３１１に出力される文書データは、評価が高い順に並べて表示される場合に限られない。例えば、文書ＩＤ４０１の順に並べて表示されてもよいし、情報４１２又は情報４１３の順に並べて表示されてもよいし、評価が低い順に並べて表示されてもよい。

　表３１１において、横軸の項目が分類４３１を示す欄には、選択欄が用意されることが好ましい。当該選択欄は、行毎に一つ用意されてもよいし、行毎に複数用意されてもよい。図１２の表３１１には、選択欄として、第１の選択欄４３２と、第２の選択欄４３３が用意されている。

［ステップＳ１０５］
　ステップＳ１０５では、複数の文書データの少なくとも一部に対して、分類を受け付ける。以降では、ステップＳ１０５で受け付ける分類を第２の分類と呼ぶことがある。ここで、第２の分類を受け付ける文書データは、評価済み文書データであることが好ましい。例えば、第２の分類を受け付ける文書データは、ｐ個の評価済み文書データである。ユーザは、評価済み文書データの、情報４１２、情報４１３、評価４２１などを参照し、当該評価済み文書データに対する第２の分類を選択することができる。

　なお、第２の分類は、所望の文書に近いか否かが選択されることで行われる。ユーザは、図１２に示す表３１１の、横軸の項目が分類４３１を示す欄において、所望の文書に近いか否かを選択する。つまり、ユーザは、評価済み文書データのそれぞれに対して分類を行う。また、表３１１の分類４３１は、第２の分類を指す。

　図１２の表３１１では、行毎に、第１の選択欄４３２と、第２の選択欄４３３とが用意されている。このとき、ユーザは、文書データが所望の文書に近いと判断する場合、当該文書データに係る行の第１の選択欄４３２にチェックをする。また、ユーザは、文書データが所望の文書に近くない（遠い）と判断する場合、当該文書データに係る行の第２の選択欄４３３にチェックをする。

　なお、ユーザは、文書データが所望の文書に近いか否かの判断に迷う場合がある。その場合は、当該文書データに係る行の第１の選択欄４３２及び第２の選択欄４３３の両方にチェックをするとよい。又は、当該文書データに係る行の第１の選択欄４３２及び第２の選択欄４３３の両方にチェックをしないとよい。このような構成にすることで、ユーザの判断を後述する学習に的確に反映することができる。

　なお、評価結果に応じて、文書データに対する第２の分類があらかじめ行われてもよい。例えば、文書データの評価４２１がある値（例えば０．８）以上である場合、当該文書データに係る行の第１の選択欄４３２がチェックされ、第２の選択欄４３３がチェックされないとよい。また、例えば、文書データの評価４２１が別の値（例えば０．２）以下である場合、当該文書データに係る行の第１の選択欄４３２がチェックされず、第２の選択欄４３３がチェックされてもよい。これにより、ユーザが分類を行う作業量を低減させることができる。又は、ユーザはあらかじめ行われた分類が適切か否かの判断を行うのみでよい場合がある。この場合においても、ユーザの作業量を低減させることができる。

　図１２では、一例として、第１の評価済み文書データでは、第１の選択欄４３２がチェックされ、第２の選択欄４３３がチェックされていない。また、第２の評価済み文書データでは、第１の選択欄４３２及び第２の選択欄４３３の両方がチェックされている。また、第３の評価済み文書データでは、第１の選択欄４３２がチェックされ、第２の選択欄４３３がチェックされていない。また、第４の評価済み文書データでは、第１の選択欄４３２及び第２の選択欄４３３の両方がチェックされていない。また、第５の評価済み文書データでは、第１の選択欄４３２がチェックされておらず、第２の選択欄４３３がチェックされている。

　図１２より、第１の評価済み文書データ及び第３の評価済み文書データは所望の文書に近いと判断され、第５の評価済み文書データは所望の文書に近くない（遠い）と判断され、第２の評価済み文書データ及び第４の評価済み文書データは所望の文書に近いか否かの判断が困難であったことが分かる。

　なお、表３１１において、横軸の項目が分類４３１を示す欄に用意される選択欄は行毎に一つであってもよい。このとき、ユーザは、文書データが所望の文書に近いと判断する場合、当該文書データに係る行の選択欄にチェックをするとよい。また、文書データが所望の文書に近くない（遠い）と判断する場合、当該文書データに係る行の選択欄にチェックをしないとよい。

［ステップＳ１０６］
　ステップＳ１０６では、ステップＳ１０５で受け付けた分類（第２の分類）から、タグの重要度の推論を行う。

　重要度の推論が行われるタグは、第３のタグ群の少なくとも一つであることが好ましく、第３のタグ群の一部であることがより好ましく、第３のタグ群の全てであることがさらに好ましい。例えば、図１２では、第１の評価済み文書データ乃至第５の評価済み文書データのそれぞれには、第１のタグ乃至第５のタグの少なくとも一つが付与されている。このとき、重要度の推論が行われるタグは、第１のタグ乃至第５のタグの少なくとも一つであることが好ましく、第１のタグ乃至第５のタグの一部であることがより好ましく、第１のタグ乃至第５のタグの全てであることがさらに好ましい。

　なお、タグの重要度の推論は、上記に加えて、第３のタグ群に含まれないタグ（図１２の例では、第１のタグ乃至第５のタグとは異なるタグ）に対して行われてもよい。

　また、重要度の推論が行われるタグは、第２のタグ群であってもよい。なお、第２のタグ群の一部は、評価済み文書データ群のいずれにも付与されていない場合がある。また、タグの重要度の推論は、第２のタグ群に加えて、第２のタグ群に含まれないタグに対して行われてもよい。

　また、重要度の推論が行われるタグは、第１のタグ群であってもよい。なお、第１のタグ群の一部は、評価文書データ群のいずれにも付与されていない場合がある。

　以降では、重要度の推論が行われるタグを、第４のタグ群とする。第４のタグ群が複数のタグで構成される場合、重要度の推論が行われるタグは、複数のタグとなる。

　ステップＳ１０６の処理の一例として、図３Ｄに示すステップＳ１０６ａの処理が挙げられる。ステップＳ１０６ａの処理は、ステップＳ１０５で受け付けた分類（第２の分類）と、文書データが有する第２の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器からタグの重要度を算出する処理である。重要度が算出されるタグは、上述した重要度の推論が行われるタグである。

　本実施の形態の文書検索方法１ａでは、文書データの第２の特徴ベクトルとして、当該文書データの第１の特徴ベクトルを用いることができる。

　上記学習データとして、評価済み文書データの第２の特徴ベクトルと、当該評価済み文書データに対する第２の分類と、を用いることができる。例えば、学習データとして、ｐ個の評価済み文書データそれぞれの、第２の特徴ベクトルと、第２の分類と、を用いることができる。このとき、第２の分類を、学習のラベルとして用いることができる。

　例えば、分類器としてニューラルネットワークを用いる場合、当該ニューラルネットワークが有する中間層から、タグの重要度を算出するとよい。又は、例えば、分類器として決定木を用いる場合、分岐のジニ係数から、タグの重要度を算出するとよい。又は、例えば、分類器としてラッソ回帰又はランダムフォレストを用いて、タグの重要度を算出するとよい。

　図１２に示すように、ユーザが第２の分類を行った後、「学習」と記されたアイコン３０５をマウスポインタ３０３で選択することで、学習及び推論が行われる。つまり、ステップＳ１０６又はステップＳ１０６ａの処理が行われる。

［ステップＳ１０７］
　ステップＳ１０７では、タグの重要度を出力する。また、ステップＳ１０７では、タグの重要度を、当該タグと共に出力する。別言すると、ステップＳ１０７では、タグ、及び当該タグの重要度を出力する。

　ステップＳ１０７で出力されるタグは、ステップＳ１０６又はステップＳ１０６ａで重要度の推論が行われたタグの少なくとも一つである。つまり、ステップＳ１０７で出力されるタグは、重要度の推論が行われたタグの一部であってもよいし、重要度の推論が行われた全てのタグであってもよい。例えば、ステップＳ１０７で出力されるタグは、第４のタグ群の一部であってもよいし、第４のタグ群の全てであってもよい。一例として、ステップＳ１０７で出力されるタグは、第１のタグ乃至第５のタグの少なくとも一つであってもよいし、第１のタグ乃至第５のタグの一部であってもよいし、第１のタグ乃至第５のタグの全てであってもよい。

　図１３に示す領域３２０は、タグと、当該タグの重要度が表示される領域である。図１３では、領域３２０に、推論結果を示す表３２１が表示されている。

　図１３及び図１４では、領域３２０は領域３１０の右側に配置されている構成を示しているが、領域３２０は領域３１０の左側に配置されてもよいし、領域３１０と領域３００との間に配置されてもよいし、領域３１０の下側に配置されてもよい。

　図１３は、推論結果を示す例である。図１３の表３２１では、縦軸の項目がタグ５０１を示し、横軸の項目が一例として、タグの重要度５１１、及び選択５２１を示す。

　表３２１に出力されるタグは、重要度が高い順に並べて表示されることが好ましい。図１３では、重要度が高いほど表３２１の上方に位置するようタグが表示されている。図１３の表３２１では、一例として、タグ５０１が“ａ１ｂ１”である第１のタグの重要度５１１は０．５であり、タグ５０１が“ａ１ｂ３”である第３のタグの重要度５１１は“０．３”であり、タグ５０１が“ａ１ｂ２”である第２のタグの重要度５１１は０．２であり、タグ５０１が“ａ１ｃ１”である第４のタグの重要度５１１は０．１であり、タグ５０１が“ａ１ｃ２”である第５のタグの重要度５１１は０．１である。

　なお、表３２１に出力されるタグは、重要度が高い順に並べて表示される場合に限られない。例えば、表３１１に出力される頻度が高い順に並べて表示されてもよいし、重要度が低い順に並べて表示されてもよい。

　表３２１において、横軸の項目が選択５２１を示す欄には、選択欄が用意されることが好ましい。当該選択欄は、行毎に一つ用意されるとよい。図１３の表３２１には、選択欄として、選択欄５２２が用意されている。

　図１３では領域３００、領域３１０、及び領域３２０が示されている。次のステップＳ１０８では、ユーザがタグを選択するため、領域３２０に表示される表３２１が重要となる。そこで、ステップＳ１０７で表示される表３１１の行又は列の数は、ステップＳ１０５で表示される表３１１の行又は列の数よりも少ないことが好ましい。例えば、表３１１と表３２１とが横に並べて表示される場合、ステップＳ１０７で表示される表３１１の列の数は、ステップＳ１０５で表示される表３１１の列の数よりも少ないことが好ましい。また、例えば、表３１１と表３２１とが縦に並べて表示される場合、ステップＳ１０７で表示される表３１１の行の数は、ステップＳ１０５で表示される表３１１の行の数よりも少ないことが好ましい。

　図１３では、一例として、表３１１と表３２１とが横に並べて表示されている。このとき、図１３の表３１１では、横軸の項目が、文書ＩＤ４０１、分類４１１、評価４２１、及び分類４３１が示されている。つまり、横軸の項目として、情報４１２、及び情報４１３が示されていない。

　上記のようにすることで、領域３２０の範囲を十分に確保することができる。よって、ユーザは、表３１１を参照しながら、タグの選択を行うことができる。また、次に説明する、所望の結果が得られているか否かの判断を、ユーザは表３１１を参照しながら行うことができる。

　ここで、ユーザは、所望の結果が得られているか否かの判断を行う。ここで、所望の結果とは、文書検索に用いるタグが表示されていることを指す。所望の結果が得られていると判断された場合、ステップＳ１０８に進む。一方、所望の結果が得られていないと判断された場合、ステップＳ１０５に戻る。

［ステップＳ１０８］
　ステップＳ１０８では、少なくとも一つのタグを受け付ける。また、ステップＳ１０８では、ステップＳ１０７において重要度が出力されたタグの少なくとも一つを受け付ける。別言すると、ステップＳ１０８では、表３２１に出力されるタグの少なくとも一つを受け付ける。

　ユーザは、表３２１の、横軸の項目が選択５２１を示す欄において、タグを選択する。タグを選択する場合、当該タグに係る行の選択欄５２２にチェックをする。また、タグを選択しない場合、当該タグに係る行の選択欄５２２にチェックをしない。

　図１３においては、第１のタグでは、選択欄５２２がチェックされ、第２のタグ乃至第５のタグでは、選択欄５２２がチェックされていない。

［ステップＳ１０９］
　ステップＳ１０９では、少なくとも一つのタグを用いて、文書の検索を行う。例えば、ステップＳ１０９では、ステップＳ１０８で受け付けたタグを用いて、文書の検索を行う。図１３においては、タグ５０１が“ａ１ｂ１”である第１のタグを用いて、文書の検索を行う。

　図１３に示すように、ユーザは、タグの選択を行った後、「検索」と記されたアイコン３０６をマウスポインタ３０３で選択することで、文書の検索が行われる。つまり、ステップＳ１０９の処理が行われる。

　なお、ステップＳ１０９で行う文書の検索を、最終検索と呼ぶことがある。

［ステップＳ１１０］
　ステップＳ１１０では、検索結果を出力する。

　ユーザは、所望の結果が得られているか否かを判断する。ここで、所望の結果とは、所望の文書が検索できたことを指す。所望の結果が得られていると判断された場合、検索を終了する。一方、所望の結果が得られていないと判断された場合、ステップＳ１０５に戻る。ステップＳ１０５以降の処理を再度行うことで、検索精度を高めることができる。

　なお、所望の文書を検索するために用いるタグは、重要度が一番高いとは限らない。そこで、所望の結果が得られていないと判断された場合、ステップＳ１０８に戻ってもよい。これにより、ステップＳ１０５乃至ステップＳ１０７の処理を省略し、所望の文書の検索に要する時間を短縮することができる。

　以上より、ユーザは所望の文書を検索することができる。

　本実施の形態の文書検索方法１ａでは、第１の特徴ベクトルと第２の特徴ベクトルとが一致することで、文書の検索に必要な演算量を低減できる。また、同じ観点で最終検索に必要なタグを補強できる。

　なお、本実施の形態の文書検索方法１ａでは、検索クエリが少なくとも一つのタグを含む場合の文書検索方法について例示したが、本発明はこれに限定されない。検索クエリはタグを含まなくてもよい。

［文書検索方法１ｂ］
　本実施の形態の文書検索方法１ｂでは、本実施の形態の文書検索方法１の別の一例を示す。本実施の形態の文書検索方法１ｂでは、検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせであるとする。別言すると、検索クエリには、タグが含まれない。

　本実施の形態の文書検索方法１ｂは、前述した［文書検索方法１ａ］と同様に、図２に示すステップＳ１０１乃至ステップＳ１１０の処理を有する。なお、本実施の形態の文書検索方法１ｂの説明において、前述した［文書検索方法１ａ］と異なる点について主に説明し、前述した［文書検索方法１ａ］の説明と重複する部分については説明を省略することがある。

　本実施の形態の文書検索方法１ｂでは、検索クエリとして、検索クエリが一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせを受け付ける。例えば、検索クエリは、少なくとも一つの単語を含む。

　ステップＳ１０２で受け付けた検索クエリが、一つ以上の単語、もしくは一つ以上の語句、または、これらの組み合わせである場合、当該検索クエリのベクトル化（ステップＳ１２２の処理）を行うことができる。このとき、検索クエリは、当該検索クエリに含まれる単語を用いてベクトル化される。

　一方、ステップＳ１０２で受け付けた検索クエリが一つ以上の文を含む場合、当該一つ以上の文をベクトル化するのは困難である。そこで、図４Ａに示すように、ステップＳ１２２の処理を行う前に、ステップＳ１３１の処理を行うことが好ましい。ステップＳ１３１の処理は、検索クエリを解析して、少なくとも一つの単語を抽出する処理である。ステップＳ１３１の処理で抽出された単語を用いて、検索クエリのベクトル化（ステップＳ１２２の処理）を行うことができる。このとき、検索クエリは、ステップＳ１３１の処理で抽出された単語を用いてベクトル化される。

　一つ以上の文（一つの文または文章）のベクトル化としては、様々な方法が挙げられる。例えば、形態素解析及び複合語解析の一方または双方を行うことで、一つ以上の文を、語句または単語で分割してもよい。そして、分割した語句または単語から、一つ以上の文のベクトル化を行なってもよい。

　例えば、単語の出現回数による、一つ以上の文のベクトル化の方法として、ＴＦ−ＩＤＦ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙ−Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）、及び、Ｂａｇ−ｏｆ−Ｗｏｒｄｓが挙げられる。

　なお、ステップＳ１０２で検索クエリとして受け付けた一つ以上の単語、もしくは一つ以上の語句、または、それらの組み合わせは、図１１乃至図１４に示す領域３０４に出力されるとよい。また、ステップＳ１３１で抽出された単語が領域３０４に出力されてもよい。これにより、ユーザは、ステップＳ１０３の処理で行われる評価に用いられる単語又は語句を確認することができる。

　上述したように、検索クエリは、当該検索クエリに含まれる単語、又は、ステップＳ１３１の処理で抽出された単語を用いてベクトル化される。そこで、文書データの第１の特徴ベクトルは、当該文書データに付与されているタグを用いることなく生成されていることが好ましい。別言すると、文書データの第１の特徴ベクトルは、当該文書データに関連する単語の少なくとも一つを用いて生成されることが好ましい。

　例えば、文書データの第１の特徴ベクトルは、当該文書データを用いて生成されていることが好ましい。具体的には、文書データの第１の特徴ベクトルは、当該文書データから抽出される単語の少なくとも一つを用いて生成されていることが好ましい。

　文書データが特許文献である場合、例えば、明細書、要約、特許請求の範囲の少なくとも一つから抽出される単語を用いて生成されていることが好ましい。また、文書データが論文、小説などである場合、例えば、文書の本文から抽出される単語を用いて生成されていることが好ましい。

　また、例えば、文書データの第１の特徴ベクトルは、当該文書データの関連情報のうち、第１の分類を除く少なくとも一つを用いて生成されていてもよい。具体的には、文書データの第１の特徴ベクトルは、文書データの関連情報の上記少なくとも一つに含まれる一つ以上の文から抽出される単語の少なくとも一つを用いて生成されていてもよい。

　なお、複数の文書データのそれぞれが、第１の特徴ベクトルを有さない場合、図４Ａに示すように、ステップＳ１０１の処理とステップＳ１０３の処理との間に、ステップＳ１２１の処理を有することが好ましい。

　なお、ステップＳ１２１において、文書データの第１の特徴ベクトルは、当該文書データを用いて生成されることが好ましい。さらに、第１の特徴ベクトルの生成に用いる文書データが一つ以上の文を含む場合、ステップＳ１２１の処理を行う前に、ステップＳ１４１の処理を行うことが好ましい。なお、ステップＳ１２１の処理を行う前とは、例えば、ステップＳ１０１の処理とステップＳ１０３の処理との間である。ステップＳ１４１では、文書データから単語を抽出する。具体的には、形態素解析及び複合語解析の一方または双方を行うことで、文書データに含まれる一つ以上の文を語句または単語で分割し、単語を抽出するとよい。

　又は、文書データの第１の特徴ベクトルは、当該文書データの関連情報のうち、第１の分類を除く少なくとも一つから抽出される単語の少なくとも一つを用いて生成されることが好ましい。なお、第１の特徴ベクトルの生成に用いる文書データの関連情報の上記少なくとも一つが一つ以上の文を含む場合、ステップＳ１２１の処理を行う前に、ステップＳ１４１の処理を行うことが好ましい。例えば、ステップＳ１４１では、文書データの関連情報の上記少なくとも一つから単語を抽出する。具体的には、形態素解析及び複合語解析の一方または双方を行うことで、文書データの関連情報の上記少なくとも一つに含まれる一つ以上の文を語句または単語で分割し、単語を抽出するとよい。

　本実施の形態の文書検索方法１ｂにおいて、第１の特徴ベクトルは単語を用いて生成される。また、第２の特徴ベクトルは、タグを用いて生成される。例えば、文書データの第２の特徴ベクトルは、当該文書データに付与されているタグを用いて生成される。よって、文書データの第１の特徴ベクトルと、当該文書データの第２の特徴ベクトルとは異なる。なお、本実施の形態の文書検索方法１ｂにおける第２の特徴ベクトルは、先の［文書検索方法１ａ］で説明した第１の特徴ベクトルを参照できる。

　本実施の形態の文書検索方法１ｂでは、所望の文書を検索する際に必要なタグの見当がつかない場合であっても、所望の文書を検索する際に有効なタグを得ることができる。

　文書検索結果の表示方法については、前述した＜文書検索方法１＞の説明を参照できる。なお、図１２及び図１３の表３１１に示す分類４１１、及び図１４の表３１２に示す分類４１１には、文書データに関連する単語が出力されるとよい。

［文書検索方法１ｃ］
　本実施の形態の文書検索方法１ｃは、前述した文書検索方法１ｂの別の一例である。

　本実施の形態の文書検索方法１ｃは、前述した［文書検索方法１ａ］と同様に、図２に示すステップＳ１０１乃至ステップＳ１１０の処理を有する。なお、本実施の形態の文書検索方法１ｃの説明において、前述した［文書検索方法１ｂ］と異なる点について主に説明し、前述した［文書検索方法１ａ］又は［文書検索方法１ｂ］の説明と重複する部分については説明を省略することがある。

　本実施の形態の文書検索方法１ｃでは、検索クエリとして、検索クエリが一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせを受け付ける。

　ここで、ステップＳ１０２で受け付けた検索クエリが一つ以上の文を含む場合、前述したステップＳ１３１の処理を行うことが好ましい。

　図２に示すステップＳ１０３として、図４Ｂに示すステップＳ１０３ｂの処理が行われることが好ましい。ステップＳ１０３ｂの処理は、ステップＳ１０１で受け付けた複数の文書データのそれぞれについて、ステップＳ１４１の処理で抽出された単語と、検索クエリに含まれる単語又はステップＳ１３１の処理で抽出された単語と、の一致度を算出する処理である。

　本実施の形態の文書検索方法１ｃにおいて、第１の特徴ベクトルは生成されず、第２の特徴ベクトルは、タグを用いて生成される。よって、本実施の形態の文書検索方法１ｃでは、第１の特徴ベクトルを生成するための処理を省くことができる。また、検索クエリのベクトル化を行わなくてもよい。したがって、文書の検索に必要な演算量を低減できる。

［変形例］
　なお、本実施の形態の文書検索方法１は、図２に示す処理の一部を変更してもよい。図５は、本実施の形態の文書検索方法１の別の一例である。図５に示す文書検索方法は、図２に示す文書検索方法１とは、ステップＳ１０６及びステップＳ１０７の処理に代えて、ステップＳ１０６ｂ及びステップＳ１０７ｂの処理を行う点で異なる。

　なお、ステップＳ１０６ｂにおいて、前述したステップＳ１０６又はステップＳ１０６ａの説明と重複する部分については説明を省略することがある。また、ステップＳ１０７ｂにおいて、前述したステップＳ１０７の説明と重複する部分については説明を省略することがある。

　図５に示すステップＳ１０１乃至ステップＳ１０５は、それぞれ、図２に示すステップＳ１０１乃至ステップＳ１０５と同じであるため、前述した説明を参照できる。

［ステップＳ１０６ｂ］
　ステップＳ１０６ｂでは、ステップＳ１０５で受け付けた分類（第２の分類）から、タグの重要度、及び文書データに対する判定確率の推論を行う。

　ステップＳ１０６ｂの処理の一例として、図６Ａに示すステップＳ１０６ｃの処理が挙げられる。ステップＳ１０６ｃの処理は、ステップＳ１０５で受け付けた分類（第２の分類）と、文書データが有する第２の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器からタグの重要度及び文書データに対する判定確率を算出する処理である。

　文書データに対する判定確率は、分類器から出力されるデータを元に算出されるとよい。つまり、判定確率は、ステップＳ１０５で受け付けた分類（第２の分類）が反映された、文書データに対する評価ともいえる。別言すると、判定確率は、第２の分類が反映された、検索クエリと文書データの類似度又は距離ともいえる。

［ステップＳ１０７ｂ］
　ステップＳ１０７ｂでは、文書データに対する判定確率と、タグの重要度と、を出力する。

　判定確率が出力される文書データは、ステップＳ１０４で出力された文書データのうちの少なくとも一つである。つまり、判定確率が出力される文書データは、ステップＳ１０４で出力された複数の文書データのうちの一部であってもよいし、ステップＳ１０４で出力された全ての文書データであってもよい。例えば、ステップＳ１０７ｂにおいて、評価済み文書データ群（ｐ個の評価済み文書データ）の判定確率が表示されるとよい。

　なお、図５に示す文書検索方法１の別の一例は、ステップＳ１０７ｂの処理に代えて、図６Ｂに示すステップＳ１０７ｃの処理を有してもよい。ステップＳ１０７ｃでは、文書データに対する判定確率と、タグの重要度とを出力する。また、ステップＳ１０７ｃでは、文書データに対する判定確率を、当該文書データに関する情報と共に出力し、タグの重要度を、当該タグと共に出力する。

　図１４は、推論結果を示す別の例である。図１４では、ステップＳ１０３で取得された評価結果が示された表３１１に代えて、ステップＳ１０７で算出された判定確率が示された表３１２が出力されている。図１４の表３１２では、縦軸の項目が文書ＩＤ４０１を示し、横軸の項目が一例として、分類４１１、判定確率４４１、及び分類４３１を示す。

　図１４の表３１２に出力される文書データは、判定確率が高い順に並べて表示されることが好ましい。図１４では、判定確率が高いほど表３１２のより上方に位置するよう、文書データが表示されている。図１４では、一例として、第１の評価済み文書データの判定確率４４１は０．９であり、第３の評価済み文書データの判定確率４４１は０．８であり、第２の評価済み文書データの判定確率４４１は０．５であり、第４の評価済み文書データの判定確率４４１は０．３であり、第５の評価済み文書データの判定確率４４１が０．１である。よって、図１４では、上から順に、第１の評価済み文書データ、第３の評価済み文書データ、第２の評価済み文書データ、第４の評価済み文書データ、第５の評価済み文書データが表示されている。

　なお、表３１２に出力される文書データは、文書ＩＤ４０１の順に並べて表示されてもよいし、判定確率が低い順に並べて表示されてもよい。

　なお、図１４の表３２１は、図１４の表３２１と同様である。

　図１４の表３１２は、ステップＳ１０５で受け付けた分類（第２の分類）が反映された、文書データに対する評価結果ともいえる。したがって、所望の結果が得られていないと判断され、ステップＳ１０５に戻る場合、図１４の表３１２を参照して、ステップＳ１０５における分類を再度行うことで、分類器の精度を高めることができる。

　図５に示すステップＳ１０８乃至ステップＳ１１０は、それぞれ、図２に示すステップＳ１０８乃至ステップＳ１１０と同じであるため、前述した説明を参照できる。

　以上が、タグを用いて文書の検索を行う文書検索方法についての説明である。

＜文書検索方法２＞
　本実施の形態の文書検索方法２では、単語を用いて文書の検索を行う文書検索方法について説明する。本実施の形態の文書検索方法２は、分類（上述した第１の分類）が付与されていない文書の検索に有効である。

　なお、文書検索結果の表示方法については、前述した＜文書検索方法１＞の説明を参照できる。なお、本実施の形態の文書検索方法２では、図１３及び図１４の表３２１に示すタグ５０１には、重要度の推論が行われた単語が出力されるとよい。また、図１３及び図１４の表３２１に示すタグの重要度５１１には、単語の重要度が出力されるとよい。

［文書検索方法２ａ］
　本実施の形態の文書検索方法２ａでは、本実施の形態の文書検索方法２の一例を示す。なお、本実施の形態の文書検索方法２ａでは、検索クエリが少なくとも一つのタグを含むものとする。また、タグはコードであってもよいし、キーワードであってもよい。

　本実施の形態の文書検索方法２ａは、図７に示すステップＳ１０１乃至ステップＳ１０５、ステップＳ２０６乃至ステップＳ２０９、及びステップＳ１１０の処理を有する。

　図７に示すステップＳ１０１乃至ステップＳ１０５は、それぞれ、図２に示すステップＳ１０１乃至ステップＳ１０５と同じであるため、前述した［文書検索方法１ａ］の説明を参照できる。

　ステップＳ２０６の処理を行う前に、前述したステップＳ１４１の処理を行うことが好ましい。また、ステップＳ１４１の処理が行われる文書データは、評価済み文書データ群であることが好ましい。なお、ステップＳ１４１の処理が行われる文書データは、文書データ群であってもよい。ステップＳ１４１の処理を行うことで、文書データに関連する単語を抽出することができる。ステップＳ１４１で抽出される単語全体の集合（和集合）を、第１の単語群とする。

　また、ステップＳ１４１の処理後に、文書データの第２の特徴ベクトルを生成することが好ましい。また、文書データの第２の特徴ベクトルは、ステップＳ１４１で取得された当該文書データに関連する単語を用いて生成されることが好ましい。例えば、文書データの第２の特徴ベクトルは、当該文書データから抽出される単語を用いて生成されることが好ましい。

［ステップＳ２０６］
　ステップＳ２０６では、ステップＳ１０５で受け付けた分類（第２の分類）から、単語の重要度の推論を行う。なお、ステップＳ２０６において、ステップＳ１０６と同様の部分については、前述した［文書検索方法１ａ］の説明を参照できる。その場合、前述した［文書検索方法１ａ］の説明におけるタグを単語に読み替えるとよい。

　重要度の推論が行われる単語は、第１の単語群の少なくとも一つであることが好ましく、第１の単語群の一部であることがより好ましく、第１の単語群の全てであることがさらに好ましい。例えば、ｐ個の評価済み文書データから抽出された単語の少なくとも一つであることが好ましく、ｐ個の評価済み文書データから抽出された単語の一部であることがより好ましく、ｐ個の評価済み文書データから抽出された全ての単語であることがさらに好ましい。また、例えば、ｐ個の評価済み文書データの関連情報の少なくとも一つから抽出された単語の少なくとも一つであることが好ましく、ｐ個の評価済み文書データの関連情報の少なくとも一つから抽出された単語の一部であることがより好ましく、ｐ個の評価済み文書データの関連情報の少なくとも一つから抽出された全ての単語であることがさらに好ましい。

　以降では、重要度の推論が行われる単語を、第２の単語群とする。重要度の推論が行われる単語が第１の単語群の全てである場合、第２の単語群は、第１の単語群と同じとなる。また、重要度の推論が行われる単語が第１の単語群の一部である場合、第２の単語群は、第１の単語群の部分集合となる。第２の単語群が複数の単語で構成される場合、重要度の推論が行われる単語は、複数の単語となる。

　ステップＳ２０６の処理の一例として、図８に示すステップＳ２０６ａの処理が挙げられる。ステップＳ２０６ａの処理は、ステップＳ１０５で受け付けた分類（第２の分類）と、文書データが有する第２の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器から単語の重要度を算出する処理である。重要度が算出される単語は、上述した重要度の推論が行われる単語である。

　例えば、分類器としてニューラルネットワークを用いる場合、当該ニューラルネットワークが有する中間層から、単語の重要度を算出するとよい。又は、例えば、分類器として決定木を用いる場合、分岐のジニ係数から、単語の重要度を算出するとよい。又は、例えば、分類器としてラッソ回帰又はランダムフォレストを用いて、単語の重要度を算出するとよい。

　本実施の形態の文書検索方法２ａにおいて、第１の特徴ベクトルはタグを用いて生成され、第２の特徴ベクトルは、単語を用いて生成される。よって、文書データの第１の特徴ベクトルと、当該文書データの第２の特徴ベクトルとは異なる。

［ステップＳ２０７］
　ステップＳ２０７では、単語の重要度を出力する。また、ステップＳ１０７では、単語の重要度を、当該単語と共に出力する。別言すると、ステップＳ２０７では、単語、及び当該単語の重要度を出力する。なお、ステップＳ２０７において、ステップＳ１０７と同様の部分については、前述した［文書検索方法１ａ］の説明を参照できる。その場合、前述した［文書検索方法１ａ］の説明におけるタグを単語に読み替えるとよい。

　ステップＳ２０７で出力される単語は、ステップＳ２０６またはステップＳ２０６ａで重要度の推論が行われた単語の少なくとも一つである。つまり、ステップＳ２０７で出力される単語は、重要度の推論が行われた単語の一部であってもよいし、重要度の推論が行われた全ての単語であってもよい。例えば、ステップＳ２０７で出力される単語は、第２の単語群の一部であってもよいし、第２の単語群の全てであってもよい。

　なお、ステップＳ２０７における単語の出力は、図１３に示す表形式に限定されない。例えば、ワードクラウドのように、重要度の値の大きさに比例する大きさで、単語を出力してもよい。また、重要度の値が大きい単語ほど中央に位置するように、単語を出力してもよい。このような形式で出力されることで、ユーザは、単語の重要度を視覚的に確認することができる。なお、ワードクラウドは、タグクラウド又は加重リストともよばれる。

　ここで、ユーザは、所望の結果が得られているか否かを判断する。ここで、所望の結果とは、文書検索に用いる単語が表示されていることを指す。所望の結果が得られていると判断された場合、ステップＳ２０８に進む。一方、所望の結果が得られていないと判断された場合、ステップＳ１０５に戻る。

［ステップＳ２０８］
　ステップＳ２０８では、少なくとも一つの単語を受け付ける。また、ステップＳ２０８では、ステップＳ２０７において重要度が出力された単語の少なくとも一つを受け付ける。別言すると、ステップＳ２０８では、表３２１に出力される単語の少なくとも一つを受け付ける。なお、ステップＳ２０８において、ステップＳ１０８と同様の部分については、前述した［文書検索方法１ａ］の説明を参照できる。その場合、前述した［文書検索方法１ａ］の説明におけるタグを単語に読み替えるとよい。

　なお、ステップＳ２０７において、単語がワードクラウドの形式で出力される場合、選択欄を設けずに、単語を直接選択する形式としてもよい。このとき、選択された単語を、強調表示することで、選択された単語の視認性を高めることができる。例えば、下線を引く、文字の線を太くする、文字の色を他の文字の色と区別する、または、ハイライトマーカを引く、などにより、選択された単語を強調することができる。

［ステップＳ２０９］
　ステップＳ２０９では、少なくとも一つの単語を用いて、文書の検索を行う。例えば、ステップＳ２０９では、ステップＳ２０８で受け付けた単語を用いて、文書の検索を行う。なお、ステップＳ２０９において、ステップＳ１０９と同様の部分については、前述した［文書検索方法１ａ］の説明を参照できる。その場合、前述した［文書検索方法１ａ］の説明におけるタグを単語に読み替えるとよい。

　図７に示すステップ１１０は、図２に示すステップ１１０と同じであるため、前述した［文書検索方法１ａ］の説明を参照できる。

　以上より、ユーザは所望の文書を検索することができる。

　本実施の形態の文書検索方法２ａでは、所望の文書を検索する際に必要な単語の見当がつかない場合であっても、所望の文書を検索する際に有効な単語を得ることができる。

　なお、本実施の形態の文書検索方法２ａでは、検索クエリが少なくとも一つのタグを含む場合の文書検索方法について例示したが、本発明はこれに限定されない。検索クエリはタグを含まなくてもよい。

［文書検索方法２ｂ］
　本実施の形態の文書検索方法２ｂでは、本実施の形態の文書検索方法２の別の一例を示す。本実施の形態の文書検索方法２ｂでは、検索クエリは、一つ以上の単語、一つ以上の語句、もしくは一つ以上の文、または、これらの組み合わせであるとする。別言すると、検索クエリには、タグが含まれない。

　本実施の形態の文書検索方法２ｂは、前述した［文書検索方法２ａ］と同様に、図７に示すステップＳ１０１乃至ステップＳ１０５、ステップＳ２０６乃至ステップＳ２０９、及びステップＳ１１０の処理を有する。

　なお、本実施の形態の文書検索方法２ｂにおける、図７に示すステップＳ１０１乃至ステップＳ１０５については、前述した［文書検索方法１ｂ］の説明を参照できる。

　また、本実施の形態の文書検索方法２ｂにおける、図７に示すステップＳ２０６乃至ステップＳ２０９については、前述した［文書検索方法２ａ］の説明を参照できる。

　また、本実施の形態の文書検索方法２ｂにおける、図７に示すステップＳ１１０については、前述した［文書検索方法１ａ］の説明を参照できる。

　本実施の形態の文書検索方法２ｂでは、第１の特徴ベクトル及び第２の特徴ベクトルはそれぞれ、単語を用いて生成される。つまり、文書データの第２の特徴ベクトルとして、当該文書データの第１の特徴ベクトルを用いることができる。このとき、文書データの第１の特徴ベクトルと、当該文書データの第２の特徴ベクトルとは一致するといえる。

　本実施の形態の文書検索方法２ｂでは、第１の特徴ベクトルと第２の特徴ベクトルとが一致することで、文書の検索に必要な演算量を低減できる。また、同じ観点で最終検索に必要な単語を補強できる。

［文書検索方法２ｃ］
　本実施の形態の文書検索方法２ｃは、前述した文書検索方法２ｂの別の一例である。

　本実施の形態の文書検索方法２ｃは、前述した［文書検索方法２ａ］と同様に、図７に示すステップＳ１０１乃至ステップＳ１０５、ステップＳ２０６乃至ステップＳ２０９、及びステップＳ１１０の処理を有する。

　なお、本実施の形態の文書検索方法２ｃにおける、図７に示すステップＳ１０１乃至ステップＳ１０５については、前述した［文書検索方法１ｃ］の説明を参照できる。

　また、本実施の形態の文書検索方法２ｃにおける、図７に示すステップＳ２０６乃至ステップＳ２０９については、前述した［文書検索方法２ａ］の説明を参照できる。

　また、本実施の形態の文書検索方法２ｃにおける、図７に示すステップＳ１１０については、前述した［文書検索方法１ａ］の説明を参照できる。

　本実施の形態の文書検索方法２ｃにおいて、第１の特徴ベクトルは生成されず、第２の特徴ベクトルは、単語を用いて生成される。よって、本実施の形態の文書検索方法２ｃでは、第１の特徴ベクトルを生成するための処理を省くことができる。また、検索クエリのベクトル化を行わなくてもよい。したがって、文書の検索に必要な演算量を低減できる。

［変形例］
　なお、本実施の形態の文書検索方法２は、図７に示す処理の一部を変更してもよい。図９は、本実施の形態の文書検索方法２の別の一例である。図９に示す文書検索方法２は、図７に示す文書検索方法２とは、ステップＳ２０６及びステップＳ２０７の処理に代えて、ステップＳ２０６ｂ及びステップＳ２０７ｂの処理を行う点で異なる。

　なお、ステップＳ２０６ｂにおいて、前述したステップＳ２０６又はステップＳ２０６ａの説明と重複する部分については説明を省略することがある。また、ステップＳ２０７ｂにおいて、前述したステップＳ２０７又はステップＳ２０７ａの説明と重複する部分については説明を省略することがある。

　図９に示すステップＳ１０１乃至ステップＳ１０５は、それぞれ、図７に示すステップＳ１０１乃至ステップＳ１０５と同じであるため、前述した＜文書検索方法１＞の説明、及び前述した［文書検索方法２ａ］の説明を参照できる。

［ステップＳ２０６ｂ］
　ステップＳ２０６ｂでは、ステップＳ１０５で受け付けた分類（第２の分類）から、単語の重要度、及び文書データに対する判定確率の推論を行う。

　ステップＳ２０６ｂの処理の一例として、図１０Ａに示すステップＳ２０６ｃの処理が挙げられる。ステップＳ２０６ｃの処理は、ステップＳ１０５で受け付けた分類（第２の分類）と、文書データが有する第２の特徴ベクトルと、を学習データとして分類器の学習を行い、学習が行われた当該分類器から単語の重要度及び文書データに対する判定確率を算出する処理である。

［ステップＳ２０７ｂ］
　ステップＳ２０７ｂでは、文書データに対する判定確率と、単語の重要度と、を出力する。

　判定確率が出力される文書データは、ステップＳ１０４で出力された文書データのうちの少なくとも一つである。つまり、判定確率が出力される文書データは、ステップＳ１０４で出力された複数の文書データのうちの一部であってもよいし、ステップＳ１０４で出力された全ての文書データであってもよい。例えば、ステップＳ２０７ｂにおいて、評価済み文書データ群（ｐ個の評価済み文書データ）の判定確率が表示されるとよい。

　なお、図９に示す文書検索方法２の別の一例は、ステップＳ２０７ｂの処理に代えて、図１０Ｂに示すステップＳ２０７ｃの処理を有してもよい。ステップＳ２０７ｃでは、文書データに対する判定確率と、単語の重要度とを出力する。また、ステップＳ２０７ｃでは、文書データに対する判定確率を、当該文書データに関する情報ととともに出力し、単語の重要度を、当該単語と共に出力する。

　図９に示すステップＳ２０８、ステップＳ２０９、及びステップＳ１１０は、それぞれ、図７に示すステップＳ２０８、ステップＳ２０９、及びステップＳ１１０と同じであるため、前述した＜文書検索方法１＞の説明、及び前述した［文書検索方法２ａ］の説明を参照できる。

　以上が、単語を用いて文書の検索を行う文書検索方法についての説明である。

　以上のように、本実施の形態の文書検索システムは、文書検索の検索クエリに用いることが好ましいタグ又は単語を提示することができる。文書検索システムが提示するタグ又は単語は、ユーザが評価した結果をもとに推論を行うことで提示されているため、ユーザが文書検索システムに入力した検索クエリよりも、ノイズが少なく、適切な検索クエリとなる。

　したがって、本実施の形態の文書検索システム及び文書検索方法を用いることで、ユーザにとって直感的であって、効率的な検索を行うことができる。また、検索対象の文書が多い場合であっても、所望の文書を短時間で得ることができる。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、一つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

（実施の形態２）
　本実施の形態では、本発明の一態様の文書検索システムについて図１５及び図１６を用いて説明する。

＜文書検索システム２＞
　図１５に、文書検索システム２１０のブロック図を示す。文書検索システム２１０は、サーバ２２０と、端末２３０（パーソナルコンピュータなど）と、を有する。なお、図１に示す文書検索システム１００と同じ構成要素については、実施の形態１の＜文書検索システム１＞の説明も参照できる。

　サーバ２２０は、通信部１７１ａ、伝送路１７２、記憶部１２０、及び、処理部１３０を有する。図１５では図示しないが、さらに、サーバ２２０は、受付部、データベース、出力部、入力部などの少なくとも一つを有していてもよい。

　端末２３０は、通信部１７１ｂ、伝送路１７４、入力部１１５、記憶部１２５、処理部１３５、及び、表示部１４５を有する。端末２３０としては、タブレット端末、ノート型情報端末、及び、各種携帯情報端末が挙げられる。また、端末２３０が表示部１４５を有さないデスクトップ型情報端末であり、端末２３０が、表示部１４５として機能するモニタ等と接続されていてもよい。

　文書検索システム２１０のユーザは、端末２３０の入力部１１５から、文書データをサーバ２２０に入力する。さらに、検索クエリを入力することもできる。これらの入力内容は、通信部１７１ｂから通信部１７１ａに送信される。例えば、通信部１７１ｂから通信部１７１ａに、文書データと、検索クエリとが送信される。

　通信部１７１ａが受信した情報は、伝送路１７２を介して、処理部１３０が有するメモリまたは記憶部１２０に保存される。また、通信部１７１ａから受付部（図１に示す受付部１１０参照）を介して処理部１３０に情報が供給されてもよい。

　実施の形態１の＜文書検索方法１＞で説明した、ステップＳ１０３及びステップＳ１０６の処理、並びに、実施の形態１の＜文書検索方法２＞で説明したステップＳ２０６の処理などは、処理部１３０にて行われる。これらの処理は、高い処理能力が求められるため、サーバ２２０が有する処理部１３０で行うことが好ましい。処理部１３０は、処理部１３５よりも処理能力が高いことが好ましい。

　処理部１３０の処理結果は、伝送路１７２を介して、処理部１３０が有するメモリまたは記憶部１２０に保存される。その後、サーバ２２０から、処理結果が、端末２３０の表示部１４５へと出力される。処理結果は、通信部１７１ａから通信部１７１ｂに送信される。また、処理部１３０の処理結果に基づいて、データベースに含まれる各種データが、通信部１７１ａから通信部１７１ｂに送信されてもよい。また、出力部（図１に示す出力部１４０）を介して、処理部１３０から通信部１７１ａに処理結果が供給されてもよい。

［通信部１７１ａ及び通信部１７１ｂ］
　通信部１７１ａ及び通信部１７１ｂを用いて、サーバ２２０と端末２３０との間で、データの送受信を行うことができる。通信部１７１ａ及び通信部１７１ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

［伝送路１７２及び伝送路１７４］
　伝送路１７２及び伝送路１７４は、データを伝達する機能を有する。通信部１７１ａ、記憶部１２０、及び、処理部１３０の間のデータの送受信は、伝送路１７２を介して行うことができる。通信部１７１ｂ、入力部１１５、記憶部１２５、処理部１３５、及び、出力部１４０の間のデータの送受信は、伝送路１７４を介して行うことができる。

［入力部１１５］
　入力部１１５は、ユーザが文書群及び検索クエリを指定する際に用いることができる。例えば、入力部１１５は端末２３０を操作する機能を有することができ、具体的には、マウス、キーボード、タッチパネル、マイク、スキャナ、カメラ等が挙げられる。

　文書検索システム２１０は、音声データをテキストデータに変換する機能を有していてもよい。例えば、処理部１３０及び処理部１３５の少なくとも一方が当該機能を有していてもよい。

　文書検索システム２１０は、光学文字認識（ＯＣＲ）機能を有していてもよい。これにより、画像データに含まれる文字を認識し、テキストデータを作成することができる。例えば、処理部１３０及び処理部１３５の少なくとも一方が当該機能を有していてもよい。

［記憶部１２５］
　記憶部１２５は、文書に関するデータ、及び、サーバ２２０から供給されたデータの一方または双方を記憶してもよい。また、記憶部１２０が有することができるデータの少なくとも一部を、記憶部１２５が有していてもよい。

［処理部１３０及び処理部１３５］
　処理部１３５は、通信部１７１ｂ、記憶部１２５、及び入力部１１５などから供給されたデータを用いて、演算などを行う機能を有する。処理部１３５は、処理部１３０で行うことができる処理の少なくとも一部を実行する機能を有していてもよい。

　処理部１３０及び処理部１３５は、それぞれ、チャネル形成領域に金属酸化物を有するトランジスタ（ＯＳトランジスタ）、及び、チャネル形成領域にシリコンを有するトランジスタ（Ｓｉトランジスタ）の一方または双方を有することができる。

　なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをＯｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ、あるいはＯＳトランジスタと呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

　本明細書等において、金属酸化物（ｍｅｔａｌ　ｏｘｉｄｅ）とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体（透明酸化物導電体を含む）、酸化物半導体（Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒまたは単にＯＳともいう）などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも一つを有するトランジスタのチャネル形成領域を構成し得る場合、当該金属酸化物を、金属酸化物半導体（ｍｅｔａｌ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ）、略してＯＳと呼ぶことができる。

　チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含む酸化物半導体であると好ましい。元素Ｍは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）及びスズ（Ｓｎ）の少なくとも一つであることが好ましい。その他の元素Ｍに適用可能な元素としては、ホウ素（Ｂ）、シリコン（Ｓｉ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、及び、タングステン（Ｗ）などが挙げられる。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

　チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

　処理部１３０は、ＯＳトランジスタを有することが好ましい。ＯＳトランジスタはオフ電流が極めて小さいため、ＯＳトランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部１３０が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部１３０を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部１３０をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。なお、処理部１３５についても同様である。

［表示部１４５］
　表示部１４５は、出力結果を表示する機能を有する。表示部１４５としては、液晶表示装置、発光表示装置などの表示装置が挙げられる。発光表示装置に用いることができる発光素子としては、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）、ＯＬＥＤ（Ｏｒｇａｎｉｃ　ＬＥＤ）、ＱＬＥＤ（Ｑｕａｎｔｕｍ−ｄｏｔ　ＬＥＤ）、及び、半導体レーザなどが挙げられる。また、表示部１４５には、シャッター方式または光干渉方式のＭＥＭＳ（Ｍｉｃｒｏ　Ｅｌｅｃｔｒｏ　Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍｓ）素子を用いた表示装置、マイクロカプセル方式、電気泳動方式、エレクトロウェッティング方式、または電子粉流体（登録商標）方式等を適用した表示素子を用いた表示装置などを用いることもできる。

　図１６に、本実施の形態の文書検索システムのイメージ図を示す。

　図１６に示す文書検索システムは、サーバ５１００と、端末（電子機器ともいえる）と、を有する。サーバ５１００と各端末との間の通信は、インターネット回線５１１０を介して行うことができる。

　サーバ５１００は、端末からインターネット回線５１１０を介して入力されたデータを用いて、演算を行うことができる。サーバ５１００は、演算の結果を、インターネット回線５１１０を介して端末に送信することができる。これにより、端末における演算の負担を低減することができる。

　図１６では、端末として、情報端末５３００、情報端末５４００、及び、情報端末５５００を示している。情報端末５３００は、スマートフォンなどの携帯情報端末の一例である。情報端末５４００は、タブレット端末の一例である。また、情報端末５４００は、キーボードを有する筐体５４５０と接続することで、ノート型情報端末として用いることもできる。情報端末５５００は、デスクトップ型情報端末の一例である。

　このような形態を構成することにより、ユーザは、情報端末５３００、情報端末５４００、及び、情報端末５５００などからサーバ５１００に対してアクセスすることができる。そして、ユーザは、インターネット回線５１１０を介した通信によって、サーバ５１００の管理者が提供するサービスを受けることができる。当該サービスとしては、例えば、本発明の一態様の文書検索方法を用いたサービスが挙げられる。当該サービスにおいて、サーバ５１００で人工知能を利用してもよい。

　本実施の形態は、他の実施の形態と適宜組み合わせることができる。

１００：文書検索システム、１１０：受付部、１１５：入力部、１２０：記憶部、１２５：記憶部、１３０：処理部、１３５：処理部、１４０：出力部、１４５：表示部、１５０：伝送路、１７１ａ：通信部、１７１ｂ：通信部、１７２：伝送路、１７４：伝送路、２１０：文書検索システム、２２０：サーバ、２３０：端末、３００：領域、３０１：領域、３０２：アイコン、３０３：マウスポインタ、３０４：領域、３０５：アイコン、３０６：アイコン、３１０：領域、３１１：表、３１２：表、３２０：領域、３２１：表、４０１：文書ＩＤ、４１１：分類、４１２：情報、４１３：情報、４２１：評価、４３１：分類、４３２：第１の選択欄、４３３：第２の選択欄、４４１：判定確率、５０１：タグ、５１１：重要度、５２１：選択、５２２：選択欄、５１００：サーバ、５１１０：インターネット回線、５３００：情報端末、５４００：情報端末、５４５０：筐体、５５００：情報端末

Claims

　複数の文書データを受け付ける第１のステップと、
　検索クエリを受け付ける第２のステップと、
　前記検索クエリに基づいて、前記複数の文書データのそれぞれに対して評価を行う第３のステップと、
　前記複数の文書データのうちの少なくとも一部について、評価結果を出力する第４のステップと、
　前記複数の文書データのうちの前記少なくとも一部に対して、分類を受け付ける第５のステップと、
　前記分類から、複数のタグのそれぞれに対して、重要度の推論を行う第６のステップと、
　前記複数のタグのうちの少なくとも一部について、前記重要度を出力する第７のステップと、
　前記第７のステップにおいて重要度が出力されたタグの少なくとも一つを受け付ける第８のステップと、
　前記第８のステップで受け付けたタグを用いて、文書の検索を行う第９のステップと、
　を有する、文書検索方法。
　請求項１において、
　前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
　前記検索クエリは少なくとも一つのタグを含み、
　前記第１のステップと前記第３のステップとの間に、前記複数の文書データのそれぞれについて、文書データに付与されているタグを用いて特徴ベクトルを生成するステップと、
　前記第２のステップと前記第３のステップとの間に、前記検索クエリに含まれるタグを用いて前記検索クエリのベクトル化を行うステップと、
　をさらに有し、
　前記第３のステップでは、前記複数の文書データのそれぞれに対して、前記特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
　請求項２において、
　前記第６のステップでは、前記分類と、前記特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数のタグのそれぞれに対して重要度を算出する、文書検索方法。
　請求項１において、
　前記検索クエリは少なくとも一つの単語を含み、
　前記第１のステップと前記第３のステップとの間に、前記複数の文書データのそれぞれについて、文書データから抽出された単語を用いて第１の特徴ベクトルを生成するステップと、
　前記第２のステップと前記第３のステップとの間に、前記検索クエリに含まれる単語を用いて前記検索クエリのベクトル化を行うステップと、
　をさらに有し、
　前記第３のステップでは、前記複数の文書データのそれぞれに対して、前記第１の特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
　請求項４において、
　前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
　前記第６のステップでは、前記分類と、第２の特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数のタグのそれぞれに対して重要度を算出し、
　文書データが有する前記第２の特徴ベクトルは、前記文書データに付与されているタグを用いて生成される、文書検索方法。
　請求項１において、
　前記第６のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、
　前記第７のステップでは、さらに、文書データに対する判定確率を出力する、文書検索方法。
　複数の文書データを受け付ける第１のステップと、
　検索クエリを受け付ける第２のステップと、
　前記検索クエリに基づいて、前記複数の文書データのそれぞれに対して評価を行う第３のステップと、
　前記複数の文書データのうちの少なくとも一部について、評価結果を出力する第４のステップと、
　前記複数の文書データのうちの前記少なくとも一部に対して、分類を受け付ける第５のステップと、
　前記分類から、複数の単語のそれぞれに対して、重要度の推論を行う第６のステップと、
　前記複数の単語のうちの少なくとも一部について、重要度を出力する第７のステップと、
　前記第７のステップにおいて重要度が出力された単語の少なくとも一つを受け付ける第８のステップと、
　前記第８のステップで受け付けた単語を用いて、文書の検索を行う第９のステップと、
　を有する、文書検索方法。
　請求項７において、
　前記検索クエリは少なくとも一つの単語を含み、
　前記第１のステップと前記第３のステップとの間に、前記複数の文書データのそれぞれについて、文書データから単語を抽出するステップをさらに有し、
　前記第３のステップでは、前記複数の文書データのそれぞれに対して、前記ステップで抽出された単語と、前記検索クエリに含まれる単語との類似度を算出する、文書検索方法。
　請求項８において、
　前記第６のステップでは、前記分類と、前記ステップで抽出された単語と、を学習データとして分類器の学習を行い、前記分類器から前記複数の単語のそれぞれに対して単語の重要度を算出する、文書検索方法。
　請求項７において、
　前記複数の文書データのそれぞれには、少なくとも一つのタグが付与されており、
　前記検索クエリは少なくとも一つのタグを含み、
　前記第１のステップと前記第３のステップとの間に、前記複数の文書データのそれぞれについて、文書データに付与されているタグを用いて第１の特徴ベクトルを生成するステップと、
　前記第２のステップと前記第３のステップとの間に、前記検索クエリに含まれるタグを用いて前記検索クエリのベクトル化を行うステップと、
　をさらに有し、
　前記第３のステップでは、前記複数の文書データのそれぞれに対して、前記第１の特徴ベクトルと、ベクトル化された前記検索クエリとの類似度を算出する、文書検索方法。
　請求項１０において、
　前記第６のステップでは、前記分類と、第２の特徴ベクトルと、を学習データとして分類器の学習を行い、前記分類器から前記複数の単語のそれぞれに対して重要度を算出し、
　文書データが有する前記第２の特徴ベクトルは、前記文書データから抽出される単語を用いて生成される、文書検索方法。
　請求項７において、
　前記第６のステップで行われる推論では、さらに、文書データに対する判定確率が算出され、
　前記第７のステップでは、さらに、文書データに対する判定確率を出力する、文書検索方法。
　受付部、処理部、及び、出力部を有し、
　前記受付部は、文書データと、検索クエリと、分類と、タグと、を受け付ける機能を有し、
　前記処理部は、
　前記検索クエリに基づいて、文書データに対して評価を行う機能と、
　前記分類から、タグの重要度の推論を行う機能と、
　を有し、
　前記出力部は、
　文書データに対する評価結果を出力する機能と、
　タグの重要度を出力する機能と、
　を有する、文書検索システム。
　請求項１３において、
　前記文書データには、少なくとも一つのタグが付与されており、
　前記文書データは、前記文書データに付与されているタグを用いて生成される特徴ベクトルを有し、
　前記処理部は、前記検索クエリのベクトル化を行う機能と、ベクトル化された前記検索クエリと前記特徴ベクトルとの類似度を算出する機能と、をさらに有する、文書検索システム。
　請求項１４において、
　記憶部をさらに有し、
　前記記憶部には、分類器が格納されており、
　前記処理部は、前記分類と、前記特徴ベクトルと、を学習データとして前記分類器の学習を行う機能と、前記分類器からタグの重要度を算出する機能と、を有する、文書検索システム。