WO2020109921A1

WO2020109921A1 - 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体

Info

Publication number: WO2020109921A1
Application number: PCT/IB2019/059907
Authority: WO
Inventors: 岡野達也; 齊藤祥子
Original assignee: 株式会社半導体エネルギー研究所
Priority date: 2018-11-30
Filing date: 2019-11-19
Publication date: 2020-06-04
Also published as: DE112019005976T5; JPWO2020109921A1; KR20210095155A; JP7499183B2; CN113168415A; US20220004570A1

Abstract

文書のブロックごとに、類似する文書を検索する。高い精度で文書を検索する。複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する。検索用文書の一部である、第１の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、第１の検索用文章ブロックに対する第１の関連度を算出し、第１の関連度の高さに基づいて、第１の対象の中から第２の対象を決定し、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出し、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する。

Description

文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体

本発明の一態様は、文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体に関する。

なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置（例えば、タッチセンサなど）、入出力装置（例えば、タッチパネルなど）、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。

大量の文書の中から、目的の文書を効率良く検索する文書検索技術が盛んに開発されている。例えば、特許文献１には、類似文書検索方法が開示されている。

類似文書は、目的の文書に対して全体的に類似している場合も、ある部分で類似性が極端に高く、他の部分は類似性が極めて低い場合もある。

特許文献１では、目的の文書に対して、類似文書が、全体的に類似しているのか、一部のみ類似しているのか、を判断するための指標として、詳細度を算出している。

特開２００４−２９５７１２号公報

特許出願業務において、新しい明細書（後願の明細書）を作成する際に、自社で過去に作成された明細書（先願の明細書）の記載を参考にする、または引用することがある。ここで、先願の明細書の翻訳文が作成済みであれば、後願の明細書の翻訳文を作成する際に、先願の明細書の翻訳文を参考にする、または引用することができ、後願の明細書の翻訳にかかる時間を短縮することができる。

類似文書の検索方法によっては、目的の文書に対して高い類似度が算出される文書の中に、実際は類似していなくても、全体的にある程度の類似度を有するために、文書全体の類似度が高く算出される文書が含まれることがある。一方、残りの部分の類似性が極めて低くても、類似性が極端に高い部分を有する（例えば、完全一致の文章を含む）文書は、文書全体の類似度が低く算出されてしまうことがある。例えば、翻訳文を参考にする、または引用するためには、前者の文書よりも、後者の文書の方が、好ましい。

また、文章を１文ずつ検索することで、完全一致の文章を見つけることもできるが、文章の流れが切れてしまうことや、明細書によって訳語が統一されていないことがある。したがって、章ごとなど、複数の文を含む文章単位で、類似箇所を把握できることが望ましい。

また、新しい明細書を作成する際に参考にする明細書は、一つとは限らない。したがって、どの明細書を参考にして新しい明細書を作成したか、だけでなく、どの明細書のどの部分を参考にして、新しい明細書のどの部分を作成したか、を容易に把握できることが望ましい。そして、これは明細書に限らず、あらゆる文書に共通していえることである。しかし、新しい文書を作成する際、どの文書のどの部分を参考にしたか、詳細に記録することは、手間がかかり、煩雑な作業である。

本発明の一態様は、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、文書のブロックごとに、類似する文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供することを課題の一つとする。

本発明の一態様は、高い精度で文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現することを課題の一つとする。

なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。

本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、検索用文書の一部である、第１の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、第１の検索用文章ブロックに対する第１の関連度を算出し、第１の関連度の高さに基づいて、第１の対象の中から第２の対象を決定し、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出し、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法である。

検索用文書を分割することで、複数の検索用文章ブロックを作成することが好ましい。このとき、第１の検索用文章ブロックは、複数の検索用文章ブロックの一つであることが好ましい。

さらに、検索用文書の他の一部である、第２の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第３の対象として、第２の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第３の対象に含まれる文章ブロックそれぞれの、第２の検索用文章ブロックに対する第２の関連度を算出し、第２の関連度の高さに基づいて、第３の対象の中から第４の対象を決定し、第２の検索用文章ブロックに含まれる文ごとに、第４の対象に含まれる文それぞれとの第２の類似度を算出し、第２の類似度を用いて、第２の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索することが好ましい。このとき、第１の対象と第３の対象とは、同一であってもよく、互いに異なっていてもよい。

第１の類似度のうち閾値以上の値を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索することが好ましい。

本発明の一態様は、複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、検索用文書を分割することで、複数の検索用文章ブロックを作成し、複数の検索用文章ブロックのそれぞれについて、複数の文章ブロックのうち少なくとも一部を第１の対象として、検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、検索用文章ブロックに対する関連度を算出するステップと、関連度の高さに基づいて、第１の対象の中から第２の対象を決定するステップと、検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの類似度を算出するステップと、類似度を用いて、検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を行う、文書検索方法である。

本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であり、検索用文書の一部である、第１の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第１の対象に含まれる文それぞれの、第１の検索用文章ブロックに含まれる各文に対する第１の関連度を算出し、第１の検索用文章ブロックに含まれる文ごとに、第１の関連度の高さに基づいて、第１の対象に含まれる文の中から第２の対象を決定し、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出し、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法である。

さらに、検索用文書の他の一部である、第２の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第３の対象として、第２の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第３の対象に含まれる文それぞれの、第２の検索用文章ブロックに含まれる各文に対する第２の関連度を算出し、第２の検索用文章ブロックに含まれる文ごとに、第２の関連度の高さに基づいて、第３の対象に含まれる文の中から第４の対象を決定し、第２の検索用文章ブロックに含まれる文ごとに、第４の対象に含まれる文それぞれとの第２の類似度を算出し、第２の類似度を用いて、第２の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索することが好ましい。このとき、第１の対象と第３の対象とは、同一であってもよく、互いに異なっていてもよい。

本発明の一態様は、複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、検索用文書を分割することで、複数の検索用文章ブロックを作成し、複数の検索用文章ブロックのそれぞれについて、複数の文章ブロックのうち少なくとも一部を第１の対象として、検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第１の対象に含まれる文それぞれの、検索用文章ブロックに含まれる各文に対する関連度を算出するステップと、検索用文章ブロックに含まれる文ごとに、関連度の高さに基づいて、第１の対象に含まれる文の中から第２の対象を決定するステップと、検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの類似度を算出するステップと、類似度を用いて、検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を行う、文書検索方法である。

本発明の一態様は、上記の文書検索方法のいずれかを行う機能を有する文書検索システムである。

本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、処理部を有し、処理部は、検索用文書を分割することで作成された複数の検索用文章ブロックの１つである、第１の検索用文章ブロックを準備する機能と、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、第１の検索用文章ブロックに対する第１の関連度を算出する機能と、第１の関連度の高さに基づいて、第１の対象の中から第２の対象を決定する機能と、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出する機能と、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する機能と、を有する、文書検索システムである。

本発明の一態様は、上記の文書検索方法のいずれかをプロセッサに実行させる機能を有するプログラムである。本発明の一態様は、当該プログラムが記憶された非一時的コンピュータ可読記憶媒体である。

プログラムは、様々なタイプの一時的なコンピュータ可読記憶媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読記憶媒体としては、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読記憶媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索するプログラムであって、検索用文書を分割することで作成された複数の検索用文章ブロックの１つである、第１の検索用文章ブロックを準備するステップと、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、第１の検索用文章ブロックに対する第１の関連度を算出するステップと、第１の関連度の高さに基づいて、第１の対象の中から第２の対象を決定するステップと、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出するステップと、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を、プロセッサに実行させるプログラムである。本発明の一態様は、当該プログラムが記憶された非一時的コンピュータ可読記憶媒体である。

非一時的コンピュータ可読記憶媒体としては、様々なタイプの実体のある記憶媒体を用いることができる。非一時的コンピュータ可読記憶媒体としては、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性メモリ、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の不揮発性メモリが挙げられる。そのほか、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等の記録メディアドライブ、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ等が挙げられる。

本発明の一態様により、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供できる。本発明の一態様により、文書のブロックごとに、類似する文書を検索できる文書検索システムを提供できる。本発明の一態様により、簡便な入力方法で、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供できる。

本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供できる。本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供できる。本発明の一態様により、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。

なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。

図１は文書検索方法の一例を示すフロー図である。
図２は検索を行う前段階の処理の一例を示す図である。
図３Ａ、図３Ｂ、図３Ｃは文書検索方法の一例を示す図である。
図４Ａ、図４Ｂ、図４Ｃは文書検索方法の一例を示す図である。
図５Ａ、図５Ｂは文書検索方法の一例を示す図である。
図６Ａ、図６Ｂ、図６Ｃは文書検索方法の一例を示す図である。
図７Ａ、図７Ｂ、図７Ｃは文書検索方法の一例を示す図である。
図８Ａ、図８Ｂ、図８Ｃは文書検索方法の一例を示す図である。
図９Ａ、図９Ｂは文書検索方法の一例を示す図である。
図１０は文書検索方法の一例を示すフロー図である。
図１１は文書検索方法の一例を示すフロー図である。
図１２は文書検索方法の一例を示す図である。
図１３は文書検索システムの一例を示すブロック図である。
図１４は文書検索システムの一例を示すブロック図である。

実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。

なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。

また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。

（実施の形態１）
本実施の形態では、本発明の一態様の文書検索方法について図１~図１２を用いて説明する。なお、データの模式図は一例であり、これに限定されない。

本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法である。

まず、検索用文書の一部である、第１の検索用文章ブロックを準備する。

例えば、第１の検索用文章ブロックは、検索用文書の一部を抽出することで作成できる。または、第１の検索用文章ブロックは、検索用文書を分割することで作成された複数の検索用文章ブロックの一つであってもよい。

本発明の一態様の文書検索方法では、事前に、複数の検索対象文書から複数の文章ブロックを作成しておき、さらに、検索時には、検索用文書から検索用文章ブロックを作成する。これにより、検索用文章ブロックに類似する文章ブロックを検索することができる。したがって、検索用文書全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。

次に、複数の文章ブロックのうち少なくとも一部を第１の対象として、第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第１の対象に含まれる文章ブロックそれぞれの、第１の検索用文章ブロックに対する第１の関連度を算出する。

検索対象文書の数が多いほど、文章ブロックの数も多くなる。本発明の一態様では、検索用文章ブロックごとに、検索の対象となる文章ブロック（第１の対象）を絞り込むことができるため、処理量を削減し、検索速度を高めることができる。

次に、第１の関連度の高さに基づいて、第１の対象の中から第２の対象を決定する。

全文検索では、文や単語の順番は考慮されないため、算出される関連度は類似度とは異なる。一方で、検索用文章ブロックと共通する単語を有する文章ブロックは、関連度の値が高くなり、類似性の低い文章ブロックは、関連度の値も低くなるため、類似度を算出すべき対象を高い精度で絞り込むことができる。

次に、第１の検索用文章ブロックに含まれる文ごとに、第２の対象に含まれる文それぞれとの第１の類似度を算出する。

全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。本発明の一態様では、第１の対象の中から第２の対象を決定し、対象を絞り込んだ後に類似度を算出するため、文書検索にかかる時間を短縮することができる。

類似度は、文同士の字面の一致度に基づいて算出することができる。全文検索と異なり、類似度の算出においては、文中の単語の順番が考慮される。したがって、第１の検索用文章ブロックが有する文と共通する単語を有していても単語の並び順が異なる文は、類似度が低くなる。

そして、第１の類似度を用いて、第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する。

以上のように、本発明の一態様の文書検索方法を用いることで、検索用文書の特定の箇所に類似する、他の文書の記載箇所を容易に把握することができる。

また、本発明の一態様の文書検索方法は、検索用文書を入力すればよく、検索に用いるキーワードの選定が不要であるため、使用者の負担が少なく、技量による検索結果の差が生じにくいという利点がある。

また、検索対象となる文章ブロックを、第１の対象、第２の対象と順に絞り込んだ後に、類似度の算出を行うため、文書検索にかかる時間を短縮することができる。

また、全文検索は、第１の検索用文章ブロックに含まれる文を１つずつ検索条件に用いて行ってもよい。この場合、第１の対象に含まれる文それぞれの、第１の検索用文章ブロックに含まれる各文に対する第１の関連度を算出する。そして、第１の検索用文章ブロックに含まれる文ごとに、第１の関連度の高さに基づいて、第１の対象に含まれる文の中から第２の対象を決定する。

文章ブロックには複数の文が含まれる。文章ブロックに含まれる文のうち、第１の検索用文章ブロックに含まれる文と類似する文が大半であるとは限らない。そのため、類似度の高い文章ブロックを高い精度で検索するためには、多くの文章ブロックについて類似度の算出を行う必要があり、類似度を算出する時間が長くなることがある。また、類似度の算出に要する時間を短縮するために、第２の対象である文章ブロックの数を少なくすることで、類似度の高い文が含まれる文章ブロックを取りこぼす恐れがある。

そこで、文章ブロック単位でなく、文単位で、第１の対象から第２の対象を絞り込むことが好ましい。具体的には、第１の検索用文章ブロックに含まれる文ごとに、関連度の高い文を検索し、文単位で、類似度を算出する対象を絞り込むことが好ましい。文単位で対象を絞り込むことで、文章ブロック単位で対象を絞り込む場合に比べて、類似度の高い文（及び文章ブロック）の取りこぼしの抑制と、類似度の算出に要する時間の短縮と、の両立を図ることができる。

＜文書検索方法の例１＞
図１に、文書検索方法のフローチャートを示す。図１に示すように、本発明の一態様の文書検索方法は、ステップＡ１~ステップＡ６の６つのステップを有する。

なお、特に説明のない限り、要素（文書、文章ブロック、または文など）を複数有する構成を説明する場合であっても、各々の要素に共通する事項を説明する場合には、変数及びアルファベットを省略して説明する。例えば、検索対象文書ＴＤ１、検索対象文書ＴＤ２、及び検索対象文書ＴＤｎ等に共通する事項を説明する場合に、検索対象文書ＴＤと記す場合がある。

［前処理］
まず、図２を用いて、検索を行う前段階の処理について説明する。

前処理では、複数の検索対象文書ＴＤを分割し、複数の文章ブロックＴＢを作成する。

本実施の形態の文書検索方法では、事前に準備された複数の文書をブロックに分ける。そして、検索時には、入力された検索用文書もブロックに分ける。これにより、検索用文書の各ブロックに類似する文章ブロックを検索することができる。

図２では、ｎ個（ｎは２以上の整数）の検索対象文書ＴＤを準備する例を示す。

検索対象文書ＴＤとしては、特に限定はなく、様々な文書を用いることができる。

検索対象文書ＴＤとしては、例えば、知的財産に係る文書が挙げられる。知的財産に係る文書としては、具体的には、特許出願に用いた明細書、特許請求の範囲、及び要約書などが挙げられる。さらに、知的財産に係る文書としては、特許文献（公開特許公報、特許公報など）、実用新案公報、意匠公報、及び論文などの刊行物が挙げられる。国内で発行された刊行物に限られず、世界各国で発行された刊行物を、知的財産に係る文書として用いることができる。

そのほか、検索対象文書ＴＤとして、書籍、論文、レポート、コラム、または、その他の文を含む各種著作物を用いてもよい。また、検索対象文書ＴＤとして、診療文書などを用いてもよい。

また、文書の言語についても特に限定はなく、例えば、日本語、英語、中国語、韓国語などの文書を用いることができる。

図２に示す検索対象文書ＴＤ１は、ｘ個（ｘは２以上の整数）の文章ブロック（文章ブロックＴＢ１（１）から文章ブロックＴＢ１（ｘ））に分割される。

また、検索対象文書ＴＤ２は、ｙ個（ｙは２以上の整数）の文章ブロック（文章ブロックＴＢ２（１）から文章ブロックＴＢ２（ｙ））に分割される。

また、検索対象文書ＴＤｎは、ｚ個（ｚは２以上の整数）の文章ブロック（文章ブロックＴＢｎ（１）から文章ブロックＴＢｎ（ｚ））に分割される。

例えば、検索対象文書が複数の章からなる文書である場合、章ごとに分割することで、複数の文章ブロックを作成してもよい。

具体的には、特許明細書の場合、「背景、課題、手段、及び効果」、「実施の形態１」、「実施の形態２」などに分割することができる。

また、論文の場合、「序論」、「研究手法」、「結果」、「考察」、「結論」などに分割することができる。

なお、検索対象文書の全ての文を用いて、複数の文章ブロックを作成してもよく、検索対象文書のうち必要な部分のみを用いて、複数の文章ブロックを作成してもよい。

例えば、検索対象文書が特許明細書の場合、「符号の説明」を用いずに、複数の文章ブロックを作成してもよい。

前処理は、文書検索を行う前（ステップＡ１を行う前）に少なくとも一度実施する。前処理は、用途に応じて、複数回実施してもよい。例えば、定期的に前処理を行い、検索対象文書の追加、更新、または削除を行うことで、検索精度及び利便性を高めることができる。

さらに、複数の文章ブロックＴＢを用いて、全文検索に用いるためのインデックスファイルを作成することが好ましい。これにより、全文検索を短時間で行うことができる。インデックスファイルの構成は、特に限定されず、例えば、文字列、文書名、文章ブロック名、出現頻度などの情報を有することができる。

また、例えば、インデックスファイルは、検索対象文書ＴＤ（または文章ブロックＴＢ）の各言語の翻訳文が存在するか否かの情報を有していてもよい。これにより、検索時に、「英語の翻訳文が存在する」、「中国語の翻訳文が存在する」などの条件を指定することができる。

次に、図３~図５を用いて、図１に示す６つのステップの詳細について説明する。

［ステップＡ１：複数の検索用文章ブロックＳＴＢの作成］
まず、検索用文書ＳＴＤを分割することで、複数の検索用文章ブロックＳＴＢを作成する（図３Ａ）。

図３Ａに示すように、検索用文書ＳＴＤは、ｗ個（ｗは２以上の整数）の検索用文章ブロック（検索用文章ブロックＳＴＢ（１）から検索用文章ブロックＳＴＢ（ｗ））に分割される。

本実施の形態の文書検索方法では、入力された検索用文書ＳＴＤを、複数の検索用文章ブロックＳＴＢに分けるため、検索用文章ブロックＳＴＢごとに、類似する文書（文章ブロックＴＢ）を検索することができる。

検索用文書ＳＴＤとしては、特に限定はなく、様々な文書を用いることができる。

検索用文書ＳＴＤとしては、例えば、翻訳前の、知的財産に係る文書が挙げられる。これにより、検索対象文書ＴＤの中から、翻訳済みの類似の文書を検索することができ、翻訳文を参考にする、または引用することができる。

また、検索用文書ＳＴＤとして、書籍、論文、レポート、コラム、または、文を含む各種著作物を用いることができる。これにより、検索対象文書ＴＤの中から、類似の文書を検索することができ、検索用文書ＳＴＤに、盗用または盗作の疑いが無いか、確認することができる。

また、検索用文書ＳＴＤとして、診療文書を用いることができる。治療の途中経過が記載された診療文書を用いて、類似の症例の診療文書を検索することで、診療の参考にすることや、患者が今後どのような経過を辿るのか検討することができる。

［ステップＡ２：検索用文章ブロックＳＴＢ（ｉ）の選択］
次に、ｗ個の検索用文章ブロックＳＴＢの中から、検索を行う検索用文章ブロックＳＴＢ（ｉ）（ｉは、１以上ｗ以下の整数）を選択する。

なお、１つの検索用文章ブロックＳＴＢのみについて検索を行う場合は、ステップＡ１において検索用文書ＳＴＤの中から必要な部分を抽出することで、検索用文章ブロックＳＴＢを作成してもよい。

また、複数の検索用文章ブロックＳＴＢについてそれぞれ検索を行う場合は、１つずつ逐次検索してもよい（文書検索方法の例３参照）し、複数を並列で検索してもよい（文書検索方法の例４参照）し、逐次処理と並列処理を組み合わせて検索してもよい。

本実施の形態の文書検索方法では、検索用文章ブロックＳＴＢごとに、類似の文章ブロックＴＢを検索することができるため、検索用文書ＳＴＤの特定の箇所に類似する、検索対象文書ＴＤの記載箇所を精度よく、簡便に把握することができる。

［ステップＡ３：検索用文章ブロックＳＴＢ（ｉ）に対する関連度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出する。

具体的には、検索用文章ブロックＳＴＢ（ｉ）を検索条件に用いて全文検索を行うことで、検索対象となる文章ブロックＴＢそれぞれの、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出する。

ここで、全ての文章ブロックＴＢについて、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出してもよく、一部の文章ブロックＴＢについて、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出してもよい。

例えば、特許明細書の場合、「背景、課題、手段、及び効果」について類似文書を探したいときは、検索対象文書の「背景、課題、手段、及び効果」のみを検索対象にすればよく、「実施の形態１」などは、検索の対象外とすることができる。

また、「実施の形態１」について、類似文書を探したい場合、検索対象文書の各実施の形態を検索対象にし、「背景、課題、手段、及び効果」は、検索の対象外とすることができる。さらに、「英語の翻訳文が存在する」類似文書を探したい場合、「英語の翻訳文が存在する」検索対象文書の各実施の形態を検索対象にすることができる。

全文検索において、関連度を算出する文章ブロックＴＢは、例えば、インデックスファイルに含まれる情報に基づいて、自動で選択される。または、検索用文書ＳＴＤを入力する際に、関連度を算出する文章ブロックＴＢを指定してもよい。

このように、検索用文章ブロックＳＴＢ（ｉ）に応じて、検索対象となる文章ブロックを変えることで、処理量を削減し、文書検索にかかる時間を短縮することができる。

文書検索方法の例１では、検索用文章ブロックＳＴＢ（ｉ）を、全文検索の一つの検索条件として用いる場合を示す。なお、後述するように、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文を、全文検索の検索条件として用いてもよい（文書検索方法の例２参照）。つまり、検索条件の数が、検索用文章ブロックＳＴＢ（ｉ）に含まれる文の数だけあってもよい。

全文検索方法に特に限定は無く、逐次検索、インデックス検索等を用いることができる。

特に、インデックス検索は、検索対象である文章ブロックＴＢが多い場合であっても検索速度が低下しにくいため、好ましい。

インデックス検索では、あらかじめ検索対象となる文章ブロックＴＢを走査しておき、高速な検索が可能になるようなインデックスファイルを準備しておく。

インデックスファイルを構成する文字列を抽出する方法に特に限定は無く、わかち書き（単語をスペースで区切ること）、形態素解析、Ｎ−ｇｒａｍ（Ｎ文字インデックス法、Ｎグラム法などともいう）等を用いることができる。

特に、Ｎ−ｇｒａｍは、形態素解析に比べて、完全一致の検索に有利であり、専門用語、新語、略語などが問題になりにくいため、好ましい。

関連度の算出には、例えば、ＴＦ−ＩＤＦ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙ−Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）を用いることが好ましい。ＴＦ値は、ある文章ブロック内での各単語の出現頻度を表し、ＩＤＦ値は、単語が一部の文章ブロックに集中して出現する度合いを表す。ある単語が１つの文章ブロックに多く出現するほど、当該単語の当該文章ブロックにおけるＴＦ値は高くなる。多くの文章ブロックに出現する単語のＩＤＦ値は小さく、一部の文章ブロックにのみ出現する単語のＩＤＦ値は高くなる。各単語のＴＦ値とＩＤＦ値の積を求めることで、当該単語が文章ブロックを特徴づける単語であるかどうかのスコアを算出することができる。

なお、関連度の算出は、ＴＦ−ＩＤＦを用いた方法に限定されない。

例えば、オープンソースの検索エンジンライブラリであるＡｐａｃｈｅ　Ｌｕｃｅｎｅを用いて、全文検索を行うことができる。

図３Ｂでは、検索用文章ブロックＳＴＢ（１）に対する関連度を算出する例を示す。また、検索対象である第１の対象１１０（１）が、各検索対象文書ＴＤが有する１つ目の文章ブロックＴＢ（１）である例を示す。

［ステップＡ４：第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定］
次に、関連度の高さに基づいて、第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定する。

第２の対象１２０（ｉ）に含まれる文章ブロックＴＢの数は、特に限定されない。第２の対象１２０（ｉ）は、次のステップで類似度を算出する対象となる。全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定し、対象を絞り込んだ後に類似度を算出することで、文書検索にかかる時間を短縮することができる。

例えば、ステップＡ３における全文検索の結果を、関連度の高い順にソートすることで、検索用文章ブロックＳＴＢ（ｉ）に対する関連度の高い文章ブロックＴＢを把握することができる。

図３Ｃでは、検索用文章ブロックＳＴＢ（１）に対する関連度の高い上位１０個の文章ブロックＴＢを第２の対象１２０（１）として用いる例を示す。図３Ｃでは、一例として、文章ブロックＴＢ４（１）が１位（Ｒａｎｋ　１）、文章ブロックＴＢ１（１）が２位（Ｒａｎｋ　２）、そして、文章ブロックＴＢ９（１）が１０位（Ｒａｎｋ　１０）である場合を示す。

［ステップＡ５：検索用文章ブロックＳＴＢ（ｉ）に対する類似度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する類似度を算出する。具体的には、検索用文章ブロックＳＴＢ（ｉ）に含まれる文ごとに、第２の対象１２０（ｉ）に含まれる文それぞれとの類似度を算出する。

本発明の一態様の文書検索方法では、文と文との間の類似度を求める。具体的には、文同士の字面の一致度に基づいて、類似度を算出することが好ましい。

例えば、文書の差分を求めるアルゴリズムであるｄｉｆｆを用いて、類似度を算出することができる。

まず、図４Ａに示すように、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１と、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。

次に、図４Ｂに示すように、検索用文章ブロックＳＴＢ（１）の２つ目の文ＳＴＳ２と、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。同様に、検索用文章ブロックＳＴＢ（１）の各文と、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。

そして、図４Ｃに示すように、検索用文章ブロックＳＴＢ（１）の最後の文ＳＴＳｐ（ｐは１以上の整数）まで類似度の算出を行うことで、検索用文章ブロックＳＴＢ（１）に含まれる全ての文について、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。なお、図４Ｃでは、ｐが３以上の整数である例を示す。

なお、検索用文章ブロックＳＴＢ（１）の複数の文に対する類似度の算出を、並列で行ってもよい。例えば、図４Ａに示す処理と、図４Ｂに示す処理と、図４Ｃに示す処理は、全て並列で行われてもよい。

算出した類似度を用いることで、検索用文章ブロックＳＴＢ（１）に類似する文章ブロックＴＢを求めることができる。

例えば、各文章ブロックＴＢにおいて、検索用文章ブロックＳＴＢ（１）の各文に対する類似度が最も高い文の類似度の和を算出し、当該和を、検索用文章ブロックＳＴＢ（１）の文の数で割ることで、当該文章ブロックＴＢの、検索用文章ブロックＳＴＢ（１）に対する規格化類似度を求めることができる。

図５Ａでは、文章ブロックＴＢ４（１）において、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１に対する類似度が最も高い文は１つ目の文Ｓ１（類似度は１）であり、２つ目の文ＳＴＳ２に対する類似度が最も高い文は２つ目の文Ｓ２（類似度は０．９）であり、最後の文ＳＴＳｐに対する類似度が最も高い文は３つ目の文Ｓ３（類似度は０．５）である。これらｐ個の類似度を足し、文の数ｐで割ることで、文章ブロックＴＢ４（１）の、検索用文章ブロックＳＴＢ（１）に対する規格化類似度を求めることができる。

なお、文同士の類似度のうち、閾値以上の値を用いると、検索の精度を高めることができるため、好ましい。例えば、閾値が０．８である場合、図５Ａに示す文章ブロックＴＢ４（１）において、最後の文ＳＴＳｐに対する類似度が最も高い文Ｓ３の類似度は０．５であるため、類似度の和を算出する際に用いない（０とみなす）ことになる。

［ステップＡ６：結果の出力］
そして、検索用文章ブロックＳＴＢ（ｉ）に対する規格化類似度が高い文章ブロックＴＢを出力する。

図５Ｂは、規格化類似度が高い順に文章ブロックＴＢ（Ｂｌｏｃｋ）を並べた例である。また、Ｓｃｏｒｅとして、規格化類似度を百分率で表す例を示す。

ステップＡ３で行った全文検索では、文や単語の順番は考慮されないため、算出される関連度は類似度とは異なる。ステップＡ５で類似度を算出することで、ステップＡ４（図３Ｃ）で第２の対象１２０（１）として決定した１０個の文章ブロックＴＢを、検索用文章ブロックＳＴＢ（１）に対する類似性の高い順番に並べることができる（図５Ｂ）。

以上のように、検索用文書ＳＴＤを検索用文章ブロックＳＴＢに分割し、類似する文章ブロックを検索することで、検索用文章ブロックＳＴＢに対して、類似する文書（文章ブロックＴＢ）を検索することができる。これにより、検索用文書ＳＴＤ全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。

＜文書検索方法の例２＞
次に、図６~図９を用いて、ステップＡ３以降の変形例を説明する。具体的には、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文を、全文検索の検索条件として用いる場合について説明する。

［ステップＡ３：検索用文章ブロックＳＴＢ（ｉ）に対する関連度の算出］
文書検索方法の例２におけるステップＡ３では、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文を検索条件に用いて全文検索を行う。これにより、検索対象に含まれる文それぞれの、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文に対する関連度を算出する。

ここで、全ての文章ブロックＴＢについて、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文に対する関連度を算出してもよく、一部の文章ブロックＴＢについて、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文に対する関連度を算出してもよい。

検索用文章ブロックＳＴＢ（ｉ）に応じて、検索対象となる文章ブロックを変えることで、処理量を削減し、文書検索にかかる時間を短縮することができる。

全文検索方法及び関連度の算出の方法は、文書検索方法の例１と同様の方法を用いることができる。

まず、図６Ａに示すように、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１を検索条件に用いて全文検索を行うことで、第１の対象１１０（１）に含まれる各文の、１つ目の文ＳＴＳ１に対する関連度を算出する。なお、第１の対象１１０（１）に含まれる文とは、第１の対象１１０（１）に含まれる複数の文章ブロックＴＢを構成する文を指す。

次に、図６Ｂに示すように、検索用文章ブロックＳＴＢ（１）の２つ目の文ＳＴＳ２を検索条件に用いて全文検索を行うことで、第１の対象１１０（１）に含まれる各文の、２つ目の文ＳＴＳ２に対する関連度を算出する。同様に、検索用文章ブロックＳＴＢ（１）の各文に対する関連度を算出する。

そして、図６Ｃに示すように、検索用文章ブロックＳＴＢ（１）の最後の文ＳＴＳｐ（ｐは２以上の整数）まで関連度の算出を行うことで、第１の対象１１０（１）に含まれる文の、検索用文章ブロックＳＴＢ（１）に含まれる各文に対する関連度を算出する。なお、図６Ｃでは、ｐが３以上の整数である例を示す。

なお、検索用文章ブロックＳＴＢ（１）の各文を検索条件に用いた全文検索を、並列で行ってもよい。例えば、図６Ａに示す処理と、図６Ｂに示す処理と、図６Ｃに示す処理は、全て並列で行われてもよい。

［ステップＡ４：第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定］
次に、検索用文章ブロックＳＴＢ（ｉ）に含まれる文ごとに、関連度の高さに基づいて、第１の対象１１０（ｉ）に含まれる文の中から第２の対象１２０（ｉ）を決定する。

第２の対象１２０（ｉ）に含まれる文の数は、特に限定されない。第２の対象１２０（ｉ）は、次のステップで類似度を算出する対象となる。全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定し、対象を絞り込んだ後に類似度を算出することで、文書検索にかかる時間を短縮することができる。

例えば、ステップＡ３における全文検索の結果を、関連度の高い順にソートすることで、検索用文章ブロックＳＴＢ（ｉ）に含まれる各文に対する関連度の高い文を把握することができる。

図７Ａでは、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１に対する関連度の高い上位３００個の文を第２の対象１２０（１）（ＳＴＳ１）として用いる例を示す。図７Ａでは、一例として、文章ブロックＴＢ４（１）の１つ目の文ＴＢ４（１）＿Ｓ１が１位（Ｒａｎｋ　１）、文章ブロックＴＢ３（１）の１つ目の文ＴＢ３（１）＿Ｓ１が２位（Ｒａｎｋ　２）、そして、文章ブロックＴＢ６（１）の６つ目の文ＴＢ６（１）＿Ｓ６が３００位（Ｒａｎｋ　３００）である場合を示す。

図７Ｂでは、検索用文章ブロックＳＴＢ（１）の２つ目の文ＳＴＳ２に対する関連度の高い上位３００個の文を第２の対象１２０（１）（ＳＴＳ２）として用いる例を示す。図７Ｂでは、一例として、文章ブロックＴＢ１（１）の２つ目の文ＴＢ１（１）＿Ｓ２が１位（Ｒａｎｋ　１）、文章ブロックＴＢ３（１）の２つ目の文ＴＢ３（１）＿Ｓ２が２位（Ｒａｎｋ　２）、そして、文章ブロックＴＢ６２（１）の８つ目の文ＴＢ６２（１）＿Ｓ８が３００位（Ｒａｎｋ　３００）である場合を示す。

そして、図７Ｃに示すように、検索用文章ブロックＳＴＢ（１）の最後の文ＳＴＳｐに対する関連度の高い上位３００個の文として、第２の対象１２０（１）（ＳＴＳｐ）を決定する。図７Ｃでは、一例として、文章ブロックＴＢ２（１）の９つ目の文ＴＢ２（１）＿Ｓ９が１位（Ｒａｎｋ　１）、文章ブロックＴＢ６（１）の８つ目の文ＴＢ６（１）＿Ｓ８が２位（Ｒａｎｋ　２）、そして、文章ブロックＴＢ７（１）の１２個目の文ＴＢ７（１）＿Ｓ１２が３００位（Ｒａｎｋ　３００）である場合を示す。以上のように、検索用文章ブロックＳＴＢ（１）に含まれる全ての文について、それぞれ、第２の対象１２０（１）を決定する。同様に、検索用文章ブロックＳＴＢ（ｉ）に含まれる全ての文について、それぞれ、関連度の高さに基づいて、第１の対象１１０（ｉ）に含まれる文の中から第２の対象１２０（ｉ）を決定する。

類似度の算出方法は、文書検索方法の例１と同様の方法を用いることができる。

まず、図８Ａに示すように、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１と、第２の対象１２０（１）（ＳＴＳ１）に含まれる文それぞれとの類似度を算出する。

次に、図８Ｂに示すように、検索用文章ブロックＳＴＢ（１）の２つ目の文ＳＴＳ２と、第２の対象１２０（１）（ＳＴＳ２）に含まれる文それぞれとの類似度を算出する。同様に、検索用文章ブロックＳＴＢ（１）の各文と、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。

そして、図８Ｃに示すように、検索用文章ブロックＳＴＢ（１）の最後の文ＳＴＳｐまで類似度の算出を行うことで、検索用文章ブロックＳＴＢ（１）に含まれる全ての文について、第２の対象１２０（１）に含まれる文それぞれとの類似度を算出する。

なお、検索用文章ブロックＳＴＢ（１）の複数の文に対する類似度の算出を、並列で行ってもよい。例えば、図８Ａに示す処理と、図８Ｂに示す処理と、図８Ｃに示す処理は、全て並列で行われてもよい。

図９Ａでは、文章ブロックＴＢ４（１）において、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１に対する類似度が最も高い文は１つ目の文Ｓ１（類似度は１）であり、２つ目の文ＳＴＳ２に対する類似度が最も高い文は２つ目の文Ｓ２（類似度は０．９０）である。このように、ｐ個の各文に対する最も高い類似度を足し、文の数ｐで割ることで、文章ブロックＴＢ４（１）の、検索用文章ブロックＳＴＢ（１）に対する規格化類似度を求めることができる。なお、文章ブロックＴＢ４（１）において、２６個目の文Ｓ２６も、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１に対する類似度が高い（類似度０．８０）が、１つ目の文Ｓ１よりも低いため、Ｓ２６の類似度の値は使用しない。

なお、文同士の類似度のうち、閾値以上の値を用いると、検索の精度を高めることができるため、好ましい。図９Ａに示す文章ブロックＴＢ９（１）において、検索用文章ブロックＳＴＢ（１）の１つ目の文ＳＴＳ１に対する類似度が最も高い文は２つ目の文Ｓ２（類似度は０．７０）であり、２つ目の文ＳＴＳ２に対する類似度が最も高い文は１つ目の文Ｓ１（類似度は０．６０）であり、最後の文ＳＴＳｐに対する類似度が最も高い分は３つ目の文Ｓ３（類似度は０．６０）である。閾値を用いない場合、ｐ個の各文に対する最も高い類似度の和の算出に、これら３つの文の類似度の値が使用される。一方、例えば、閾値が０．８である場合、これら３つの文の類似度の値は、閾値未満であるため、類似度の和を算出する際に用いない（０とみなす）ことになる。

図９Ｂは、規格化類似度が高い順に文章ブロックＴＢを並べた例である。また、Ｓｃｏｒｅとして、規格化類似度を百分率で表す例を示す。

文書検索方法の例２では、検索用文章ブロックＳＴＢ（ｉ）に含まれる文ごとに、第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）となる文を決定する。したがって、文章ブロックＴＢに含まれる文のうち、検索用文章ブロックＳＴＢ（ｉ）に含まれる文との関連性が高い文のみ、当該検索用文章ブロックＳＴＢ（ｉ）に含まれる文との類似度を算出することができる。文単位で対象を絞り込むことで、文章ブロック単位で対象を絞り込む場合に比べて、類似度の高い文（及び文章ブロック）の取りこぼしを抑制でき、かつ、類似度の算出に要する時間を短縮することができる。また、実際は類似していない文章ブロックＴＢの類似度が高くなることを防止できる。

例えば、文書検索方法の例２を用いることで、文書検索方法の例１（図５Ｂ）では上位１０位にならなかった文章ブロックＴＢ７（１）、ＴＢ３（１）、ＴＢ６（１）が上位１０位になる、ということも起こりうる（図９Ｂ）。

文書検索方法の例２は、文書検索方法の例１に比べて、残りの部分の類似性が極めて低くても、類似性が極端に高い部分を有する（例えば、完全一致の文章を含む）文章ブロックの類似度を高く算出することができる。

＜文書検索方法の例３＞
次に、複数の検索用文章ブロックＳＴＢについて、類似する文章ブロックを逐次検索する方法について説明する。なお、文書検索方法の例３では、全ての検索用文章ブロックＳＴＢについて、類似する文章ブロックを検索する例を示すが、これに限定されず、一部の検索用文章ブロックＳＴＢについて、類似する文章ブロックを検索してもよい。図１０に、文書検索方法のフローチャートを示す。

なお、検索を行う前段階の処理については、文書検索方法の例１と同様であるため、説明を省略する。

［ステップＢ１：複数の検索用文章ブロックＳＴＢ（１）~ＳＴＢ（ｗ）の作成］
まず、検索用文書ＳＴＤを分割することで、複数の検索用文章ブロックＳＴＢを作成する。ここでは、ｗ個（ｗは２以上の整数）の検索用文章ブロック（検索用文章ブロックＳＴＢ（１）から検索用文章ブロックＳＴＢ（ｗ））に分割する例を示す。ステップＢ１は、図３Ａに示すステップＡ１と同様に行うことができる。

［ステップＢ２：検索用文章ブロックＳＴＢ（ｉ）の選択（ｉ＝１）］
次に、ｗ個の検索用文章ブロックＳＴＢの中から、検索を行う検索用文章ブロックＳＴＢ（ｉ）（ｉは、１以上ｗ以下の整数）を選択する。

なお、一部または全部の検索用文章ブロックＳＴＢについて、類似する文章ブロックを検索する順番は特に限定されない。

文書検索方法の例３では、検索用文章ブロックＳＴＢ（１）から順に検索を行う例を示す。そのため、ステップＢ２では、ｉ＝１を選択する。

［ステップＢ３：検索用文章ブロックＳＴＢ（ｉ）に対する関連度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出する。

ステップＢ２でｉ＝１を選択したため、１回目のステップＢ３では、検索用文章ブロックＳＴＢ（１）に対する関連度を算出する。１回目のステップＢ３は、図３Ｂに示すステップＡ３と同様に行うことができる。

［ステップＢ４：第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定］
次に、関連度の高さに基づいて、第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定する。

ステップＢ２でｉ＝１を選択したため、１回目のステップＢ４では、関連度の高さに基づいて、第１の対象１１０（１）の中から第２の対象１２０（１）を決定する。１回目のステップＢ４は、図３Ｃに示すステップＡ４と同様に行うことができる。

［ステップＢ５：検索用文章ブロックＳＴＢ（ｉ）に対する類似度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する類似度を算出する。具体的には、検索用文章ブロックＳＴＢ（ｉ）に含まれる文ごとに、第２の対象１２０（ｉ）に含まれる文それぞれとの類似度を算出する。

ステップＢ２でｉ＝１を選択したため、１回目のステップＢ５では、検索用文章ブロックＳＴＢ（１）に対する類似度を算出する。１回目のステップＢ５は、図４Ａ~図４Ｃ及び図５Ａに示すステップＡ５と同様に行うことができる。

［ステップＢ６：全ての検索用文章ブロックＳＴＢに対して類似度を算出したか（ｉ＝ｗ？）］
以上のステップＢ３からステップＢ５までの処理を、全ての検索用文章ブロックＳＴＢに対して順に行う。類似度を算出していない検索用文章ブロックＳＴＢがある場合は、ステップＢ７を経由してステップＢ３に戻る。そして、全ての検索用文章ブロックＳＴＢに対して類似度を算出した場合は、ステップＢ８に進む。

［ステップＢ７：ｉに１を足す（ｉ＝ｉ＋１）］
ステップＢ６からステップＢ３に戻る際に、ステップＢ７として、ｉに１を加える。つまり、２回目のステップＢ３~Ｂ５は、検索用文章ブロックＳＴＢ（２）に対して行う。このように、検索用文章ブロックＳＴＢ（ｗ）に対して類似度を算出するまで、ステップＢ３~Ｂ５を繰り返し行う。

［ステップＢ８：結果の出力］
そして、各検索用文章ブロックＳＴＢに対する規格化類似度が高い文章ブロックＴＢを出力する。

図１２は、検索用文章ブロックＳＴＢ別で、規格化類似度が高い順に文章ブロックＴＢを並べた例である。さらに、図５Ｂに示すＳｃｏｒｅのように、類似度の高さを示す値を出力してもよい。

以上のように、検索用文章ブロックＳＴＢごとに、類似する文章ブロックを順に検索した後、全ての結果を出力することで、検索用文書ＳＴＤの各検索用文章ブロックＳＴＢに対して、類似する文書（文章ブロックＴＢ）を検索することができる。

＜文書検索方法の例４＞
次に、複数の検索用文章ブロックＳＴＢについて、並列で、類似する文章ブロックを検索する方法について説明する。なお、文書検索方法の例４では、全ての検索用文章ブロックＳＴＢについて、類似する文章ブロックを検索する例を示すが、これに限定されず、一部の検索用文章ブロックＳＴＢについて、類似する文章ブロックを検索してもよい。図１１に、文書検索方法のフローチャートを示す。

［ステップＣ１：複数の検索用文章ブロックＳＴＢの作成］
まず、検索用文書ＳＴＤを分割することで、複数の検索用文章ブロックＳＴＢを作成する。ここでは、ｗ個（ｗは２以上の整数）の検索用文章ブロック（検索用文章ブロックＳＴＢ（１）から検索用文章ブロックＳＴＢ（ｗ））に分割する例を示す。ステップＣ１は、図３Ａに示すステップＡ１と同様に行うことができる。

以降のステップＣ２~Ｃ５の処理は、２個以上の検索用文章ブロックＳＴＢについて、並列で行うことができる。文章検索方法の例４では、ｗ個の検索用文章ブロックＳＴＢについて、並列で行う例を示す。

［ステップＣ２（ｉ）：検索用文章ブロックＳＴＢ（ｉ）の選択］
次に、ｗ個の検索用文章ブロックＳＴＢの中から、検索を行う検索用文章ブロックＳＴＢ（ｉ）（ｉは、１以上ｗ以下の整数）を選択する。

図１１に示すステップＣ２（１）では、ｉ＝１を選択する。ステップＣ２（１）と並行して行われるステップＣ２（２）では、ｉ＝２を選択し、ステップＣ２（ｗ）では、ｉ＝ｗを選択する。

［ステップＣ３（ｉ）：検索用文章ブロックＳＴＢ（ｉ）に対する関連度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する関連度を算出する。

図１１に示すステップＣ３（１）では、検索用文章ブロックＳＴＢ（１）に対する関連度を算出する。ステップＣ３（１）は、図３Ｂに示すステップＡ３と同様に行うことができる。

ステップＣ３（１）と並行して行われるステップＣ３（２）では、検索用文章ブロックＳＴＢ（２）に対する関連度を算出し、ステップＣ３（ｗ）では、検索用文章ブロックＳＴＢ（ｗ）に対する関連度を算出する。

［ステップＣ４（ｉ）：第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定］
次に、関連度の高さに基づいて、第１の対象１１０（ｉ）の中から第２の対象１２０（ｉ）を決定する。

図１１に示すステップＣ４（１）では、関連度の高さに基づいて、第１の対象１１０（１）の中から第２の対象１２０（１）を決定する。ステップＣ４（１）は、図３Ｃに示すステップＡ４と同様に行うことができる。

ステップＣ４（１）と並行して行われるステップＣ４（２）では、関連度の高さに基づいて、第１の対象１１０（２）の中から第２の対象１２０（２）を決定し、ステップＣ４（ｗ）では、関連度の高さに基づいて、第１の対象１１０（ｗ）の中から第２の対象１２０（ｗ）を決定する。

［ステップＣ５：検索用文章ブロックＳＴＢ（ｉ）に対する類似度の算出］
次に、検索用文章ブロックＳＴＢ（ｉ）に対する類似度を算出する。具体的には、検索用文章ブロックＳＴＢ（ｉ）に含まれる文ごとに、第２の対象１２０（ｉ）に含まれる文それぞれとの類似度を算出する。

図１１に示すステップＣ５（１）では、検索用文章ブロックＳＴＢ（１）に対する類似度を算出する。ステップＣ５（１）は、図４Ａ~図４Ｃ及び図５Ａに示すステップＡ５と同様に行うことができる。

ステップＣ５（１）と並行して行われるステップＣ５（２）では、検索用文章ブロックＳＴＢ（２）に対する類似度を算出し、ステップＣ４（ｗ）では、検索用文章ブロックＳＴＢ（ｗ）に対する類似度を算出する。

［ステップＣ６：結果の出力］
そして、各検索用文章ブロックＳＴＢに対する規格化類似度が高い文章ブロックＴＢを出力する。

図１２は、検索用文章ブロックＳＴＢ別で、規格化類似度が高い順に文章ブロックＴＢを並べた例である。なお、図５Ｂに示すＳｃｏｒｅのように、類似度の高さを示す値を出力してもよい。

以上のように、各検索用文章ブロックＳＴＢに類似する文章ブロックを並列で検索した後、全ての結果を出力することで、検索用文書ＳＴＤの各検索用文章ブロックＳＴＢに対して、類似する文書（文章ブロックＴＢ）を検索することができる。

以上のように、本実施の形態の文書検索方法では、検索用文章ブロックに類似する文章ブロックを検索することで、検索用文書の特定の箇所に類似する、検索対象文書の記載箇所を精度よく検索することができる。これにより、検索用文書全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。

また、本実施の形態の文書検索方法では、全文検索結果を用いて、検索用文章ブロックに対する類似度を算出する対象を絞り込む。これにより、文書検索に係る時間を短縮することができる。

本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、１つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。

（実施の形態２）
本実施の形態では、本発明の一態様の文書検索システムについて図１３及び図１４を用いて説明する。

本実施の形態の文書検索システムは、実施の形態１に示す文書検索方法を用いて、文書を検索することができる。具体的には、事前に準備された文章ブロックを検索の対象として、入力された検索用文書（の検索用文章ブロック）に類似する文書（文章ブロック）を検索することができる。

＜文書検索システムの構成例１＞
図１３に、文書検索システム１００のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部１０３で行われる処理は、処理によって異なるサーバで実行されることがある。

文書検索システム１００は、少なくとも、処理部１０３を有する。図１３に示す文書検索システム１００は、さらに、入力部１０１、伝送路１０２、記憶部１０５、データベース１０７、及び出力部１０９を有する。

［入力部１０１］
入力部１０１には、文書検索システム１００の外部から検索用文書ＳＴＤが供給される。入力部１０１に供給された検索用文書ＳＴＤは、伝送路１０２を介して、処理部１０３、記憶部１０５、またはデータベース１０７に供給される。

［伝送路１０２］
伝送路１０２は、各種データを伝達する機能を有する。入力部１０１、処理部１０３、記憶部１０５、データベース１０７、及び出力部１０９の間のデータの送受信は、伝送路１０２を介して行うことができる。例えば、検索用文書ＳＴＤ、検索用文章ブロックＳＴＢ、検索対象文書ＴＤ、及び文章ブロックＴＢなどのデータが、伝送路１０２を介して、送受信される。

［処理部１０３］
処理部１０３は、入力部１０１、記憶部１０５、データベース１０７などから供給されたデータを用いて、演算を行う機能を有する。処理部１０３は、演算結果を、記憶部１０５、データベース１０７、出力部１０９などに供給することができる。

処理部１０３には、チャネル形成領域に金属酸化物を有するトランジスタを用いることが好ましい。当該トランジスタはオフ電流が極めて低いため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷（データ）を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部１０３が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部１０３を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部１０３をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。

なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをＯｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒトランジスタ、あるいはＯＳトランジスタと呼ぶ。ＯＳトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。

本明細書等において、金属酸化物（ｍｅｔａｌ　ｏｘｉｄｅ）とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体（透明酸化物導電体を含む）、酸化物半導体（Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒまたは単にＯＳともいう）などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも１つを有する場合、当該金属酸化物を、金属酸化物半導体（ｍｅｔａｌ　ｏｘｉｄｅ　ｓｅｍｉｃｏｎｄｕｃｔｏｒ）、略してＯＳと呼ぶことができる。

チャネル形成領域が有する金属酸化物はインジウム（Ｉｎ）を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、ＯＳトランジスタのキャリア移動度（電子移動度）が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Ｍを含む酸化物半導体であると好ましい。元素Ｍは、アルミニウム（Ａｌ）、ガリウム（Ｇａ）、またはスズ（Ｓｎ）であることが好ましい。元素Ｍに適用可能な他の元素としては、ホウ素（Ｂ）、シリコン（Ｓｉ）、チタン（Ｔｉ）、鉄（Ｆｅ）、ニッケル（Ｎｉ）、ゲルマニウム（Ｇｅ）、イットリウム（Ｙ）、ジルコニウム（Ｚｒ）、モリブデン（Ｍｏ）、ランタン（Ｌａ）、セリウム（Ｃｅ）、ネオジム（Ｎｄ）、ハフニウム（Ｈｆ）、タンタル（Ｔａ）、タングステン（Ｗ）などがある。ただし、元素Ｍとして、前述の元素を複数組み合わせても構わない場合がある。元素Ｍは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛（Ｚｎ）を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。

チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。

また、処理部１０３には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。

また、処理部１０３には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いることが好ましい。

処理部１０３は、例えば、演算回路または中央演算装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等を有する。

処理部１０３は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＦＰＡＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ａｎａｌｏｇ　Ａｒｒａｙ）等のＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）によって実現された構成であってもよい。処理部１０３は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部１０５のうち少なくとも一方に格納される。

処理部１０３はメインメモリを有していてもよい。メインメモリは、ＲＡＭ等の揮発性メモリ、及びＲＯＭ等の不揮発性メモリのうち少なくとも一方を有する。

ＲＡＭとしては、例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等が用いられ、処理部１０３の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部１０５に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにＲＡＭにロードされる。ＲＡＭにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部１０３に直接アクセスされ、操作される。

ＲＯＭには、書き換えを必要としない、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）及びファームウェア等を格納することができる。ＲＯＭとしては、マスクＲＯＭ、ＯＴＰＲＯＭ（Ｏｎｅ　Ｔｉｍｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等が挙げられる。ＥＰＲＯＭとしては、紫外線照射により記憶データの消去を可能とするＵＶ−ＥＰＲＯＭ（Ｕｌｔｒａ−Ｖｉｏｌｅｔ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等が挙げられる。

［記憶部１０５］
記憶部１０５は、処理部１０３が実行するプログラムを記憶する機能を有する。また、記憶部１０５は、処理部１０３が生成した演算結果、及び、入力部１０１に入力されたデータなどを記憶する機能を有していてもよい。

記憶部１０５は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部１０５は、例えば、ＤＲＡＭ、ＳＲＡＭなどの揮発性メモリを有していてもよい。記憶部１０５は、例えば、ＲｅＲＡＭ（Ｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、抵抗変化型メモリともいう）、ＰＲＡＭ（Ｐｈａｓｅ　ｃｈａｎｇｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＦｅＲＡＭ（Ｆｅｒｒｏｅｌｅｃｔｒｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＭＲＡＭ（Ｍａｇｎｅｔｏｒｅｓｉｓｔｉｖｅ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ、磁気抵抗型メモリともいう）、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部１０５は、ハードディスクドライブ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ：ＨＤＤ）及びソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等の記録メディアドライブを有していてもよい。

［データベース１０７］
データベース１０７は、少なくとも、検索対象文書ＴＤ及び文章ブロックＴＢなどのデータを記憶する機能を有する。また、データベース１０７は、処理部１０３が生成した演算結果、及び、入力部１０１に入力されたデータなどを記憶する機能を有していてもよい。なお、記憶部１０５及びデータベース１０７は互いに分離されていなくてもよい。例えば、文書検索システムは、記憶部１０５及びデータベース１０７の双方の機能を有する記憶ユニットを有していてもよい。

なお、処理部１０３、記憶部１０５、及びデータベース１０７が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。

［出力部１０９］
出力部１０９は、文書検索システム１００の外部にデータを供給する機能を有する。例えば、処理部１０３における演算結果を外部に供給することができる。

＜文書検索システムの構成例２＞
図１４に、文書検索システム１５０のブロック図を示す。文書検索システム１５０は、サーバ１５１と、端末１５２（パーソナルコンピュータなど）とを有する。

サーバ１５１は、通信部１６１ａ、伝送路１６２、処理部１６３ａ、及びデータベース１６７を有する。図１４では図示しないが、さらに、サーバ１５１は、記憶部、入出力部などを有していてもよい。

端末１５２は、通信部１６１ｂ、伝送路１６８、処理部１６３ｂ、記憶部１６５、及び入出力部１６９を有する。図１４では図示しないが、端末１５２は、さらに、データベースなどを有していてもよい。

文書検索システム１５０の使用者は、端末１５２から、検索用文書ＳＴＤを、サーバ１５１に入力する。検索用文書ＳＴＤは、通信部１６１ｂから通信部１６１ａに送信される。

通信部１６１ａが受信した検索用文書ＳＴＤは、伝送路１６２を介して、データベース１６７または記憶部（図示しない）に保存される。または、検索用文書ＳＴＤは、通信部１６１ａから、直接、処理部１６３ａに供給されてもよい。

実施の形態１で説明した、検索用文章ブロックＳＴＢの作成、関連度の算出、及び類似度の算出は、それぞれ、高い処理能力が求められる。サーバ１５１が有する処理部１６３ａは、端末１５２が有する処理部１６３ｂに比べて処理能力が高い。したがって、これらの処理は、それぞれ、処理部１６３ａで行われることが好ましい。

そして、処理部１６３ａにより検索結果が生成される。検索結果は、伝送路１６２を介して、データベース１６７または記憶部（図示しない）に保存される。または、検索結果は、処理部１６３ａから、直接、通信部１６１ａに供給されてもよい。その後、サーバ１５１から、検索結果が、端末１５２に出力される。検索結果は、通信部１６１ａから通信部１６１ｂに送信される。

［入出力部１６９］
入出力部１６９には、文書検索システム１５０の外部からデータが供給される。入出力部１６９は、文書検索システム１５０の外部にデータを供給する機能を有する。なお、文書検索システム１００のように、入力部と出力部が分かれていてもよい。

［伝送路１６２及び伝送路１６８］
伝送路１６２及び伝送路１６８は、データを伝達する機能を有する。通信部１６１ａ、処理部１６３ａ、及びデータベース１６７の間のデータの送受信は、伝送路１６２を介して行うことができる。通信部１６１ｂ、処理部１６３ｂ、記憶部１６５、及び入出力部１６９の間のデータの送受信は、伝送路１６８を介して行うことができる。

［処理部１６３ａ及び処理部１６３ｂ］
処理部１６３ａは、通信部１６１ａ及びデータベース１６７などから供給されたデータを用いて、演算を行う機能を有する。処理部１６３ｂは、通信部１６１ｂ、記憶部１６５、及び入出力部１６９などから供給されたデータを用いて、演算を行う機能を有する。処理部１６３ａ及び処理部１６３ｂは、処理部１０３の説明を参照できる。処理部１６３ａは、処理部１６３ｂに比べて処理能力が高いことが好ましい。

［記憶部１６５］
記憶部１６５は、処理部１６３ｂが実行するプログラムを記憶する機能を有する。また、記憶部１６５は、処理部１６３ｂが生成した演算結果、通信部１６１ｂに入力されたデータ、及び入出力部１６９に入力されたデータなどを記憶する機能を有する。

［データベース１６７］
データベース１６７は、検索対象文書ＴＤ及び文章ブロックＴＢを記憶する機能を有する。また、データベース１６７は、処理部１６３ａが生成した演算結果、及び通信部１６１ａに入力されたデータなどを記憶する機能を有していてもよい。または、サーバ１５１は、データベース１６７とは別に記憶部を有し、当該記憶部が、処理部１６３ａが生成した演算結果、及び通信部１６１ａに入力されたデータなどを記憶する機能を有していてもよい。

［通信部１６１ａ及び通信部１６１ｂ］
通信部１６１ａ及び通信部１６１ｂを用いて、サーバ１５１と端末１５２との間で、データの送受信を行うことができる。通信部１６１ａ及び通信部１６１ｂとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線（例えば、電波、赤外線など）を用いてもよい。

本実施の形態は、他の実施の形態と適宜組み合わせることができる。

Ｓ１：文、Ｓ２：文、Ｓ３：文、Ｓ２６：文、ＳＴＢ：検索用文章ブロック、ＳＴＤ：検索用文書、ＳＴＳ１：文、ＳＴＳ２：文、ＳＴＳｐ：文、ＴＢ：文章ブロック、ＴＢ１：文章ブロック、ＴＢ２：文章ブロック、ＴＢ３：文章ブロック、ＴＢ４：文章ブロック、ＴＢ６：文章ブロック、ＴＢ７：文章ブロック、ＴＢ９：文章ブロック、ＴＢ６２：文章ブロック、ＴＤ：検索対象文書、ＴＤ１：検索対象文書、ＴＤ２：検索対象文書、ＴＤｎ：検索対象文書、１００：文書検索システム、１０１：入力部、１０２：伝送路、１０３：処理部、１０５：記憶部、１０７：データベース、１０９：出力部、１１０：第１の対象、１１０（ｉ）：第１の対象、１２０：第２の対象、１２０（ｉ）：第２の対象、１５０：文書検索システム、１５１：サーバ、１５２：端末、１６１ａ：通信部、１６１ｂ：通信部、１６２：伝送路、１６３ａ：処理部、１６３ｂ：処理部、１６５：記憶部、１６７：データベース、１６８：伝送路、１６９：入出力部

Claims

　複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、
　検索用文書の一部である、第１の検索用文章ブロックを準備し、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文章ブロックそれぞれの、前記第１の検索用文章ブロックに対する第１の関連度を算出し、
　前記第１の関連度の高さに基づいて、前記第１の対象の中から第２の対象を決定し、
　前記第１の検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの第１の類似度を算出し、
　前記第１の類似度を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　請求項１において、
　前記検索用文書を分割することで、複数の検索用文章ブロックを作成し、
　前記第１の検索用文章ブロックは、前記複数の検索用文章ブロックの一つである、文書検索方法。
　請求項１において、
　前記検索用文書の他の一部である、第２の検索用文章ブロックを準備し、
　前記複数の文章ブロックのうち少なくとも一部を第３の対象として、前記第２の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第３の対象に含まれる文章ブロックそれぞれの、前記第２の検索用文章ブロックに対する第２の関連度を算出し、
　前記第２の関連度の高さに基づいて、前記第３の対象の中から第４の対象を決定し、
　前記第２の検索用文章ブロックに含まれる文ごとに、前記第４の対象に含まれる文それぞれとの第２の類似度を算出し、
　前記第２の類似度を用いて、前記第２の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　請求項３において、
　前記第１の対象と前記第３の対象とは、同一である、文書検索方法。
　請求項１乃至４のいずれか一において、
　前記第１の類似度のうち閾値以上の値を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、
　検索用文書を分割することで、前記複数の検索用文章ブロックを作成し、
　前記複数の検索用文章ブロックのそれぞれについて、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文章ブロックそれぞれの、前記検索用文章ブロックに対する関連度を算出するステップと、
　前記関連度の高さに基づいて、前記第１の対象の中から第２の対象を決定するステップと、
　前記検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの類似度を算出するステップと、
　前記類似度を用いて、前記検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を行う、文書検索方法。
　複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、
　検索用文書の一部である、第１の検索用文章ブロックを準備し、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記第１の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文それぞれの、前記第１の検索用文章ブロックに含まれる各文に対する第１の関連度を算出し、
　前記第１の検索用文章ブロックに含まれる文ごとに、前記第１の関連度の高さに基づいて、前記第１の対象に含まれる文の中から第２の対象を決定し、
　前記第１の検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの第１の類似度を算出し、
　前記第１の類似度を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　請求項７において、
　前記検索用文書を分割することで、複数の検索用文章ブロックを作成し、
　前記第１の検索用文章ブロックは、前記複数の検索用文章ブロックの一つである、文書検索方法。
　請求項７において、
　前記検索用文書の他の一部である、第２の検索用文章ブロックを準備し、
　前記複数の文章ブロックのうち少なくとも一部を第３の対象として、前記第２の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第３の対象に含まれる文それぞれの、前記第２の検索用文章ブロックに含まれる各文に対する第２の関連度を算出し、
　前記第２の検索用文章ブロックに含まれる文ごとに、前記第２の関連度の高さに基づいて、前記第３の対象に含まれる文の中から第４の対象を決定し、
　前記第２の検索用文章ブロックに含まれる文ごとに、前記第４の対象に含まれる文それぞれとの第２の類似度を算出し、
　前記第２の類似度を用いて、前記第２の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　請求項９において、
　前記第１の対象と前記第３の対象とは、同一である、文書検索方法。
　請求項７乃至１０のいずれか一において、
　前記第１の類似度のうち閾値以上の値を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する、文書検索方法。
　複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、
　検索用文書を分割することで、前記複数の検索用文章ブロックを作成し、
　前記複数の検索用文章ブロックのそれぞれについて、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文それぞれの、前記検索用文章ブロックに含まれる各文に対する関連度を算出するステップと、
　前記検索用文章ブロックに含まれる文ごとに、前記関連度の高さに基づいて、前記第１の対象に含まれる文の中から第２の対象を決定するステップと、
　前記検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの類似度を算出するステップと、
　前記類似度を用いて、前記検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を行う、文書検索方法。
　複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、
　処理部を有し、
　前記処理部は、
　検索用文書を分割することで作成された複数の検索用文章ブロックの１つである、第１の検索用文章ブロックを準備する機能と、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文章ブロックそれぞれの、前記第１の検索用文章ブロックに対する第１の関連度を算出する機能と、
　前記第１の関連度の高さに基づいて、前記第１の対象の中から第２の対象を決定する機能と、
　前記第１の検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの第１の類似度を算出する機能と、
　前記第１の類似度を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索する機能と、を有する、文書検索システム。
　複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索するプログラムであって、
　検索用文書を分割することで作成された複数の検索用文章ブロックの１つである、第１の検索用文章ブロックを準備するステップと、
　前記複数の文章ブロックのうち少なくとも一部を第１の対象として、前記第１の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第１の対象に含まれる文章ブロックそれぞれの、前記第１の検索用文章ブロックに対する第１の関連度を算出するステップと、
　前記第１の関連度の高さに基づいて、前記第１の対象の中から第２の対象を決定するステップと、
　前記第１の検索用文章ブロックに含まれる文ごとに、前記第２の対象に含まれる文それぞれとの第１の類似度を算出するステップと、
　前記第１の類似度を用いて、前記第１の検索用文章ブロックに類似する文章ブロックを少なくとも１つ検索するステップと、を、プロセッサに実行させるプログラム。
　請求項１４に記載のプログラムが記憶された非一時的コンピュータ可読記憶媒体。