WO2009087815A1

WO2009087815A1 - 類似文書検索システム、類似文書検索方法および記録媒体

Info

Publication number: WO2009087815A1
Application number: PCT/JP2008/070733
Authority: WO
Inventors: Sumitaka Okajo
Original assignee: Nec Corporation
Priority date: 2008-01-09
Filing date: 2008-11-14
Publication date: 2009-07-16

Abstract

　大量の電子文書から所望の文書を検索するにあたり、部分領域のレイアウトに基づくクエリを用いて的確な検索結果を高速に得られるようにする。　類似文書検索システムは、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と複数の電子文書を格納し、複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納部１と、検索用部分領域を受け付ける受付部１０６と、検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出部１０４と、複数の項目の中で検索用部分領域が該当する検索用項目を、特徴情報を用いて特定し、格納部１を参照して、検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定部１０９と、を含む。

Description

類似文書検索システム、類似文書検索方法および記録媒体

　本発明は、類似文書検索システムに関し、特に文書の領域レイアウトに基づき所望の電子文書を高速に検索できる類似文書検索システムに関する。

　テキストと図表が混在した電子文書が、プレゼンテーション作成ソフトウェアを用いて大量に作成されている。また、スキャナなどの光学機器を用いて紙文書を文書画像（電子文書）としてコンピュータに取り込むことも盛んに行われている。

　大量の電子文書から所望の文書を検索する技術として、キーワードを用いたテキストベースでの全文検索がある。

　しかしながら、テキストベースでの検索は、検索キーワードが必要、および、ヒット数が多い場合の絞込みが困難、という問題点を有する。

　例えば、検索者は、以前にアクセスした、記憶があいまいなスライドを検索したい場合には、適切なキーワードを思い浮かばなければ、そのスライドを検索できない。また、キーワードだけの検索では、多数の文書がヒットする可能性が高い。この場合、検索者は、ヒットした多数のスライドを一つ一つ確認する必要がある。

　一方、文書画像の特徴を用いて類似文書を検索する技術がある。

　類似文書検索システムの一例が、特許文献１（特開２００６－１６３８４１号公報）に記載されている。

　この類似文書検索システムは、領域分割部と、領域特徴抽出部と、画像領域管理ＤＢと、特徴量更新部と、領域類似比較部とから構成されている。

　このような構成を有する類似文書検索システムは、つぎのように動作する。

　領域分割部は、登録文書画像から、画像を構成する複数の部分領域を抽出する。

　領域特徴抽出部は、部分領域の個数と、各部分領域の重心位置、アスペクト比、大きさおよび色特徴とを算出する。

　特徴量更新部は、算出された各部分領域の個数および重心位置をインデックスとして用いて、各部分領域を、画像領域管理ＤＢに保存する。

　また、領域分割部は、検索者によって入力された検索元文書画像から、画像を構成する複数の部分領域を抽出する。

　領域特徴抽出部は、検索元文書画像について、部分領域の個数と、各部分領域の重心位置、アスペクト比、大きさおよび色特徴とを算出する。

　領域類似比較部は、インデックスを参照して、検索元文書画像を構成する複数の部分領域の個数および重心位置と一致する部分領域を、画像領域管理ＤＢから抽出し、その抽出結果をメモリに読み込む。

　領域類似比較部は、その読み込まれた部分領域に基づいて、登録画像の絞込みを行い、絞り込まれた登録画像を対象にして、画像の検索を行う。

　なお、インデックスへの重心位置の登録は、以下のように行われる。

　登録文書画像が、予め設定された複数のブロック（以下、分割ブロック）に分割される。部分領域の重心が存在する分割ブロックが求められる。その分割ブロックの識別情報が、重心位置としてインデックスに登録される。

　ここで、特許文献１に記載の類似文書検索システムにおける検索時の動作を詳しく説明する。

　検索時には、領域分割部が、検索者によって入力された検索元文書画像を、部分領域に分割する。

　次に、領域特徴抽出部が、検索元文書画像について、各部分領域の個数、重心位置、アスペクト比、大きさおよび色特徴を抽出する。

　次に、領域類似比較部が、各部分領域の重心近傍の分割ブロックを決定する。これにより、検索元文書画像から抽出した部分領域の重心位置が、ブロック分割境界線ぎりぎりに位置する場合に、検索漏れを防ぐことができるとされている。

　具体的には、検索元文書画像から抽出した部分領域の重心とブロック分割境界線およびブロック境界線の交点との距離が、あらかじめ定めたしきい値以下であった場合には、それら境界線および境界線の交点を挟んで隣り合う分割ブロックも、重心位置が存在する分割ブロックとして扱われる。

　領域類似比較部は、検索元文書画像から抽出した部分領域の重心位置の近傍ブロックも用いてインデックスを参照し、該当する部分領域の特徴量をメモリ上に読み込む。

　次に、領域類似比較部は、読み込んだ特徴量と、検索元文書画像の部分領域の特徴量を比較して、それらの差が許容範囲にある部分領域を持つ文書を絞り込む。

　最後に、領域類似比較部は、絞り込まれた文書画像と検索元文書画像との間で特徴量の類似度を計算し、類似度の高い順に並べた登録文書画像のリストを検索結果として検索者に提示する。
特開２００６－１６３８４１号公報

　特許文献１に記載の類似文書検索システムは、電子文書の絞込みに用いるインデックスとして、部分領域の重心位置を用いている。

　部分領域の重心位置は、大きさの異なる部分領域同士であっても近くなる場合があり、また、形状が異なる部分領域同士であっても近くなる場合がある。

　このため、インデックスとして、部分領域の重心位置が用いられた場合、大きさおよび形の大きく異なる部分領域が検索されてしまう。

　また、例えば、インデックスを用いた検索結果から、さらに電子文書の絞込みを行う場合、絞込みの対象となる電子文書が多くなる。したがって、検索処理速度が低下してしまう。

　本発明の目的は、上述した課題を解決することが可能な類似文書検索システム、類似文書検索方法および記録媒体を提供することにある。

　本発明の類似文書検索システムは、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書と、を格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納手段と、検索用部分領域を受け付ける受付手段と、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手段と、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手段と、を含む。

　本発明の類似文書検索方法は、類似文書検索システムでの類似文書検索方法であって、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納し、検索用部分領域を受け付け、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出し、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する。

　本発明の記録媒体は、コンピュータに、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納する格納手順と、検索用部分領域を受け付ける受付手順と、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手順と、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

　本発明によれば、電子文書に含まれる部分領域のレイアウトに基づく類似文書検索において、所望の文書の絞込みを効率的に行うことが可能になる。

本発明の第１の実施の形態の類似文書検索システムを示したブロック図である。検索対象電子文書の登録の動作を説明するためのフローチャートである。文書データベースに格納するデータの一例を示す図である。電子文書からの特徴量抽出の一例を示す図である。電子文書（スライド）を３×３のブロックに分割する場合の分割ブロックパターンを示す図である。電子文書（スライド）を３×３のブロックに分割した場合のブロックＩＤの一例を示す図である。部分領域に対応する分割ブロックパターンの例を示す図である。領域データベースに格納するインデックスの一例を示す図である。領域データベースに格納する特徴量データの一例を示す図である。類似文書検索の動作を説明するためのフローチャートである。検索クエリ生成部の画面例を示す図である。検索クエリ特徴量の一例を示す図である。検索クエリに対して検索漏れを生じる部分領域の一例を示す図である。検索クエリに対してインデックスの検索対象となる分割ブロックパターンの一例を示すである。部分領域のＭＢＲ座標を含む分割ブロックと、前記分割ブロックに隣接する分割ブロックとの距離の計算方法を示す図である。インデックスを参照すべき分割ブロックパターンを決定するための処理の流れを示すフローチャートである。インデックスを参照すべき分割ブロックパターンを決定するための処理の流れを示すフローチャートである。インデックスを参照すべき分割ブロックパターンの一例を示す図である。検索クエリのすべての部分領域を持つ文書を特定するための処理を示す模式図である。部分領域の類似度の計算式の一例を示す図である。統合類似度の計算式の一例を示す図である。検索クエリから抽出した領域特徴量と、インデックスを参照することにより検索した、検索クエリのすべての部分領域を含む文書の領域特徴量の一例を示す図である。統合類似度の計算結果の一例を示す図である。本発明の第２の実施の形態の構成を示すブロック図である。類似文書検索処理を実施するための最良の形態の動作を示すフローチャートである。検索元文書指定部で指定する電子文書の一例を示す図である。検索クエリ修正部の画面例を示す図である。検索クエリ修正部の画面例を示す図である。本発明の第３の実施の形態の構成を示すブロック図である。

符号の説明

　１００、１００Ａ、１００Ｂ　コンピュータ（中央処理装置；プロセッサ；データ処理装置）
　１０１　　文書登録部
　１０２　　　文書データベース
　１０３　　　領域生成部
　１０４　　　領域特徴抽出部
　１０５　　　特徴量データベース
　１０６　　　検索クエリ生成部
　１０７　　　検索クエリ
　１０８　　　検索クエリ特徴量
　１０９　　　特徴量参照部
　１１０　　　類似度計算部
　１１１　　　検索結果生成部
　１１２　　　検索元文書指定部
　１１３　　　検索クエリ修正部
　２００　　入力装置
　３００　　出力装置
　４００　　検索結果
　１　　　　格納部
　２　　　　受付部

　次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

　［第１実施形態］
　図１は、本発明の第１の実施の形態の類似文書検索システムを示したブロック図である。図１において、類似文書検索システムは、コンピュータ１００と、入力装置２００と、出力装置３００とを含む。

　コンピュータ１００は、例えば、中央処理装置、プロセッサ、または、データ処理装置である。

　入力装置２００は、種々の入力を受け付ける。入力装置２００は、例えば、文書登録時に、検索対象となる電子文書（以下「検索対象電子文書」と称する。）を受け付け、また、検索時に、検索用パターン情報を受け付ける。出力装置３００は、検索結果を出力する。

　出力装置３００は、例えば、ディスプレイまたはプリンタである。

　コンピュータ１００は、文書登録部１０１と、文書データベース１０２と、領域生成部１０３と、領域特徴抽出部１０４と、特徴量データベース１０５と、検索クエリ生成部１０６と、特徴量参照部１０９と、類似度計算部１１０と、検索結果生成部１１１とを含む。文書データベース１０２と特徴量データベース１０５は、格納部１に含まれる。

　コンピュータ１００は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。

　コンピュータ１００は、プログラムを記録媒体から読み取り実行することによって、文書登録部１０１、文書データベース１０２、領域生成部１０３、領域特徴抽出部１０４、特徴量データベース１０５、検索クエリ生成部１０６、特徴量参照部１０９、類似度計算部１１０、および、検索結果生成部１１１として機能する。

　文書登録部１０１は、一般的に登録手段と呼ぶことができる。文書登録部１０１は、入力装置２００が受け付けた検索対象電子文書を、その検索対象電子文書を識別するための情報（文書ＩＤ）と対応付けて、文書データベース１０２に登録する。

　文書データベース１０２は、一般的に文書格納手段と呼ぶことができる。文書データベース１０２は、文書登録部１０１にて入力された検索対象電子文書を記憶する。

　領域生成部１０３は、一般的に領域生成手段と呼ぶことができる。領域生成部１０３は、検索対象電子文書から、複数の部分領域を生成し抽出する。

　部分領域は、テキスト、図、表、画像またはグラフなどの属性により分類される文書の構成要素（構成パターン）を指す。

　領域特徴抽出部１０４は、一般的に抽出手段と呼ぶことができる。

　領域特徴抽出部１０４は、領域生成部１０３により抽出された各部分領域、および、後述の検索クエリ生成部１０６により生成された検索クエリ１０７における各部分領域（各検索用部分領域）から、特徴量を抽出する。

　領域特徴抽出部１０４は、各部分領域の特徴量として、例えば、各部分領域の大きさ、形および位置を表す情報を抽出する。

　領域特徴抽出部１０４は、検索対象電子文書の部分領域から抽出された特徴量を、その検索対象電子文書および部分領域に対応付けて、特徴量データベース１０５に登録する。

　具体的には、領域特徴抽出部１０４は、部分領域の大きさと形と位置に関する特徴に応じて予め設定された複数の項目（以下、単に「複数の項目」と称する）の中から、検索対象電子文書の部分領域が該当する項目を、検索対象電子文書の部分領域から抽出された特徴量（文書特徴情報）を用いて特定する。

　領域特徴抽出部１０４は、複数の検索対象電子文書内の部分領域ごとに、その部分領域を示す部分領域情報（領域ＩＤ）を、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書の識別情報（文書ＩＤ）と、に対応付けて、特徴量データベース１０５に登録する。

　また、領域特徴抽出部１０４は、検索クエリ１０７内の部分領域から抽出された特徴量（特徴情報）を、検索クエリ特徴量１０８として、特徴量参照部１０９に提供する。

　特徴量データベース１０５は、一般的に特徴情報格納手段と呼ぶことができる。

　特徴量データベース１０５は、複数の項目と、複数の検索対象電子文書の文書ＩＤと、を格納する。

　また、特徴量データベース１０５は、複数の検索対象電子文書内の部分領域ごとに、領域ＩＤを、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書の文書ＩＤと、に対応付けて格納する。

　なお、特徴量データベース１０５内の情報は、インデックスとして使用される。

　検索クエリ生成部１０６は、一般的に受付手段と呼ぶことができる。検索クエリ生成部１０６は、入力装置２００が受け付けた検索者からの入力（検索用パターン情報、例えば、複数の検索用部分領域と、各検索用部分領域の優先度）に基づいて、検索用部分領域のレイアウトと、各検索用部分領域の優先度と、を含む検索クエリ１０７を生成する。

　特徴量参照部１０９は、一般的に特定手段と呼ぶことができる。

　特徴量参照部１０９は、領域特徴抽出部１０４からの検索クエリ特徴量１０８を用いて、特徴量データベース１０５に記憶されたインデックスを参照し、検索クエリ特徴量１０８に該当する検索用項目を特定する。

　特徴量参照部１０９は、特徴量データベース１０５を参照して、検索用項目に対応する部分領域を備えた検索対象電子文書を検索（特定）する。

　類似度計算部１１０は、一般的に計算手段と呼ぶことができる。類似度計算部１１０は、特徴量参照部１０９により検索された検索対象電子文書の各部分領域の特徴量と、検索クエリ特徴量１０８と、を比較することにより、両者の類似度を計算する。

　検索結果生成部１１１は、一般的に出力手段と呼ぶことができる。検索結果生成部１１１は、類似度計算部１１０が計算した類似度に基づいて、文書データベース１０２内の検索対象電子文書のうち、検索クエリ１０７に類似する検索対象電子文書を特定し、その特定された検索対象電子文書を示す検索結果を生成する。

　格納部１は、一般的に格納手段と呼ぶことができる。格納部１は、複数の項目と、複数の電子文書と、を格納し、また、複数の電子文書内の部分領域ごとに、その部分領域を示す部分領域情報を、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書と、に対応付けて格納する。

　次に、動作を説明する。

　図２は、検索対象電子文書の登録の動作を説明するためのフローチャートである。以下、図１および図２を参照して、検索対象電子文書の登録の動作を説明する。

　まず、登録者は、入力装置２００を操作して、検索対象電子文書を入力する（ステップＡ１）。

　次に、文書登録部１０１は、入力された検索対象電子文書を一意に識別するための文書ＩＤ（識別情報）を、その検索対象電子文書に付与する。続いて、文書登録部１０１は、文書ＩＤが付与された検索対象電子文書を、文書データベース１０２に格納する（ステップＡ２）。

　図３は、文書データベース１０２に格納されるデータ５０１の一例を示した説明図である。

　図３に示した例では、文書データベース１０２は、文書ＩＤ５０１ａと、文書ＩＤ５０１ａが付与された検索対象電子文書の格納場所（文書データベース１０２内）を示すファイルパス５０１ｂとを、互いに対応付けて格納する。

　なお、文書データベース１０２は、その他にも、検索対象電子文書に関して、文書名（ファイル名）、作成者、作成日時、または、登録日時などの文書情報を、文書ＩＤ５０１ａに対応付けて格納してもよい。

　次に、領域生成部１０３は、検索対象電子文書から、部分領域を生成し抽出する（ステップＡ３）。なお、部分領域は、例えば、検索対象電子文書内の、文字、行、複数の文字あるいは行から成るテキスト領域、図、表、グラフまたは画像などである。

　検索対象電子文書が文書画像（画像で示された文書）である場合、領域生成部１０３は、関連技術を用いて、文書画像から部分領域を生成する。文書画像から部分領域を生成する関連技術としては、しきい値処理、ラベリング処理、または、エッジ処理などが用いられる。例えば、領域生成部１０３は、前記処理を行うことで得られた部分領域を、大きさ、形状および画素分布などの画像の特徴に基づいて、テキスト領域、図、表、グラフおよび画像などに分類する。

　また、検索対象電子文書が、プレゼンテーション作成ソフトウェアで作成された電子文書（例えば、Microsoft（登録商標）社のPowerPoint（登録商標））である場合には、領域生成部１０３は、そのデータファイルを解析することにより、部分領域の生成、抽出および分類を行う。

　以下では、検索対象電子文書が、プレゼンテーション作成ソフトウェアで作成された電子文書（例えば、複数のスライドからなる電子文書）である場合の例を説明する。なお、検索対象電子文書は、プレゼンテーション作成ソフトウェアで作成された電子文書に限らず、上述したように文書画像でもよい。

　次に、領域特徴抽出部１０４は、領域生成部１０３により生成された各部分領域について、ＭＢＲ（最小外接矩形）を生成する。続いて、領域特徴抽出部１０４は、各部分領域の特徴量として、ＭＢＲの対角線を形成する２つの頂点（対角）の座標（以下「ＭＢＲ座標」と称する。）、領域種別、重心座標、面積、および、縦横比を抽出する（ステップＡ４）。

　なお、ＭＢＲ座標は、部分領域の大きさと形と位置に関する特徴を表す。また、ＭＢＲ座標と領域種別は、一般的に文書特徴情報と呼ぶことができる。

　図４は、特徴量抽出の一例を示した説明図である。

　図４に示すスライド５０２では、領域生成部１０３により、テキスト領域５０２ａと図領域５０２ｂの２つの部分領域が、特定され抽出されている。

　領域特徴抽出部１０４は、部分領域５０２ａおよび５０２ｂのそれぞれから、ＭＢＲ座標として、例えばスライドの左上の角Ｃを原点として、ＭＢＲの左上の座標と右下の座標を抽出する。

　図４の例では、領域特徴抽出部１０４は、部分領域５０２ａから(20,　10)および(220,　60)を抽出し、部分領域５０２ｂから(20,　80)および(220,　180)を抽出する（図４のスライド５０３参照）。

　また、領域特徴抽出部１０４は、部分領域ごとに、ＭＢＲの重心座標、面積、および、縦横比を抽出する。

　図４の例では、領域特徴抽出部１０４は、部分領域５０２ａから、重心座標(120,　35)、面積10000、および、縦横比4.0を抽出する。また、領域特徴抽出部１０４は、部分領域５０２ｂから、重心座標(120,　130)、面積20000、および、縦横比2.0を抽出する。

　次に、領域特徴抽出部１０４は、各部分領域に対して、その部分領域を一意に識別するための領域ＩＤ（識別情報）を付与する。

　続いて、領域特徴抽出部１０４は、部分領域の大きさと形と位置に関する特徴に応じて予め設定された複数の項目の中で、検索対象電子文書の部分領域が該当する項目を、検索対象電子文書の部分領域から抽出された文書特徴情報を用いて特定する。

　領域特徴抽出部１０４は、検索対象電子文書内の部分領域ごとに、その部分領域の領域ＩＤを、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書の文書ＩＤと、に対応付けて特徴量データベース１０５に登録する（ステップＡ５）。

　次に、ステップＡ５のインデックス登録処理について詳細に説明する。

　まず、領域特徴抽出部１０４は、スライドを縦横３×３＝９個のブロックに等しく分割する。これは、スライドには全体的に満遍なくテキストや図表が配置されるとの仮説に基づいている。

　次に、領域特徴抽出部１０４は、９個のブロックから任意のブロックが選択された場合に、選択されたブロックで形成される形状が矩形となるブロックの組み合わせパターン（分割ブロックパターン）を、インデックスのキーの１つとする。

　換言すると、複数の項目は、電子文書を予め定められた複数のブロックに分割した場合に、複数のブロックのうち部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表される。

　図５は、スライドを３×３のブロックに分割したときのブロックの組み合わせパターン（分割ブロックパターン）を示した説明図である。

　図５に示すように、３×３のブロック分割では、３６個のパターンがある。

　また、領域特徴抽出部１０４は、もう１つのインデックスのキーとして、部分領域の領域種別（テキスト、図、表、グラフ、画像など）を採用する。

　つまり、インデックスの１レコードは、分割ブロックパターン、領域種別、および、領域ＩＤから構成される。このため、インデックスの１レコードでは、分割ブロックパターンと領域種別との組み合わせをキーとして用いることによって、領域ＩＤが得られるようになっている。

　抽出された部分領域に対応する分割ブロックパターンは、部分領域の位置、大きさ、形状が、３６個の分割ブロックパターンのうち、どの分割ブロックパターンに一致するかにより決定される。

　より具体的には、領域特徴抽出部１０４は、部分領域のＭＢＲ座標が９個のブロックのうち、どのブロックに含まれるかにより、抽出された部分領域に対応する分割ブロックパターンを決定する。

　領域特徴抽出部１０４は、図６に示すように、各分割ブロックに１～９までのＩＤを付与する。

　このとき、領域特徴抽出部１０４は、図７に示すような各部分領域に対応する分割ブロックパターンを、以下のようにして決定する。

　部分領域５０４では、ＭＢＲの左上の座標および右下の座標が、ともに、ＩＤ１のブロックに含まれる。このため、領域特徴抽出部１０４は、部分領域５０４に対応する分割ブロックパターンを、分割ブロックパターン１に決定する。

　部分領域５０５では、ＭＢＲの左上の座標がＩＤ１のブロック、右下の座標がＩＤ５のブロックに含まれる。このため、領域特徴抽出部１０４は、部分領域５０５に対応する分割ブロックパターンを、分割ブロックパターン１－２－４－５に決定する。

　部分領域５０６では、ＭＢＲの左上の座標がＩＤ１のブロック、右下の座標がＩＤ３のブロックに含まれる。このため、領域特徴抽出部１０４は、部分領域５０６に対応する分割ブロックパターンを、分割ブロックパターン１－２－３に決定する。

　領域特徴抽出部１０４は、これら分割ブロックパターンと、部分領域の領域種別と、部分領域の領域ＩＤの組み合わせを、部分領域のインデックスとして、特徴量データベース１０５に登録する。

　図８は、インデックスの一例を示した説明図である。

　図８の例では、スライドを３×３のブロックに分割した分割ブロックパターンと、部分領域をテキスト領域、図領域、表領域、グラフ領域または画像領域などに分類した領域種別と、領域ＩＤと、の組み合わせからなるインデックスに、図４で示した領域ＩＤ０００１と０００２の２つの部分領域が登録されている。

　領域特徴抽出部１０４は、インデックスを、特徴量データベース１０５に格納する。

　また、領域特徴抽出部１０４は、部分領域の位置、大きさおよび形状に関する詳細な特徴量である重心座標、面積、および、縦横比についても、特徴量の抽出元の検索対象電子文書の文書ＩＤおよびスライド番号とともに、特徴量データベース１０５に格納する。

　図９は、特徴量データベース１０５に格納される、部分領域の位置、大きさ、形状に関する詳細な特徴量データの一例を示した説明図である。

　図９の例では、部分領域の領域ＩＤ、重心座標、面積、縦横比、および、抽出元の文書ＩＤ、スライド番号の組み合わせが、特徴量データベース１０５に格納されている。

　ステップＡ１で登録した文書から抽出した部分領域について、まだインデックスへの登録および特徴量の格納がされていない部分領域があれば、すべての部分領域についてステップＡ４、ステップＡ５の処理が行われる（ステップＡ６のＮＯ）。一方、すべての部分領域についてインデックスへの登録および特徴量の格納が終われば、登録処理が終了する（ステップＡ６のＹＥＳ）。

　図１０は、類似文書検索の動作を説明するためのフローチャートである。以下、図１および図１０を参照して、類似文書検索の動作を説明する。

　まず、検索者が、入力装置２００を操作して、検索クエリ生成部１０６に、所望の文書を検索するための検索用パターン情報として、部分領域レイアウトを入力する。検索クエリ生成部１０６は、部分領域レイアウトに基づいて、検索クエリを生成する（ステップＢ１）。

　検索者は、部分領域レイアウトの入力を、例えば、図１１に示す画面を用いて行う。

　検索者は、ディスプレイなどの出力装置３００に表示される画面６０１を見ながら、キーボードまたはマウスなどの入力装置２００を用いて、部分領域レイアウトを入力する。

　検索者は、まず、領域種別選択部６０２を用いて、領域種別のいずれかを選択する。

　次に、検索者が、レイアウト入力部６０３を用いて、マウスドラッグなどにより矩形を指定すると、検索クエリ生成部１０６は、領域種別選択部６０２で選択された領域種別に応じた矩形領域（検索用部分領域）を描画する。

　また、検索者は、描画された矩形をマウスなどで選択し、矩形の位置を移動させたり、形状を変化させたり、大きさを拡大／縮小することもできる。

　図１１の例では、テキスト領域６０３ａが、スライド上部に指定され、また、図領域６０３ｂが、スライド下部に指定されている。

　また、検索者は、画面６０１上で、各部分領域に対する優先度（重み）付けを行うことができる。

　優先度は、検索者の部分領域に対する印象の強さ、および、記憶の確からしさに基づいて与えられこととする。検索クエリ生成部１０６は、検索者がレイアウト入力部６０３上に描画した順が早い矩形領域ほど、その矩形領域（検索用部分領域）に対して高い優先度を与える。

　換言すると、検索クエリ生成部１０６は、複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、その付与された優先度を受け付ける。

　つまり、検索者がより記憶の確からしい部分領域から描画を行うという認識のもとで、その順序で自動的に重みが付与される。

　図１１の例は、検索者が、テキスト領域６０３ａ（Priority=1）、図領域６０３ｂ（Priority=2）の順に描画を行った場合、検索クエリ生成部１０６は、テキスト領域６０３ａに最も高い優先度を与え、図領域６０３ｂに最も低い優先度を与える。

　この優先度は、レイアウト入力部６０３上に表示された”Priority”の部分をマウスクリックなどすることにより、検索者が後で変更できるようにしてもよい。

　最後に、検索ボタン６０４が押下されると、レイアウト入力部６０３で指定されたレイアウトに基づいた文書検索が開始される。

　なお、クリアボタン６０５が押下されると、レイアウト入力部６０３に描画された矩形が消去され、レイアウト入力のやり直しを行うことができる。

　検索ボタン６０４が押下されると、まず、領域特徴抽出部１０４が、検索クエリ生成部１０６が生成した部分領域のレイアウトに関する検索クエリ１０７から、検索クエリ特徴量１０８を抽出する（ステップＢ２）。なお、検索クエリ特徴量１０８は、検索用部分領域の大きさと形と位置と領域種別に関する特徴情報を含む。

　検索クエリ特徴量１０８の抽出処理は、上述した検索対象電子文書の登録時に、検索対象電子文書から特徴量を抽出するステップＡ４と同様の処理であるため、詳細な説明は省略する。

　図１２は、検索クエリ特徴量１０８の例を示した説明図である。

　図１２の例では、図１１に示した検索クエリの２つの部分領域６０３ａおよび６０３ｂからなる領域レイアウトから抽出、決定したデータが示されている。

　次に、特徴量参照部１０９が、検索クエリ特徴量１０８を用いて、特徴量データベース１０５内のインデックスを参照し、検索クエリ１０７に含まれる部分領域に対応する項目（検索用項目）と対応する領域ＩＤを検索する（ステップＢ３）。

　インデックスの参照では、特徴量参照部１０９は、検索クエリ１０７に含まれる部分領域の分割ブロックパターンと領域種別を求め、その組み合わせをキーとして用いて、図８に示したインデックスを検索する。

　このとき、検索対象電子文書中に検索クエリ１０７と非常に類似した文書が存在していたとしても、特徴量参照部１０９は、検索クエリ１０７の部分領域が分割ブロックの境界に近い場合には、その文書は分割ブロックパターンが異なるものと判断されて検索漏れが生じる可能性がある。

　例えば、図１３に示すように、右辺が分割ブロックＩＤ２および３の境界に非常に近く、かつ右辺が分割ブロックＩＤ２に含まれる、検索クエリ１０７のテキスト領域６１０が用いられた場合、右辺が分割ブロックＩＤ２および３の境界に非常に近く、かつ右辺が分割ブロックＩＤ３に含まれる、検索対象電子文書のテキスト領域６１１は、検索されない。

　そこで、本実施形態では、このような場合、特徴量参照部１０９は、図１４に示すように分割ブロックパターン１－２に部分領域が存在する検索対象電子文書６１３に加えて、分割ブロックパターン１－２－３に部分領域が存在する検索対象電子文書６１４も、インデックスから検索する。

　図１５、図１６および図１７は、検索クエリの領域の境界線が分割ブロックの境界に近い場合にも、適切な分割ブロックパターンを決定するためのアルゴリズムを説明するための説明図である。

　まず、特徴量参照部１０９は、検索クエリ１０７に含まれる領域の検索クエリ特徴量１０８からＭＢＲ座標を取得する（ステップＢ３０１）。ここでは、ＭＢＲの左上の座標をＭ１、右下の座標をＭ２とする。

　次に、特徴量参照部１０９は、Ｍ１が含まれる分割ブロックＩＤを、パターン候補ブロック集合ＰＢ１に加え、また、Ｍ２が含まれる分割ブロックＩＤを、パターン候補ブロック集合ＰＢ２に加える（ステップＢ３０２）。

　次に、特徴量参照部１０９は、図１５に示すように、Ｍ１に最も近いＸ軸方向（図１５のＷ方向）の分割ブロックを求める。続いて、特徴量参照部１０９は、その分割ブロックとＭ１とのＸ軸方向の距離ＤＸ１を分割ブロックの幅Ｗで割った値ＭＸ１を求める（ステップＢ３０３）。

　さらに、特徴量参照部１０９は、Ｍ１に最も近いＹ軸方向（図１５のＨ方向）の分割ブロックを求める。続いて、特徴量参照部１０９は、その分割ブロックとＭ１とのＹ軸方向の距離ＤＹ１を分割ブロックの高さＨで割った値ＭＹ１を求める（ステップＢ３０４）。

　次に、ＭＸ１があらかじめ定めたしきい値Ｔ（例えば、”0.1”など）以下である場合（ステップＢ３０５のＹＥＳ）には、特徴量参照部１０９は、Ｍ１に最も近いＸ軸方向の分割ブロックのＩＤを、ＰＢ１に加える（ステップＢ３０６）。

　ＭＸ１がしきい値Ｔより大きい場合（ステップＢ３０５のＮＯ）には、特徴量参照部１０９は、次の処理に進む。

　次に、ＭＹ１があらかじめ定めたしきい値Ｔ以下である場合（ステップＢ３０７のＹＥＳ）には、特徴量参照部１０９は、Ｍ１に最も近いＹ軸方向の分割ブロックのＩＤを、ＰＢ１に加える（ステップＢ３０８）。

　ＭＹ１がしきい値Ｔより大きい場合（ステップＢ３０７のＮＯ）には、特徴量参照部１０９は、次の処理に進む。

　さらに、ＭＸ１およびＭＹ１のどちらも、しきい値Ｔ以下である場合（ステップＢ３０９のＹＥＳ）には、特徴量参照部１０９は、Ｍ１に最も近いＸ軸方向の分割ブロックと、Ｍ１に最も近いＹ軸方向の分割ブロックと、の両方に隣接するブロック（つまり、ステップＢ３０６とＢ３０８でそれぞれＰＢ１に加えたブロックに隣接するブロック）のＩＤを、ＰＢ１に加える（ステップＢ３１０）。

　ＭＸ１がしきい値Ｔより大きい、あるいはＭＹ１がしきい値Ｔより大きい、のいずれかである場合には、特徴量参照部１０９は、次の処理に進む（ステップＢ３０９のＮＯ）。

　次に、特徴量参照部１０９は、Ｍ２に最も近いＸ軸方向の分割ブロックを求め、その分割ブロックとＭ２とのＸ軸方向の距離ＤＸ２を分割ブロックの幅Ｗで割った値ＭＸ２を求める（ステップＢ３１１）。

　さらに、特徴量参照部１０９は、Ｍ２に最も近いＹ軸方向の分割ブロックを求め、その分割ブロックとＭ２とのＹ軸方向の距離ＤＹ２を分割ブロックの高さＨで割った値ＭＹ２を求める（ステップＢ３１２）。

　次に、ＭＸ２があらかじめ定めたしきい値Ｔ以下である場合（ステップＢ３１３のＹＥＳ）には、特徴量参照部１０９は、Ｍ２に最も近いＸ軸方向の分割ブロックのＩＤを、ＰＢ２に加える（ステップＢ３１４）。

　ＭＸ２がしきい値Ｔより大きい場合（ステップＢ３１３のＮＯ）には、特徴量参照部１０９は、次の処理に進む。

　次に、ＭＹ２があらかじめ定めたしきい値Ｔ以下である場合（ステップＢ３１５のＹＥＳ）には、特徴量参照部１０９は、Ｍ２に最も近いＹ軸方向の分割ブロックのＩＤを、ＰＢ２に加える（ステップＢ３１６）。

　ＭＹ２がしきい値Ｔより大きい場合（ステップＢ３１５のＮＯ）には、特徴量参照部１０９は、次の処理に進む。

　さらに、ＭＸ２およびＭＹ２のどちらも、しきい値Ｔ以下である場合（ステップＢ３１７のＹＥＳ）には、特徴量参照部１０９は、Ｍ２に最も近いＸ軸方向の分割ブロックと、Ｍ２に最も近いＹ軸方向の分割ブロックと、の両方に隣接するブロック（つまり、ステップＢ３１４とＢ３１６でそれぞれＰＢ２に加えたブロックに隣接するブロック）のＩＤを、ＰＢ２に加える（ステップＢ３１８）。

　ＭＸ２がしきい値Ｔより大きい、あるいは、ＭＹ２がしきい値Ｔより大きい、のいずれかである場合には、特徴量参照部１０９は、次の処理に進む（ステップＢ３１７のＮＯ）。

　最後に、特徴量参照部１０９は、ＰＢ１に含まれるブロックとＰＢ２に含まれるブロックのそれぞれの組み合わせを求め、各組み合わせにおいて、ＰＢ１に含まれるブロックとＰＢ２に含まれるブロックとに基づいて形成される矩形を示す分割ブロックパターンを求める（ステップＢ３１９）。

　ステップＢ３において、分割ブロックパターンと領域種別とをキーとして用いて図８のインデックスを参照して領域ＩＤを得る際には、特徴量参照部１０９は、ステップＢ３１９で得られた分割ブロックパターンを用いる。

　図１８は、上記アルゴリズムの具体的な適用例を示した説明図である。

　図１８の例では、検索クエリ１０７として、ＭＢＲ座標Ｍ１およびＭ２で示すようなテキスト領域１０７ａが指定されているとする（図１８のシート６１５参照）。

　このとき、Ｍ１と分割ブロック４との距離、および、Ｍ１と分割ブロック２との距離、の両方が、しきい値以下であると、特徴量参照部１０９は、ＰＢ１に、分割ブロック５、４、２、１の４つのＩＤを格納する。さらに、Ｍ２と分割ブロック８との距離が、しきい値以下であると、特徴量参照部１０９は、ＰＢ２に、分割ブロック９、８の２つのＩＤを格納する。

　次に、特徴量参照部１０９は、ＰＢ１に含まれるブロックとＰＢ２に含まれるブロックとに基づいて形成される矩形を示す分割ブロックパターンとして、図１８の右部に示すような８つの分割ブロックパターンを得る。

　次に、特徴量参照部１０９は、ステップＢ３で得られた領域ＩＤを用いて、図９に示した特徴量データを参照し、これら領域ＩＤを含む文書ＩＤおよびスライド番号を取得する（ステップＢ４）。

　特徴量参照部１０９は、ステップＢ３およびＢ４の処理を、ステップＢ１およびＢ２で得た検索クエリ１０７に含まれる領域のすべてについて行う（ステップＢ５）。

　検索クエリ１０７に含まれる領域のすべてについて、文書ＩＤおよびスライド番号が得られたら、特徴量参照部１０９は、検索クエリ１０７の各部分領域に対応する項目に１対１で対応する部分領域を含む検索対象電子文書を特定する（ステップＢ６）。

　これは、各部分領域について取得した文書ＩＤとスライド番号の論理積をとればよい。

　図１９は、ステップＢ６の処理の具体例を示した説明図である。

　図１９では、検索クエリとして、テキスト領域１９ａと図領域１９ｂの２つの部分領域が指定されている。

　このとき、ステップＢ３およびＢ４の処理により、各部分領域に一致する領域を持つ検索対象電子文書の文書ＩＤとスライド番号と領域ＩＤが得られたものとする。

　次に、特徴量参照部１０９は、各部分領域で得られた文書ＩＤとスライド番号との論理積をとる。

　この処理によって、文書ＩＤがＰ００１のスライド番号１のスライド（検索対象電子文書）、および、文書ＩＤがＰ００２のスライド番号２のスライド（検索対象電子文書）が特定される。なお、文書ＩＤがＰ００１のスライド番号１のスライドは、検索クエリのテキスト領域（領域ＩＤ＝Ｑ００１）に一致する領域として領域ＩＤ０００１を持ち、かつ、検索クエリの図領域（領域ＩＤ＝Ｑ００２）に一致する領域として領域ＩＤ０００２を持つ。また、文書ＩＤがＰ００２のスライド番号２のスライドは、検索クエリのテキスト領域（領域ＩＤ＝Ｑ００１）に一致する領域として領域ＩＤ０００５を持ち、かつ、検索クエリの図領域（領域ＩＤ＝Ｑ００２）に一致する領域として領域ＩＤ０００６を持つ。

　次に、類似度計算部１１０が、ステップＢ６で得たスライドと検索クエリとの類似度を計算する（ステップＢ７）。

　類似度計算部１１０は、類似度の計算として、同一項目に互いに対応する、検索対象電子文書内の部分領域と検索用部分領域との類似度を計算する。具体的には、類似度計算部１１０は、同一項目に対応する部分領域ごとの類似度である部分領域類似度の加重平均を用いる。

　部分領域類似度の計算式としては、例えば、部分領域情報の特徴量から得られる特徴ベクトルのなす角θによるコサイン尺度が用いられる。

　いま、図９に示した特徴量データを、重心のx座標v1、重心のy座標v2、面積v3、縦横比v4の４次元ベクトルで表すとき、検索クエリ１０７に含まれる部分領域から変換された検索クエリ特徴量１０８の特徴ベクトルＱｉと、特徴量データベース１０５に格納され検索クエリ中の部分領域に対応する領域の特徴ベクトルＲｉと、のコサイン尺度を用いた類似度sim(Qi,Ri)は、図２０のように求めることができる。

　類似度計算部１１０は、ステップＢ６で得た文書ごとに、検索クエリ１０７に含まれるすべての部分領域について、対応する領域との部分領域類似度sim(Q,Ri)を計算する。

　さらに、類似度計算部１１０は、検索クエリ１０７と検索対象電子文書との最終的な統合類似度SIMとして、ステップＢ１で検索クエリ１０７を作成したときに付与した各部分領域の重み（図１２のPriority）を用いて、部分領域の類似度の加重平均を計算する。

　図２１は、部分領域の類似度の加重平均を求める式の一例を示した説明図である。

　類似度計算部１１０は、i番目のPriority値priority(i)を持つ部分領域がn個あるとき、各部分領域にpriority(i)の逆数を重みとして与え、その平均値を求める。

　図２１では、各部分領域に与える重みとしてpriority(i)の逆数が用いられたが、あらかじめ決めておいた各priorityに対応する値が用いられたり、priorityの順に重みが変化するような関数が用いられてもよい。

　図２２および図２３は、図２１の統合類似度計算の具体例を示した説明図である。

　今、図２２に示すように検索クエリから抽出した特徴量である検索クエリ特徴量６１７について、ステップＢ３からＢ６の処理により、文書Ｐ００１のスライド番号１と文書Ｐ００２のスライド番号２が特定されているとする。

　類似度計算部１１０は、検索クエリ特徴量６１７と、文書Ｐ００１のスライド番号１の特徴量６１８および文書Ｐ００２のスライド番号２の特徴量６１９を用いて、図２３に示した式を用いて、統合類似度SIMをそれぞれ計算する。

　図２３の例では、文書Ｐ００２のスライド番号２のほうが文書Ｐ００１のスライド番号１よりも類似度が大きい、つまり、文書Ｐ００２のスライド番号２は、より検索クエリに似ているという結果が示されている。

　最後に、検索結果生成部１１１が、ステップＢ７における類似度計算結果を、類似度の大きな順番でソートし、より検索クエリに似ている順に並んだ文書リストを、検索結果４００として生成し、出力装置３００に出力する（ステップＢ８）。

　次に、本実施の形態の効果について説明する。

　本実施の形態では、あらかじめ検索対象電子文書から抽出した部分領域の位置、大きさ、形状を表す特徴量を検索対象電子文書に対応付けて登録したインデックスを参照することにより、まず、検索クエリが表す部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみが、検索対象電子文書から、一度に充分絞り込まれる。次に、それら絞り込まれた文書のみに対して検索クエリとの間で類似度計算が行われる。

　このため、処理コストの大きな類似度計算処理を大幅に低減でき、所望の文書を高速に検索できる。

　また、本実施の形態では、さらに、検索時に、検索者が部分領域に対する印象の強さまたは記憶の確からしさに関する重み（優先度）が付与される。このため、その重みに基づいて類似文書を検索することができる。

　本実施形態によれば、格納部１は、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の検索対象電子文書と、を格納する。また、格納部１は、複数の検索対象電子文書内の部分領域ごとに、領域ＩＤを、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書と、に対応付けて格納する。

　特徴量参照部１０９は、複数の項目の中で検索用部分領域が該当する検索用項目を、検索用部分領域の特徴情報を用いて特定し、格納部１を参照して、検索用項目に対応する部分領域を備えた検索対象電子文書を特定する。

　このため、検索用部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみを、複数の検索対象電子文書の中から一度に充分絞り込むことが可能になる。

　よって、例えば、インデックスを用いた検索結果から、さらに検索対象電子文書の絞込みを行う場合、絞込みの対象となる検索対象電子文書を少なくすることが可能になる。したがって、検索処理速度の高速化を図ることが可能になる。

　また、本実施形態では、部分領域および検索用部分領域は、矩形である。領域特徴抽出部１０４は、特徴情報として、検索用部分領域の対角の位置を抽出する。

　部分領域および検索用部分領域が矩形である場合、検索用部分領域の対角の位置は、検索用部分領域の大きさと形と位置に応じた値となる。このため、特徴情報を、検索用部分領域の対角の位置という簡単な情報によって表すことが可能になる。

　また、本実施形態では、検索クエリ生成部１０６は、複数の検索用部分領域と、各検索用部分領域の優先度と、を受け付ける。領域特徴抽出部１０４は、複数の検索用部分領域のそれぞれから特徴情報を抽出する。

　また、特徴量参照部１０９は、検索用部分領域ごとに、検索用部分領域が該当する検索用項目を、その検索用部分領域の特徴情報を用いて特定し、格納部１を参照して、各検索用項目に１対１で対応する部分領域を備えた電子文書を特定する。

　また、類似度計算部１１０は、特徴量参照部１０９にて特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算する。類似度計算部１１０は、その計算結果に対して、その計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、重み付けされた類似度に基づいて、電子文書と複数の検索用部分領域との統合類似度を計算する。

　このため、検索用部分領域の優先度として、検索用部分領域に対する検索者の印象の強さまたは記憶の確からしさを反映することが可能になる。よって、検索用部分領域ごとに、検索の重み付けを行うことが可能になる。

　また、本実施形態では、検索クエリ生成部１０６は、複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど高い優先度を付与し、付与された優先度を受け付ける。類似度計算部１１０は、類似度の計算結果のうち、優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する。

　検索者は、より記憶の確からしい検索用部分領域から描画を行う可能性が高い。このため、より記憶の確からしい検索用部分領域に対して、大きな重みを付与することが可能になる。

　また、本実施形態では、類似度計算部１１０は、同一の検索対象電子文書における類似度の計算結果に対して、その計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、その重み付けされた類似度の加重平均を、統合類似度として計算する。

　この場合、統合類似度を、重み付けされた類似度の加重平均という計算方法で求めることが可能になる。

　また、本実施形態では、格納部１は、複数の検索対象電子文書内の部分領域ごとに、さらに、その部分領域の重心座標、面積および縦横比を、その部分領域を示す部分領域情報と対応付けて格納する。

　領域特徴抽出部１０４は、さらに、複数の検索用部分領域のそれぞれから、検索用部分領域の重心座標、面積および縦横比を抽出する。

　類似度計算部１１０は、同一検索用項目に対応する部分領域と検索用部分領域の類似度を、部分領域の重心座標、面積および縦横比と、検索用部分領域の重心座標、面積および縦横比と、を用いて計算する。

　この場合、高い精度で類似度を計算することが可能になる。

　また、本実施形態では、複数の項目は、電子文書を予め定められた複数のブロックに分割した場合に、複数のブロックのうち部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表される。

　特徴量参照部１０９は、検索用項目を、複数のブロックのうち検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて、複数の項目から特定する。

　この場合、部分領域を、複数のブロックにて形成される複数の矩形のいずれかに分類することが可能になり、この分類にしたがって、検索用項目を特定することが可能になる。

　また、本実施形態では、特徴量参照部１０９は、検索用部分領域の対角の位置とブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、対角が位置するブロックに隣接するブロックを、対角が存在するブロックとして追加し、対角が存在するブロックに基づいて形成される矩形を用いて、検索用項目を特定する。

　この場合、検索用項目の漏れを防止することが可能になる。

　また、本実施形態では、項目は、部分領域の大きさと形と位置と領域種別に関するものである。領域特徴抽出部１０４は、検索用部分領域から、検索用部分領域の大きさと形と位置と領域種別に関する情報を、特徴情報として抽出する。

　この場合、領域種別も考慮して、検索用項目を特定することが可能になる。

　また、本実施形態では、文書登録部１０１は、検索対象電子文書を受け付け、その検索対象電子文書を格納部１に格納する。領域生成部１０３は、検索対象電子文書から部分領域を抽出する。

　また、領域特徴抽出部１０４は、抽出された部分領域から、部分領域の大きさと形と位置に関する文書特徴情報を抽出する。領域特徴抽出部１０４は、複数の項目の中でその部分領域が該当する項目を、文書特徴情報を用いて特定する。領域特徴抽出部１０４は、部分領域ごとに、部分領域を示す部分領域情報を、部分領域に該当する項目と、部分領域を含む電子文書と、に対応付けて格納部１に格納する。

　この場合、格納部１への情報の格納を自動で行うことが可能になる。

　［第２実施形態］
　次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。

　図２４は、本発明の第２の実施の形態の類似文書検索システムを示したブロック図である。図２４において、類似文書検索システムは、コンピュータ１００Ａと、入力装置２００と、出力装置３００とを含む。なお、図２４において、図１に示したものと同一のものには同一符号を付してある。

　コンピュータ１００Ａは、例えば、中央処理装置、プロセッサ、または、データ処理装置である。

　コンピュータ１００Ａは、文書登録部１０１と、文書データベース１０２と、領域生成部１０３と、領域特徴抽出部１０４と、特徴量データベース１０５と、特徴量参照部１０９と、類似度計算部１１０と、検索結果生成部１１１と、検索元文書指定部１１２と、検索クエリ修正部１１３とを含む。検索結果生成部１１１と検索元文書指定部１１２は、受付部２に含まれる。

　コンピュータ１００Ａは、ハードディスクまたはメモリ等の記録媒体に記録されたプログラムに従って動作する。

　コンピュータ１００Ａは、プログラムを記録媒体から読み取り実行することによって、文書登録部１０１、文書データベース１０２、領域生成部１０３、領域特徴抽出部１０４、特徴量データベース１０５、特徴量参照部１０９、類似度計算部１１０、検索結果生成部１１１、検索元文書指定部１１２、および、検索クエリ修正部１１３として機能する。

　ここで、文書登録部１０１と、文書データベース１０２と、領域生成部１０３と、領域特徴抽出部１０４と、特徴量データベース１０５と、特徴量参照部１０９と、類似度計算部１１０と、検索結果生成部１１１は、図１に示した第１の実施の形態の構成と同様であるので説明を省略する。

　検索元文書指定部１１２は、一般的に電子文書受付手段と呼ぶことができる。検索元文書指定部１１２は、部分領域を有する所望の電子文書を受け付ける。

　具体的には、検索元文書指定部１１２は、第１の実施の形態のように検索者がはじめから検索クエリを生成するのではなく、検索者が検索したい所望の文書に似たレイアウトを持つ文書の指定を行う。

　検索クエリ修正部１１３は、一般的に修正手段と呼ぶことができる。検索クエリ修正部１１３は、修正指示を受け付けた場合に、所望の電子文書内の部分領域を修正し、修正後の部分領域を、検索用部分領域として受け付ける。

　具体的には、検索クエリ修正部１１３は、検索元文書指定部１１２が指定した文書から生成された領域レイアウトを、検索者からの修正指示に基づいて修正し、最終的な検索クエリを生成する。

　図２５は、本実施の形態の動作を説明するためのフローチャートである。

　以下、図２、図２４、図２５を参照して、本実施の形態の全体の動作について詳細に説明する。

　まず、本実施の形態における検索対象電子文書の登録の動作について詳細に説明する。

　本実施の形態における検索対象電子文書の登録処理は、第１の実施の形態の場合の図２のステップＡ１からＡ６と同様の処理であるので説明を省略する。

　次に、本実施の形態における類似文書検索の動作について詳細に説明する。

　まず、検索者が、入力装置２００を操作して、検索元文書指定部１１２に、検索対象の所望の文書に似たレイアウトを持つ電子文書を指定する（ステップＣ１）。

　文書の指定方法については、文書データベース格納部１０２に登録している文書から選択するようにしてもよいし、登録されていない新たな文書が入力されるようにしてもよい。

　次に、領域生成部１０３が、図２のステップＡ３と同様にして、ステップＣ１で指定された文書から部分領域を生成し抽出する（ステップＣ２）。

　次に、検索者が、入力装置２００を操作して、検索クエリ修正部１１３を動作させる。検索クエリ修正部１１３は、検索者の修正指示にしたがって、ステップＣ２で抽出した部分領域の優先度を指定したり、部分領域の位置、大きさ、形状などを必要に応じて修正したりして最終的な検索クエリを生成する。（ステップＣ３）。

　例えば、検索者が、検索元文書指定部１１２を用いて、図２６に示すスライドを指定した場合には、領域生成部１０３は、図２７に示すようにテキスト領域６２３ａと図領域６２３ｂを抽出する。検索クエリ修正部１１３は、コンピュータ１００Ａに接続されたディスプレイなどの出力装置３００に、図２７に示したような画面を表示する。

　検索者は、出力装置３００に表示される画面６２１を見ながら、キーボードおよびマウスなどの入力装置２００を用いて、部分領域レイアウトを修正する。

　図２７では、図２６に示したスライドから抽出された２つの部分領域６２３ａおよび６２３ｂがレイアウト入力部６２３に表示されている。

　検索者は、描画された矩形をマウスなどで選択し、矩形の位置を移動させたり、形状を変化させたり、大きさを拡大／縮小したりして領域レイアウトを修正する。

　また、検索者は、領域種別選択部６２２を用いて領域種別を選択し、マウスドラッグなどによって矩形を描画して新たな領域を追加することもできる。

　さらに、検索者は、“テキスト領域”、“図領域”と表示されている部分をマウスなどで選択することにより、領域種別を変更することもできる。

　また、検索者は、“Priority=?”と表示されている部分をマウスなどで選択することにより、部分領域に対する優先度を指定することもできる。

　図２８は、図領域６２３ｂの優先度を“２”に指定する場合の画面例を示した説明図である。特に優先度を指定しない場合には、すべての部分領域に等しい重みが付与される。

　次に、コンピュータ１００Ａは、ステップＣ３で生成した検索クエリ１０７を用いてステップＣ４以降の検索処理を行う。ステップＣ４からステップＣ９の処理は、図１０のステップＢ２からステップＢ７の処理とそれぞれ同様の処理であるので説明を省略する。

　最後に、検索結果生成部１１１が、ステップＣ９における類似度計算結果を類似度の大きな順番でソートし、より検索クエリに似ている順に並んだ文書リストを、検索結果４００として生成し、出力装置３００に出力する（ステップＣ１０）。

　次に、本発明の実施の形態の効果について説明する。

　本実施形態では、所望の文書によく似たレイアウトを持つ検索元文書を指定し、検索元文書から部分領域を抽出し、それを修正することにより、検索クエリが生成される。具体的には、検索元文書指定部１１２が、部分領域を有する所望の電子文書を受け付ける。検索クエリ修正部１１３は、修正指示を受け付けた場合に、所望の電子文書内の部分領域を修正し、修正後の部分領域を、検索用部分領域として受け付ける。

　このため、第１実施形態の効果に加えて、検索者が検索クエリを生成するための手間を軽減することができる。

　［第３実施形態］
　次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。

　図２９は、本発明の第３の実施の形態の類似文書検索システムを示したブロック図である。図２９において、類似文書検索システムは、コンピュータ１００Ｂと、入力装置２００と、出力装置３００とを含む。なお、図２９において、図１に示したものと同一のものには同一符号を付してある。以下、第３実施形態について、第１実施形態と異なる点を中心に説明する。

　第１実施形態（コンピュータ１００）と比較すると、第３実施形態（コンピュータ１００Ｂ）では、文書登録部１０１、領域生成部１０３と、類似度計算部１１０と、検索結果生成部１１１が省略される。

　コンピュータ１００Ｂは、例えば、中央処理装置、プロセッサ、または、データ処理装置である。

　コンピュータ１００Ｂは、格納部１と、領域特徴抽出部１０４と、検索クエリ生成部１０６と、特徴量参照部１０９とを含む。

　コンピュータ１００Ｂは、ハードディスクまたはメモリ等の記録媒体に記録されたプログラムに従って動作する。

　コンピュータ１００Ｂは、プログラムを記録媒体から読み取り実行することによって、格納部１、領域特徴抽出部１０４、検索クエリ生成部１０６、および、特徴量参照部１０９として機能する。

　本実施形態によれば、コンピュータ１００Ｂは、格納部１と、領域特徴抽出部１０４と、検索クエリ生成部１０６と、特徴量参照部１０９とを含むので、第１実施形態で説明したように、検索用部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみを、複数の検索対象電子文書の中から一度に充分絞り込むことが可能になる。

　上記各実施形態は、電子文書の部分領域のレイアウトに基づいて文書を検索する情報検索装置、また、それらをコンピュータに実現するためのプログラムといった用途に適用できる。

　以上、各実施形態を参照して本願発明を説明したが、本願発明は上記各実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年１月９日に出願された日本出願特願２００８－２２６４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書と、を格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納手段と、
　検索用部分領域を受け付ける受付手段と、
　前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手段と、
　前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手段と、を含む類似文書検索システム。
　前記部分領域および前記検索用部分領域は、矩形であり、
　前記抽出手段は、前記特徴情報として、前記検索用部分領域の対角の位置を抽出する、請求の範囲第１項に記載の類似文書検索システム。
　前記受付手段は、複数の前記検索用部分領域と、各検索用部分領域の優先度と、を受け付け、
　前記抽出手段は、前記複数の検索用部分領域のそれぞれから前記特徴情報を抽出し、
　前記特定手段は、前記検索用部分領域ごとに、当該検索用部分領域が該当する検索用項目を、当該検索用部分領域の特徴情報を用いて特定し、前記格納手段を参照して、各検索用項目に１対１で対応する部分領域情報にて示された部分領域を備えた電子文書を特定し、
　前記特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算し、当該計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度に基づいて、当該電子文書と前記複数の検索用部分領域との統合類似度を計算する計算手段を、さらに含む、請求の範囲第１または第２項に記載の類似文書検索システム。
　前記受付手段は、前記複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、当該付与された優先度を受け付け、
　前記計算手段は、前記類似度の計算結果のうち、前記優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する、請求の範囲第３項に記載の類似文書検索システム。
　前記計算手段は、同一電子文書における前記類似度の計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度の加重平均を前記統合類似度として計算する、請求の範囲第３項または第４項に記載の類似文書検索システム。
　前記格納手段は、前記複数の電子文書内の部分領域ごとに、さらに、当該部分領域の重心座標、面積および縦横比を、当該部分領域を示す部分領域情報と対応付けて格納し、
　前記抽出手段は、さらに、前記複数の検索用部分領域のそれぞれから、当該検索用部分領域の重心座標、面積および縦横比を抽出し、
　前記計算手段は、前記同一検索用項目に対応する部分領域と検索用部分領域の類似度を、当該部分領域の重心座標、面積および縦横比と、当該検索用部分領域の重心座標、面積および縦横比と、を用いて計算する、請求の範囲第３項から第５項のいずれか１項に記載の類似文書検索システム。
　前記複数の項目は、前記電子文書を予め定められた複数のブロックに分割した場合に、前記複数のブロックのうちの前記部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表され、
　前記特定手段は、前記検索用項目を、前記検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて前記複数の項目から特定する、請求の範囲第２項に記載の類似文書検索システム。
　前記特定手段は、前記検索用部分領域の対角の位置と前記ブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、当該対角が位置するブロックに隣接するブロックを、前記対角が存在するブロックとして追加し、当該対角が存在するブロックに基づいて形成される矩形を用いて、前記検索用項目を特定する、請求の範囲第７項に記載の類似文書検索システム。
　前記項目は、部分領域の大きさと形と位置と領域種別に関するものであり、
　前記抽出手段は、前記検索用部分領域から、前記検索用部分領域の大きさと形と位置と領域種別に関する情報を、前記特徴情報として抽出する、請求の範囲第１項から第８項のいずれか１項に記載の類似文書検索システム。
　前記電子文書を受け付け、当該電子文書を前記格納手段に格納する登録手段と、
　前記電子文書から前記部分領域を抽出する領域生成手段と、をさらに含み、
　前記抽出手段は、前記抽出された部分領域から、当該部分領域の大きさと形と位置に関する文書特徴情報を抽出し、前記複数の項目の中で当該部分領域が該当する項目を、前記文書特徴情報を用いて特定し、前記部分領域ごとに、当該部分領域を示す部分領域情報を、当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する、請求の範囲第１項から第９項のいずれか１項に記載の類似文書検索システム。
　前記受付手段は、
　部分領域を有する所望の電子文書を受け付ける電子文書受付手段と、
　修正指示を受け付けた場合に、前記所望の電子文書内の部分領域を修正し、修正後の当該部分領域を、前記検索用部分領域として受け付ける修正手段と、を含む、請求の範囲第１項から第１０項のいずれか１項に記載の類似文書検索システム。
　類似文書検索システムでの類似文書検索方法であって、
　電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納し、
　検索用部分領域を受け付け、
　前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出し、
　前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する、類似文書検索方法。
　前記部分領域および前記検索用部分領域は、矩形であり、
　前記抽出では、前記特徴情報として、前記検索用部分領域の対角の位置を抽出する、請求の範囲第１２項に記載の類似文書検索方法。
　前記受付では、複数の前記検索用部分領域と、各検索用部分領域の優先度と、を受け付け、
　前記抽出では、前記複数の検索用部分領域のそれぞれから前記特徴情報を抽出し、
　前記特定では、前記検索用部分領域ごとに、当該検索用部分領域が該当する検索用項目を、当該検索用部分領域の特徴情報を用いて特定し、前記格納手段を参照して、各検索用項目に１対１で対応する部分領域情報にて示された部分領域を備えた電子文書を特定し、
　前記特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算し、当該計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度に基づいて、当該電子文書と前記複数の検索用部分領域との統合類似度を計算することを、さらに含む、請求の範囲第１２項または第１３項に記載の類似文書検索方法。
　前記受付では、前記複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、当該付与された優先度を受け付け、
　前記計算では、前記類似度の計算結果のうち、前記優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する、請求の範囲第１４項に記載の類似文書検索方法。
　前記計算では、同一電子文書における前記類似度の計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度の加重平均を前記統合類似度として計算する、請求の範囲第１４項または第１５項に記載の類似文書検索方法。
　前記格納では、前記複数の電子文書内の部分領域ごとに、さらに、当該部分領域の重心座標、面積および縦横比を、当該部分領域を示す部分領域情報と対応付けて前記格納手段に格納し、
　前記抽出では、さらに、前記複数の検索用部分領域のそれぞれから、当該検索用部分領域の重心座標、面積および縦横比を抽出し、
　前記計算では、前記同一検索用項目に対応する部分領域と検索用部分領域の類似度を、当該部分領域の重心座標、面積および縦横比と、当該検索用部分領域の重心座標、面積および縦横比と、を用いて計算する、請求の範囲第１４項から第１６項のいずれか１項に記載の類似文書検索方法。
　前記複数の項目は、前記電子文書を予め定められた複数のブロックに分割した場合に、前記複数のブロックのうちの前記部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表され、
　前記特定では、前記検索用項目を、前記検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて前記複数の項目から特定する、請求の範囲第１３項に記載の類似文書検索方法。
　前記特定では、前記検索用部分領域の対角の位置と前記ブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、当該対角が位置するブロックに隣接するブロックを、前記対角が存在するブロックとして追加し、当該対角が存在するブロックに基づいて形成される矩形を用いて、前記検索用項目を特定する、請求の範囲第１８項に記載の類似文書検索方法。
　前記項目は、部分領域の大きさと形と位置と領域種別に関するものであり、
　前記抽出では、前記検索用部分領域から、前記検索用部分領域の大きさと形と位置と領域種別に関する情報を、前記特徴情報として抽出する、請求の範囲第１２項から第１９項のいずれか１項に記載の類似文書検索方法。
　前記電子文書を受け付け、当該電子文書を前記格納手段に格納し、
　前記電子文書から前記部分領域を抽出し、
　前記抽出された部分領域から、当該部分領域の大きさと形と位置に関する文書特徴情報を抽出し、前記複数の項目の中で当該部分領域が該当する項目を、前記文書特徴情報を用いて特定し、前記部分領域ごとに、当該部分領域を示す部分領域情報を、当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納することを、さらに含む、請求の範囲第１２項から第２０項のいずれか１項に記載の類似文書検索方法。
　前記受付は、
　部分領域を有する所望の電子文書を受け付け、
　修正指示を受け付けた場合に、前記所望の電子文書内の部分領域を修正し、修正後の当該部分領域を、前記検索用部分領域として受け付けること、を含む、請求の範囲第１２項から第２１項のいずれか１項に記載の類似文書検索方法。
　コンピュータに、
　電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納する格納手順と、
　検索用部分領域を受け付ける受付手順と、
　前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手順と、
　前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手順と、を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記録媒体。