WO2009081791A1

WO2009081791A1 - 情報処理システム、その方法及びプログラム

Info

Publication number: WO2009081791A1
Application number: PCT/JP2008/072824
Authority: WO
Inventors: Sumitaka Okajo
Original assignee: Nec Corporation
Priority date: 2007-12-21
Filing date: 2008-12-16
Publication date: 2009-07-02
Also published as: JPWO2009081791A1; US20110043869A1

Abstract

電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類手段を有することを特徴とする情報処理システムである。

Description

情報処理システム、その方法及びプログラム

　本発明は情報処理システム、その方法及びプログラムに関し、特に、図表と文字などが混在した文書に対し、文字の領域と、図領域や表領域などの文字以外の領域（図表領域）とを識別分類して領域分割を行うことができる文書画像レイアウト分析の技術に関する。

　近年、プレゼンテーション作成ソフトウェアによりテキストと図表が混在した大量の電子文書が作成されている。また、スキャナなどの光学機器を用いて紙文書を文書画像としてコンピュータに取り組むことも盛んに行われている。これら電子文書や文書画像を処理する場合に、文書をテキスト領域と図表領域に切り分け、テキスト領域には自動要約などのテキスト領域用処理を、図表領域には色分布抽出や数値統計処理など図表領域用の処理を施したいことがある。また、文書を検索する場合に、以前に自分自身が作成した文書や他人が作成して一度は見たことがある文書について、キーワードによる検索ではなく、テキストや図表の配置など見た目のおおまかな記憶に基づいた検索を行いたいことがある。このため、電子文書や文書画像をテキスト領域と図表領域に切り分ける処理、すなわち電子文書や文書画像の領域分割が必要となっている。

　関連する文書画像レイアウト分析システムの一例が、特許文献１に記載されている。
　この関連する文書画像レイアウト分析システムは、基本行抽出手段と、行・段相互抽出手段とから構成されている。

　このような構成を有する関連する文書画像レイアウト分析システムはつぎのように動作する。

　すなわち、文書画像中の黒画素連結成分、あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形というような、文書を構成する基礎要素の集合を入力とし、まず、基本行抽出手段が、基礎要素の近接性（文字成分同士が比較的密に配置されている）と同質性（文字成分の大きさがほぼ同じくらいである）に基づいて基礎要素を統合して行を生成し、次に、行・段相互抽出手段が、行の集合に対してもそれらの近接性と同質性に基づいて統合して段を生成する。

　また、別の関連する文書画像レイアウト分析システムの一例が、特許文献２に記載されている。

　この関連する文書画像レイアウト分析システムは、領域抽出部と、画像生成部と、特徴計算部と、距離計算部とから構成されている。

　すなわち、領域抽出部が、文書画像を解析してテキスト領域と図表領域と背景領域を抽出し、画像生成部が、抽出された背景領域を背景指定色で、テキスト領域をテキスト指定色で、図表領域を図表指定色で塗りつぶした文書から画像を生成し、特徴計算部が、生成された画像に占める背景領域とテキスト領域と図表領域の各割合を示すレイアウト特徴と、テキスト領域に占めるひらがな及びカタカナの割合、漢字の割合、アルファベット及び数字の割合を示すテキスト特徴と、図表領域の色のＲ成分とＧ成分とＢ成分の割合を示す画像特徴を計算し、距離計算部が検索のクエリとなるレイアウトを持った文書画像と検索対象文書画像のレイアウト特徴の類似度である距離と、テキスト特徴の類似度である距離、画像特徴の類似度である距離を計算し、距離の小さい順に文書画像を出力する。
特開平１１－２１９４０７号公報　（第６－９頁、図１、図９）特開２００６－３１８２１９号公報　（第４－５頁、図１）

　第１の問題点は、１つの文書内に様々な文字サイズで記述されている文書や、複雑なレイアウトを持つ文書には対応できないということである。その理由は、プレゼンテーション用の文書などのレイアウトは複雑かつ多様であり、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合などには、うまく行や段を抽出することができず、テキスト領域の過統合や過分割が生じるためである。

　第２の問題点は、テキスト領域と画像領域の配置に基づいた類似文書検索ができないということである。その理由は、文書画像に占めるテキスト領域と画像領域の割合を示す特徴量の距離計算によって類似文書検索を行うためである。

　そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、プレゼンテーション用の文書など、１つの文書内に様々な文字サイズで記述されている文書や、複雑なレイアウトを持つ文書に対しても、人間の見た目でひとかたまりのテキスト領域と図表領域に文書を領域分割できる情報処理システム、その方法及びプログラムを提供することにある。

　上記課題を解決する本発明は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類手段を有することを特徴とする情報処理システムである。

　上記課題を解決する本発明は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を有することを特徴とする情報処理方法である。

　上記課題を解決する本発明は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を、情報処理装置に実行させることを特徴とするプログラムである。

　本発明によれば、プレゼンテーション用文書などの複雑かつ多様なレイアウトを持つ文書においても、適切にテキスト領域と図表領域に領域分割できることにある。

図１は第１の実施の形態の構成を示すブロック図である。図２は第１の発明を実施の形態の動作を示す流れ図である。図３は第１の実施の形態のオブジェクト分類手段の動作（図２のステップＡ２）の詳細を示す流れ図である。図４はオブジェクトの面積ヒストグラムを用いたオブジェクト分類の一例を示す図である。図５はオブジェクトの面積ヒストグラムを用いたオブジェクト分類の別の一例を示す図である。図６は第１の実施の形態のテキスト領域生成手段および図表領域生成手段の動作（図２のステップＡ３）の詳細を示す流れ図である。図７は互いに重なりを持つオブジェクトの統合処理の一例を示す図である。図８は視覚印象距離を説明する為の図である。図９は視覚印象距離を用いたオブジェクト統合処理の動作を示す図である。図１０は視覚印象距離を用いたオブジェクト統合処理の具体例を示す図である。図１１は視覚印象距離を説明する為の図である。図１２は視覚印象距離を説明する為の図である。図１３は領域情報の一例を示す図である。図１４は第２の実施の形態の構成を示すブロック図である。図１５は第２の実施の形態の動作を示す流れ図である。図１６は領域のレイアウトに関するクエリ入力画面の一例を示す図である。図１７はクエリとして入力された領域の視覚的印象距離を用いた統合処理の具体例を示す図である。図１８は領域類似度の計算式の一例を示す図である。図１９はクエリとして入力された領域と分割された文書の領域の対応付けを示す模式図である。図２０は領域類似度の平均値を用いた全体類似度の計算式の一例を示す図である。図２１は領域のレイアウトとキーワードの組み合わせによるクエリ入力画面の一例を示す図である。

符号の説明

　１００　　コンピュータ（中央処理装置；プロセッサ；データ処理装置）
　１１０　　オブジェクト抽出手段
　１２０　　オブジェクト分類手段
　１３０　　テキスト領域生成手段
　１４０　　図表領域生成手段
　１５０　　領域情報生成手段
　１６０　　領域情報格納手段
　１７０　　領域情報変換手段
　１８０　　類似度計算手段
　２００　　クエリ入力画面
　２１０　　領域選択部
　２２０　　レイアウト入力部
　２３０　　検索ボタン
　２４０　　（レイアウト）クリアボタン
　２５０　　レイアウトクリアボタン
　２６０　　キーワード入力部
　２７０　　キーワードクリアボタン

＜第１の実施の形態＞
　本発明の実施の形態について図面を参照して詳細に説明する。

　図１を参照すると、本発明の第１の実施の形態における情報処理システム１００は、オブジェクト抽出手段１１０と、オブジェクト分類手段１２０と、テキスト領域生成手段１３０と、図表領域生成手段１４０と、領域情報生成手段１５０とから構成される。

　これらの手段はそれぞれ概略つぎのように動作する。

　オブジェクト抽出手段１１０は、電子文書あるいは文書画像を解析して文書に含まれるオブジェクトを抽出する。ここで、オブジェクトとは、文字、行、複数の文字あるいは行から成るテキストブロック、図、表、グラフ、イメージなどを指す。文書画像からのオブジェクト抽出に関する関連技術としては、しきい値処理、ラベリング処理、エッジ処理などがあり、本発明でもこれら関連技術を用いて文書画像からのオブジェクト抽出を行う。また、プレゼンテーション作成ソフトウェアで作成された電子文書（例えば、Microsoft（登録商標）社のPowerPoint（登録商標））である場合には、そのデータファイルを解析してオブジェクトを抽出する。本実施の形態では、後者の場合として以下に説明する。

　オブジェクト分類手段１２０は、オブジェクト抽出手段１１０が抽出したオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムに基づいて、テキスト領域を構成するオブジェクトと、図表領域を構成するオブジェクトとに分類する。

　テキスト領域生成手段１３０は、オブジェクト分類手段１２０によりテキスト領域を構成するオブジェクトとして分類されたオブジェクトの統合処理を、視覚印象距離に基づいて行い、複数のオブジェクトから構成されるテキスト領域を生成する。

　図表領域生成手段１４０は、オブジェクト分類手段１２０により図表領域を構成するオブジェクトとして分類されたオブジェクトの統合処理を視覚印象距離に基づいて行い、複数のオブジェクトから構成される図表領域を生成する。

　領域情報生成手段１５０は、テキスト領域生成手段１３０および図表領域生成手段１４０が生成した各領域を表す領域情報を生成する。

　次に、図１及び図２のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

　入力装置（図示せず）から与えられた電子文書は、オブジェクト抽出手段１１０に供給される。

　オブジェクト抽出手段１１０は、プレゼンテーション作成ソフトウェアが用意している関数を利用するか、電子文書データファイルを解析するなどして、文書に含まれるテキストブロックや図、表、グラフ、イメージなどのオブジェクトを抽出する。このとき、同時に抽出した各オブジェクトについてｘ軸とｙ軸に平行な辺からなる最小外接矩形（Minimum Bounding Rectangle；ＭＢＲ）を生成する（図２のステップＡ１）。

　次に、オブジェクト分類手段１２０は、オブジェクト抽出手段１１０が抽出したオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムに基づいて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトに分類する（ステップＡ２）。

　このときのオブジェクトの分類方式について図３のフローチャートを用いて説明する。

　まず、テキストを含むオブジェクト（テキストブロック）とテキストを含まないオブジェクト（図、表、グラフ、イメージ）に分類する（ステップＡ２－１）。ここで、テキストを含まないオブジェクトは図表領域を構成するオブジェクトとして分類される。しかし、テキストブロックは図表領域を構成するオブジェクトである場合があるので、次にテキストブロックを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する。これには、１ページ（つまり、プレゼンテーションのスライド１枚）ごとのオブジェクト面積のヒストグラムを生成する（ステップＡ２－２）。テキスト領域を構成するテキストブロックは、１つのブロック内である程度まとまりのある内容を自然文で記述するので、１つのスライドに含まれる個数は少なく、またブロック内の文字はサイズが大きく、文字数が多いという特徴がある。逆に、図表領域を構成するテキストブロックは、１つのブロック内には１単語や１文節を記述するので、１つのスライドに含まれる個数は多く、またブロック内の文字はサイズが小さく、文字数が少ないという特徴がある。

　故に、テキスト領域を構成するテキストブロックは面積が大きく、かつ出現頻度が少なく、図表領域を構成するテキストブロックは面積が小さく、かつ出現頻度が大きい。そこで、図４に示すように、各テキストブロックのＭＢＲの面積を求めて面積ヒストグラムを生成し、最頻値の面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとし、最頻値の面積以下のオブジェクトを図表領域を構成するオブジェクトとして分類する（ステップＡ２－３）。ただし、初めにテキストを含むオブジェクトとテキストを含まないオブジェクトとに分類した結果、１つのスライドに含まれるオブジェクトが全てテキストを含むオブジェクトであった場合には、これら全てのオブジェクトをテキスト領域を構成するオブジェクトとして分類する。尚、上述の例では、最頻値の面積と等しいオブジェクトを図表領域を構成するオブジェクトとして分類したが、これに限ることなく、発明の趣旨を逸脱しない範囲で、最頻値の面積と等しいオブジェクトを、テキスト領域を構成するオブジェクトとして分類しても良い。

　以上、ステップＡ２－１からステップＡ２－３までの処理により、オブジェクトがテキスト領域を構成するオブジェクトと、図表領域を構成するオブジェクトに分類される（ステップＡ２－４、Ａ２－５）。

　一般的には、テキスト領域を構成するテキストブロックの面積と、図表領域を構成するテキストブロックの面積には大きな差があるが、そのような差がない場合も考えられるので、面積ヒストグラムによるテキストブロックの分類において、図５に示すように最頻値の面積より大きく、かつ頻度が上昇した面積以上の面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類するようにしてもよい。

　次に、オブジェクト分類手段１２０により、テキスト領域を構成するものと図表領域を構成するものの２種類に分類されたオブジェクトをそれぞれ統合処理してまとめあげてテキスト領域と図表領域を生成する（ステップＡ３）。

　プレゼンテーション文書などは、大小さまざまな文字サイズでテキストが記述されていたり、関連する内容を持つひとまとまりのテキスト群が異なるテキストブロックで記述されていたりすることも多い。また、図表領域を構成するオブジェクトの配置も複雑である。しかしながら、ある程度の可読性を保つために、
（１）テキスト領域を構成するテキストブロックは矩形を基本として配置される
（２）関連性の高いオブジェクトは見た目にひとかたまりになるように互いに近くに配置される
（３）それらひとかたまりのオブジェクト群がそれぞれ識別できるように間を空けて配置される
という特徴がある。

　これらの特徴を鑑みたオブジェクトの統合処理について図６のフローチャートを用いて説明する。

　まず、テキスト領域生成手段１３０は、テキスト領域を構成するオブジェクトとして分類された各オブジェクトのＭＢＲについて重なりを持つオブジェクト同士を１つに統合し、新たなＭＢＲを生成する（ステップＡ３－１）。

　この統合処理の例を図７に示す。図７では、文書上部の重なりを持つ２つのオブジェクトが１つに統合されている。次に、重なりを持たないオブジェクトでも視覚的に近い位置に存在するオブジェクトは互いに関係する内容を持つオブジェクトであると考えられるので、これら視覚的に近い距離にあるオブジェクトをさらに統合する必要がある。このため、本発明では人間の視覚的な印象を考慮したオブジェクト間の距離（以下、視覚印象距離と記載する）を計算する（ステップＡ３－２）。

　次に、１つのページに存在するオブジェクトについて、すべての２つのオブジェクトの組み合わせについて視覚印象距離を計算し、その値がしきい値以下のオブジェクト同士を統合することによりテキスト領域を生成する（ステップＡ３－３）。

　この視覚印象距離の計算とオブジェクト同士の統合について、図面を参照して説明する。

　視覚印象距離は、２つのオブジェクトのＭＢＲの互いに向かい合う辺の距離が近いほど、また、それら２つの辺を辺に平行な軸に射影したときの重なりの長さが大きいほど、２つのオブジェクトは「近い」と計算される。

　図８では、オブジェクトＡのＭＢＲとオブジェクトＢのＭＢＲとの視覚印象距離Ｄ（Ａ，Ｂ）の計算の一例を示している。図８において、２つのオブジェクトのＭＢＲの互いに向かい合う２つの辺を辺に平行な軸に射影したときの重なりの長さ（＝ｏｖｅｒｌａｐ（Ａ，Ｂ））が一定の場合、２つのオブジェクトのＭＢＲの互いに向かい合う辺の距離（＝ｄ（Ａ，Ｂ））が近いほど、２つのオブジェクトの視覚印象距離は近くなる。また、２つのオブジェクトのＭＢＲの互いに向かい合う辺の距離（＝ｄ（Ａ，Ｂ））が等しい場合、２つのオブジェクトのＭＢＲの互いに向かい合う２つの辺を辺に平行な軸に射影したときの重なりの長さ（＝ｏｖｅｒｌａｐ（Ａ，Ｂ））が大きいほど２つのオブジェクトの視覚印象距離は近くなる。

　従って、オブジェクトＡとオブジェクトＢとの視覚印象距離Ｄ（Ａ，Ｂ）は、
Ｄ（Ａ，Ｂ）＝ｄ（Ａ，Ｂ）×１／ｏｖｅｒｌａｐ（Ａ，Ｂ）
となる。

　この視覚印象距離を用いてオブジェクトの距離計算を行うが、２つのオブジェクトのＭＢＲの互いに向かい合う辺を射影した場合には、ｘ軸方向について重なりを持つ場合とｙ軸方向について重なりを持つ場合とが考えられるので、実際には、図９に示すように、ｘ軸方向について重なりを持つオブジェクトの視覚印象距離を計算し、視覚印象距離が閾値以下（視覚印象距離が近い）のオブジェクトを統合する。同様に、ｙ軸方向について重なりを持つオブジェクトの視覚印象距離を計算し、視覚印象距離が閾値以下（視覚印象距離が近い）のオブジェクトを統合する。そして、ｘ軸方向、ｙ軸方向に対して統合されたオブジェクトを最終的に統合する。

　視覚印象距離による統合処理の例を図１０に示す。図１０の例では、ステップＡ３－１で重なりがあるオブジェクトを統合した結果６個のＭＢＲが生成されたものとする。これら６個のＭＢＲについてｘ軸方向とｙ軸方向に分けて視覚印象距離を計算し、しきい値以下の距離にあるＭＢＲを統合すると、ｘ軸方向についてはＭＢＲ３とＭＢＲ５、ＭＢＲ４とＭＢＲ５が統合され、ｙ軸方向についてはＭＢＲ１とＭＢＲ２、ＭＢＲ３とＭＢＲ４が統合されている。さらに、ｘ軸方向とｙ軸方向それぞれの統合結果を重ね合わせることにより最終的にＭＢＲ１とＭＢＲ２、ＭＢＲ３とＭＢＲ４とＭＢＲ５が統合されている。

　視覚印象距離によるＭＢＲの統合の際のしきい値は、例えば、１つのスライドに含まれる任意の２つのＭＢＲのすべての組み合わせの距離の平均値などを用いればよい。また、あらかじめ固定値を与えておいてもよい。

　以上の処理により、テキスト領域が生成される。

　次に、図表領域生成手段１４０は、テキスト領域生成手段１３０と同様に、図表領域を構成するオブジェクトとして分類された各オブジェクトのＭＢＲについて図６のフローチャートに示した処理を行う。これにより、図表領域が生成される。

　なお、以上の説明では、テキスト領域生成手段１３０によりテキスト領域を生成した後で、図表領域生成手段１４０により図表領域を生成していたが、図表領域生成手段１４０で図表領域を生成した後で、テキスト領域生成手段１３０によりテキスト領域を生成するようにしてもよい。

　本実施の形態の視覚印象距離計算式によれば、オブジェクトの統合処理における距離計算において、オブジェクト間の絶対的な距離ではなく相対的な距離として計算可能であり、複数のオブジェクトを拡大／縮小した場合にも同じ値を算出することができる（図１１参照）。このため、オブジェクトとその間に存在する空白領域の絶対的なサイズによらず、オブジェクトと空白領域の面積の比に応じて距離を算出し、遠近を判定することが可能である。

　また、視覚印象距離を図１２に示すように定義してもよい。

　図１２によれば、オブジェクトＡのＭＢＲのｙ軸方向の長さをＡ_ｙ、オブジェクトＢのＭＢＲのｙ軸方向の長さをＢ_ｙ、２つのオブジェクトのＭＢＲの互いに向かい合う辺のｙ軸方向の距離をｄ_ｙ（Ａ，Ｂ）、オブジェクトＡのＭＢＲとオブジェクトＢのＭＢＲとの２つの辺を辺に平行なｘ軸に射影したときの長さをｊｏｉｎ_ｘ（Ａ，Ｂ）、オブジェクトＡのＭＢＲとオブジェクトＢのＭＢＲとの２つの辺を辺に平行なｘ軸に射影したときの重なりの長さをｏｖｅｒｌａｐ_ｘ（Ａ，Ｂ）とした場合、ｙ軸方向の視覚印象距離Ｄ_ｙ（Ａ，Ｂ）は、
Ｄ_ｙ（Ａ，Ｂ）＝ｄ_ｙ（Ａ，Ｂ）／（Ａ_ｙ＋Ｂ_ｙ）×１／ｏｖｅｒｌａｐ_ｘ（Ａ，Ｂ）／ｊｏｉｎ_ｘ（Ａ，Ｂ）
　＝（ｄ_ｙ（Ａ，Ｂ）×ｊｏｉｎ_ｘ（Ａ，Ｂ））／（（Ａ_ｙ＋Ｂ_ｙ）×ｏｖｅｒｌａｐ_ｘ（Ａ，Ｂ））
となる。

　同様に、オブジェクトＡのＭＢＲのｘ軸方向の長さをＡ_ｘ、オブジェクトＢのＭＢＲのｘ軸方向の長さをＢ_ｘ、２つのオブジェクトのＭＢＲの互いに向かい合う辺のｘ軸方向の距離をｄ_ｘ（Ａ，Ｂ）、オブジェクトＡのＭＢＲとオブジェクトＢのＭＢＲとの２つの辺を辺に平行なｙ軸に射影したときの長さをｊｏｉｎ_ｙ（Ａ，Ｂ）、オブジェクトＡのＭＢＲとオブジェクトＢのＭＢＲとの２つの辺を辺に平行なｙ軸に射影したときの重なりの長さをｏｖｅｒｌａｐ_ｙ（Ａ，Ｂ）とした場合、ｘ軸方向の視覚印象距離Ｄ_ｘ（Ａ，Ｂ）は、
Ｄ_ｘ（Ａ，Ｂ）＝ｄ_ｘ（Ａ，Ｂ）／（Ａ_ｘ＋Ｂ_ｘ）×１／ｏｖｅｒｌａｐ_ｙ（Ａ，Ｂ）／ｊｏｉｎ_ｙ（Ａ，Ｂ）
　＝（ｄ_ｘ（Ａ，Ｂ）×ｊｏｉｎ_ｙ（Ａ，Ｂ））／（（Ａ_ｘ＋Ｂ_ｘ）×ｏｖｅｒｌａｐ_ｙ（Ａ，Ｂ））
となる。

　この場合は、距離に対するオブジェクトの面積が大きく、かつ重なる部分の割合が大きな２つのオブジェクトほど、より距離が近いものとして算出される。

　最後に、領域情報生成手段１５０は、テキスト領域生成手段１３０および図表領域生成手段１４０により生成されたテキスト領域および図表領域から、それらの領域を表す領域情報を生成する（ステップＡ４）。図１３に領域情報の例を示す。この例では、領域情報は、文書ＩＤ、スライドＩＤ、および各領域のＭＢＲ座標、領域種別、重心座標、面積、縦横比からなる。

　本実施の形態では、電子文書や文書画像の領域分割において、文書の構成要素となるオブジェクトをテキスト領域と図表領域を構成するオブジェクトに分類し、オブジェクトを統合するように構成されているため、文書をテキスト領域と図表領域に適切に分割できる。そのため、文書からのテキスト領域のみ、あるいは図表領域のみの抽出や、さらに、例えば、テキスト領域のみに対して文字認識処理を行うなど、領域に応じた処理を精度良く効率的に行うことができる。
＜第２の実施の形態＞
　本発明の第２の発明を実施するための最良の形態について図面を参照して詳細に説明する。

　第２の実施の形態は、テキスト領域と画像領域の配置に基づいて類似文書を検索できる情報処理システム、その方法及びプログラムを提供する。

　図１４を参照すると、本発明の第２の発明を実施するための最良の形態は、プログラム制御により動作する
　情報処理システム１００は、オブジェクト抽出手段１１０と、オブジェクト分類手段１２０と、テキスト領域生成手段１３０と、図表領域生成手段１４０と、領域情報生成手段１５０と、領域情報格納手段１６０と、領域情報変換手段１７０、類似度計算手段１８０とを含む。

　ここで、オブジェクト抽出手段１１０と、オブジェクト分類手段１２０と、テキスト領域生成手段１３０と、図表領域生成手段１４０と、領域情報生成手段１５０は、図１に示した第１の実施の形態の構成と同様であるので説明を省略する。

　領域情報格納手段１６０は、領域情報生成手段１５０により出力される電子文書及び文書画像の領域情報を格納する。

　領域情報変換手段１７０は、文書のテキスト領域や図表領域の位置や大きさに関する検索クエリを領域情報に変換する。ここで、クエリとは、文書検索のために、ユーザが入力した事項である。

　類似度計算手段１８０は、領域情報格納手段１６０が格納している領域情報と、領域情報変換手段１７０が出力する領域情報を比較・照合し、類似度を計算して類似文書の検索を行う。

　次に、図１４及び図１５のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

　まず、図２に示したフローチャートに従って、あらかじめ電子文書および文書画像を領域分割し、その領域情報を領域情報格納手段１６０に格納しておく。

　次に、ユーザがコンピュータ１００に接続されたキーボードやマウスなどの入力手段（図示せず）を用いて、文書のレイアウトとしてテキスト領域および図表領域の位置や大きさを入力する（ステップＢ１）。図１６は、ある文書に含まれるスライドのレイアウトのクエリ入力画面２００の一例である。ユーザは、コンピュータ１００に接続されたディスプレイなどの出力手段（図示せず）に表示される画面を通じて、キーボードやマウスなどの入力手段を用いてスライドのレイアウトを入力する。

　ユーザは、まず、領域選択部２１０でテキスト領域あるいは図表領域のいずれかを選択する。次に、レイアウト入力部２２０において、マウスドラッグなどにより矩形を指定すると、領域選択部２１０で選択された領域種別に応じた矩形領域が描画される。また、描画された矩形をマウスなどで選択し、矩形の位置を移動させたり、形状を変化させたり、大きさを拡大／縮小するようにしてもよい。図１６の例では、スライド上部にテキスト領域、スライド下部に図表領域が指定されている。最後に、検索ボタン２３０が押下されると、レイアウト入力部２２０で指定したレイアウトに基づいた文書検索が開始される。クリアボタン２４０を押下すると、レイアウト入力部２２０に描画された矩形が消去され、レイアウト入力のやり直しを行うことができる。

　上記検索ボタン２３０が押下されると、まず、領域情報変換手段１７０が、レイアウト入力部２２０で指定されたテキスト領域や図表領域の位置や大きさに関する検索クエリを、領域情報生成手段１５０が生成して領域情報格納手段１６０に格納されているのと同様の領域情報に変換する（ステップＢ２）。このとき、ステップＢ１でユーザが指定した領域に、同一の領域種別である複数の領域が指定されている場合には、図６のフローチャートのステップＡ３－２およびＡ３－３で示した視覚的矩形距離を用いた領域統合処理を行った後に領域情報に変換する。例えば、図１７に示した例では、２個のテキスト領域と２個の図表領域が、視覚的矩形距離を用いた領域統合処理の結果、それぞれ１個のテキスト領域と１個の図表領域に統合されている。また、この視覚的矩形距離を用いた領域統合処理を行うか否かをユーザが選択できるようにしてもよい。

　次に、類似度計算手段１８０は、領域情報変換手段１７０によりユーザが入力したレイアウトに関するクエリから変換された領域情報と、領域情報格納手段１６０に格納されている文書ごとの領域情報を比較することにより、ユーザが入力した領域のレイアウトと、分割された文書の領域のレイアウトとの類似度を計算する（ステップＢ３）。

　類似度は、例えば、個々の対応する領域の類似度である領域類似度の平均値を用いる。領域類似度の計算式としては、例えば、同じ領域種別（テキスト領域か座標領域）を持つ領域について、領域情報から得られる特徴ベクトルのなす角θによるコサイン尺度を用いる。いま、図１３に示した領域情報から、特徴ベクトルを重心のx座標v1、重心のy座標v2、面積v3、縦横比v4の４次元ベクトルで表すとき、ユーザが入力したクエリから変換された領域の特徴ベクトＱと領域情報格納手段１６０に格納されている領域の特徴ベクトルＲｉのコサイン尺度を用いた類似度sim(Q,Ri)は、図１８のように求めることができる。

　類似度計算手段１８０は、クエリから変換された領域情報に含まれる各領域に対して、文書ごとの領域情報に含まれる領域とのすべての組み合わせについて領域類似度を計算し、図１９に示す如く、最大の類似度を持つ領域をクエリから変換された領域に対応する領域として対応付け、その値をそれら２つの領域の間の領域類似度とする。最後に、図２０に示す如く、対応付けられた各領域の類似度の平均値を求め、ユーザが入力した領域レイアウトと文書の領域レイアウトの類似度とする。尚、図２０に示される例の類似度は、
類似度＝（（テキスト領域１とテキスト領域ａとの類似度）＋（図表領域２と図表領域ｂとの類似度）＋（図表領域３と図表領域ｃとの類似度））／３
となる。

　最後に、類似度計算手段１８０は、ステップＢ３により、ユーザの入力した領域レイアウトに類似する領域を持つスライドを同定し、類似度の高い順にソートしてユーザに提示する（ステップＢ４）。

　また、文書のレイアウトをクエリとして入力することに加えて、従来のキーワード検索におけるキーワードを同時に指定するようにしてもよい。

　図２１は、文書のレイアウトとキーワードを検索クエリとして指定するクエリ入力画面２００の一例である。ユーザは、上記と同様にしてレイアウト入力を行い、さらに、キーワード入力部２６０で、スライドに含まれるキーワードを指定する。検索ボタン２３０が押下されると、レイアウト入力部２２０で指定したレイアウトと、キーワード入力部２６０で指定したキーワードに基づいた文書検索が開始される。このとき、キーワード検索に関しては関連技術を利用し、指定したキーワードが含まれるスライドが検索できるものとする。レイアウトとキーワードを組み合わせた検索処理は、キーワード検索により検索されたスライドについてのみ、上記説明したレイアウトの類似度を計算するように動作する。これによって、指定されたキーワードを含むスライドのみについて、指定したレイアウトに類似するスライドを検索することが可能となる。また、レイアウトクリアボタン２５０およびキーワードクリアボタン２６０を押下すると、それぞれレイアウト入力部２２０に描画された矩形およびキーワード入力部２６０に入力されたキーワードが消去され、領域レイアウトおよびキーワード入力のやり直しを行うことができる。

　また、ユーザが領域のレイアウトを入力する場合に、ユーザの記憶についての自信に応じて、テキスト領域と図表領域のどちらを重視するか、あるいは入力したどの領域を重視するかについてユーザ自身が重み付けを行えるようにしてもよい。

　本発明の実施の形態では、あらかじめ電子文書や文書画像を領域分割して生成した領域情報と、ユーザが入力した領域のレイアウトに関するクエリから生成した領域情報を比較・照合し、類似したレイアウトを持つ文書を検索するというように構成されているため、文書に含まれるキーワードを正確に覚えていない場合にもテキスト領域と図表領域の配置に基づいて文書を検索できる。すなわち、テキスト領域と画像領域の配置に基づいて類似文書を検索できることにある。

　また、本発明の形態では、さらに、領域のレイアウトと同時に、文書に含まれるキーワードを指定するというように構成されているため、テキスト領域と図表領域の配置とキーワードを組み合わせに基づいて文書を検索できる。

　尚、上述した第１の実施の形態及び第２の実施の形態では、各構成部をハードウエアで構成したが、ＣＰＵやメモリで構成されるコンピュータでも実現可能である。

　以上の如く、第１の態様は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類手段を有する情報処理システムである。

　第２の態様は、上記態様において、前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する。

　第３の態様は、上記態様において、前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類するように構成されている。

　第４の態様は、上記態様において、前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類するように構成されている。

　第５の態様は、上記態様において、電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出手段を有する。

　第６の態様は、上記態様において、人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成手段と、前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成手段と、テキスト領域と図表領域を表す情報を生成して出力する領域情報生成手段とを有する。

　第７の態様は、上記態様において、前記テキスト領域生成手段、又は、前記図表領域生成手段は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成するように構成されている。

　第８の態様は、上記態様において、前記テキスト領域生成手段、又は、前記図表領域生成手段は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成するように構成されている。

　第９の態様は、上記態様において、前記テキスト領域生成手段、又は、前記図表領域生成手段は、１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とするように構成されている。

　第１０の態様は、上記態様において、電子文書および画像文書の領域情報を格納する領域情報格納手段と、ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換手段と、前記領域情報格納手段に格納された領域情報と、前記領域情報変換手段により変換された領域情報とを比較して類似度を計算する類似度計算手段とをさらに有し、ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　第１１の態様は、上記態様において、前記類似度計算手段は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算するように構成されている。

　第１２の態様は、上記態様において、前記類似度計算手段は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる。

　第１３の態様は、上記態様において、入力したキーワードを含む文書を検索するキーワード検索手段をさらに有し、前記類似度計算手段は、前記キーワード検索手段により検索された文書に対してのみ類似度を計算し、ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　第１４の態様は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を有する情報処理方法である。

　第１５の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する。

　第１６の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類する。

　第１７の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類する。

　第１８の態様は、上記態様において、電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出処理を有する。

　第１９の態様は、上記態様において、人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成処理と、前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成処理と、テキスト領域と図表領域を表す情報を生成して出力する領域情報生成処理とを有する。

　第２０の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する。

　第２１の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する。

　第２２の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とする。

　第２３の態様は、上記態様において、ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換処理と、電子文書および画像文書の領域情報と、前記領域情報変換処理により変換された領域情報とを比較して類似度を計算する類似度計算処理とをさらに有し、ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　第２４の態様は、上記態様において、前記類似度計算処理は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算する。

　第２５の態様は、上記態様において、前記類似度計算処理は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる。

　第２６の態様は、上記態様において、入力したキーワードを含む文書を検索するキーワード検索処理をさらに有し、前記類似度計算処理は、前記キーワード検索処理により検索された文書に対してのみ類似度を計算し、ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　第２７の態様は、電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を、情報処理装置に実行させるプログラムである。

　第２８の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する。

　第２９の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類する。

　第３０の態様は、上記態様において、前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類する。

　第３１の態様は、上記態様において、電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出処理を、情報処理装置に実行させる。

　第３２の態様は、上記態様において、人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成処理と、前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成処理と、テキスト領域と図表領域を表す情報を生成して出力する領域情報生成処理とを有する。

　第３３の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する。

　第３４の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する。

　第３５の態様は、上記態様において、前記テキスト領域生成処理、又は、前記図表領域生成処理は、１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とする。

　第３６の態様は、上記態様において、ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換処理と、電子文書および画像文書の領域情報と、前記領域情報変換処理により変換された領域情報とを比較して類似度を計算する類似度計算処理とを情報処理装置に実行させ、ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　第３７の態様は、上記態様において、前記類似度計算処理は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算する。

　第３８の態様は、上記態様において、前記類似度計算処理は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる。

　第３９の態様は、上記態様において、入力したキーワードを含む文書を検索するキーワード検索処理を情報処理装置に実行させ、前記類似度計算処理は、前記キーワード検索処理により検索された文書に対してのみ類似度を計算し、ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する。

　以上の如く、本発明によれば、プレゼンテーション用文書などの複雑かつ多様なレイアウトを持つ文書においても、適切にテキスト領域と図表領域に領域分割できることにある。

　その理由は、文書の構成要素となるオブジェクトを抽出し、それらオブジェクトをテキスト要素構成するオブジェクトと図表領域を構成するオブジェクトに分類し、さらに分類されたオブジェクト間に存在する空白領域の形状からオブジェクトを統合するか否かを判断してオブジェクトを統合することにより、テキスト領域と図表領域を生成するためである。

　以上好ましい実施の形態及び態様をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び態様に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。

　本出願は、２００７年１２月２１日に出願された日本出願特願２００７－３２９４７５号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、電子文書あるいは文書画像から、テキスト領域のみ、あるいは図表領域のみを抽出する情報抽出装置や、さらに抽出した領域に応じた処理を精度良く効率的に行う情報処理装置、またそれらをコンピュータに実現するためのプログラムといった用途に適用できる。

　また、データベースからテキスト領域や図表領域のレイアウトに基づいて文書を検索する情報検索装置といった用途にも適用可能である。

Claims

　電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類手段を有する情報処理システム。
　前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する、請求項１に記載の情報処理システム。
　前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類するように構成されている、請求項１又は請求項２に記載の情報処理システム。
　前記オブジェクト分類手段は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類するように構成されている、請求項１又は請求項２に記載の情報処理システム。
　電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出手段を有する請求項１から請求項４のいずれかに記載の情報処理システム。
　人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成手段と、
　前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成手段と、
　テキスト領域と図表領域を表す情報を生成して出力する領域情報生成手段と
を有する請求項１から請求項５のいずれかに記載の情報処理システム。
　前記テキスト領域生成手段、又は、前記図表領域生成手段は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成するように構成されている請求項６に記載の情報処理システム。
　前記テキスト領域生成手段、又は、前記図表領域生成手段は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成するように構成されている、請求項６に記載の情報処理システム。
　前記テキスト領域生成手段、又は、前記図表領域生成手段は、
　１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とするように構成されている、請求項６から請求項８のいずれかに記載の情報処理システム。
　電子文書および画像文書の領域情報を格納する領域情報格納手段と、
　ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換手段と、
　前記領域情報格納手段に格納された領域情報と、前記領域情報変換手段により変換された領域情報とを比較して類似度を計算する類似度計算手段とをさらに有し、
　ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項１から請求項９に記載の情報処理システム。
　前記類似度計算手段は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算するように構成されている、請求項１０に記載の情報処理システム。
　前記類似度計算手段は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる、請求項１１に記載の情報処理システム。
　入力したキーワードを含む文書を検索するキーワード検索手段をさらに有し、
　前記類似度計算手段は、前記キーワード検索手段により検索された文書に対してのみ類似度を計算し、
　ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項１０から請求項１２のいずれかに記載の情報処理システム。
　電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を有する情報処理方法。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する、請求項１４に記載の情報処理方法。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類する、請求項１４又は請求項１５に記載の情報処理方法。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類する、請求項１４又は請求項１５に記載の情報処理方法。
　電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出処理を有する、請求項１４から請求項１７のいずれかに記載の情報処理方法。
　人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成処理と、
　前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成処理と、
　テキスト領域と図表領域を表す情報を生成して出力する領域情報生成処理と
を有する、請求項１４から請求項１８のいずれかに記載の情報処理方法。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する、請求項１９に記載の情報処理方法。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する、請求項１９に記載の情報処理システム。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とする、請求項１９から請求項２１のいずれかに記載の情報処理方法。
　ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換処理と、
　電子文書および画像文書の領域情報と、前記領域情報変換処理により変換された領域情報とを比較して類似度を計算する類似度計算処理とをさらに有し、
　ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項１４から請求項２２に記載の情報処理方法。
　前記類似度計算処理は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算する、請求項２３に記載の情報処理方法。
　前記類似度計算処理は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる、請求項２４に記載の情報処理方法。
　入力したキーワードを含む文書を検索するキーワード検索処理をさらに有し、
　前記類似度計算処理は、前記キーワード検索処理により検索された文書に対してのみ類似度を計算し、
　ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項２３から請求項２５のいずれかに記載の情報処理方法。
　電子文書又は文書画像から抽出された、文書を構成するオブジェクトを、テキストを含むオブジェクトの面積ヒストグラムを少なくとも用いて、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類するオブジェクト分類処理を、情報処理装置に実行させるプログラム。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積との比較に応じて、前記テキストを含むオブジェクトを、テキスト領域を構成するオブジェクトと図表領域を構成するオブジェクトとに分類する、請求項２７に記載のプログラム。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積よりも大きな面積を持つオブジェクトを、テキスト領域を構成するオブジェクトに分類し、最頻値よりも小さい面積を持つオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトに分類する、請求項２７又は請求項２８に記載のプログラム。
　前記オブジェクト分類処理は、テキストを含むオブジェクトの面積ヒストグラムを計算し、最頻値となる面積より大きく、かつ頻度が再上昇した面積より大きい面積を持つオブジェクトをテキスト領域を構成するオブジェクトとして分類し、前記テキストを含むオブジェクトでテキスト領域を構成するオブジェクトとして分類されなかったオブジェクトとテキストを含まないオブジェクトとを図表領域を構成するオブジェクトとして分類する、請求項２７又は請求項２８に記載のプログラム。
　電子文書又は文書画像から文書を構成するオブジェクトを抽出するオブジェクト抽出処理を、情報処理装置に実行させる、請求項２７から請求項３０のいずれかに記載のプログラム。
　人間の視覚的な印象を考慮したオブジェクト間の距離である視覚印象距離に基づいて、テキスト領域を構成するオブジェクトを統合し、テキスト領域を生成するテキスト領域生成処理と、
　前記視覚印象距離に基づいて、図表領域を構成するオブジェクトを統合し、図表領域を生成する図表領域生成処理と、
　テキスト領域と図表領域を表す情報を生成して出力する領域情報生成処理と
を有する、請求項２７から請求項３１のいずれかに記載のプログラム。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、または、最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２としたとき、視覚印象距離としてＤ１／Ｄ２を計算し、視覚印象距離Ｄ１／Ｄ２の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する、請求項３２に記載のプログラム。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　領域を構成するオブジェクトのｘ軸とｙ軸に平行な辺からなる最小外接矩形が互いに重なりを持つ、あるいは最小外接矩形が互いに重なりを持たない場合には２つのオブジェクトをｘ軸あるいはｙ軸に射影したとき重なりを持つオブジェクトについてそれぞれの最小外接矩形の互いに向かい合う辺の距離をＤ１とし、互いに向かい合う辺をそれらと平行な軸に射影したときの重なる部分の長さをＤ２とし、２つのオブジェクトの互いに向かい合う辺に垂直な辺の長さの和をＤ３とし、互いに向かい合う辺をそれらと平行な軸に射影したときの全体の長さをＤ４としたとき、（Ｄ１×Ｄ４）／（Ｄ２×Ｄ３）の値としきい値との比較に応じてそれら２つのオブジェクトを統合するか否かを判定し、統合する場合には前記２つのオブジェクトを統合する処理をｘ軸方向とｙ軸方向それぞれについて行うことによりオブジェクトを統合して領域を生成する、請求項３２に記載のプログラム。
　前記テキスト領域生成処理、又は、前記図表領域生成処理は、
　１つのスライドに含まれる任意の２つのオブジェクトの最小外接矩形のすべての組み合わせについて視覚印象距離を計算し、その平均値を前記しきい値とする、請求項３２から請求項３４のいずれかに記載のプログラム。
　ユーザが入力する、電子文書および画像文書の領域のレイアウトに関するクエリを領域情報に変換する領域情報変換処理と、
　電子文書および画像文書の領域情報と、前記領域情報変換処理により変換された領域情報とを比較して類似度を計算する類似度計算処理とを情報処理装置に実行させ、
　ユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項２７から請求項３５に記載のプログラム。
　前記類似度計算処理は、テキスト領域および図表領域の領域種類別に、領域の位置を表す重心座標値と、領域の大きさを表す面積と、領域の形状を表す縦横比とを比較することにより、類似度を計算する、請求項３６に記載のプログラム。
　前記類似度計算処理は、類似度の計算において、２つの領域についての重心のｘ座標、重心のｙ座標、面積、縦横比からなる特徴ベクトルのなす角のコサイン値を用いる、請求項３７に記載のプログラム。
　入力したキーワードを含む文書を検索するキーワード検索処理を情報処理装置に実行させ、
　前記類似度計算処理は、前記キーワード検索処理により検索された文書に対してのみ類似度を計算し、
　ユーザが入力したキーワードを含み、かつユーザが入力した文書の領域のレイアウトに類似したレイアウトを持つ文書を検索する、
請求項３６から請求項３８のいずれかに記載のプログラム。