WO2022239096A1

WO2022239096A1 - 画像解析装置、画像解析方法及び、画像解析プログラム

Info

Publication number: WO2022239096A1
Application number: PCT/JP2021/017798
Authority: WO
Inventors: 裕介伊谷; 彩貴伊藤
Original assignee: 三菱電機株式会社
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-11-17
Also published as: CN117280382A; JP7166509B1; JPWO2022239096A1; EP4318387A1; US20240062329A1

Abstract

画像解析装置１は、入力画像を取得する取得部１０１と、取得部１０１で取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部１０２と、検出部１０２で検出された領域を拡張する拡張部１０３と、拡張部１０３で拡張された領域に含まれる画像を、種別に応じたルールで評価する評価部１０４と、評価部１０４で評価された評価結果に基づいて、拡張部１０３で拡張された領域の中から構成画像に対応した領域を出力する出力部１０６とを備える。

Description

画像解析装置、画像解析方法及び、画像解析プログラム

　本開示は、画像解析装置、画像解析方法、及び、画像解析プログラムに関する。

従来から、スキャナなどで取り込んだ入力画像を解析して、入力画像を構成する構成画像に対応した領域を検出する技術がある。特許文献１には、例えば、図、表、又は、テキストといった要素毎に、入力画像を構成する構成画像に対応した領域を検出することが記載されている。

特開２０１９－４０２６０号公報

　しかしながら、従来の技術では、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合に、構成画像に対応した領域を精度よく出力することができないという課題があった。

　本開示は、前述のような問題を解決するものであり、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合であっても、構成画像に対応した領域の出力精度の低下を抑制することを目的とする。

　この開示に係る画像解析装置は、入力画像を取得する取得部と、前記取得部で取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部と、前記検出部で検出された領域を拡張する拡張部と、前記拡張部で拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価部と、前記評価部で評価された評価結果に基づいて、前記拡張部で拡張された領域の中から前記構成画像に対応した領域を出力する出力部と、を備えることを特徴とするものである。

　本開示によれば、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合であっても、構成画像に対応した領域の出力精度の低下を抑制することができる。

実施形態１に係る画像解析装置１の構成を示すブロック図である。入力画像を構成する構成画像、構成画像に対応した検出領域、及び、検出領域を拡張した拡張領域を説明するための図である。表を評価するためのルールを説明するための図である。テキストを評価するためのルールを説明するための図である。図を評価するためのルールを説明するための図である。画像解析装置１のハードウェア構成の一例を示す図である。画像解析装置１のハードウェア構成の一例を示す図である。画像解析装置１の処理を示すフローチャート図である。実施形態２に係る画像解析装置１の構成を示すブロック図である。候補種別ごとに算出されたスコアを示す図である。画像解析装置１の処理を示すフローチャート図である。

　図１は、実施形態１に係る画像解析装置１の構成を示すブロック図である。
　画像解析装置１は、取得した入力画像を解析して、入力画像を構成する構成画像に対応した領域を出力する装置である。入力画像は、例えば、図、表、又は、テキストといった種別で示される構成画像を含む。画像解析装置１は、取得部１０１、検出部１０２、位置補正部１０８、及び、出力部１０６を備える。

　取得部１０１は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する。検出部１０２は、取得部１０１で取得された入力画像を解析して、入力画像を構成する構成画像に対応した領域及び種別を検出する。以降の説明において、検出部１０２により検出された領域であって、入力画像を構成する構成画像に対応した領域を検出領域と称する。ここで、検出部１０２により検出された検出領域は、入力画像を構成する構成画像と完全に一致せず、位置ずれを含む場合があるものとする。また、検出領域に含まれる画像は、メモリや記憶部に記憶されるものとする。

　拡張部１０３は、検出部１０２で検出した検出領域を少なくとも２回以上、且つ、拡張の終了条件を満たすまで拡張する。拡張部１０３は、例えば、予め決められた幅、高さ、面積、又は、倍率だけ検出領域を拡張する。以降、拡張部１０３が拡張した領域を拡張領域と称する。拡張領域に含まれる画像は、メモリや記憶部に記憶されるものとする。なお、検出部１０２で検出した検出領域を、拡張部１０３で拡張した０回目の拡張領域とみなしてもよい。

　次に、拡張部１０３の拡張の終了条件について説明する。拡張の終了条件は、検出領域の種別と異なる種別の領域を拡張領域が含むことである。また、拡張の終了条件は、検出領域の拡張回数が上限値を満たすことである。また、拡張の終了条件は、構成画像の輪郭を拡張領域が囲むことである。ここで、構成画像の輪郭は、図、表、又は、テキストといった各要素を囲む外枠の実線であってもよいし、各要素に外接する矩形の仮想線であってもよい。また、構成画像の輪郭を囲むとは、構成画像の輪郭から等しい距離となるように検出領域が拡張されたことを含む。なお、輪郭の検出については例えば参考文献１のような方法が考えられる。また、終了条件は、これらを複数組み合わせた条件であってもよい。また、拡張の終了条件は、例えば、後述する記憶部１３に記憶されていればよい。

　参考文献１：平野敬、岡田康裕、依田文夫、“文書画像からの罫線抽出方式” 電子情報通信学会総合大会、１９９８年３月

　評価部１０４は、拡張部１０３で拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。より具体的には、評価部１０４は、拡張部１０３でＮ回目に拡張した領域に含まれる画像と、拡張部１０３でＮ＋１回目に拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。ルールＤＢ１０５には、拡張部１０３で拡張された領域に含まれる画像を評価するためのルールが記憶されている。ルールＤＢ１０５は、画像解析装置１００に含まれていても良いし、外付けであってもよい。

　出力部１０６は、評価部１０４で評価された評価結果（評価値）に基づいて、拡張部１０３で拡張された領域に含まれる画像を、構成画像に対応した画像として出力する。より具体的には、出力部１０６は、評価部１０４で評価された評価値が最大の拡張領域に含まれる画像を、構成画像に対応した画像として出力する。

　図２は、入力画像を構成する構成画像、構成画像に対応した検出領域、及び、検出領域を拡張した拡張領域を説明するための図である。入力画像ＮＧ１は、例えば、表で構成された構成画像ＫＧ１を含むものとする。１点鎖線で示された検出領域ＫＲ１１は、検出部１０２により検出された領域を示す。ここで、検出領域ＫＲ１１は、構成画像ＫＧ１と完全に一致せず、位置ずれを含む場合があるものとする。２点鎖線で示された拡張領域ＫＲ２１は、検出領域ＫＲ１１を拡張部１０３で拡張した後の領域を示す。また、２点鎖線で示された拡張領域ＫＲ２２は、拡張領域ＫＲ２１を拡張部１０３で拡張した後の領域を示す。

　表１は、ルールＤＢ１０５に記憶された、拡張部１０３で拡張された領域に含まれる画像を評価するためのルールの一例である。

　図３は、検出領域に含まれた表を評価するためのルールを説明するための図である。
　構成画像ＫＧ１に対応した種別として、検出部１０２が「表」を検出したものとする。拡張領域ＫＲＨ２１は、検出部１０２により検出された検出領域をＮ－１回目に拡張した領域であり、領域内に１つのセルを含む。また、拡張領域ＫＲＨ２２は、検出部１０２により検出された検出領域をＮ回目に拡張した領域であり、領域内に９つのセルを含む。さらに、拡張領域ＫＲＨ２３は、検出部１０２により検出された検出領域をＮ＋１回目に拡張した領域であり、領域内に９つのセルを含む。ここで、評価部１０４は、拡張前後の拡張領域に含まれたセルの数の差が小さい程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部１０４は、検出部１０２で検出された種別が表を示す場合、拡張部１０３でＮ回目に拡張された領域に含まれたセルの数（９）と、拡張部１０３でＮ＋１回目に拡張された領域に含まれたセルの数（９）との差（０）が、拡張部１０３でＮ－１回目に拡張された領域に含まれたセルの数（１）と、拡張部１０３でＮ回目に拡張された領域に含まれたセルの数（９）との差（８）よりも小さいため、Ｎ回目に拡張された領域の評価値を高く評価する。なお、セルの抽出については、例えば、参考文献２に記載の方法が考えられる。

　参考文献２：Y.Itani et.al, ” Text Line Extraction Method Using Domain-based Active Contour Model,” ICDAR2013,Aug. 2013

　図４は、検出領域に含まれたテキストを評価するためのルールを説明するための図である。
　構成画像ＫＧ２に対応した種別として、検出部１０２が「テキスト」を検出したものとする。拡張領域ＫＲＴ２１は、検出部１０２により検出された検出領域をＮ－１回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「像解析装」という文字列を含む。また、拡張領域ＫＲＴ２２は、検出部１０２により検出された検出領域をＮ回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。さらに、拡張領域ＫＲＴ２３は、検出部１０２により検出された検出領域をＮ＋１回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。ここで、評価部１０４は、拡張前後の拡張領域に含まれた画像に対する文字認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部１０４は、検出部１０２で検出された種別がテキストを示す場合、拡張部１０３でＮ回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」と、拡張部１０３でＮ＋１回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度が、拡張部１０３でＮ－１回目に拡張された領域に含まれた画像に対する文字認識結果「像解析装」と、拡張部１０３でＮ回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度よりも高いため、Ｎ回目に拡張された領域の評価値を高く評価する。ここで、文字認識結果の一致度は、例えば、拡張部１０３でＮ回目に拡張された領域に含まれた画像に対する文字認識結果と、拡張部１０３でＮ＋１回目に拡張された領域に含まれた画像に対する文字認識結果において一致する文字数、及び／又は、一致する文字の割合に基づいて算出されればよい。なお、領域に含まれた画像に対する文字認識については、周知の技術を用いればよい。

　図５は、検出領域に含まれた図を評価するためのルールを説明するための図である。
　構成画像ＫＧ３に対応した種別として、検出部１０２が「図」を検出したものとする。拡張領域ＫＲＺ２１は、検出部１０２により検出された検出領域をＮ－１回目に拡張した領域であり、領域に含まれた図の一部を含む。また、拡張領域ＫＲＺ２２は、検出部１０２により検出された検出領域をＮ回目に拡張した領域であり、領域に含まれた図及び空白の領域ＫＲ１を含む。さらに、拡張領域ＫＲＺ２３は、検出部１０２により検出された検出領域をＮ＋１回目に拡張した領域であり、領域に含まれた図及び空白の領域ＫＲ２を含む。ここで、評価部１０４は、拡張領域に含まれた画像に含まれる空白の領域が広い程、評価値を高くする。より具体的には、評価部１０４は、検出部１０２で検出された種別が図を示す場合、拡張部１０３でＮ＋１回目に拡張された領域に含まれた空白の領域ＫＲ２が、拡張部１０３でＮ回目に拡張された領域に含まれた空白の領域ＫＲ１よりも広いため、Ｎ＋１回目に拡張された領域の評価値を高く評価する。即ち、評価部１０４は、拡張領域ＫＲＺ２１、拡張領域ＫＲＺ２２よりも、拡張領域ＫＲＺ２３の評価値を高く評価する。また、評価部１０４は、検出部１０２で検出された種別がテキストを示す場合と同様に、拡張前後の拡張領域に含まれた画像に対する画像認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くしてもよい。ここで、領域に含まれた画像に対する画像認識については、少なくとも、画像の特徴を抽出できればよく、周知の技術を用いればよい。また、画像認識結果の一致度は、例えば、拡張部１０３でＮ回目に拡張された領域に含まれた画像に対する画像認識結果と、拡張部１０３でＮ＋１回目に拡張された領域に含まれた画像に対する画像認識結果において一致する特徴の数、及び／又は、一致する特徴の数の割合に基づいて算出されればよい。

　図６は、画像解析装置１のハードウェア構成の一例を示す図である。
　画像解析装置１は、ＣＰＵ１１、メモリ１２、記憶部１３、画像取得部１４、表示部１５を備える。ＣＰＵ１１は、メモリ１２に格納されたプログラムなどを実行することにより、図１に示す、取得部１０１、検出部１０２、位置補正部１０８、及び、出力部１０６という各機能を実現する。メモリ１２及び記憶部１３は、ＣＰＵ１１に実行される各種プログラム、及び、ＣＰＵ１１で実行される処理に利用される各種データを記憶する。画像取得部１４は、例えば、インタフェースであり、図示せぬスキャナやカメラなどの装置に入力された入力画像を取得する。表示部１５は、例えば、液晶ディスプレイであり、ＣＰＵ１１から出力された画像を表示する。なお、表示部１５は、画像解析装置１００に含まれていても良いし、外付けであってもよい。なお、ＣＰＵ１１とメモリ１２は、例えば、図７に示す処理回路１６といった、ハードウェアで実現されてもよい。

　図８は、画像解析装置１の処理を示すフローチャート図である。
　取得部１０１は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する（ＳＡ１）。次に、検出部１０２は、取得部１０１で取得された入力画像を解析して（ＳＡ２）、入力画像を構成する構成画像に対応した領域及び種別を検出する（ＳＡ３）。ここで、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来なかった場合（ＳＡ３：ＮＯ）、画像解析装置１は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来た場合（ＳＡ３：ＹＥＳ）、拡張部１０３は、検出部１０２で検出した領域を所定の範囲（広さ、倍率、幅、高さ）で拡張する（ＳＡ４）。評価部１０４は、拡張部１０３で拡張した領域に含まれる画像を、種別に応じたルールで評価する（ＳＡ５）。拡張の終了条件を満たす場合（ＳＡ６：ＹＥＳ）、評価部１０４で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した画像として出力部１０６に出力させる（ＳＡ７）。一方、拡張の終了条件を満足さない場合（ＳＡ６：ＮＯ）、拡張部１０３は、ＳＡ４で拡張した領域を、再度、拡張する（ＳＡ４）。

　以上のように、画像解析装置１は、入力画像を取得する取得部１０１と、取得部１０１で取得された入力画像を解析して、入力画像を構成する構成画像に対応した領域及び種別を検出する検出部１０２と、検出部１０２で検出された領域を拡張する拡張部１０３と、拡張部１０３で拡張された領域に含まれる画像を、種別に応じたルールで評価する評価部１０４と、評価部１０４で評価された評価結果に基づいて、拡張部１０３で拡張された領域に含まれる画像を、構成画像に対応した画像として出力する出力部１０６とを備える。より具体的には、拡張部１０３は、検出部１０２で検出した検出領域を少なくとも２回以上、且つ、拡張の終了条件を満たすまで拡張する。評価部１０４は、拡張部１０３でＮ回目に拡張した領域に含まれる画像と、拡張部１０３でＮ＋１回目に拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。出力部１０６は、評価部１０４で評価された評価値が最大の拡張領域に含まれる画像を、構成画像に対応した画像として出力する。これにより、入力画像を構成する構成画像に対応した領域と、検出部１０２で検出した検出領域とに位置ずれが発生した場合であっても、評価部１０４で種別に応じたルールで評価された評価結果に基づいて、拡張部１０３で拡張された領域に含まれる画像が、構成画像に対応した画像として出力されるから、構成画像に対応した領域の出力精度の低下を、構成画像の種別に応じて抑制することが可能となる。

実施の形態２．
　実施の形態１において拡張部１０３は、検出領域の種別に関わらず、検出領域を一律に拡張した。しかしながら、表、テキスト、図といった種別ごとに構成画像のサイズが異なる。そのため、検出領域を一律に拡張した場合には、拡張した範囲が構成画像に対して広すぎたり小さすぎたりすることがあった。そこで、実施の形態２において拡張部１０３は、検出領域の種別に対応した範囲（広さ、倍率、幅、高さ）で検出領域を拡張する。

　また、実施の形態１において検出部１０２は、入力画像を解析して、入力画像を構成する構成画像に対応した種別を検出した。しかしながら、例えば、表の中にテキストや図が含まれているような場合など、構成画像に対応した種別を１つに識別することが難しい場合がある。そこで、実施の形態２において検出部１０２は、入力画像を構成する１つの構成画像に対応した候補種別を複数検出したうえで、構成画像に対応した検出領域の種別として適切な候補種別を選択する。

　図９は、実施形態２に係る画像解析装置１の構成を示すブロック図である。
　画像解析装置１は、取得部１０１、検出部１０２、種別選択部１０７、位置補正部１０８、及び、出力部１０６を備える。以下、実施形態１と相違する構成について説明する。

　検出部１０２は、構成画像に対応した検出領域の種別の候補（以降、候補種別と称する）を検出する。また、検出部１０２は、検出した候補種別の確からしさを示すスコアを算出する。スコアは、ニューラルネットワークなどの公知の機械学習アルゴリズムを用いて推定した結果や、式（１）を用いて予め決められた特徴ベクトルとのコサイン類似度に基づいて算出すればよい。式（１）において、Ｖは予め決めてあった項目ごとの特徴ベクトル、Ｆは解析中に画像から得た特徴ベクトルを示す。

　種別選択部１０７は、検出部１０２で検出された候補種別のなかから、構成画像に対応した検出領域の種別として適切な候補種別を選択する。適切な候補種別の選択方法は、例えば、スコアを用いる方法が考えられる。この場合、種別選択部１０７は、式（２）のように、スコアが閾値ＴＨ１以上の候補種別を選択してもよい。また、種別選択部１０７は、式（３）のように、スコアが最高値を示す候補種別、及び、最高値を示す候補種別のスコアとの差が閾値ＴＨ２未満の候補種別を選択してもよい。更に、種別選択部１０７は、式（２）、式（３）を組合せ、夫々の式を同時に満たす候補種別を選択してもよい。

　図１０は、候補種別ごとに算出されたスコアを示す図である。
　図１０には、検出領域の候補種別を表とした場合のスコアが０．８、候補種別を図とした場合のスコアが０．７、候補種別をテキストとした場合のスコアが０．２と算出されたことが示されている。ここで、式（２）の閾値ＴＨ１を０．６、式（３）の閾値ＴＨ２を０．２とした場合、式（２）（３）を満たす候補種別は、表、及び、図の２種となる。従って、種別選択部１０７は、構成画像に対応した検出領域の候補種別として表、及び、図の２種を選択する。なお、閾値ＴＨ１、閾値ＴＨ２は、ルールＤＢ１０５などに予め記憶されているものとする。

　拡張部１０３は、種別選択部１０７で選択された候補種別に基づいて、検出部１０２で検出した領域を拡張する範囲（広さ、倍率、幅、高さ）を決定する。ここで、検出部１０２で検出した領域を拡張する範囲は、候補種別に対応づけて、ルールＤＢ１０５などに記憶されているものとする。ここで、候補種別が表の検出領域を拡張する範囲を、候補種別がテキストの検出領域を拡張する範囲よりも広くなるように設定してもよい。また、候補種別が図の検出領域を拡張する範囲を、候補種別が表の検出領域を拡張する範囲よりも広くなるように設定してもよい。更に、候補種別が複数選択された場合、拡張部１０３は、
複数選択された候補種別のうち最も拡張する範囲が広い候補種別に基づいて、検出領域を拡張する範囲（広さ、倍率、幅、高さ）を決定してもよい。

　図１１は、画像解析装置１の処理を示すフローチャート図である。
　取得部１０１は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する（ＳＡ１）。次に、検出部１０２は、取得部１０１で取得された入力画像を解析して（ＳＡ２）、入力画像を構成する構成画像に対応した領域及び候補種別を検出する（ＳＢ３）。ここで、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来なかった場合（ＳＡ３：ＮＯ）、検出部１０２は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来た場合（ＳＢ３：ＹＥＳ）、種別選択部１０７は、検出部１０２で検出された候補種別の中から、構成画像に対応した検出領域の種別として適切な候補種別を選択する（ＳＢ４１）。拡張部１０３は、検出部１０２で検出した領域を、種別選択部１０７で選択された候補種別に応じた範囲（広さ、倍率、幅、高さ）で拡張する（ＳＢ４２）。評価部１０４は、拡張部１０３で拡張した領域に含まれる画像を、種別に応じたルールで評価する（ＳＡ５）。拡張の終了条件を満たす場合（ＳＡ６：ＹＥＳ）、評価部１０４で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した領域として出力部１０６に出力させる（ＳＡ７）。一方、拡張の終了条件を満足さない場合（ＳＡ６：ＮＯ）、拡張部１０３は、ＳＡ４で拡張した領域を、再度、拡張する（ＳＡ４）。

　以上のように、拡張部１０３は、検出領域の候補種別毎に、当該検出領域を拡張する範囲を変更することで、構成画像に対応した領域の出力精度の低下を抑制することが可能となる。具体的には、拡張した範囲が構成画像に対して広すぎたり小さすぎたりすることを抑制することが可能となる。

　なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　１　画像解析装置、１０１　取得部、１０２　検出部、１０３　拡張部、１０４　評価部、１０５　ルールＤＢ、１０６　出力部、１０７　種別選択部、１１　ＣＰＵ、１２　メモリ、１３　記憶部、１４　画像取得部、１５　表示部、１６　処理回路。

Claims

　入力画像を取得する取得部と、
　前記取得部で取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部と、
　前記検出部で検出された領域を拡張する拡張部と、
　前記拡張部で拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価部と、
　前記評価部で評価された評価結果に基づいて、前記拡張部で拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力部と、
　を備えることを特徴とする画像解析装置。
　前記拡張部は、
　前記検出部で検出された前記領域の前記種別に応じた範囲で当該領域を拡張する
　ことを特徴とする請求項１に記載された画像解析装置。
　前記拡張部は、
　前記検出部で検出された前記領域を、前記構成画像の輪郭を含むように拡張する
　ことを特徴とする請求項１又は２に記載された画像解析装置。
　前記拡張部は、
　前記検出部で検出された前記領域を、当該領域の前記種別と異なる種別の領域を含まない範囲で拡張する
　ことを特徴とする請求項１～３の何れか１項に記載された画像解析装置。
　前記評価部は、
　前記検出部で検出された前記種別が表を示す場合、前記拡張部でＮ回目に拡張された領域に含まれたセルの数と、前記拡張部でＮ＋１回目に拡張された領域に含まれたセルの数との差が小さい程、当該Ｎ回目に拡張された領域の評価値を高くする
　ことを特徴とする請求項１～４の何れか１項に記載された画像解析装置。
　前記評価部は、
　前記検出部で検出された前記種別がテキストを示す場合、前記拡張部でＮ回目に拡張された領域に含まれた画像に対する文字認識結果と、前記拡張部でＮ＋１回目に拡張された領域に含まれた画像に対する文字認識結果の一致度が高い程、当該Ｎ回目に拡張された領域の評価値を高くする
　ことを特徴とする請求項１～５の何れか１項に記載された画像解析装置。
　前記評価部は、
　前記検出部で検出された前記種別が図を示す場合、前記拡張部で拡張された領域に含まれる空白の領域が広いほど、当該領域の評価値を高くする
　ことを特徴とする請求項１～６の何れか１項に記載された画像解析装置。
　入力画像を取得する取得ステップと、
　前記取得ステップで取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
　前記検出ステップで検出された領域を拡張する拡張ステップと、
　前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
　前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
　をコンピュータに実行させることを特徴とする画像解析プログラム。
　入力画像を取得する取得ステップと、
　前記取得ステップで取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
　前記検出ステップで検出された領域を拡張する拡張ステップと、
　前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
　前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
　を備えることを特徴とする画像解析方法。