WO2022239096A1 - 画像解析装置、画像解析方法及び、画像解析プログラム - Google Patents

画像解析装置、画像解析方法及び、画像解析プログラム Download PDF

Info

Publication number
WO2022239096A1
WO2022239096A1 PCT/JP2021/017798 JP2021017798W WO2022239096A1 WO 2022239096 A1 WO2022239096 A1 WO 2022239096A1 JP 2021017798 W JP2021017798 W JP 2021017798W WO 2022239096 A1 WO2022239096 A1 WO 2022239096A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
area
expanded
expansion
Prior art date
Application number
PCT/JP2021/017798
Other languages
English (en)
French (fr)
Inventor
裕介 伊谷
彩貴 伊藤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2022553193A priority Critical patent/JP7166509B1/ja
Priority to PCT/JP2021/017798 priority patent/WO2022239096A1/ja
Priority to CN202180097770.0A priority patent/CN117280382A/zh
Priority to EP21941830.8A priority patent/EP4318387A1/en
Publication of WO2022239096A1 publication Critical patent/WO2022239096A1/ja
Priority to US18/385,747 priority patent/US20240062329A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest

Abstract

画像解析装置1は、入力画像を取得する取得部101と、取得部101で取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部102と、検出部102で検出された領域を拡張する拡張部103と、拡張部103で拡張された領域に含まれる画像を、種別に応じたルールで評価する評価部104と、評価部104で評価された評価結果に基づいて、拡張部103で拡張された領域の中から構成画像に対応した領域を出力する出力部106とを備える。

Description

画像解析装置、画像解析方法及び、画像解析プログラム
 本開示は、画像解析装置、画像解析方法、及び、画像解析プログラムに関する。
従来から、スキャナなどで取り込んだ入力画像を解析して、入力画像を構成する構成画像に対応した領域を検出する技術がある。特許文献1には、例えば、図、表、又は、テキストといった要素毎に、入力画像を構成する構成画像に対応した領域を検出することが記載されている。
特開2019-40260号公報
 しかしながら、従来の技術では、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合に、構成画像に対応した領域を精度よく出力することができないという課題があった。
 本開示は、前述のような問題を解決するものであり、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合であっても、構成画像に対応した領域の出力精度の低下を抑制することを目的とする。
 この開示に係る画像解析装置は、入力画像を取得する取得部と、前記取得部で取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部と、前記検出部で検出された領域を拡張する拡張部と、前記拡張部で拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価部と、前記評価部で評価された評価結果に基づいて、前記拡張部で拡張された領域の中から前記構成画像に対応した領域を出力する出力部と、を備えることを特徴とするものである。
 本開示によれば、入力画像を構成する構成画像に対応した領域と、検出した領域との位置ずれが発生した場合であっても、構成画像に対応した領域の出力精度の低下を抑制することができる。
実施形態1に係る画像解析装置1の構成を示すブロック図である。 入力画像を構成する構成画像、構成画像に対応した検出領域、及び、検出領域を拡張した拡張領域を説明するための図である。 表を評価するためのルールを説明するための図である。 テキストを評価するためのルールを説明するための図である。 図を評価するためのルールを説明するための図である。 画像解析装置1のハードウェア構成の一例を示す図である。 画像解析装置1のハードウェア構成の一例を示す図である。 画像解析装置1の処理を示すフローチャート図である。 実施形態2に係る画像解析装置1の構成を示すブロック図である。 候補種別ごとに算出されたスコアを示す図である。 画像解析装置1の処理を示すフローチャート図である。
 図1は、実施形態1に係る画像解析装置1の構成を示すブロック図である。
 画像解析装置1は、取得した入力画像を解析して、入力画像を構成する構成画像に対応した領域を出力する装置である。入力画像は、例えば、図、表、又は、テキストといった種別で示される構成画像を含む。画像解析装置1は、取得部101、検出部102、位置補正部108、及び、出力部106を備える。
 取得部101は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する。検出部102は、取得部101で取得された入力画像を解析して、入力画像を構成する構成画像に対応した領域及び種別を検出する。以降の説明において、検出部102により検出された領域であって、入力画像を構成する構成画像に対応した領域を検出領域と称する。ここで、検出部102により検出された検出領域は、入力画像を構成する構成画像と完全に一致せず、位置ずれを含む場合があるものとする。また、検出領域に含まれる画像は、メモリや記憶部に記憶されるものとする。
 拡張部103は、検出部102で検出した検出領域を少なくとも2回以上、且つ、拡張の終了条件を満たすまで拡張する。拡張部103は、例えば、予め決められた幅、高さ、面積、又は、倍率だけ検出領域を拡張する。以降、拡張部103が拡張した領域を拡張領域と称する。拡張領域に含まれる画像は、メモリや記憶部に記憶されるものとする。なお、検出部102で検出した検出領域を、拡張部103で拡張した0回目の拡張領域とみなしてもよい。
 次に、拡張部103の拡張の終了条件について説明する。拡張の終了条件は、検出領域の種別と異なる種別の領域を拡張領域が含むことである。また、拡張の終了条件は、検出領域の拡張回数が上限値を満たすことである。また、拡張の終了条件は、構成画像の輪郭を拡張領域が囲むことである。ここで、構成画像の輪郭は、図、表、又は、テキストといった各要素を囲む外枠の実線であってもよいし、各要素に外接する矩形の仮想線であってもよい。また、構成画像の輪郭を囲むとは、構成画像の輪郭から等しい距離となるように検出領域が拡張されたことを含む。なお、輪郭の検出については例えば参考文献1のような方法が考えられる。また、終了条件は、これらを複数組み合わせた条件であってもよい。また、拡張の終了条件は、例えば、後述する記憶部13に記憶されていればよい。
 参考文献1:平野敬、岡田康裕、依田文夫、“文書画像からの罫線抽出方式” 電子情報通信学会総合大会、1998年3月
 評価部104は、拡張部103で拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。より具体的には、評価部104は、拡張部103でN回目に拡張した領域に含まれる画像と、拡張部103でN+1回目に拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。ルールDB105には、拡張部103で拡張された領域に含まれる画像を評価するためのルールが記憶されている。ルールDB105は、画像解析装置100に含まれていても良いし、外付けであってもよい。
 出力部106は、評価部104で評価された評価結果(評価値)に基づいて、拡張部103で拡張された領域に含まれる画像を、構成画像に対応した画像として出力する。より具体的には、出力部106は、評価部104で評価された評価値が最大の拡張領域に含まれる画像を、構成画像に対応した画像として出力する。
 図2は、入力画像を構成する構成画像、構成画像に対応した検出領域、及び、検出領域を拡張した拡張領域を説明するための図である。入力画像NG1は、例えば、表で構成された構成画像KG1を含むものとする。1点鎖線で示された検出領域KR11は、検出部102により検出された領域を示す。ここで、検出領域KR11は、構成画像KG1と完全に一致せず、位置ずれを含む場合があるものとする。2点鎖線で示された拡張領域KR21は、検出領域KR11を拡張部103で拡張した後の領域を示す。また、2点鎖線で示された拡張領域KR22は、拡張領域KR21を拡張部103で拡張した後の領域を示す。
 表1は、ルールDB105に記憶された、拡張部103で拡張された領域に含まれる画像を評価するためのルールの一例である。
Figure JPOXMLDOC01-appb-T000001
 図3は、検出領域に含まれた表を評価するためのルールを説明するための図である。
 構成画像KG1に対応した種別として、検出部102が「表」を検出したものとする。拡張領域KRH21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域内に1つのセルを含む。また、拡張領域KRH22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域内に9つのセルを含む。さらに、拡張領域KRH23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域内に9つのセルを含む。ここで、評価部104は、拡張前後の拡張領域に含まれたセルの数の差が小さい程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別が表を示す場合、拡張部103でN回目に拡張された領域に含まれたセルの数(9)と、拡張部103でN+1回目に拡張された領域に含まれたセルの数(9)との差(0)が、拡張部103でN-1回目に拡張された領域に含まれたセルの数(1)と、拡張部103でN回目に拡張された領域に含まれたセルの数(9)との差(8)よりも小さいため、N回目に拡張された領域の評価値を高く評価する。なお、セルの抽出については、例えば、参考文献2に記載の方法が考えられる。
 参考文献2:Y.Itani et.al, ” Text Line Extraction Method Using Domain-based Active Contour Model,” ICDAR2013,Aug. 2013
 図4は、検出領域に含まれたテキストを評価するためのルールを説明するための図である。
 構成画像KG2に対応した種別として、検出部102が「テキスト」を検出したものとする。拡張領域KRT21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「像解析装」という文字列を含む。また、拡張領域KRT22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。さらに、拡張領域KRT23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。ここで、評価部104は、拡張前後の拡張領域に含まれた画像に対する文字認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別がテキストを示す場合、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度が、拡張部103でN-1回目に拡張された領域に含まれた画像に対する文字認識結果「像解析装」と、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度よりも高いため、 N回目に拡張された領域の評価値を高く評価する。ここで、文字認識結果の一致度は、例えば、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する文字認識結果において一致する文字数、及び/又は、一致する文字の割合に基づいて算出されればよい。なお、領域に含まれた画像に対する文字認識については、周知の技術を用いればよい。
 図5は、検出領域に含まれた図を評価するためのルールを説明するための図である。
 構成画像KG3に対応した種別として、検出部102が「図」を検出したものとする。拡張領域KRZ21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域に含まれた図の一部を含む。また、拡張領域KRZ22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域に含まれた図及び空白の領域KR1を含む。さらに、拡張領域KRZ23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域に含まれた図及び空白の領域KR2を含む。ここで、評価部104は、拡張領域に含まれた画像に含まれる空白の領域が広い程、評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別が図を示す場合、拡張部103でN+1回目に拡張された領域に含まれた空白の領域KR2が、拡張部103でN回目に拡張された領域に含まれた空白の領域KR1よりも広いため、N+1回目に拡張された領域の評価値を高く評価する。即ち、評価部104は、拡張領域KRZ21、拡張領域KRZ22よりも、拡張領域KRZ23の評価値を高く評価する。また、評価部104は、検出部102で検出された種別がテキストを示す場合と同様に、拡張前後の拡張領域に含まれた画像に対する画像認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くしてもよい。ここで、領域に含まれた画像に対する画像認識については、少なくとも、画像の特徴を抽出できればよく、周知の技術を用いればよい。また、画像認識結果の一致度は、例えば、拡張部103でN回目に拡張された領域に含まれた画像に対する画像認識結果と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する画像認識結果において一致する特徴の数、及び/又は、一致する特徴の数の割合に基づいて算出されればよい。
 図6は、画像解析装置1のハードウェア構成の一例を示す図である。
 画像解析装置1は、CPU11、メモリ12、記憶部13、画像取得部14、表示部15を備える。CPU11は、メモリ12に格納されたプログラムなどを実行することにより、図1に示す、取得部101、検出部102、位置補正部108、及び、出力部106という各機能を実現する。メモリ12及び記憶部13は、CPU11に実行される各種プログラム、及び、CPU11で実行される処理に利用される各種データを記憶する。画像取得部14は、例えば、インタフェースであり、図示せぬスキャナやカメラなどの装置に入力された入力画像を取得する。表示部15は、例えば、液晶ディスプレイであり、CPU11から出力された画像を表示する。なお、表示部15は、画像解析装置100に含まれていても良いし、外付けであってもよい。なお、CPU11とメモリ12は、例えば、図7に示す処理回路16といった、ハードウェアで実現されてもよい。
 図8は、画像解析装置1の処理を示すフローチャート図である。
 取得部101は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する(SA1)。次に、検出部102は、取得部101で取得された入力画像を解析して(SA2)、入力画像を構成する構成画像に対応した領域及び種別を検出する(SA3)。ここで、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来なかった場合(SA3:NO)、画像解析装置1は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来た場合(SA3:YES)、拡張部103は、検出部102で検出した領域を所定の範囲(広さ、倍率、幅、高さ)で拡張する(SA4)。評価部104は、拡張部103で拡張した領域に含まれる画像を、種別に応じたルールで評価する(SA5)。拡張の終了条件を満たす場合(SA6:YES)、評価部104で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した画像として出力部106に出力させる(SA7)。一方、拡張の終了条件を満足さない場合(SA6:NO)、拡張部103は、SA4で拡張した領域を、再度、拡張する(SA4)。
 以上のように、画像解析装置1は、入力画像を取得する取得部101と、取得部101で取得された入力画像を解析して、入力画像を構成する構成画像に対応した領域及び種別を検出する検出部102と、検出部102で検出された領域を拡張する拡張部103と、拡張部103で拡張された領域に含まれる画像を、種別に応じたルールで評価する評価部104と、評価部104で評価された評価結果に基づいて、拡張部103で拡張された領域に含まれる画像を、構成画像に対応した画像として出力する出力部106とを備える。より具体的には、拡張部103は、検出部102で検出した検出領域を少なくとも2回以上、且つ、拡張の終了条件を満たすまで拡張する。評価部104は、拡張部103でN回目に拡張した領域に含まれる画像と、拡張部103でN+1回目に拡張した領域に含まれる画像を、当該領域の種別に応じたルールで評価する。出力部106は、評価部104で評価された評価値が最大の拡張領域に含まれる画像を、構成画像に対応した画像として出力する。これにより、入力画像を構成する構成画像に対応した領域と、検出部102で検出した検出領域とに位置ずれが発生した場合であっても、評価部104で種別に応じたルールで評価された評価結果に基づいて、拡張部103で拡張された領域に含まれる画像が、構成画像に対応した画像として出力されるから、構成画像に対応した領域の出力精度の低下を、構成画像の種別に応じて抑制することが可能となる。
実施の形態2.
 実施の形態1において拡張部103は、検出領域の種別に関わらず、検出領域を一律に拡張した。しかしながら、表、テキスト、図といった種別ごとに構成画像のサイズが異なる。そのため、検出領域を一律に拡張した場合には、拡張した範囲が構成画像に対して広すぎたり小さすぎたりすることがあった。そこで、実施の形態2において拡張部103は、検出領域の種別に対応した範囲(広さ、倍率、幅、高さ)で検出領域を拡張する。
 また、実施の形態1において検出部102は、入力画像を解析して、入力画像を構成する構成画像に対応した種別を検出した。しかしながら、例えば、表の中にテキストや図が含まれているような場合など、構成画像に対応した種別を1つに識別することが難しい場合がある。そこで、実施の形態2において検出部102は、入力画像を構成する1つの構成画像に対応した候補種別を複数検出したうえで、構成画像に対応した検出領域の種別として適切な候補種別を選択する。
 図9は、実施形態2に係る画像解析装置1の構成を示すブロック図である。
 画像解析装置1は、取得部101、検出部102、種別選択部107、位置補正部108、及び、出力部106を備える。以下、実施形態1と相違する構成について説明する。
 検出部102は、構成画像に対応した検出領域の種別の候補(以降、候補種別と称する)を検出する。また、検出部102は、検出した候補種別の確からしさを示すスコアを算出する。スコアは、ニューラルネットワークなどの公知の機械学習アルゴリズムを用いて推定した結果や、式(1)を用いて予め決められた特徴ベクトルとのコサイン類似度に基づいて算出すればよい。式(1)において、Vは予め決めてあった項目ごとの特徴ベクトル、Fは解析中に画像から得た特徴ベクトルを示す。
Figure JPOXMLDOC01-appb-I000002
 種別選択部107は、検出部102で検出された候補種別のなかから、構成画像に対応した検出領域の種別として適切な候補種別を選択する。適切な候補種別の選択方法は、例えば、スコアを用いる方法が考えられる。この場合、種別選択部107は、式(2)のように、スコアが閾値TH1以上の候補種別を選択してもよい。また、種別選択部107は、式(3)のように、スコアが最高値を示す候補種別、及び、最高値を示す候補種別のスコアとの差が閾値TH2未満の候補種別を選択してもよい。更に、種別選択部107は、式(2)、式(3)を組合せ、夫々の式を同時に満たす候補種別を選択してもよい。
Figure JPOXMLDOC01-appb-I000003
 図10は、候補種別ごとに算出されたスコアを示す図である。
 図10には、検出領域の候補種別を表とした場合のスコアが0.8、候補種別を図とした場合のスコアが0.7、候補種別をテキストとした場合のスコアが0.2と算出されたことが示されている。ここで、式(2)の閾値TH1を0.6、式(3)の閾値TH2を0.2とした場合、式(2)(3)を満たす候補種別は、表、及び、図の2種となる。従って、種別選択部107は、構成画像に対応した検出領域の候補種別として表、及び、図の2種を選択する。なお、閾値TH1、閾値TH2は、ルールDB105などに予め記憶されているものとする。
 拡張部103は、種別選択部107で選択された候補種別に基づいて、検出部102で検出した領域を拡張する範囲(広さ、倍率、幅、高さ)を決定する。ここで、検出部102で検出した領域を拡張する範囲は、候補種別に対応づけて、ルールDB105などに記憶されているものとする。ここで、候補種別が表の検出領域を拡張する範囲を、候補種別がテキストの検出領域を拡張する範囲よりも広くなるように設定してもよい。また、候補種別が図の検出領域を拡張する範囲を、候補種別が表の検出領域を拡張する範囲よりも広くなるように設定してもよい。更に、候補種別が複数選択された場合、拡張部103は、
複数選択された候補種別のうち最も拡張する範囲が広い候補種別に基づいて、検出領域を拡張する範囲(広さ、倍率、幅、高さ)を決定してもよい。
 図11は、画像解析装置1の処理を示すフローチャート図である。
 取得部101は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する(SA1)。次に、検出部102は、取得部101で取得された入力画像を解析して(SA2)、入力画像を構成する構成画像に対応した領域及び候補種別を検出する(SB3)。ここで、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来なかった場合(SA3:NO)、検出部102は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来た場合(SB3:YES)、種別選択部107は、検出部102で検出された候補種別の中から、構成画像に対応した検出領域の種別として適切な候補種別を選択する(SB41)。拡張部103は、検出部102で検出した領域を、種別選択部107で選択された候補種別に応じた範囲(広さ、倍率、幅、高さ)で拡張する(SB42)。評価部104は、拡張部103で拡張した領域に含まれる画像を、種別に応じたルールで評価する(SA5)。拡張の終了条件を満たす場合(SA6:YES)、評価部104で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した領域として出力部106に出力させる(SA7)。一方、拡張の終了条件を満足さない場合(SA6:NO)、拡張部103は、SA4で拡張した領域を、再度、拡張する(SA4)。
 以上のように、拡張部103は、検出領域の候補種別毎に、当該検出領域を拡張する範囲を変更することで、構成画像に対応した領域の出力精度の低下を抑制することが可能となる。具体的には、拡張した範囲が構成画像に対して広すぎたり小さすぎたりすることを抑制することが可能となる。
 なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 1 画像解析装置、101 取得部、102 検出部、103 拡張部、104 評価部、105 ルールDB、106 出力部、107 種別選択部、11 CPU、12 メモリ、13 記憶部、14 画像取得部、15 表示部、16 処理回路。

Claims (9)

  1.  入力画像を取得する取得部と、
     前記取得部で取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部と、
     前記検出部で検出された領域を拡張する拡張部と、
     前記拡張部で拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価部と、
     前記評価部で評価された評価結果に基づいて、前記拡張部で拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力部と、
     を備えることを特徴とする画像解析装置。
  2.  前記拡張部は、
     前記検出部で検出された前記領域の前記種別に応じた範囲で当該領域を拡張する
     ことを特徴とする請求項1に記載された画像解析装置。
  3.  前記拡張部は、
     前記検出部で検出された前記領域を、前記構成画像の輪郭を含むように拡張する
     ことを特徴とする請求項1又は2に記載された画像解析装置。
  4.  前記拡張部は、
     前記検出部で検出された前記領域を、当該領域の前記種別と異なる種別の領域を含まない範囲で拡張する
     ことを特徴とする請求項1~3の何れか1項に記載された画像解析装置。
  5.  前記評価部は、
     前記検出部で検出された前記種別が表を示す場合、前記拡張部でN回目に拡張された領域に含まれたセルの数と、前記拡張部でN+1回目に拡張された領域に含まれたセルの数との差が小さい程、当該N回目に拡張された領域の評価値を高くする
     ことを特徴とする請求項1~4の何れか1項に記載された画像解析装置。
  6.  前記評価部は、
     前記検出部で検出された前記種別がテキストを示す場合、前記拡張部でN回目に拡張された領域に含まれた画像に対する文字認識結果と、前記拡張部でN+1回目に拡張された領域に含まれた画像に対する文字認識結果の一致度が高い程、 当該N回目に拡張された領域の評価値を高くする
     ことを特徴とする請求項1~5の何れか1項に記載された画像解析装置。
  7.  前記評価部は、
     前記検出部で検出された前記種別が図を示す場合、前記拡張部で拡張された領域に含まれる空白の領域が広いほど、当該領域の評価値を高くする
     ことを特徴とする請求項1~6の何れか1項に記載された画像解析装置。
  8.  入力画像を取得する取得ステップと、
     前記取得ステップで取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
     前記検出ステップで検出された領域を拡張する拡張ステップと、
     前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
     前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
     をコンピュータに実行させることを特徴とする画像解析プログラム。
  9.  入力画像を取得する取得ステップと、
     前記取得ステップで取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
     前記検出ステップで検出された領域を拡張する拡張ステップと、
     前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
     前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
     を備えることを特徴とする画像解析方法。
PCT/JP2021/017798 2021-05-11 2021-05-11 画像解析装置、画像解析方法及び、画像解析プログラム WO2022239096A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2022553193A JP7166509B1 (ja) 2021-05-11 2021-05-11 画像解析装置、画像解析方法及び、画像解析プログラム
PCT/JP2021/017798 WO2022239096A1 (ja) 2021-05-11 2021-05-11 画像解析装置、画像解析方法及び、画像解析プログラム
CN202180097770.0A CN117280382A (zh) 2021-05-11 2021-05-11 图像分析装置、图像分析方法和图像分析程序
EP21941830.8A EP4318387A1 (en) 2021-05-11 2021-05-11 Image analysis device, image analysis method, and image analysis program
US18/385,747 US20240062329A1 (en) 2021-05-11 2023-10-31 Image analysis device, image analysis method, and storage medium storing image analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/017798 WO2022239096A1 (ja) 2021-05-11 2021-05-11 画像解析装置、画像解析方法及び、画像解析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/385,747 Continuation US20240062329A1 (en) 2021-05-11 2023-10-31 Image analysis device, image analysis method, and storage medium storing image analysis program

Publications (1)

Publication Number Publication Date
WO2022239096A1 true WO2022239096A1 (ja) 2022-11-17

Family

ID=83931105

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/017798 WO2022239096A1 (ja) 2021-05-11 2021-05-11 画像解析装置、画像解析方法及び、画像解析プログラム

Country Status (5)

Country Link
US (1) US20240062329A1 (ja)
EP (1) EP4318387A1 (ja)
JP (1) JP7166509B1 (ja)
CN (1) CN117280382A (ja)
WO (1) WO2022239096A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146395A (ja) * 2008-12-19 2010-07-01 Olympus Corp 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器
JP2018005505A (ja) * 2016-06-30 2018-01-11 株式会社東芝 画像認識パラメータ設定装置、画像認識パラメータ設定方法、および画像認識パラメータ設定プログラム
JP2018041273A (ja) * 2016-09-07 2018-03-15 キヤノン株式会社 画像認識装置、画像認識装置の制御方法およびプログラム
JP2019040260A (ja) 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146395A (ja) * 2008-12-19 2010-07-01 Olympus Corp 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器
JP2018005505A (ja) * 2016-06-30 2018-01-11 株式会社東芝 画像認識パラメータ設定装置、画像認識パラメータ設定方法、および画像認識パラメータ設定プログラム
JP2018041273A (ja) * 2016-09-07 2018-03-15 キヤノン株式会社 画像認識装置、画像認識装置の制御方法およびプログラム
JP2019040260A (ja) 2017-08-22 2019-03-14 大日本印刷株式会社 情報処理装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKASHI HIRANOYASUHIRO OKADAFUMIO YODA: "Line Extraction Method from Document Images", GENERAL CONFERENCE, March 1998 (1998-03-01)
Y. ITANI: "Text Line Extraction Method Using Domain-based Active Contour Model", ICDAR 2013, August 2013 (2013-08-01)

Also Published As

Publication number Publication date
CN117280382A (zh) 2023-12-22
JP7166509B1 (ja) 2022-11-07
JPWO2022239096A1 (ja) 2022-11-17
EP4318387A1 (en) 2024-02-07
US20240062329A1 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
JP4372051B2 (ja) 手形状認識装置及びその方法
US10679358B2 (en) Learning image automatic sorting device, learning image automatic sorting method, and learning image automatic sorting program
JP5517504B2 (ja) 画像処理装置、画像処理方法、およびプログラム
US8811725B2 (en) Learning device, learning method, identification device, identification method, and program
WO2020145180A1 (ja) 物体検出認識装置、方法、及びプログラム
US9020214B2 (en) Striped pattern image examination support device, striped pattern image examination support method and program
JP4745207B2 (ja) 顔特徴点検出装置及びその方法
US20070127817A1 (en) Change region detection device and change region detecting method
JP4724638B2 (ja) オブジェクト検出方法
JP5547226B2 (ja) 画像処理装置、及び画像処理方法
JP6177541B2 (ja) 文字認識装置、文字認識方法及びプログラム
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
JP4903192B2 (ja) 顔検出装置
JP7166509B1 (ja) 画像解析装置、画像解析方法及び、画像解析プログラム
US9710922B2 (en) Image processing apparatus, method and medium storing a program for detecting a motion vector
JP5748472B2 (ja) オブジェクト判別装置、方法、及びプログラム
US20090245658A1 (en) Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム
WO2019159415A1 (ja) 読取システム
JP6676256B2 (ja) 画像処理装置及び画像処理方法
Naganjaneyulu et al. A multi clue heuristic based algorithm for table detection
US11900643B2 (en) Object detection method and object detection system
US11640535B2 (en) Probability acquisition apparatus and probability acquisition method
JP6684947B2 (ja) 読取システム、読取装置、プログラム、及び記憶媒体

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022553193

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21941830

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021941830

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021941830

Country of ref document: EP

Effective date: 20231023

NENP Non-entry into the national phase

Ref country code: DE