WO2022239096A1 - 画像解析装置、画像解析方法及び、画像解析プログラム - Google Patents
画像解析装置、画像解析方法及び、画像解析プログラム Download PDFInfo
- Publication number
- WO2022239096A1 WO2022239096A1 PCT/JP2021/017798 JP2021017798W WO2022239096A1 WO 2022239096 A1 WO2022239096 A1 WO 2022239096A1 JP 2021017798 W JP2021017798 W JP 2021017798W WO 2022239096 A1 WO2022239096 A1 WO 2022239096A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- unit
- area
- expanded
- expansion
- Prior art date
Links
- 238000010191 image analysis Methods 0.000 title claims abstract description 40
- 238000003703 image analysis method Methods 0.000 title description 2
- 238000001514 detection method Methods 0.000 claims abstract description 107
- 238000011156 evaluation Methods 0.000 claims abstract description 57
- 239000000470 constituent Substances 0.000 claims description 50
- 238000010586 diagram Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 101000994455 Homo sapiens Keratin, type I cytoskeletal 23 Proteins 0.000 description 1
- 102100032705 Keratin, type I cytoskeletal 23 Human genes 0.000 description 1
- 101100397619 Rattus norvegicus Krt20 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
Abstract
Description
画像解析装置1は、取得した入力画像を解析して、入力画像を構成する構成画像に対応した領域を出力する装置である。入力画像は、例えば、図、表、又は、テキストといった種別で示される構成画像を含む。画像解析装置1は、取得部101、検出部102、位置補正部108、及び、出力部106を備える。
構成画像KG1に対応した種別として、検出部102が「表」を検出したものとする。拡張領域KRH21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域内に1つのセルを含む。また、拡張領域KRH22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域内に9つのセルを含む。さらに、拡張領域KRH23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域内に9つのセルを含む。ここで、評価部104は、拡張前後の拡張領域に含まれたセルの数の差が小さい程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別が表を示す場合、拡張部103でN回目に拡張された領域に含まれたセルの数(9)と、拡張部103でN+1回目に拡張された領域に含まれたセルの数(9)との差(0)が、拡張部103でN-1回目に拡張された領域に含まれたセルの数(1)と、拡張部103でN回目に拡張された領域に含まれたセルの数(9)との差(8)よりも小さいため、N回目に拡張された領域の評価値を高く評価する。なお、セルの抽出については、例えば、参考文献2に記載の方法が考えられる。
構成画像KG2に対応した種別として、検出部102が「テキスト」を検出したものとする。拡張領域KRT21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「像解析装」という文字列を含む。また、拡張領域KRT22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。さらに、拡張領域KRT23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域に含まれた画像に対する文字認識結果として「画像解析装置」という文字列を含む。ここで、評価部104は、拡張前後の拡張領域に含まれた画像に対する文字認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別がテキストを示す場合、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度が、拡張部103でN-1回目に拡張された領域に含まれた画像に対する文字認識結果「像解析装」と、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果「画像解析装置」の一致度よりも高いため、 N回目に拡張された領域の評価値を高く評価する。ここで、文字認識結果の一致度は、例えば、拡張部103でN回目に拡張された領域に含まれた画像に対する文字認識結果と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する文字認識結果において一致する文字数、及び/又は、一致する文字の割合に基づいて算出されればよい。なお、領域に含まれた画像に対する文字認識については、周知の技術を用いればよい。
構成画像KG3に対応した種別として、検出部102が「図」を検出したものとする。拡張領域KRZ21は、検出部102により検出された検出領域をN-1回目に拡張した領域であり、領域に含まれた図の一部を含む。また、拡張領域KRZ22は、検出部102により検出された検出領域をN回目に拡張した領域であり、領域に含まれた図及び空白の領域KR1を含む。さらに、拡張領域KRZ23は、検出部102により検出された検出領域をN+1回目に拡張した領域であり、領域に含まれた図及び空白の領域KR2を含む。ここで、評価部104は、拡張領域に含まれた画像に含まれる空白の領域が広い程、評価値を高くする。より具体的には、評価部104は、検出部102で検出された種別が図を示す場合、拡張部103でN+1回目に拡張された領域に含まれた空白の領域KR2が、拡張部103でN回目に拡張された領域に含まれた空白の領域KR1よりも広いため、N+1回目に拡張された領域の評価値を高く評価する。即ち、評価部104は、拡張領域KRZ21、拡張領域KRZ22よりも、拡張領域KRZ23の評価値を高く評価する。また、評価部104は、検出部102で検出された種別がテキストを示す場合と同様に、拡張前後の拡張領域に含まれた画像に対する画像認識結果の一致度が高い程、拡張前の拡張領域の評価値を高くしてもよい。ここで、領域に含まれた画像に対する画像認識については、少なくとも、画像の特徴を抽出できればよく、周知の技術を用いればよい。また、画像認識結果の一致度は、例えば、拡張部103でN回目に拡張された領域に含まれた画像に対する画像認識結果と、拡張部103でN+1回目に拡張された領域に含まれた画像に対する画像認識結果において一致する特徴の数、及び/又は、一致する特徴の数の割合に基づいて算出されればよい。
画像解析装置1は、CPU11、メモリ12、記憶部13、画像取得部14、表示部15を備える。CPU11は、メモリ12に格納されたプログラムなどを実行することにより、図1に示す、取得部101、検出部102、位置補正部108、及び、出力部106という各機能を実現する。メモリ12及び記憶部13は、CPU11に実行される各種プログラム、及び、CPU11で実行される処理に利用される各種データを記憶する。画像取得部14は、例えば、インタフェースであり、図示せぬスキャナやカメラなどの装置に入力された入力画像を取得する。表示部15は、例えば、液晶ディスプレイであり、CPU11から出力された画像を表示する。なお、表示部15は、画像解析装置100に含まれていても良いし、外付けであってもよい。なお、CPU11とメモリ12は、例えば、図7に示す処理回路16といった、ハードウェアで実現されてもよい。
取得部101は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する(SA1)。次に、検出部102は、取得部101で取得された入力画像を解析して(SA2)、入力画像を構成する構成画像に対応した領域及び種別を検出する(SA3)。ここで、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来なかった場合(SA3:NO)、画像解析装置1は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び種別を検出することが出来た場合(SA3:YES)、拡張部103は、検出部102で検出した領域を所定の範囲(広さ、倍率、幅、高さ)で拡張する(SA4)。評価部104は、拡張部103で拡張した領域に含まれる画像を、種別に応じたルールで評価する(SA5)。拡張の終了条件を満たす場合(SA6:YES)、評価部104で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した画像として出力部106に出力させる(SA7)。一方、拡張の終了条件を満足さない場合(SA6:NO)、拡張部103は、SA4で拡張した領域を、再度、拡張する(SA4)。
実施の形態1において拡張部103は、検出領域の種別に関わらず、検出領域を一律に拡張した。しかしながら、表、テキスト、図といった種別ごとに構成画像のサイズが異なる。そのため、検出領域を一律に拡張した場合には、拡張した範囲が構成画像に対して広すぎたり小さすぎたりすることがあった。そこで、実施の形態2において拡張部103は、検出領域の種別に対応した範囲(広さ、倍率、幅、高さ)で検出領域を拡張する。
画像解析装置1は、取得部101、検出部102、種別選択部107、位置補正部108、及び、出力部106を備える。以下、実施形態1と相違する構成について説明する。
図10には、検出領域の候補種別を表とした場合のスコアが0.8、候補種別を図とした場合のスコアが0.7、候補種別をテキストとした場合のスコアが0.2と算出されたことが示されている。ここで、式(2)の閾値TH1を0.6、式(3)の閾値TH2を0.2とした場合、式(2)(3)を満たす候補種別は、表、及び、図の2種となる。従って、種別選択部107は、構成画像に対応した検出領域の候補種別として表、及び、図の2種を選択する。なお、閾値TH1、閾値TH2は、ルールDB105などに予め記憶されているものとする。
複数選択された候補種別のうち最も拡張する範囲が広い候補種別に基づいて、検出領域を拡張する範囲(広さ、倍率、幅、高さ)を決定してもよい。
取得部101は、例えば、図示せぬスキャナやカメラなどの装置で読み込んだ入力画像を取得する(SA1)。次に、検出部102は、取得部101で取得された入力画像を解析して(SA2)、入力画像を構成する構成画像に対応した領域及び候補種別を検出する(SB3)。ここで、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来なかった場合(SA3:NO)、検出部102は、画像解析処理を終了する。一方、入力画像を構成する構成画像に対応した領域及び候補種別を検出することが出来た場合(SB3:YES)、種別選択部107は、検出部102で検出された候補種別の中から、構成画像に対応した検出領域の種別として適切な候補種別を選択する(SB41)。拡張部103は、検出部102で検出した領域を、種別選択部107で選択された候補種別に応じた範囲(広さ、倍率、幅、高さ)で拡張する(SB42)。評価部104は、拡張部103で拡張した領域に含まれる画像を、種別に応じたルールで評価する(SA5)。拡張の終了条件を満たす場合(SA6:YES)、評価部104で評価された評価値が最も高い拡張領域に含まれる画像を、構成画像に対応した領域として出力部106に出力させる(SA7)。一方、拡張の終了条件を満足さない場合(SA6:NO)、拡張部103は、SA4で拡張した領域を、再度、拡張する(SA4)。
Claims (9)
- 入力画像を取得する取得部と、
前記取得部で取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出部と、
前記検出部で検出された領域を拡張する拡張部と、
前記拡張部で拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価部と、
前記評価部で評価された評価結果に基づいて、前記拡張部で拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力部と、
を備えることを特徴とする画像解析装置。 - 前記拡張部は、
前記検出部で検出された前記領域の前記種別に応じた範囲で当該領域を拡張する
ことを特徴とする請求項1に記載された画像解析装置。 - 前記拡張部は、
前記検出部で検出された前記領域を、前記構成画像の輪郭を含むように拡張する
ことを特徴とする請求項1又は2に記載された画像解析装置。 - 前記拡張部は、
前記検出部で検出された前記領域を、当該領域の前記種別と異なる種別の領域を含まない範囲で拡張する
ことを特徴とする請求項1~3の何れか1項に記載された画像解析装置。 - 前記評価部は、
前記検出部で検出された前記種別が表を示す場合、前記拡張部でN回目に拡張された領域に含まれたセルの数と、前記拡張部でN+1回目に拡張された領域に含まれたセルの数との差が小さい程、当該N回目に拡張された領域の評価値を高くする
ことを特徴とする請求項1~4の何れか1項に記載された画像解析装置。 - 前記評価部は、
前記検出部で検出された前記種別がテキストを示す場合、前記拡張部でN回目に拡張された領域に含まれた画像に対する文字認識結果と、前記拡張部でN+1回目に拡張された領域に含まれた画像に対する文字認識結果の一致度が高い程、 当該N回目に拡張された領域の評価値を高くする
ことを特徴とする請求項1~5の何れか1項に記載された画像解析装置。 - 前記評価部は、
前記検出部で検出された前記種別が図を示す場合、前記拡張部で拡張された領域に含まれる空白の領域が広いほど、当該領域の評価値を高くする
ことを特徴とする請求項1~6の何れか1項に記載された画像解析装置。 - 入力画像を取得する取得ステップと、
前記取得ステップで取得された前記入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
前記検出ステップで検出された領域を拡張する拡張ステップと、
前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
をコンピュータに実行させることを特徴とする画像解析プログラム。 - 入力画像を取得する取得ステップと、
前記取得ステップで取得された入力画像を解析して、当該入力画像を構成する構成画像に対応した領域及び種別を検出する検出ステップと、
前記検出ステップで検出された領域を拡張する拡張ステップと、
前記拡張ステップで拡張された領域に含まれる画像を、前記種別に応じたルールで評価する評価ステップと、
前記評価ステップで評価された評価結果に基づいて、前記拡張ステップで拡張された領域に含まれる画像を、前記構成画像に対応した画像として出力する出力ステップと
を備えることを特徴とする画像解析方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022553193A JP7166509B1 (ja) | 2021-05-11 | 2021-05-11 | 画像解析装置、画像解析方法及び、画像解析プログラム |
PCT/JP2021/017798 WO2022239096A1 (ja) | 2021-05-11 | 2021-05-11 | 画像解析装置、画像解析方法及び、画像解析プログラム |
CN202180097770.0A CN117280382A (zh) | 2021-05-11 | 2021-05-11 | 图像分析装置、图像分析方法和图像分析程序 |
EP21941830.8A EP4318387A1 (en) | 2021-05-11 | 2021-05-11 | Image analysis device, image analysis method, and image analysis program |
US18/385,747 US20240062329A1 (en) | 2021-05-11 | 2023-10-31 | Image analysis device, image analysis method, and storage medium storing image analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/017798 WO2022239096A1 (ja) | 2021-05-11 | 2021-05-11 | 画像解析装置、画像解析方法及び、画像解析プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US18/385,747 Continuation US20240062329A1 (en) | 2021-05-11 | 2023-10-31 | Image analysis device, image analysis method, and storage medium storing image analysis program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022239096A1 true WO2022239096A1 (ja) | 2022-11-17 |
Family
ID=83931105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/017798 WO2022239096A1 (ja) | 2021-05-11 | 2021-05-11 | 画像解析装置、画像解析方法及び、画像解析プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240062329A1 (ja) |
EP (1) | EP4318387A1 (ja) |
JP (1) | JP7166509B1 (ja) |
CN (1) | CN117280382A (ja) |
WO (1) | WO2022239096A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146395A (ja) * | 2008-12-19 | 2010-07-01 | Olympus Corp | 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器 |
JP2018005505A (ja) * | 2016-06-30 | 2018-01-11 | 株式会社東芝 | 画像認識パラメータ設定装置、画像認識パラメータ設定方法、および画像認識パラメータ設定プログラム |
JP2018041273A (ja) * | 2016-09-07 | 2018-03-15 | キヤノン株式会社 | 画像認識装置、画像認識装置の制御方法およびプログラム |
JP2019040260A (ja) | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
-
2021
- 2021-05-11 JP JP2022553193A patent/JP7166509B1/ja active Active
- 2021-05-11 WO PCT/JP2021/017798 patent/WO2022239096A1/ja active Application Filing
- 2021-05-11 EP EP21941830.8A patent/EP4318387A1/en active Pending
- 2021-05-11 CN CN202180097770.0A patent/CN117280382A/zh active Pending
-
2023
- 2023-10-31 US US18/385,747 patent/US20240062329A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146395A (ja) * | 2008-12-19 | 2010-07-01 | Olympus Corp | 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器 |
JP2018005505A (ja) * | 2016-06-30 | 2018-01-11 | 株式会社東芝 | 画像認識パラメータ設定装置、画像認識パラメータ設定方法、および画像認識パラメータ設定プログラム |
JP2018041273A (ja) * | 2016-09-07 | 2018-03-15 | キヤノン株式会社 | 画像認識装置、画像認識装置の制御方法およびプログラム |
JP2019040260A (ja) | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
TAKASHI HIRANOYASUHIRO OKADAFUMIO YODA: "Line Extraction Method from Document Images", GENERAL CONFERENCE, March 1998 (1998-03-01) |
Y. ITANI: "Text Line Extraction Method Using Domain-based Active Contour Model", ICDAR 2013, August 2013 (2013-08-01) |
Also Published As
Publication number | Publication date |
---|---|
CN117280382A (zh) | 2023-12-22 |
JP7166509B1 (ja) | 2022-11-07 |
JPWO2022239096A1 (ja) | 2022-11-17 |
EP4318387A1 (en) | 2024-02-07 |
US20240062329A1 (en) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6088792B2 (ja) | 画像検出装置及び制御プログラム並びに画像検出方法 | |
JP4372051B2 (ja) | 手形状認識装置及びその方法 | |
US10679358B2 (en) | Learning image automatic sorting device, learning image automatic sorting method, and learning image automatic sorting program | |
JP5517504B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
US8811725B2 (en) | Learning device, learning method, identification device, identification method, and program | |
WO2020145180A1 (ja) | 物体検出認識装置、方法、及びプログラム | |
US9020214B2 (en) | Striped pattern image examination support device, striped pattern image examination support method and program | |
JP4745207B2 (ja) | 顔特徴点検出装置及びその方法 | |
US20070127817A1 (en) | Change region detection device and change region detecting method | |
JP4724638B2 (ja) | オブジェクト検出方法 | |
JP5547226B2 (ja) | 画像処理装置、及び画像処理方法 | |
JP6177541B2 (ja) | 文字認識装置、文字認識方法及びプログラム | |
JP6754120B2 (ja) | プログラム、情報記憶媒体及び文字分割装置 | |
JP4903192B2 (ja) | 顔検出装置 | |
JP7166509B1 (ja) | 画像解析装置、画像解析方法及び、画像解析プログラム | |
US9710922B2 (en) | Image processing apparatus, method and medium storing a program for detecting a motion vector | |
JP5748472B2 (ja) | オブジェクト判別装置、方法、及びプログラム | |
US20090245658A1 (en) | Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method | |
JP6609181B2 (ja) | 文字属性推定装置、及び文字属性推定プログラム | |
WO2019159415A1 (ja) | 読取システム | |
JP6676256B2 (ja) | 画像処理装置及び画像処理方法 | |
Naganjaneyulu et al. | A multi clue heuristic based algorithm for table detection | |
US11900643B2 (en) | Object detection method and object detection system | |
US11640535B2 (en) | Probability acquisition apparatus and probability acquisition method | |
JP6684947B2 (ja) | 読取システム、読取装置、プログラム、及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ENP | Entry into the national phase |
Ref document number: 2022553193 Country of ref document: JP Kind code of ref document: A |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21941830 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2021941830 Country of ref document: EP |
|
ENP | Entry into the national phase |
Ref document number: 2021941830 Country of ref document: EP Effective date: 20231023 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |